阿里云|阿里云12年数据智能工程,突破世界级超大规模中文AI模型

阿里云|阿里云12年数据智能工程,突破世界级超大规模中文AI模型
文章图片

当今世界,人工智能无疑是最具想象力和吸引力的科技之一。从电影《人工智能》到《终结者》,从图灵测试到无人驾驶汽车,人们在丰富想象和具体实践中,不断拉近最终实现通用人工智能的距离。最新的消息是,通往通用人工智能的挑战之一,是超大规模参数的AI模型训练和推理。模型规模在一定程度上代表知识结构的复杂性,也就是说,参数越多,对知识的理解越深刻,就越能打开通往多种综合认知能力的通用人工智能。谷歌、微软等人工智能巨头纷纷挑战千亿及以上参数的超大规模AI模型。
在挑战世界级计算工程方面,阿里巴巴从来不会落后于国际顶级科技公司。日前,阿里巴巴与清华大学联合发布业界最大的中文多模态预训练AI模型M6,该模型参数规模超千亿,具备超越传统AI的文本、图像理解和生成能力。M6的全称为“Multi-Modality to Multi-Modality Multitask Mega-transformer”,翻译过来的大意是“从多种模态到多模态、多任务、超级Transformer算法”。Transformer是谷歌于2017年提出的一种AI模型,目前大有一统江湖趋势,绝大多数的预训练模型都在采用此架构。M6将Transformer推进到了千亿参数超大规模多模态,并预训练了目前最大规模中文文本和图片数据集,这也是多模态预训练领域史上最大的模型。
M6的突破,源自达摩院智能计算实验室底层技术创新以及超大规模的阿里云12年来在大数据和AI工程化的努力。据达摩院智能计算实验室资深算法专家杨红霞介绍,“基于稀疏激活(MoE)架构的千亿参数模型M6是目前业界最大的中文预训练模型。M6基于阿里云PAI团队自研的Whale分布式框架,将参数规模扩展到千亿的同时,利用大规模数据并行和模型并行,在256张A100卡上,1-2天即可完成上亿数据的预训练。同时M6是一种多模态模型,可以同时处理网页、图像等多种数据,正在扩展到音频、视频等。为了让预训练模型更加普及,我们将更加聚焦在GreenAI上,即在有限GPU资源情况下,训练超大规模模型。未来除了让M6参数规模进一步飞跃,我们还将让M6在效率、下游任务等方面得到突破提升。”
阿里云|阿里云12年数据智能工程,突破世界级超大规模中文AI模型
文章图片

(阿里巴巴副总裁、阿里云智能计算平台负责人贾扬清)
谷歌、微软、阿里、华为等公司都在挑战超大规模AI模型,这就像一场AI领域的“世界杯”,阿里作为挑战中文超大规模AI模型的科技公司之一,阿里巴巴副总裁、阿里云智能计算平台负责人贾扬清表示,阿里能完成M6挑战,简单一句话就是:我们能!
M6:超级中文AI工程 为什么说M6是超级中文AI工程呢?
首先,目前的AI模型主要是针对单一任务,比如图片识别、文本识别、语音识别等,这是单一“模态”。而M6为多任务处理,完成文本图片联合学习这一跨模态的计算任务。也就是说,一个模型可以处理文本识别和理解、图片识别和理解等多种任务,更能实现跨文本和图片的联动识别、理解与生成,这个过程在很大程度上将AI模型又往通用AI方向推进了一步。
其次,M6提供了1.9TB图片和292GB文本,这是目前已知的最大中文图片和文本数据集。该中文数据集收集了百科全书、在线问答、论坛讨论、产品说明等海量中文网页,并通过复杂的数据清洗过程将之转换为高质量数据资产。M6提供了100亿参数与1000亿参数两个版本,均为超大规模参数。
第三,M6不仅是一个前沿的技术探索项目,更通过阿里云的工程化方式进行落地。M6这样一个超大规模参数AI模型,无法在除了公有云以外的其它计算设备上以更经济的方式进行训练。例如,根据公开的市场数据,NVIDIA最新机器DGX2约为20万美元一台,一台机器里有8个GPU,用64台的机器搭建一个专门用来做大规模训练的集群,成本估算约一亿人民币。而这仅为实验之用搭建的计算集群,搭建之前并不知道模型训练能否成功、成功之后是否有更大的商用价值。
但利用阿里云超大规模云计算基础设施就不同了,它可以将M6的计算任务分割成“一小块、一小块”,并利用阿里云已经在用的生产机器低谷时间运行,并不需要新购置机器,只需要利用现有云计算基础设施的“潮汐效应”就可提炼出所需的计算力。
更为重要的是,阿里云将M6模型以AI工程化的方式实现,在具体设计计算的过程中采用了多种工程深度优化,比如计算效率、通信效率、显存消耗等多个方面,从而帮助千亿多模态预训练模型快速迭代训练。
贾扬清表示,就像当年美国的阿波罗登月飞船,其目的不仅是登月,更是一个超大规模科技实验和科技工程。在研发阿波罗登月飞船的过程中,产生了大量基础科研成果和技术工程成就,最终催生了美国现代电子科技产业,可以说改变了人类的科技历史进程。而M6的研发,也将催生大量的基础科研成果和技术工程成就。
阿里云:12年数据智能超大工程 在M6的背后,是阿里云12年来数据智能超大工程。以“大数据+AI一体化”为核心,阿里云平台承载了企业核心数据业务的构建和创新。
其中,阿里云飞天大数据平台是目前国内唯一自主研发的计算引擎,单一引擎可将10万台服务器合为一体,也是全球集群规模最大的计算平台;飞天AI平台则是国内首个云端商业化机器学习平台,开发者在飞天AI平台上,可按需调用平台的能力,包括软硬件一体的编程环境、云边端一体的高性能训练和推理引擎以及多模态算法开发与部署。
飞天大数据平台+飞天AI平台,就是M6背后的超大工程。
阿里云|阿里云12年数据智能工程,突破世界级超大规模中文AI模型
文章图片

阿里巴巴是典型的以数据驱动为核心的公司。最早的时候,阿里拥有亚洲最大的Oracle集群,从2002年到2006年阿里慢慢诞生不同的数字化技术,淘宝、天猫、B2B等一系列淘系技术开始出现。2008年,阿里遇到两个问题,一是数据越来越多,当时的Oracle技术无法承接超大规模数据,二是阿里不同BU和不同部门数据无法打通,无法形成数据的规模化效应。
这就是阿里云的起源。之后阿里云相继开发了大数据计算平台MaxCompute、大数据开发治理平台DataWorks、机器学习平台PAI等大数据和AI关键技术平台,还提出了跨整个集团的数据中台。
值得一提的是,2019年,贾扬清加盟阿里巴巴,负责阿里云大数据和AI平台的研发工作。同年,以MaxCompute+DataWorks为核心的飞天大数据平台和以机器学习平台 PAI为核心的飞天AI平台正式对外发布。
经过12年来发展,阿里云飞天大数据平台和飞天AI平台已经积累了多个核心关键产品:SaaS 模式云数据仓库MaxCompute 、一站式大数据开发治理平台DataWorks、云原生实时数仓MaxCompute 交互式分析(Hologres)、实时计算 Flink 、机器学习平台PAI、云原生数据湖平台EMR等等。
同时,阿里云数据智能进入全面成熟期,“大数据+AI一体化”的数据智能不断升级,飞天大数据平台和飞天AI平台也演变为数据智能的核心承载。在发展过程中,飞天大数据平台成为由“湖仓一体+离线实时一体化云数据仓库+数据综合开发治理平台”组成的最佳实践。飞天AI平台基于机器学习PAI,联合了从底层芯片到中间分布式系统到上层规模化算法和数据,实现了大规模AI端到端的能力,构建了一个AI作战集团军。
正是这些进化了12年来的数智平台和技术,支撑了M6在经济成本可控范围内,成为现实。
下一个大趋势:超大规模AI工程化 Gartner 2021十大重要科技趋势中提出的一大趋势就是AI工程化。Gartner研究表明只有53%的项目能够从人工智能(AI)原型转化为生产。由于缺乏创建和管理生产级AI管道的工具,人工智能项目的扩展难度很大。为了将AI转化为生产力,就必须转向AI工程化。
Gartner提出,人工智能工程化立足于三大核心支柱:数据运维、模型运维和开发运维。贾扬清从阿里云自己的超大规模数据智能实践以及M6的研发和工程化,总结了阿里云自己的AI工程化之道,这就是“大数据+AI一体化”的超大规模AI工程化:数据&算力的云原生化、调度&编程范式的规模化、开发&服务的标准化普惠化。
【阿里云|阿里云12年数据智能工程,突破世界级超大规模中文AI模型】贾扬清介绍,阿里支持将大数据与AI平台放在一个团队里进行技术研发,其背后正如阿里自身的超大规模数据智能实践。
阿里云|阿里云12年数据智能工程,突破世界级超大规模中文AI模型
文章图片

首先,数据和算力是人工智能的两大驱动力。无论是计算机视觉、自然语言处理,还是其它AI系统,都与数据密不可分。数据规模超大,AI模型越精准、高效但也越复杂。因此,无论是数据处理还是计算能力,都需要有一个更大规模、大体量的“底座”,这就是云原生计算“底座”。正是阿里云的数据与计算云原生“底座”,才支撑了M6在1-2天内就完成上亿数据的训练且不用新增机器,因此数据和算力的云原生化是超大规模AI工程化的第一个体现。
阿里云|阿里云12年数据智能工程,突破世界级超大规模中文AI模型
文章图片

其次,大规模、大体量“底座”的背后,意味着面临两个成本问题:资源成本和人力成本。因为GPU非常昂贵,管理大规模的集群和大规模系统,就需要用到典型的“削峰填谷”方法,考验能够把AI计算任务掰开了揉碎后,“放置”在资源空闲的地方,以降低总体计算资源成本。同时在这背后还是一个巨大的模型训练和计算和任务,需要高水平AI工程师完成大量的工作,而编程范式的规范化就能降低AI工程师们的工作量。因此,更好地做到资源调度和资源调配,以及让AI工程师更容易撰写分布式编程范式,是超大规模AI工程化的第二个体现。
阿里云|阿里云12年数据智能工程,突破世界级超大规模中文AI模型
文章图片

第三,为了让AI模型能够更加紧密地应用在实际场景中,需要进行开发和服务的标准化和普惠化,让更多的人可以轻松完成AI建模、训练和部署等。阿里云一直在思考,如何让更多的人,更容易上手高大上的AI技术。机器学习PAI平台构建了一个体系:DLC平台(Deep Learning Container)提供云原生一站式的深度学习训练,DSW平台(Data Science Workshop)提供交互式建模, EAS 平台(Elastic Algorithm Service )提供更简易、省心的模型推理服务。贾扬清强调,阿里云AI业务的背后有一个AI工程团队在解决稳定性、弹性、免运维、用户体验等标准能力,这是超大规模AI工程化的第三个体现。
针对后M6时代,贾扬清表示,“科研还在继续往前走,我们在寻找新的高精尖方向。但同时怎样把现有结果大规模应用到不同场景中去,是一个非常大的趋势。”
的确如此,M6这样的超级中文AI工程最终落地到阿里云并服务于广泛的用户,这才是M6的最终意义所在。阿里云计算平台研究员林伟介绍,M6已经用于业务场景里,在犀牛新制造的服装设计上,M6可以根据潮流趋势文本的描述,自动产出细节清晰的服装图,并符合生产标准。同时,在阿里云官网的大数据和AI体验馆,M6已经开始支持用户调用API接口进行体验。
与此同时,对于阿里云来说,“大数据+AI一体化”是大数据发展的必然方向,而人工智能是大数据业务发展的终极出口。
事实上,在阿里云的超大规模数据智能平台上,越来越多的企业和机构从数字化转型走向了智能化:微博将万亿样本、百亿特征全量训练提升十倍,模型更新是10分钟量级,业务推荐效果提升10%;VIPKID用实时计算技术解决用户问题反馈实时性需求,实现自动化处理60%问题,减少40%监课人员,投诉率降低66%;天弘基金基于阿里云MaxCompute将原本需要清算8小时的用户交易数据缩短至1个半小时完成清算,极大地提升了业务效率;中建三局一公司基于阿里云的DataWorks和MaxCompute构建了数智建造一站式服务平台,覆盖了建造领域生产场景全链路、核心管控全流程和智能决策全视角,使建造类企业实时感知、动态控制和智能化决策成为现实……
全文总结:经过12年来发展,阿里云已经从最初的云计算,发展到云计算、大数据与AI等的融合一体化计算平台,已经为全球和全社会普及了超大规模数据、计算与智能的能力,为数字经济创造了无限可能。随着M6走向万亿参数以及超大规模AI工程化,阿里云智能已经为疫情之后的下一个12年做好了充分准备。(文/宁川)

    推荐阅读