企业级服务|阿里云启动全球最大智算中心,云服务商找到了新的算力出口

2022年是云计算行业一个明显的波谷,但增长还要继续,如何判断新的算力增长方向,也就成为摆在各大云服务商眼前最重要的事 。
对于今年才加入阿里云,并担任全球销售总裁的蔡英华来说,智算中心屡次出现在他的计划清单上 。
企业级服务|阿里云启动全球最大智算中心,云服务商找到了新的算力出口
文章图片

8月30日,阿里云宣布正式推出全栈智能计算解决方案“飞天智算平台”,并启动张北和乌兰察布两座超大规模智算中心 。其中张北超级智算中心总建设规模为12 EFLOPS(每秒1200亿亿次浮点运算)AI算力,将超过谷歌的9 EFLOPS和特斯拉的1.8 EFLOPS,成为全球最大的智算中心 。
智算:从门庭冷落到扛起大旗云服务商并不是现在才开始重视AI算力,早在数年前,云服务商们就希望AI应用的爆发,能够带来大量的算力消耗,显然,云服务商的梦想起初并没有成真 。
一位云计算行业高管表示,“过去AI和云的结合并不尽如人意,一方面,纯做AI的‘独角兽’都活得一般,因为他们没有规模化的用户群,另一方面,大型公有云厂商做的AI也门庭冷落,AI本身规模化价值比较分散 。”
在钛媒体App看来,至少两个因素改变了市场风向,一是AI产业自身的发展,二是云计算厂商技术的进步 。
蔡英华表示,阿里云发现了两个比较明显的趋势 。其一,当下中国已经有58%的企业在使用人工智能,全球平均水平则是35%,数字化转型将带来大量的数据,预计到2025年中国的数据量将达到48.6ZB,每三个半月AI所需要的算力会翻一倍,刺激和驱动着我国算力基础设施的升级 。
其二,除了算力供给总量提升,算力结构也在发生变化,十三五期间,我国算力总规模增长近5倍,通用算力增长接近3倍左右,但是智能算力增长近百倍,智能算力在融合算力中的占比达到了40%,在未来可能会更多 。
此外,早期云服务商的精力放在通用算力市场,因为通用算力有庞大的客户群,也更容易实现增长,像高性能计算这类云服务,需要投入昂贵的硬件和大量人力成本,自然就不在云服务商的优先考虑范围之内 。
企业级服务|阿里云启动全球最大智算中心,云服务商找到了新的算力出口
文章图片

阿里云智算中心
智能计算不同于通用型计算,需要海量数据对AI模式进行训练,算力被损耗在数据迁移、同步等环节,千卡以上规模的算力输出最低往往仅有40%左右,这导致了智能算力成本高昂,制约了产业发展 。而当下阿里云通过体系化的技术创新,改变了智能计算的损耗难题,将千卡并行计算效率提升至90%以上 。
如今行业形势发生了变化,需求和供给两端共同推升了智算产业的发展,通用算力需求仍在增长,但显然不及智算的潜在价值,两者处于不同增长曲线的不同阶段,此时云服务商选择“啃下难啃的骨头”,大力开发智算市场,也就成为顺理成章的动作 。
进阶:智算不是算力硬件堆砌智算中心是确定无疑的行业趋势,也可能是未来数十年最大的增长空间,在阿里云智能副总裁、行业解决方案销售部总经理霍嘉看来,很多厂商都在谈智算,阿里云智算平台的独特之处来自于三个方面 。
第一,阿里巴巴的业务实践,无论是M6的预训练大模型、小蛮驴自动驾驶,还是电商体系的智能客服,包括以图搜物等一系列业务,都是阿里自身的实践 。飞天智算支撑阿里AI日均1万亿次调用,服务全球10亿人 。
其中,拍立淘训练速度提升了200倍,10亿张图片全量训练时间从2.5个月缩短到8小时 。达摩院大模型M6仅使用512张GPU,在10天内就完成了10万亿参数模型训练,能耗仅为GPT-3在同等参数规模下的1% 。
企业级服务|阿里云启动全球最大智算中心,云服务商找到了新的算力出口
文章图片

第二,从平台方案的角度看,智算平台建设本质是场景优化或者场景引入,一定效率为王,阿里云提供了一横一纵的平台,“横”即融合算力平台,无论是X86还是GPU,还是其他ARM等所有芯片架构,通过软件层的飞天云计算操作系统,使智算中心变成一台计算机,提供融合算力 。
“纵”即上层开发工具,现在开发者或者企业在开发AI应用时,要用12种以上的工具,阿里云提供了一站式的AI+大数据的开发平台,提升整体的研发效率 。
据了解,阿里云大数据+AI一体化平台支撑开发与运维全流程,尤其在模型训练环节,提供分布式训练框架,可以对分布式策略进行自动组合和调优,将训练效率提升了11倍以上 。此外,阿里云为用户提供了一站式的通用推理优化工具,对算法模型进行量化、剪枝、稀疏化、蒸馏等操作,可将推理效率提升6倍以上 。
第三,绿色低碳 。飞天智算在技术减排、能源结构优化、区域布局优化、供应链减碳以及资源利用优化五个方面来降低单位算力的碳排放 。在技术减排方面,通过液冷、电源技术以及智能运维等方式降低能耗,PUE最低可达1.09 。
抢滩:算力产业上下游殊途同归不同厂商入局智算中心,其擅长领域和切入思路也不同,据统计,目前已有数十个城市探索建设智算中心,大多集中在一二线城市,数字经济越发达的地方,对智算中心的算力也就越大 。
在数据中心遍布全国的情况下,智算中心为何还有巨大的增长预期?这是因为智算中心与数据中心面向不同的业务诉求 。
以阿里巴巴为例,张北智算中心承载着AI大规模训练模型、AI Earth地球科学云平台、数字人、电商等场景,乌兰察布智算中心主要服务自动驾驶、生物制药、科学探索、元宇宙等场景 。
外部客户对智算中心也有类似的需求,云服务商可以使其高性价比地获取智算能力 。不久前,小鹏汽车基于飞天智算在乌兰察布建设智算中心“扶摇”,算力规模达600PFLOPS,是国内最大的自动驾驶智算中心,将自动驾驶模型训练提速近170倍 。
这些快速涌现的业务场景,推动着智算中心服务商的发展,值得注意的是,不仅是云服务商,上至AI独角兽,下至服务器厂商和芯片厂商,都在试图抢占智算中心的更多话语权 。
例如,商汤于2022年1月份正式启动了商汤智算中心运营,设计峰值算力高达3740 Petaflops(1 Petaflop等于每秒1千万亿次浮点运算);浪潮、曙光等服务器厂商奋勇争先,在各地布局新建智算中心;英特尔one API生态OneAPI能够提供一个适用于各类计算架构的统一编程模型和应用程序接口,开发者只需要开发一次代码,就可以跑在CPU、GU、FPGA、神经网络处理器等不同的硬件上 。
企业级服务|阿里云启动全球最大智算中心,云服务商找到了新的算力出口
文章图片

智算生态的新格局在竞合中形成,竞争时有发生,例如智算中心的本地化建设,与以公有云、专有云为服务模式的智算中心,两者是替代关系 。在云服务模式下,企业客户和开发者无需关心底层芯片,不管是高性能计算所用的FP64,还是AI训练所用的FP32,推理所用的FP16,以及控制所用的INT型算力,智算平台都能实现多元算力解耦融合 。
合作是必然趋势,任何一家厂商都不能单独满足所有的业务场景,软硬件一体才能实现最佳实践,驱动AI产业发展的三要素,算力、算法和数据,都需要经过大量的加工过程,才能推动AI应用的爆发式增长算力产业上下游厂商共同构成了智算新生态 。
【企业级服务|阿里云启动全球最大智算中心,云服务商找到了新的算力出口】(本文首发钛媒体APP 作者 | 张帅)

    推荐阅读