产业互联网|亚马逊云科技:云厂商做自研芯片的两个「选择」

自研芯片会是改变云计算游戏规则的关键么?亚马逊云科技认为的确如此 。
在2021年亚马逊云科技re:Invent全球大会上,亚马逊云科技公布了其最新芯片研究成果,包括自研CPU处理器Amazon Graviton3,这是亚马逊云科技自研设计的第三颗CPU处理器 。
同时,继去年宣布研制机器学习训练芯片Amazon Trainium后,亚马逊云科技于今年宣布提供基于Trainium的实例 。与P4d实例相比,由Amazon Trainium芯片支持的Trn1实例训练深度学习模型的成本降低多达40% 。
在固态硬盘层面,基于Amazon Nitro SSD固态硬盘的Im4gn/Is4gen/ I4i实例也正式发布 。通过自研的 Amazon Nitro SSD,Im4gn/Is4gen/I4i实例提供高达 30 TB 的 NVMe 存储,与上一代I3实例相比,I/O 延迟降低了 60%,延迟可变性降低了 75% 。
云计算发展十余年来,正在变得越来越硬,直至底层芯片 。同开创云时代一样,自研芯片的风潮很大程度上也是由亚马逊云科技开始,国内外云厂商不断跟进,例如阿里云自研CPU倚天710、AI推理芯片含光800等,腾讯云的AI推理芯片“紫霄”等 。
自研芯片并不是云厂商开展业务的必需,但却决定了云厂商的天花板,象征着云巨头的身份 。
产业互联网|亚马逊云科技:云厂商做自研芯片的两个「选择」
文章图片

亚马逊云科技大中华区产品部总经理顾凡
对于自研芯片的驱动力,亚马逊云科技大中华区产品部总经理顾凡是这样解释的,“客户对云上性价比的追求永远不会有止境,同时,未来云上的新型工作负载对于计算创新的要求也是无止境的 。而发生在底层的创新,往往最具备颠覆性 。半导体和芯片层面的创新会是改变云计算游戏规则一个非常重要的能力 。”
自研芯片比之云服务更具挑战,即使是亚马逊云科技,也在自研芯片的过程中也面临诸多权衡的选择 。
提高频率or增加内核数量?Graviton3相较于Graviton2多出200亿个晶体管,如何利用这200亿个晶体管,来实现最佳的性能和效率,是亚马逊在这一代芯片中要深入思考的问题 。
亚马逊云科技大中华区产品部计算与存储总监周舸说道,“原则很简单,我们得从工作负载去看,从客户真正怎么使用这些设备去看,找到我们的起点 。”
通常提升CPU性能的两个方向,提高频率或者增加内核数量,提高频率确实可以快速提升性能,而且大多数时候这种性能提升对所有的工作负载都有效 。
但提高频率有局限性,以现在半导体的功率和能力,提高频率意味着产生更多的热量,散热会是一个大问题,尤其是在超大规模数据中心里,高频带来高能耗,高能耗带来高热量,高热量要求更高的散热效率,反而提升了耗电量,企业用云成本不降反升 。
因此亚马逊云科技选择让内核的“宽度”增加,即使用指令并行的方式,让内核在同一个时钟周期里执行更多的指令、完成更多的任务,这样不用增加内核数量也能提高业务运行效率 。
根据亚马逊云科技给出的数据,由Amazon Graviton3处理器支持的C7g实例与由 Graviton2 处理器支持的当前一代 C6g 实例相比,可将计算密集型工作负载性能提高多达25% 。Amazon Graviton3处理器与Graviton2相比,为科学计算、机器学习和媒体编码工作负载提供高达2倍的浮点运算性能,为加密工作负载速度提升高达2倍,为机器学习工作负载提供高达3倍的性能 。
增加核数or降低内存时延如前所述,增加核数也是提高芯片性能快且有效的办法,Graviton从第一代到第二代,亚马逊云科技就选择增加核数,实现了不错的效果 。

推荐阅读