投稿|打破两堵“墙”,存算一体芯片如何发挥作用?

投稿|打破两堵“墙”,存算一体芯片如何发挥作用?
文章图片

图片来源@视觉中国

文 | 半导体产业纵横
所有事物的发展都代表了当下时代对其提出的新要求,半导体行业也没有例外 。
近日,阿里达摩院发布了全球首款使用混合键合3D堆叠技术实现存算一体的芯片,在行业内引起了不小的轰动 。存算一体技术作为打破存储墙和功耗墙的重要解决方案,又一次站在了聚光灯下 。
两堵”墙”:存算一体技术发展的必要性存算一体的发展是时代发展的要求,现有冯·诺伊曼计算系统采用存储和运算分离的架构,存在“存储墙”与“功耗墙”瓶颈,严重制约系统算力和能效的提升 。
在冯·诺伊曼架构的核心设计中计算机的组成架构包括运算器、控制器、存储器、输入设备、输出设备五部分 。
在冯·诺伊曼架构中,计算单元要先从内存中读取数据,计算完成后,再存回内存,这样才能输出 。随着半导体产业的发展和需求的差异,处理器和存储器二者之间走向了不同的工艺路线 。由于工艺、封装、需求的不同,从1980年开始至今二者之间的性能差距越来越大 。数据显示,从 1980年到 2000年,处理器和存储器的速度失配以每年50%的速率增加 。
存储器数据访问速度跟不上处理器的数据处理速度,数据传输就像处在一个巨大的漏斗之中,不管处理器灌进去多少,存储器都只能“细水长流” 。两者之间数据交换通路窄以及由此引发的高能耗两大难题,在存储与运算之间筑起了一道“存储墙” 。
此外,在传统架构下,数据从内存单元传输到计算单元需要的功耗是计算本身的约200倍,因此真正用于计算的能耗和时间占比很低,数据在存储器与处理器之间的频繁迁移带来严重的传输功耗问题,称为“功耗墙” 。
再加上人工智能的发展,需要运算的数据量开始了极大的增长 。人工智能算法是一个很庞大和复杂的网络,包含大量的图像数据和权重参数,计算的过程中又会产生大量的数据,数据需要在计算单元和存储单元之间进行频繁的移动,这迫切需要合适的手段来减少数据移动及其带来的性能和功耗开销 。
自1945年提出的冯·诺伊曼架构,其本身仍是现代计算机的主要架构,在此架构下关于存算流程的弯路,在当时是合理的 。但是在人工智能飞速发展的现在,却有必要颠覆它 。
于是,业界开始寻找弱化或消除存储墙及功耗墙问题的方法,开始考虑从聚焦计算的冯·诺伊曼体系结构转向存算一体结构 。
近存储计算还是存内计算?为了解决以上问题,存算一体芯片应运而生 。其核心思想是将部分或全部的计算移到存储中,计算单元和存储单元集成在同一个芯片,在存储单元内完成运算,让存储单元具有计算能力 。这种极度近邻的方式很大程度上降低了数据移动的延迟和功耗,解决了存储墙问题 。
阿里达摩院发布的2020年十大科技趋势里,它认为存算一体是突破AI算力瓶颈的关键技术,朝着这个趋势阿里发布了近存储计算芯片 。近存储计算与存内计算都是存算一体的实现方式,但是概念不同 。
近存储计算指的是计算操作由位于存储芯片外部的独立计算芯片完成 。通过采用先进的3D封装方式把内存和计算单元封装在一起,可以达到几千根甚至上万根连线,两者之间的带宽增加,提高了数据搬运速度 。近存储计算本质上来说还没有做到真正的存算“一”体 。

推荐阅读