投稿|设计困境,GPU未来何解?( 三 )
GPU未来何解?前文我们曾提到过 , GPU中高精度与低精度数学运算吞吐量具有很大差异 。
文章图片
图一 同时设置大批量和小批量 , 利用MLPerf深度学习训练和推理方法分析GPU-N的性能瓶颈
当同时设置大批量和小批量的MLPerf套件进行深度学习工作负载的模拟性能瓶颈分析 , 其结果如图一所示 。内存带宽是深度学习的主要限制 , 在大批量和小批量的情况下贡献了28%的执行时间 , DRAM带宽则是大批量深度学习推理的主要瓶颈 , 占有30%的执行时间 。
文章图片
图二 不同DRAM带宽下 , 高性能计算应用的性能加速 , 虚线代表对应配置的几何加速
再来看高性能计算 , 与深度学习应用相反 , 大多数高性能计算对于DRAM带宽的变换并不敏感 , 当DRAM带宽增加到无限大的时候 , 几何平均加速只有5% 。当DRAM带宽减小时 , 0.75倍带宽和0.5倍带宽只让性能减小了4%和14% 。
因此 , GPU的内存带宽会成为限制基于GPU的深度学习训练与推理的主要瓶颈 , 但这一限制在高性能计算中一般不会遇到 。这就意味着 , 如果未来面向深度学习和高性能计算领域的融合GPU仍然是实际标准的话 , 未来DRAM带宽的增大很大程度上不会被高性能计算的应用利用到 。
COPA-GPU英伟达提出了COPA-GPA架构 , 提供面向高性能计算和深度学习两类不同应用的GPU高层次设计 , 其特定的COPA-GPU设计 , 将每个GPU的训练和推理性能分别提高了31%和35% , 同时显著降低了数据中心拓展GPU训练的成本 。
COPA-GPU的架构领域定制通过集成GPM和专用领域优化的MSM实现 , 该MSM可以利用平面或垂直的裸芯堆叠方法 , 使用2.5D或3D封装集成 。
文章图片
图三 COPA-GPU架构的两种选择2.5D和3D集成领域(a)融合GPU , 使用3D封装技术的COPA-GPU , 没有L3(b)3D封装可组合GPU , 有L3(c)2.5D封装可组合GPU , 无L3(d)2.5D封装可组合GPU , 有L3和更多的DRAM
2.5D COPA-GPU的主要缺点是增加了封装的大小 , 而相反的是3D COPA-GPU对于封装复杂性的影响最小 , 但基础GPM需要考虑到用于垂直裸片间通信但分布式裸片上超高宽链接的实现 。
推荐阅读
- 耳机|索尼LinkBuds体验:环境音让内外通透,开放式环形设计令人惊叹
- 投稿|一度超越微信登AppStore榜首,但“元宇宙”社交也难逃“月抛”魔咒
- 投稿|陕旅饭店集团破产重整,昔日“混改模范”为何沦为反面教材?
- 投稿|疫情之下,本土自主设备如何突围?中国制造的投机主义和长期主义
- oppo|配置到位设计拉满,OPPO平板爆料提前看!性能和生态适配亮点多多
- 努比亚|致敬经典的外观设计,小红圈的灵魂之美,努比亚Z40 Pro真机照流出
- 投稿|即视角|出海正当时:欧美、东南亚、中东、拉美市场观察
- 投稿|“东南亚小腾讯”跌入谷底:受阻的业务飞轮撑不起千亿市值
- 投稿|员工行为几乎全裸?深信服“监控门”背后
- 投稿|信任危机?一场针对民族企业的商业“阳谋”