投稿|设计困境,GPU未来何解?( 三 )


GPU未来何解?前文我们曾提到过 , GPU中高精度与低精度数学运算吞吐量具有很大差异 。
投稿|设计困境,GPU未来何解?
文章图片

图一 同时设置大批量和小批量 , 利用MLPerf深度学习训练和推理方法分析GPU-N的性能瓶颈
当同时设置大批量和小批量的MLPerf套件进行深度学习工作负载的模拟性能瓶颈分析 , 其结果如图一所示 。内存带宽是深度学习的主要限制 , 在大批量和小批量的情况下贡献了28%的执行时间 , DRAM带宽则是大批量深度学习推理的主要瓶颈 , 占有30%的执行时间 。
投稿|设计困境,GPU未来何解?
文章图片

图二 不同DRAM带宽下 , 高性能计算应用的性能加速 , 虚线代表对应配置的几何加速
再来看高性能计算 , 与深度学习应用相反 , 大多数高性能计算对于DRAM带宽的变换并不敏感 , 当DRAM带宽增加到无限大的时候 , 几何平均加速只有5% 。当DRAM带宽减小时 , 0.75倍带宽和0.5倍带宽只让性能减小了4%和14% 。
因此 , GPU的内存带宽会成为限制基于GPU的深度学习训练与推理的主要瓶颈 , 但这一限制在高性能计算中一般不会遇到 。这就意味着 , 如果未来面向深度学习和高性能计算领域的融合GPU仍然是实际标准的话 , 未来DRAM带宽的增大很大程度上不会被高性能计算的应用利用到 。
COPA-GPU英伟达提出了COPA-GPA架构 , 提供面向高性能计算和深度学习两类不同应用的GPU高层次设计 , 其特定的COPA-GPU设计 , 将每个GPU的训练和推理性能分别提高了31%和35% , 同时显著降低了数据中心拓展GPU训练的成本 。
COPA-GPU的架构领域定制通过集成GPM和专用领域优化的MSM实现 , 该MSM可以利用平面或垂直的裸芯堆叠方法 , 使用2.5D或3D封装集成 。
投稿|设计困境,GPU未来何解?
文章图片

图三 COPA-GPU架构的两种选择2.5D和3D集成领域(a)融合GPU , 使用3D封装技术的COPA-GPU , 没有L3(b)3D封装可组合GPU , 有L3(c)2.5D封装可组合GPU , 无L3(d)2.5D封装可组合GPU , 有L3和更多的DRAM
2.5D COPA-GPU的主要缺点是增加了封装的大小 , 而相反的是3D COPA-GPU对于封装复杂性的影响最小 , 但基础GPM需要考虑到用于垂直裸片间通信但分布式裸片上超高宽链接的实现 。

推荐阅读