投稿|设计困境，GPU未来何解？( 三 ) 投稿

GPU未来何解？前文我们曾提到过， GPU中高精度与低精度数学运算吞吐量具有很大差异。

文章图片

图一同时设置大批量和小批量，利用MLPerf深度学习训练和推理方法分析GPU-N的性能瓶颈
当同时设置大批量和小批量的MLPerf套件进行深度学习工作负载的模拟性能瓶颈分析，其结果如图一所示。内存带宽是深度学习的主要限制，在大批量和小批量的情况下贡献了28%的执行时间， DRAM带宽则是大批量深度学习推理的主要瓶颈，占有30%的执行时间。

文章图片

图二不同DRAM带宽下，高性能计算应用的性能加速，虚线代表对应配置的几何加速
再来看高性能计算，与深度学习应用相反，大多数高性能计算对于DRAM带宽的变换并不敏感，当DRAM带宽增加到无限大的时候，几何平均加速只有5% 。当DRAM带宽减小时， 0.75倍带宽和0.5倍带宽只让性能减小了4%和14% 。
因此， GPU的内存带宽会成为限制基于GPU的深度学习训练与推理的主要瓶颈，但这一限制在高性能计算中一般不会遇到。这就意味着，如果未来面向深度学习和高性能计算领域的融合GPU仍然是实际标准的话，未来DRAM带宽的增大很大程度上不会被高性能计算的应用利用到。
COPA-GPU英伟达提出了COPA-GPA架构，提供面向高性能计算和深度学习两类不同应用的GPU高层次设计，其特定的COPA-GPU设计，将每个GPU的训练和推理性能分别提高了31%和35% ，同时显著降低了数据中心拓展GPU训练的成本。
COPA-GPU的架构领域定制通过集成GPM和专用领域优化的MSM实现，该MSM可以利用平面或垂直的裸芯堆叠方法，使用2.5D或3D封装集成。

文章图片

图三 COPA-GPU架构的两种选择2.5D和3D集成领域（a）融合GPU ，使用3D封装技术的COPA-GPU ，没有L3（b）3D封装可组合GPU ，有L3（c）2.5D封装可组合GPU ，无L3（d）2.5D封装可组合GPU ，有L3和更多的DRAM
2.5D COPA-GPU的主要缺点是增加了封装的大小，而相反的是3D COPA-GPU对于封装复杂性的影响最小，但基础GPM需要考虑到用于垂直裸片间通信但分布式裸片上超高宽链接的实现。

投稿|设计困境，GPU未来何解？( 三 )

推荐阅读

最近感觉得了外阴瘙痒，请问一下这个症状是怎么形成的！

抗原自测盒使用方法

详细教程及注意事项佳能ts6080清零废墨

表分析影响insert,SWOT分析表

重庆蛋糕烘焙培训哪里好烘焙培训培训哪里好

脊髓型颈椎病怎么治脊髓型颈椎病是什么意思

烤红薯需要什么配方吗

松下FZ平板电脑电池续航短的原因是什么

中大型材塑钢窗多少一平普通塑钢窗一平方价格

比115更高的投诉电话怎么投诉联通公司

复旦大学的校训是什么意思复旦大学的校训是什么

小白windows7系统32位旗舰版最新推荐

海尔冰箱质保期及维修指南：了解海尔冰箱质保期、常见故障及维修方法

阿里巴巴采购津贴是什么意思

佳能g2810怎么轻松更换墨盒，让你的打印机焕发新生

南昌第六医院进口2价宫颈癌疫苗专场预约

西瓜糖分高吗西瓜的糖分含量高吗

中年人怎么饮食才能够防止早衰

结婚倒茶的四言八句

数据库筛选 mysql数据库筛选