寒武纪官方详解云端 AI 芯片思元 370( 三 )


* 测试环境:
MLU370-S4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU 数据来自于相关产品官网。
MLU370-S4 加速卡在解码方面具有强劲竞争力,相较于同尺寸 GPU,可提供 3 倍的解码能力和 1.5 倍的编码能力。总体而言,MLU370-S4 加速卡的能效出色,体积小巧,可在服务器中实现高密度部署。
寒武纪官方详解云端 AI 芯片思元 370
文章插图

▲ 寒武纪 MLU370-X4 加速卡
MLU370-X4 加速卡的优势则表现为高性能,算力可达 256TOPS (INT8),加强了 FP16、FP32 的计算性能,新增 BF16 计算类型。
在 Cambricon Neuware SDK 上实测,常用的 4 个深度学习网络模型中,MLU370-X4 加速卡与市场主流 150W GPU 相比,性能表现 2 项持平 2 项更优,实测能效则为 GPU 的 2 倍。比如 YOLOv3 网络中,MLU370-X4 的性能是 150W GPU 性能的 1.5 倍,能效为 GPU 的 2.5 倍。
寒武纪官方详解云端 AI 芯片思元 370
文章插图

▲ 相比主流 GPU 产品,MLU370-X4 性能领先
* 测试环境:
MLU370-X4:NF5468M6/2x Intel Xeon Gold 6330 CPU @ 2.0GHz/MagicMind v0.6
GPU 数据:ResNet-50 来自于相关产品官网,Transformer、VGG16、YOLOv3 均取自实测最大吞吐性能。
寒武纪官方详解云端 AI 芯片思元 370
文章插图

▲ MLU370-S4、MLU370-X4 加速卡规格

推荐阅读