为了高性能、超大规模的模型训练，这个组合“出道”了 microsoft

近年来，在大量数据上训练的基于 transformer 的大规模深度学习模型在多项认知任务中取得了很好的成果，并且被使用到一些新产品和功能背后，进一步增强了人类的能力。在过去五年中，这些模型的规模增长了几个数量级。从最初的 transformer 模型的几百万个参数一直到最新的 5300 亿个参数的 Megatron-Turing (MT-NLG 530B) 模型（如图所示），客户对于前所未有的大规模训练和微调大型模型的需求越来越强烈。

文章图片

大模型和硬件能力全景图
Azure 机器学习（AzureML）带来了大量由 InfiniBand 互连提供支持的最新 GPU，以应对大规模 AI 训练。我们已经在 Azure 上训练了 Megatron/Turing 和 GPT-3这些模型。以前，为了训练这些模型，用户需要设置和维护一个复杂的分布式训练基础设施，通常涉及几个手动的步骤，容易出错，从而导致在可用性和性能方面的体验不佳。
今天，我们很自豪地宣布在我们的软件堆栈中取得突破——使用 DeepSpeed 和 1024 A100 来扩展 2T 参数模型的训练，并在 1K+ GPU 规模上提供精简的用户体验。我们将通过 AzureML（包括充分优化的 PyTorch 环境）为您带来这些软件创新，它为大规模训练提供了出色的性能和易于使用的界面。
如下图所示，微软正在采用全栈优化方法，其中硬件、操作系统、VM image、Docker image（含优化后的PyTorch、DeepSpeed、ONNX 运行时和其他Python包)、面向用户的Azure ML APIs都已经过优化、集成和测试，具有出色的性能和可扩展性。

文章图片

微软针对 Azure 上可扩展分布式训练的全栈优化
这个优化的堆栈使我们能够使用DeepSpeed on Azure有效地扩展大型模型的训练。与其他云场商发布的数据相比，我们支持 2 倍大的模型大小（2 万亿 vs. 1 万亿参数），扩展到 2 倍的 GPU（1024 vs. 512），以及高达 1.8 倍的计算吞吐量/GPU（150 TFLOPs vs. 81 TFLOPs）。

文章图片

长按识别二维码
关注微软开发者MSDN
【为了高性能、超大规模的模型训练，这个组合“出道”了】点击前往原博客~

为了高性能、超大规模的模型训练，这个组合“出道”了

推荐阅读

绮字五行属什么绮的组词

电线如何选择几方电线选2.5方还是4方

怎么才能把金牛座的男生追到手？

尼康fm2常见问题尼康FM2怎么启动电源

烤鸭架子汤怎么做好吃

qq空间怎么设置仅自己可见

百度网盘Svip如何购买便宜百度网盘vip共享

国际和平日手抄报文字国际宽容日手抄报内容

无症状感染者|广州新疫情传播力强，市民通宵排队打疫苗，专家：10天后可产生保护力

让你的打印机重获新生佳能MG6150废墨清零方法详解

新手开网店怎样开呢网店怎么样

核桃仁冷冻了三年还能吃吗

菲斯曼壁挂炉怎么调水压？

acl会议含金量,acl2023什么时候出结果

三角战略试玩版队友怎么招募三角战略试玩版队友招募方法

世界足球日小孩踢足球简笔画

郑州公租房在等待分房期间居住证换地址有影响吗？

如何正确清洗羽绒服？

iphone13第一次充电注意事项

一花一世界|一花一世界|小说连载