近年来,在大量数据上训练的基于 transformer 的大规模深度学习模型在多项认知任务中取得了很好的成果,并且被使用到一些新产品和功能背后,进一步增强了人类的能力。在过去五年中,这些模型的规模增长了几个数量级。从最初的 transformer 模型的几百万个参数一直到最新的 5300 亿个参数的 Megatron-Turing (MT-NLG 530B) 模型(如图所示),客户对于前所未有的大规模训练和微调大型模型的需求越来越强烈。
文章图片
大模型和硬件能力全景图
Azure 机器学习 (AzureML)带来了大量由 InfiniBand 互连提供支持的最新 GPU,以应对大规模 AI 训练。我们已经在 Azure 上训练了 Megatron/Turing 和 GPT-3这些模型。以前,为了训练这些模型,用户需要设置和维护一个复杂的分布式训练基础设施,通常涉及几个手动的步骤,容易出错,从而导致在可用性和性能方面的体验不佳。
今天,我们很自豪地宣布在我们的软件堆栈中取得突破——使用 DeepSpeed 和 1024 A100 来扩展 2T 参数模型的训练,并在 1K+ GPU 规模上提供精简的用户体验。我们将通过 AzureML(包括充分优化的 PyTorch 环境)为您带来这些软件创新,它为大规模训练提供了出色的性能和易于使用的界面。
如下图所示,微软正在采用全栈优化方法,其中硬件、操作系统、VM image、Docker image(含优化后的PyTorch、DeepSpeed、ONNX 运行时和其他Python包)、面向用户的Azure ML APIs都已经过优化、集成和测试,具有出色的性能和可扩展性。
文章图片
微软针对 Azure 上可扩展分布式训练的全栈优化
这个优化的堆栈使我们能够使用DeepSpeed on Azure有效地扩展大型模型的训练。与其他云场商发布的数据相比,我们支持 2 倍大的模型大小(2 万亿 vs. 1 万亿参数),扩展到 2 倍的 GPU(1024 vs. 512),以及高达 1.8 倍的计算吞吐量/GPU(150 TFLOPs vs. 81 TFLOPs)。
文章图片
长按识别二维码
关注微软开发者MSDN
【为了高性能、超大规模的模型训练,这个组合“出道”了】点击前往原博客~
推荐阅读
- 如何让 WPF 程序更好地适配 UI 自动化
- 历史上的今天|【历史上的今天】8 月 3 日(微软研究院的创始人诞生;陌陌正式上线;苹果发布 Newton OS)
- 产品功能|微软关闭基本身份验证,对企业与员工有什么影响()
- 在 .NET MAUI 中如何更好地自定义控件
- 8月微软技术课程,欢迎参与!
- 云计算|Azure 云迁移之Azure Migrate 评估VMware VM
- 开源资讯|恐造成下一个“千年虫”的闰秒,遭科技巨头们联合抵制
- 人工智能|麒麟软件副总裁李震宁(中国开源社区是操作系统破局的土壤)
- 利用Power Automate,轻松下载Power BI报告中的数据