人工智能|AI年度总结与展望:超大规模预训练模型爆发,自动驾驶迎商业化前夜( 二 )


降低AI规模化落地的门槛
预训练大模型降低了AI应用的门槛,解决了AI应用的两个难题:数据和行业知识 。它既不需要大量的标注数据,又保障了基础底座 。
在预训练模型的业务定制优化和应用方面,曾冠荣认为,从第一个预训练语言模型BERT发布至今,已在多个热门任务下得到应用,逐步从一种“潮流”变成前沿技术的“基本操作”,如预训练模型已成为机器翻译领域的基础关键性技术 。此外,预训练模型也成为大系统中的一部分,发挥着其语义理解的优势 。
无论是业界还是科研,对预训练模型的使用方式逐渐灵活,能从预训练模型中拆解出适合任务的部分并组装到自己的实际任务模型中 。
时至今日,对预训练大模型的性能优化仍未终止,在学界,仍有大量的研究在预训练模型的落地能力上努力,压缩、剪枝、蒸馏的工作仍起到重要作用 。不止于算法本身,编译、引擎、硬件等方面的优化也在大步迈进 。
小结和展望
吴韶华认为,整体而言,现在大规模预训练模型的研究,包括模型结构的演进和落地仍处在探索阶段,各家的持续探索正在不断扩大对大规模预训练模型的认知边界 。
“大规模预训练模型是人工智能的最新技术高地,是对海量数据、高性能计算和学习理论原始创新的全方位考验”,清华大学教授、智源大模型技术委员会成员刘知远在接受采访时展望了明年大模型的发展趋势 。
刘知远表示,他明年将重点关注两个层面的问题:
一是人工智能技术正呈现“大一统”趋势,如预训练模型在Prompt Tuning等技术的支持下可用于很多不同的任务,再如Transformer模型框架正在从自然语言处理扩展到计算机视觉模态,接下来我们也许会看到更多的从框架、模型和任务等方面推进人工智能技术趋向统一的工作 ; 另一个问题是,随着预训练模型规模增大,如何更好更高效地实现任务适配和推理计算,将是让大模型飞入千家万户的重要技术 。
02 国产深度学习框架不再是“技术的跟随者”过去十年涌现了大量的AI算法和应用,这背后都离不开开源深度学习框架提供的支持 。
开源深度学习框架是AI算法研发和AI应用落地的“脚手架”,帮助AI研究员和开发者大幅降低算法研发门槛,提升研发效率 。
IDC的调研显示,中国人工智能领域90%以上的产品都使用了开源的框架、库或者其他工具包 。
新进展,新趋势
深度学习框架的发展核心是跟随着深度学习领域的发展而前进的 。
开源深度学习框架旷视天元MegEngine研发负责人许欣然在接受采访时,分享了过去这一年他所观察到的深度学习的新进展:
(1)以ViT、Swin为代表的Transformer类模型开始向NLP以外的领域进军,在更多场景中展现威力,让“大”模型的趋势愈演愈烈 。
相应的,深度学习框架也在训练大模型方面进展颇多,多种混合并行方案层出不穷 。无论是深度学习框架还是硬件厂商,都在思考Transformer是否是会长期固定的计算pattern 。
(2)A100这类显卡的诞生,催生了一股从动态图回到静态图的趋势 。本身对动态图更友好的框架也纷纷尝试通过编译的方式提升效率,比如PyTorch的LazyTensor、Jax的XLA 。很多国产框架也在尝试通过动静结合的方式提升效率,比如旷视天元MegEngine推出的Tensor Interpreter、MindSpore的Python代码转静态图的方案等 。
此外,MLIR和TVM这两个深度学习编译器领域的灯塔都在快速增长,如何靠机器做好编译也正成为各个深度学习框架研发的主要方向 。同时随着深度学习方法的持续发展,也诞生了更多的新兴框架,如图神经网络领域的DGL 。

推荐阅读