人工智能|AI大模型，AI赛道一场不能输的“钞”能力军备竞赛？人工智能|投稿

文章图片

偲睿洞察，作者丨蔡凡

从2020年开始，国际最顶尖的AI技术发展，愈来愈像一场比拼资金与人才的军备竞赛。
2020年，OpenAI发布NLP预训练模型GPT-3，光论文就有72页，作者多达31人，该模型参数1750亿，耗资1200万美元；
2021年1月，谷歌发布首个万亿级模型Switch Transformer，宣布突破了GPT-3参数记录；
4月，华为盘古大模型参数规模达到千亿级别，定位于中文语言预训练模型；
11月，微软和英伟达在烧坏了4480块CPU后，完成了5300亿参数的自然语言生成模型(MT-NLG)，一举拿下单体Transformer语言模型界「最大」和「最强」两个称号；
今年1月，Meta宣布要与英伟达打造AI超级计算机RSC，RSC每秒运算可达50亿次，算力可以排到全球前四的水平。
除此之外，阿里、浪潮、北京智源研究院等，均发布了最新产品，平均参数过百亿。
看起来，这些预训练模型的参数规模没有最大，只有更大，且正以远超摩尔定律的速度增长。其在对话、语义识别方面的表现，一次次刷新人们的认知。
本文，我们试图回答三个问题：
1. AI大模型，越大越好吗？
2. 大模型的技术瓶颈在哪里？
3. 它是实现强人工智能的希望吗？
01、大力出奇迹

文章图片

（图片来源：theverge）
人工智能的上一个里程碑出现在2020年。
这一年，由OpenAI公司开发的GPT-3横空出世，获得了“互联网原子弹”，“人工智能界的卡丽熙”，“算力吞噬者”，“下岗工人制造机”，“幼年期的天网”等一系列外号。它的惊艳表现包括但不限于：
有开发者给GPT-3 做了图灵测试，发现GPT-3对答如流，正常得不像个机器。“如果在十年前用同样的问题做测试，我会认为答题者一定是人。现在，我们不能再以为AI回答不了常识性的问题了。”

文章图片

艺术家和程序员 Mario Klingemann，想让 GPT-3写一篇论述“上Twitter重要性”的短文。他的输入条件是 1）题目：“上 Twitter 的重要性”；2）作者姓名："Jerome K. Jerome" 3）文章开头的第一个字 "It" 。
GPT-3不仅行文流畅，更是在字里行间暗讽，Twitter是一种所有人都在使用的、充斥着人身攻击的社交软件。
更高级的玩法是，开发者在GPT-3上快速开发出了许多应用，例如设计软件、会计软件、翻译软件等。
从诗词剧本，到说明书、新闻稿，再到开发应用程序，GPT-3似乎都能胜任。
为什么相较于以往的AI模型，GPT-3表现得如此脱俗？答案无他，“大力出奇迹” 。
1750亿参数、训练成本超过1200万美元、论文长达 72 页，作者多达 31 人，就连使用的计算也是算力排名全球前五的“超级计算机”，拥有超过 285000个CPU，10000个GPU和每秒400G网络。
“壕无人性”的结果，创造出两个里程碑意义：