投稿|Yoshua Bengio 、吴恩达等AI大牛预见2022年人工智能趋势

投稿|Yoshua Bengio 、吴恩达等AI大牛预见2022年人工智能趋势
文章图片

图片来源@视觉中国

文 | AI商业评论
2021年AI技术变革的步伐加快,这一势能势不可挡,2022年将继续加速 。
IDC报告预测,2021年~2025年期间,全球人工智能年复合年增长率接近24.5% 。
从技术维度看,根据全球知名编程语言社区TIOBE指数,人工智能主编程语言Python在2021年可谓“轰轰烈烈”,它超过Java成为世界上最受欢迎的语言 。全球知名数据科学平台Anaconda分析师表示,“Python将继续滑入我们的生活” 。
2022年,硬科技时代拉开帷幕,一起看看图领奖获得者Yoshua Bengio、前百度AI研究院院长吴恩达、Meta AI研究中心主任Joelle Pineau等专家们认为人工智能世界接下来会发生什么:
吴恩达看2022年AI趋势:多模态AI起飞、参数破万亿模型会更多AI专家吴恩达日前在DeepLearning.AI平台分享了2022年AI趋势预测,第一就是多模态AI将起飞 。
多模态是指不同类型的数据资料,比如文字、影像、音讯、影片等 。在过去,AI模型几乎只能处理单一模态任务,比如只限于文字或视觉 。但2021年出现不少多模态AI成果,比如OpenAI发表的CLIP和DALL·E模型,能同时处理文字和影像,靠输入文字就能产生图片;DeepMind的Perceiver IO对文本、图像、视频及点云进行分类;斯坦福大学的ConVIRT尝试为医学X射线影像添加文本标签 。
虽然这些新的多模态系统大多处于实验阶段,但也已经在实际应用中取得突破 。
例如开源社区将CLIP与生成对抗网络(GAN)相结合,开发出引人注目的数字艺术作品 。艺术家Martin O’Leary使用Samuel Coleridge的史诗作品《忽必烈大汗》为输入,生成了充满迷幻色彩的“Sinuous Rills” 。
Facebook表示,它的多模态言论检测器能够标记并删除社交网络中97%的辱骂和有害内容,该系统能够根据文本、图像和视频在内的10种数据类型将图像-文本配对分类为良性或有害 。
谷歌也表示,将为其搜索引擎添加多模态功能 。它的多任务统一模型可以处理文本、音频、图像和视频内容,用户可以通过75种语言中的任何一种语言使用 。
在GTC 2021期间,英伟达宣布推出NVIDIA Omniverse Avatar,一个用于生成交互式AI化身的技术平台 。Omniverse Avatar集合了英伟达在语音AI、计算机视觉、自然语言理解、推荐引擎和模拟方面的技术,为创建人工智能助手打开了大门,可以帮助处理数十亿的日常客户服务互动 。
多模态研究可追溯至数十年前,1989年约翰霍普金斯大学和加州大学圣地亚哥分校的研究人员开发了一种系统,可以根据人们说话的音频和视觉数据对元音进行分类 。在接下来的二十年里,研究团队尝试了多模态应用,例如搜索数字视频库和基于视听数据对人类情感进行分类 。
因为图像与文本均非常复杂,研究人员在很长一段时间内只能专注于其中一种 。但过去十年中,计算机视觉与自然语言处理已经在神经网络中得到有效融合,这让二者的最终合璧成为可能 。
过去一年,我们还见证了大型语言模型的巨大进步,而且这场军备竞赛将在2022年继续进行 。
早在2019年,OpenAI的GPT-2成为第一个拥有超过10亿个参数的模型(其15亿个参数在当时看起来大得令人难以置信) 。2020年,GPT-3风靡AI社区,它拥有1750亿个参数,让之前的一切相形见绌 。但GPT-3作为最大的AI模型的统治并没有持续多久,2021年,谷歌Switch Transformer模型(1.6万亿参数)和北京智源研究院“悟道”(1.75万亿参数)模型打破万亿参数壁垒 。

推荐阅读