谷歌|谷歌大神 Jeff Dean 领衔,万字展望五大AI趋势( 二 )
Transformer 模型也对图像、视频和语音模型产生了重大影响,所有这些模型也都从缩放中受益,正如研究可视 Transformer 模型的缩放法则工作中预测的那样 。用于图像识别和视频分类的 Transformers 在许多基准上都取得了最先进的结果,我们还证明,与单独使用视频数据的模型相比,在图像数据和视频数据上的联合训练模型可以提高视频任务的性能 。我们已经为图像和视频 Transformers 开发了稀疏的轴向注意机制(axial attention mechanisms),从而更有效地使用计算,为视觉 Transformers 模型找到了更好的图像标记方法,并通过与卷积神经网络相比,研究了视觉 Transformers 的操作方式,加深了我们对视觉 Transformers 方法的理解 。将 Transformers 模型与卷积操作相结合,已在视觉和语音识别任务中展示出显著的优势 。
生成模型的输出也在大幅提高 。在过去几年里取得了显著的进步,尤其在图像的生成模型中最为明显 。例如,最近的模型已经证明了仅给定一个类别(如“irish setter”或“steetcar”)便可以创建逼真的图像,可以“填充”一个低分辨率的图像,以创建一个看起来十分自然的高分辨率匹配图像,甚至可以构建任意长度的自然场景 。另一个例子是,可以将图像转换成一系列离散 tokens,然后使用自回归生成模型以高保真度进行合成 。
文章图片
图丨级联扩散模型(cascade diffusion models)的例子,从一个给定的类别生成新的图像,然后使用这些图像作为种子来创建高分辨率的示例:第一个模型生成低分辨率图像,其余的执行向上采样(upsampling)到最终的高分辨率图像 。
文章图片
图丨SR3 超分辨率扩散模型是以低分辨率图像作为输入,并从纯噪声中构建相应的高分辨率图像 。
鉴于这些强大的功能背后,潜藏着的是巨大的责任,所以我们不得不仔细审查,这类模型的潜在应用是否违背我们的人工智能原则 。
除了先进的单模态模型(single-modality models)外,大规模的多模态模型(multimodal models)也在陆续进入人们的视野 。这些模型是迄今为止最前沿的模型,因为它们可以接受多种不同的输入模式(例如,语言、图像、语音、视频),而且在某些情况下,还可以产生不同的输出模式,例如,从描述性的句子或段落生成图像,或用人类语言简要描述图像的视觉内容 。这是一个令人惊喜的研究方向,因为类似于现实世界,在多模态数据中更容易学习(例如,阅读一些文章并看时辅以演示比仅仅阅读有用得多) 。因此,将图像和文本配对可以帮助完成多种语言的检索任务,并且更好地理解如何对文本和图像输入进行配对,可以对图像字幕任务(image captioning tasks)带来更好的改进效果 。同样,在视觉和文本数据上的联合训练,也有助于提高视觉分类任务的准确性和鲁棒性,而在图像、视频和音频任务上的联合训练则可以提高所有模式的泛化性能 。还有一些诱人的迹象表明,自然语言可以作为图像处理的输入,告诉机器人如何与这个世界互动,以及控制其他软件系统,这预示着用户界面的开发方式可能会发生变化 。这些模型处理的模式将包括语音、声音、图像、视频和语言,甚至可能扩展到结构化数据、知识图和时间序列数据等等 。
推荐阅读
- 旗舰|出乎意外?苹果、小米、三星、谷歌旗舰续航对比,第一名实力反超
- 爱奇艺|爱奇艺谷歌版来了!纯净无广告,不开会员也能流畅追剧
- 大神|一点隐私都没有了?聊天记录打码也不安全:大神亲自下场破解
- 谷歌|国产手机真长脸,iPhone13ProMax续航神话破灭,网友:终于等来了
- xel|火星马丁:谷歌pixel5综合体验
- 谷歌|苹果小米三星5大旗舰机续航测试!第一名你不得不服
- 折叠屏手机|今年内发布!谷歌折叠屏手机确认:星米OV大敌来了?
- oppo|传谷歌折叠屏手机年底问世 苹果也在考虑折叠手机
- Pixel|谷歌 Pixel 手机 App 流式传输功能曝光:电脑、手机互不干扰
- 适配|谷歌是符合做好折叠屏适配的?我总结了这四点