谷歌|谷歌大神 Jeff Dean 领衔，万字展望五大AI趋势( 二 ) 谷歌|人工智能|趋势|投稿

Transformer 模型也对图像、视频和语音模型产生了重大影响，所有这些模型也都从缩放中受益，正如研究可视 Transformer 模型的缩放法则工作中预测的那样。用于图像识别和视频分类的 Transformers 在许多基准上都取得了最先进的结果，我们还证明，与单独使用视频数据的模型相比，在图像数据和视频数据上的联合训练模型可以提高视频任务的性能。我们已经为图像和视频 Transformers 开发了稀疏的轴向注意机制（axial attention mechanisms），从而更有效地使用计算，为视觉 Transformers 模型找到了更好的图像标记方法，并通过与卷积神经网络相比，研究了视觉 Transformers 的操作方式，加深了我们对视觉 Transformers 方法的理解。将 Transformers 模型与卷积操作相结合，已在视觉和语音识别任务中展示出显著的优势。
生成模型的输出也在大幅提高。在过去几年里取得了显著的进步，尤其在图像的生成模型中最为明显。例如，最近的模型已经证明了仅给定一个类别（如“irish setter”或“steetcar”）便可以创建逼真的图像，可以“填充”一个低分辨率的图像，以创建一个看起来十分自然的高分辨率匹配图像，甚至可以构建任意长度的自然场景。另一个例子是，可以将图像转换成一系列离散 tokens，然后使用自回归生成模型以高保真度进行合成。

文章图片

图丨级联扩散模型（cascade diffusion models）的例子，从一个给定的类别生成新的图像，然后使用这些图像作为种子来创建高分辨率的示例：第一个模型生成低分辨率图像，其余的执行向上采样（upsampling）到最终的高分辨率图像。

文章图片

图丨SR3 超分辨率扩散模型是以低分辨率图像作为输入，并从纯噪声中构建相应的高分辨率图像。
鉴于这些强大的功能背后，潜藏着的是巨大的责任，所以我们不得不仔细审查，这类模型的潜在应用是否违背我们的人工智能原则。
除了先进的单模态模型（single-modality models）外，大规模的多模态模型（multimodal models）也在陆续进入人们的视野。这些模型是迄今为止最前沿的模型，因为它们可以接受多种不同的输入模式（例如，语言、图像、语音、视频），而且在某些情况下，还可以产生不同的输出模式，例如，从描述性的句子或段落生成图像，或用人类语言简要描述图像的视觉内容。这是一个令人惊喜的研究方向，因为类似于现实世界，在多模态数据中更容易学习（例如，阅读一些文章并看时辅以演示比仅仅阅读有用得多）。因此，将图像和文本配对可以帮助完成多种语言的检索任务，并且更好地理解如何对文本和图像输入进行配对，可以对图像字幕任务（image captioning tasks）带来更好的改进效果。同样，在视觉和文本数据上的联合训练，也有助于提高视觉分类任务的准确性和鲁棒性，而在图像、视频和音频任务上的联合训练则可以提高所有模式的泛化性能。还有一些诱人的迹象表明，自然语言可以作为图像处理的输入，告诉机器人如何与这个世界互动，以及控制其他软件系统，这预示着用户界面的开发方式可能会发生变化。这些模型处理的模式将包括语音、声音、图像、视频和语言，甚至可能扩展到结构化数据、知识图和时间序列数据等等。

谷歌|谷歌大神 Jeff Dean 领衔，万字展望五大AI趋势( 二 )

推荐阅读

原神前期材料怎么刷原神前期材料使用指南

原神古时孤影第三阶段有什么技巧原神古时孤影第三阶段心得

x7|2000元档颜值最高的机型？曲面屏+65W闪充，还有256G大内存

姐弟恋超过6岁都不长久姐弟恋英语

是什么让男人失去了娶你的勇气

缓解节后综合征七药膳帮你快速恢复健康身体

吃活珠子的禁忌

vr飞行游戏配置，vr飞行模拟游戏

决明子荷叶茶怎样喝才减肥

go语言常量变量教学视频 go语言%c

男式毛衣有哪些花样 7步教你男士毛衣马甲花样编制

新手应该从哪些方面来学习理财？

原神元素反应是什么原神元素反应简介

2021车险三者险价格明细 2021车损险费率

【剽悍牛人进化营求学模块】一个奔五的人在求学模块的反思

cad如何做图纸表格

韩涵一事后续来临,虎牙官方做法引无数网友不满,纷纷表示要卸载虎牙,如何点评？

今麦郎“凉白开”采用UHT125℃超高温烧开杀菌,可标压下水的沸点是99.974℃,是如何做到125℃的？

2023独生子女父母补贴最新发放标准,养老金3600和7200领取金额差多少？

熟的冻螃蟹怎么二次加热