模态是指某种事物发生或经历的方式,每一种信息的来源或者形式,都可以称为一种模态。当研究问题包括多种这样的形态时,研究问题被描述为多模态。多模态机器学习,旨在通过机器学习的方法实现处理和理解多源模态信息的能力。
1.1 引言 我们周围的世界包含多种形式——我们看到物体,听见声音,感受质地,闻到气味等等。一般来说,模态是指事情发生或经历的方式。大多数人把模态这个词和代表我们交流和感觉的主要渠道即感觉形式联系在一起,比如视觉或触觉。因此,当一个研究问题或数据集包含多个这样的模态时,它就被描述为多模态的。在这篇论文中,我们主要关注三种形式:既可以是书面的也可以是口头的自然语言;通常用图像或视频表示的视觉信号;以及对声音和比如韵律和声音表达的准语言信息进行编码的音频信号。
为了让人工智能在理解我们周围的世界方面取得进展,它需要能够解释和推理多模态信息。多模态机器学习旨在建立能够处理和关联多模态信息的模型。从早期人们对视听语音识别的研究到近期对语言和视觉模型的兴趣激增,可看出多模态机器学习是一个充满活力的多学科领域,其重要性与日俱增,潜力非凡。
鉴于数据的异质性,多模态机器学习的研究领域给计算研究者带来了一些独特的挑战。来自多模态来源的学习提供了捕捉模态之间的对应关系和获得对自然现象的深入理解的可能性。在本文中,我们确定并探索了围绕多模态机器学习的五个核心技术挑战(以及相关的子挑战)。它们是多模态环境的核心,需要加以解决以推进该领域的发展。我们的分类超越了典型的早期和晚期融合分类,包括以下五个挑战:
(1)表示 第一个基本的挑战是学习如何以利用多种模态的互补性和冗余性的方式表示和总结多模态数据。多模态数据的异构性使得构建这样的表示形式具有挑战性。例如,文本通常是符号,而音频和图像是信号。
(2)转换 第二个挑战是如何将数据从一种模态转换(映射)到另一种模态。不仅数据是异构的,而且模态之间的关系往往是开放式的或主观的。例如,存在许多描述一幅图像的正确方法,但可能不存在一种完美的翻译。
(3)对齐 第三个挑战是识别来自两个或更多不同模态的(子)元素之间的直接关系。例如,我们希望将菜谱中的步骤与展示正在制作的菜肴的视频对齐。为了应对这一挑战,我们需要衡量不同模态之间的相似性,并处理可能的长期依赖性和歧义性。
(4)融合 第四个挑战是结合来自两个或更多模态的信息来进行预测。例如,对于视听语音识别,将嘴唇运动的视觉描述与语音信号融合在一起以预测口语单词。来自不同模态的信息可能具有不同的预测能力和噪声拓扑,其中至少一种模态中可能会丢失数据。
(5)协同学习 第五个挑战是在模态、表示形式和预测模型之间转移知识。这可以通过共同训练、概念基础和零次学习的算法来例证。协同学习探讨了从一个模态学习的知识如何帮助在不同模态下训练的计算模型。当其中一种模态的资源有限 (如附加注释的数据) 时,就显得尤为重要。
对于这五个挑战中的每一个,我们定义了分类类别和子类,以帮助构建多模态机器学习这一新兴研究领域的最新工作。我们首先讨论了多模态机器学习的主要应用(第2节),然后讨论了多模态机器学习面临的所有五个核心技术挑战的最新发展:表示(第3节)、转换(第4节)、对齐(第5节)、融合(第6节)和协同学习(第7节)。我们在第8节以讨论结束。
1.2 应用:历史视角 多模态机器学习支持广泛的应用:从视听语音识别到图像字幕。在这一节中,我们简要介绍了多模态应用的历史,从早期的视听语音识别到近期对语言和视觉应用的重新关注。
多模态研究最早的例子之一是视听语音识别(AVSR) 。。它是由麦格克效应[143]推动的——在言语感知过程中听觉和视觉之间的相互作用。当人类受试者听到音节/ba-ba/,同时观察一个人的嘴唇说/ga-ga/,他们感知到第三个声音:/da-da/。这些结果激励了许多来自言语社区的研究人员扩展他们的视觉信息方法。鉴于隐马尔可夫模型(HMM)在当时言语社区的突出地位[99],许多早期AVSR模型基于各种HMM扩展[25],[26]并不奇怪。虽然现在对虚拟现实的研究并不常见,但它已经引起了深度学习社区的重新关注[157]。
虽然语音识别的最初设想是在所有情况下提高语音识别性能(例如,单词错误率),实验结果表明,视觉信息的主要优势是当语音信号有噪声时(即低信噪比)[78],[157],[251]。换句话说,捕获的模态之间的交互是补充的,而不是互补的。在两种情况下捕获了相同的信息,提高了多模态模型的鲁棒性,但没有提高无噪声情况下的语音识别性能。
多模态应用的第二个重要类别来自多媒体内容索引和检索领域[11],[196]。随着个人电脑和互联网的发展,数字化多媒体内容的数量急剧增加[2]。虽然早期索引和搜索这些多媒体视频的方法是基于关键词的[196],但是当人们试图直接搜索视觉和多模态内容时,出现了新的研究问题。这引发了多媒体内容分析新的研究课题,如视频边界检测[128]和视频摘要[55]。这些研究项目得到了美国国家标准技术研究所(National Institute of Standards and Technologies)TrecVid计划的支持,该计划引入了许多高质量的数据集,包括2011年开始的多媒体事件检测(MED)任务[1]。
第三类应用建立于21世纪初,围绕新兴的多模态交互领域,其目标是理解人类在社会交互过程中的多模态行为。在这一领域收集的第一批里程碑式的数据集之一是AMI会议语料库,其中包含了100多个小时的会议视频记录,所有这些都经过了完全转录和注释[34]。另一个重要的数据集是SEMAINE语料库,用于研究说话者和听者之间的人际关系[144]。该数据集构成了2011年组织的第一次视听情感挑战(AVEC)的基础[186]。情感识别和情感计算领域在2010年代初蓬勃发展,这要归功于自动人脸检测、面部标志检测和面部表情识别方面的强大技术进步[48]。此后,AVEC挑战赛每年都会举行,之后挑战赛的示例包括医疗保健应用,如抑郁和焦虑的自动评估[217]。D’Mello等人发表了一篇关于多模态情感识别最新进展的综述。他们的多元分析得出,最近大多数关于多模态情感识别的工作表明,当使用一种以上的模态时,这种改善会有所提高,但当识别自然发生的情绪时,这种改善会减少。
最近,出现了一种强调语言和视觉的多模态应用新类别:媒体描述。最具代表性的应用之一是图像字幕,其任务是生成输入图像的文本描述[86]。这是由于这些系统能够帮助视障人士完成日常任务[21]。最近,从文本[37],[178]逆向生成任务媒体的研究取得了进展。媒体描述和生成面临的主要挑战是评估:如何评估预测的描述和媒体的质量。视觉问答的任务(VQA)最近被提出,通过提供正确的答案来解决某些评估挑战[9]。
为了将提到的一些应用带到现实世界中,我们需要解决多模态机器学习面临的一些技术挑战。我们在表1中总结了上述应用领域的相关技术挑战。最重要的挑战之一是多模态表示,这是我们下一节的重点。
文章图片
1.3 多模态表示 在机器学习中,将数据表示成计算模型可以直接使用的格式一直是一个挑战。Bengio等人[19]之后,我们交替使用表征、特征和表示三个术语,每个用一个实体的矢量或张量表示,可以是一个图像,音频样本,单个词,或一个句子。多模式表示是试图通过各模态的信息找到某种对多模态信息的统一表示。多模态表示存在许多困难:如何结合不同来源的数据;
如何处理不同程度的噪音;
以及如何处理丢失的数据。以有意义的方式表示数据的能力对多模态问题至关重要,并且构成了任何模型的主干。
良好的表征对于机器学习模型的性能非常重要,最近语音识别[82]和视觉对象分类[114]系统的性能突飞猛进就是证明。Bengio等人[19]确定了良好表征的一些特性:平滑性、时间和空间一致性、稀疏性和自然聚类。Srivastava和Salakhutdinov [206]确定了多模态表示的其他可取特性: 在表征空间的相似性应能够反映出表征所对应的概念的相似性,即使在某些模态数据缺失的情况下,这种多模态的表征依旧能够轻松获得,最后,应能够在给出被观察到的其他模态的数据后,填补出缺失的模态数据。
单模态表示的发展已被广泛研究,[4],[19],[127]。在过去的十年中,已经出现了从为特定应用程序手工设计到数据驱动的转变。例如,21世纪初最流行的一种表示图像的方法是通过一个视觉单词包来表示手动设计的特征,如比例不变特征变换(SIFT)[132]。然而,目前大多数图像(或它们的部分)使用描述来表示,这些描述是使用神经体系结构从数据中学习到的,如卷积神经网络(CNN)[114]。同样,在音频领域,诸如梅尔频率倒频谱系数(MFCC)的声学特征已经被语音识别中的数据驱动深度神经网络[82]和用于辅助语言分析的递归神经网络[216]所取代。在自然语言处理中,文本特征最初依赖于计算文档中的单词出现次数,但现在已经被利用单词上下文的数据驱动单词嵌入所取代[146]。虽然已经有大量关于单模态表示的工作,但直到最近,大多数多模态表示都涉及单模态表示的简单连接[52],但这种情况一直在迅速变化。
为了帮助理解工作的广度,我们提出了两种类型的多模态表示:联合表示和协调表示。联合表示将单模态信号组合到相同的表示空间中,而协调表示单独处理单模态信号,但对它们施加某些相似性约束,以将它们带到我们称为协调空间的地方。在图1中可以看到不同的多模态表示类型。
文章图片
在数学上,联合表示为:
x_m=f(x_1,…,x_n ), (1)
其中多模态表示x_m使用函数f计算(例如,一个深度神经网络,限制玻尔兹曼机,或递归神经网络),它依赖于单模态表示x_1,…,x_n。而协调的代表性如下:
f(x_1 )~g(x_2) (2)
其中,每个模态都有对应的投影函数(f和g以上),该函数将其映射到协调的多模态空间中。虽然对多模态空间的投影对于每个模态都是独立的,但是生成的空间在它们之间是协调的(表示为~)。这种协调的例子包括最小化余弦距离[64],最大化相关性[7],以及在结果空间之间实施偏序[220]。
1.3.1 联合表示
我们从将单模态表示一起投影到多模态空间的联合表示开始讨论(等式1)。联合表示主要(但不是唯一)用于在训练和推理步骤中存在多模态数据的任务。联合表示的最简单的形式是各个模态特征的串联(也称为早期融合[52])。在本节中,我们将讨论从神经网络开始的更高级的创建联合表示的方法,然后是概率图模型和递归神经网络(代表性的工作可以在表2中看到)。
文章图片
神经网络已经成为一种非常流行的单模态数据表示方法[19]。它们被用来表示视觉、听觉和文本数据,并且越来越多用于多模态领域[157],[163],[225]。在本节中,我们将描述神经网络如何用于构建联合多模态表示,如何训练它们,以及它们提供了哪些优势。
一般来说,神经网络由连续的内积块和非线性激活函数组成。为了使用神经网络表示数据,首先训练它来执行特定的任务(例如,识别图像中的对象)。由于深层神经网络具有多层网络的性质,假设每个连续层以更抽象的方式表示数据[19],因此,通常使用最后或倒数第二个神经层作为数据表示形式。为了使用神经网络构建多模态表示,每个模态从几个单独的神经层开始,然后将模态投影到空间中的隐藏层,该隐藏层将模态投影到联合空间[9]、[150]、[163]、[235]。然后,联合多模态表示通过多个隐藏层或者直接用于预测。这种模型可以进行端到端的训练——既学习表示数据,又学习执行特定的任务。这使得在使用神经网络时,多模态表示学习和多模态融合之间有着密切的关系。
由于神经网络需要大量标记的训练数据,通常使用无监督训练(例如,使用自动编码器模型[12],[83])或来自不同但相关的领域的有监督数据来对此类表示进行预训练[9],[221]。Ngiam等人[157]提出的模型将使用自动编码器的思想扩展到多模态领域。他们使用堆叠去噪自动编码器来分别表示每个模态,然后使用另一个自动编码器层将它们融合成多模态表示。类似地,Silberer和Lapata [191]提出使用多模态自动编码器来完成语义概念基础的任务(见第7.2节)。除了使用重建损失来训练表示之外,他们还在损失函数中引入了一个项(term),该损失函数使用表示来预测对象标签。
基于神经网络的联合表示的主要优势在于当标记数据不足以进行监督学习时,它们能够从未标记的数据进行预训练。对手头的特定任务进行结果表示的微调也是很常见的,因为用无监督数据构造的表示是通用的,不一定是特定任务的最佳表示[225]。缺点之一在于模型不能自然地处理丢失的数据——尽管有办法减轻这个问题[157],[225]。最后,深层网络通常难以训练[72],但该领域正在利用新技术,如改进的正则化[204],批量归一化[92]和自适应梯度算法[109]取得进展。
概率图模型可以通过使用潜在的随机变量来构建表示[19]。在本节中,我们描述了概率图模型是如何用来表示单模态和多模态数据的。一种表示数据的方法是通过深层玻尔兹曼机器(DBM)[183],限制玻尔兹曼机 (RBM)[84]堆叠为构造块。与神经网络类似,DBM的每个连续层都期望在更高的抽象级别表示数据。DBMs的吸引力在于它们不需要监督数据进行训练[183]。由于它们是概率图模型,数据的表示是概率性的,然而,有可能将它们转换成确定性神经网络——但这失去了模型的生成特性[183]。
Srivastava和Salakhutdinov [205]引入了多模态深层信念网络和多模态DBMs [206]作为多模态表示。Kim等人[108]对每种模态使用深度信念网络,然后将它们组合成视听情感识别的联合表示。Huang和Kingsbury [89]对AVSR使用了类似的模型,而Wu等人[233]对基于音频和骨骼关节的手势识别使用了类似的模型。Ouyang等人[163]探索了使用多模态DBMs从多视角数据进行人体姿态估计。他们证明了在后期——在单模态数据经历非线性变换之后——整合数据对模型是有益的。类似地,Suk等人[207]使用多模态DBM表示从正电子发射断层扫描和磁共振成像数据进行阿尔茨海默病分类。
使用多模态DBMs学习多模态表示的一大优势是它们的生成性,这使得处理缺失数据的方法变得简单——即使整个模态缺失,模型也有自然的应对方式。它还可以用于在一种模态存在的情况下生成另一种模态的样本,或者从表示中生成两种模态的样本。与自动编码器类似,可以使用未标记的数据在无监督的情况下进行训练。DBMs的主要缺点是难以训练它们——高计算成本和需要使用近似变分训练方法[206]。
序列模型。到目前为止,我们已经讨论了可以表示固定长度数据的模型,但是,我们经常需要表示长度可变的序列,如句子、视频或音频流。递归神经网络(RNNs)及其变体,如长短期记忆(LSTMs)网络[85],最近因其在各种任务的序列建模中的成功而获得了广泛的应用[13],[222]。到目前为止,RNNs主要用于表示单词、音频或图像的单模态序列,在语言领域最为成功。与传统神经网络类似,RNN的隐藏层可以看作是数据的表示,即RNN在时间步长t的隐藏状态可以看作是直到该时间步长之前的序列的汇总。这在RNN编码器-解码器框架中尤其明显,在该框架中,编码器的任务是让解码器能够重构RNN的隐藏层来表示序列[13],[244]。
RNN表示的使用并不限于单模态。使用RNNs构建多模态表示的早期应用来自Cosi等人对VSR的研究。它们也被用于表示情感识别的视听数据[39],[158],以及用于表示人类行为分析的多视图数据,例如不同的视觉线索[173]。
1.3.2 协调表示
联合多模态表示的替代方法是协调表示。不是将模态一起投影到联合空间中,而是为每个模态学习单独的表示,但是通过约束来协调。我们从加强表示之间相似性的协调表示开始讨论,接着讨论在结果空间上加强更多结构的协调表示(这种协调表示的代表性作品可以在表2中看到)。
相似性模型使协调空间中模态之间的距离最小。例如这样的模型支持:用单词狗和狗的图像之间的距离要比单词狗和汽车图像之间的距离小[64]。这种表述最早的例子之一来自Weston等人[229],[230]关于WSABIE(通过图像嵌入的网络尺度标注)模型的研究,该模型为图像及其标注构建了协调空间。WSABIE从图像和文本特征构建了简单的线性映射,使得对应的标注和图像表示之间的内积比非对应的内积更高(余弦距离更小)。
最近,神经网络由于其学习表示的能力,已经成为构建协调表示的一种流行方式。它们的优势在于它们可以以端到端的方式协同学习协调表示。这种协调表示的一个例子是DeViSE——一种深度视觉语义嵌入[64]。DeViSE使用与WSABIE类似的内积和排名损失函数,但使用更复杂的图像和单词嵌入。Kiros等人[110]通过使用LSTM模型和成对排序损失来协调特征空间,将其扩展到句子和图像的协调表示中。Socher等人[199]解决了同样的任务,但是将语言模型扩展到依赖树RNN,以包含组合语义。Pan等人[166]也提出了类似的模型,但是使用视频代替图像。Xu等人[239]也使用主语、动词、宾语合成语言模型和深层视频模型,在视频和句子之间构建了协调空间。然后将这种表示用于跨模态检索和视频描述。
虽然上述模型加强了表示之间的相似性,但是结构化的协调空间模型超越了这一点,并且加强了模态表示之间的附加约束。结构约束类型通常基于不同的任务,对散列、跨模式检索和图像字幕有不同的约束。
结构化协调空间通常用于跨模式散列——将高维数据压缩成紧凑的二进制代码,其中相似的二进制代码用于相似的对象[226]。跨模式散列的思想是为跨模式检索创建这样的代码[28],[97],[118]。散列对最终的多模态空间施加了一定的约束:1)它必须是一个N维汉明空间——一个具有可控位数的二进制表示;2)来自不同模态的同一对象必须具有相似的散列码;3)空间必须保持相似性。学习如何将数据表示为散列函数需要实现这三个要求[28],[118]。例如,Jiang和Li[96]提出了一种使用端到端可训练的深度学习技术来学习句子描述和相应图像之间的这种公共二元空间的方法。而Cao等人[33]将该方法扩展为更复杂的句子表示,并引入了离群点不敏感的位边距损失和基于相关性反馈的语义相似性约束。类似地,Wang等人[227]构建了一个意义相近的图像(和句子)彼此更接近的协调空间。
结构化协调表示的另一个例子来自图像和语言的顺序嵌入[220],[257]。Vendrov等人提出[220]非对称的相异度度量的模型,并在多模态空间中实现偏序的概念。其想法是捕捉语言和图像表达的部分顺序——在空间上实施层次结构;例如“女人遛狗”的图像→文字“女人遛狗”→文字“女人遛狗”。Yang等人[246]还提出了一个使用外延图的类似模型,其中外延图用于诱导偏序。最后,Zhang等人介绍了如何利用文本和图像的结构化表示,以无监督的方式创建概念分类[257]。
结构化协调空间的一个特例是基于典型相关分析(CCA) [87]。CCA计算线性投影,该投影最大化两个随机变量之间的相关性(在我们的情况下为模态),并加强新空间的正交性。CCA模型已被广泛用于跨模式检索[79],[111],[176]和视听信号分析[184],[195]。CCA的扩展试图构建一个最大化非线性投影的相关性[7],[121]。核典型相关分析(KCCA) [121]使用再生核希尔伯特空间进行投影。然而,由于该方法是非参数化的,它与训练集的规模不匹配,并且在非常大的真实数据集上也存在问题。深度典型相关分析(DCCA) [7]作为KCCA的替代方法被引入,它解决了可伸缩性问题,还被证明可以获得更好的相关表示空间。类似的对应自动编码器[61]和深度对应RBMs [60]也被提出用于跨模态检索。
CCA、KCCA和DCCA是无监督的技术,仅优化了表示之间的相关性,因此主要是捕捉模式之间共享的内容。深度正相关自动编码器[228]还包括基于自动编码器的数据重建项,捕获模态特定的信息。语义相关性最大化方法[256]也鼓励语义相关性,同时保持相关性最大化和结果空间的正交性——这导致了CCA和跨模式散列技术的结合。
1.3.3 讨论
在本节中,我们确定了两种主要类型的多模态表示形式——联合表示和协调表示。联合表示将多模态数据投影到一个公共空间,适合推理过程中所有模态都存在的情况。它们被广泛用于听觉视觉双模态语音识别AVSR、情感分析和多模态手势识别。另一方面,协调表示将每个模态投影到一个独立但协调的空间中,适用于测试时只有一个模态的任务,例如:多模态检索和转换(第4节)、基础(第7.2节)和零镜头学习(第7.2节)。此外,虽然联合表示已被用于构建两种以上模态的表示,但协调空间迄今为止大多局限于两种。最后,我们讨论的多模态网络在大部分是静态的,将来,我们可能会看到更多关于模态驱动的网络结构应用于另一种模态的工作[6]。
1.4 转换
文章图片
文章图片
多模态机器学习的很大一部分是关于从一种模态到另一种模态的转换(映射)。给定一种模态的实体,任务是生成不同模态的相同实体。例如,给定一个图像,我们可能想要生成描述它的句子,或者给定一个文本描述生成与之匹配的图像。多模态翻译是一个需要长期研究的问题,早期的工作包括语音合成[91],视觉语音生成[141],视频描述[112],和跨模态检索[176]。
最近,由于计算机视觉和自然语言处理(NLP)社区[20]的共同努力以及大型多模态数据集[40],[214]的通用性,多模态转换重新引起了人们的关注。视觉场景描述也被称为图像字幕[223]和视频字幕[222],它是许多计算机视觉和自然语言处理问题的理想测试平台。为了解决这个问题,我们不仅需要充分理解视觉场景并识别其显著部分,还需要用语法正确、全面且简洁的句子来描述它。
虽然多模态翻译的方法非常广泛,而且往往是特定模态的,但它们有许多共同的统一因素。我们将其分为两种类型——基于示例的模型和生成的模型。基于示例的模型在模态之间进行转换时需要使用字典。另一方面,生成模型构建了一个能够产生转换的模型。这种区别类似于非参数和参数机器学习方法之间的区别,如图2所示,表3总结了典型的例子。
文章图片
文章图片
生成模型的构建可能更具挑战性,因为它们需要生成信号或符号序列(如句子)的能力。这对于任何模态——视觉的、听觉的或语言的——都是困难的,尤其是当需要产生时间上和结构上一致的序列时。这导致许多早期的多模态翻译系统依赖于基于示例的翻译。然而,随着能够生成图像[178]、[218]、声音[161]、[164]和文本[13]的深度学习模型的出现,这种情况已经发生了变化。
1.4.1 基于示例的模型
基于示例的算法受其训练数据——字典的约束(参见图2a)。我们又可以细分为两类:基于检索的模型和基于组合的模型。基于检索的模型直接使用检索字典所对应的转换,而不进行修改,而基于组合的模型依赖于更复杂的规则来对多个检索到的示例进行转换。
基于检索的模型可以说是最简单的多模态转换形式。它们依靠在字典中找到最接近的样本,并将其作为翻译结果。可以在单模态空间或中间语义空间进行检索。
给定要转换的源模态实例,单模态检索在源空间的字典中查找最接近的实例,例如图像的视觉特征空间。这种方法已经被用于视觉语音合成,检索最接近匹配的视觉示例所需音素(visual example of the desired phoneme)[27]。它们也被用于连接文本到语音系统[91]。最近,Ordonez等人[162]使用单模态检索,通过使用全局图像特征检索候选字幕来生成相应的图像描述[162]。Yagcioglu等人[240]使用基于CNN的图像表示,使用自适应邻域选择来检索视觉上相似的图像。Devlin等人[51]证明,与更复杂的生成方法相比,具有相同字幕选择的简单knearest近邻检索获得的转换结果更具有竞争力。这种单模态检索方法的优点在于,它们仅需要单个模态的表示。然而,后续可能需要额外的多模态后处理步骤,例如重新排列检索到的翻译[140]、[162]、[240]。这表明该方法存在一个主要问题——单模态空间中的相似性检索并不总是意味着好的转换。
另一种方法是在检索过程中使用中间语义空间进行相似性比较。手工语义空间是Farhadi等人使用的早期示例。它们将句子和图像映射到一个包含对象、动作、场景的空间中,然后在该空间中检索图像的相关标题。与手工制作表示相反,Socher等人[199]学习句子的协调表示和CNN视觉特征 (参见第3.2节协调空间的描述)。他们使用该模型进行文本到图像的转换以及图像到文本的转换。类似地,Xu等人[239]使用视频及其描述的协调空间进行跨模态检索。Jiang和Li[97]和Cao等人[33]使用跨模态散列来进行从图像到句子以及从句子到图像的多模态翻译,而Hodosh等人[86]使用多模态KCCA空间进行图像句子检索。Karpathy等人[103]提出了一种多模态相似性度量算法,该度量将图像片段(视觉对象)与句子片段(依赖树关系)进行内部对齐,而不是在公共空间全局对齐图像和句子。
语义空间中的检索方法往往比单模态检索方法表现得更好,因为它们是在更有意义的空间中检索示例,该空间反映了两种模态,并且通常针对检索进行了优化。此外,它们允许双向转换,这对于单模态检索方法来说并不简单。然而,它们需要人工构造或学习这样的语义空间,这通常依赖于大型训练字典(成对样本的数据集)的存在。
基于组合的模型将基于检索的方法向前推进了一步。他们不只是从字典中检索示例,而是以一种更有意义的方式将它们结合起来,以便更好的进行转换。基于组合的媒体描述方法的动机是对图像的句子描述共享一个可利用的相同且简单的结构。最常见的组合规则是基于手工制作或基于启发式。
Kuznetsova等人[119]首先检索描述视觉上相似图像的短语,然后通过使用整数线性规划和手工规则将它们组合起来,以生成查询图像的新的描述。Gupta等人[77]首先找到与源图像最相似的k个图像,然后使用从其图像说明中提取的短语来生成目标句子。Lebret等人[124]使用基于CNN的图像表示来推断描述它的短语。然后使用三元组合约束的语言模型来组合预测的短语。
基于示例的转换方法面临的一个大问题是,模型就是整个字典——这使得模型很大,并且推理速度变慢(尽管诸如散列之类的优化减轻了这个问题)。基于示例的转换面临的另一个问题是,期望字典中始终存在与源示例相关的单一全面且准确的转换是不现实的,除非任务非常简单或字典非常复杂。这一问题能通过构建更复杂的结构组合模型来解决。然而,它们只能进行一个方向的转换,而基于语义空间检索的模型可以在两个方向上进行转换。
1.4.2 生成式模型
生成式的多模态转换模型可以在给定单模态示例的情况下执行多模态转化。这是一个具有挑战性的问题,因为它既需要了解源模态,又需要生成目标序列或信号。正如下一节所讨论的,由于可能的正确答案空间很大,使得此类方法的评估更加困难。
在调查中,我们重点关注三种模态:语言、视觉和声音的生成。语言生成的研究已经有很长时间了[177],最近注意力集中在图像和视频描述等任务上[20]。语音和声音的生成也有很多已有的研究[91]和方法[161],[164]。逼真的图像生成的研究较少,仍处于早期阶段[137],[178],然而,已经有许多生成抽象场景[261],计算机图形[47]和传声头像(talking heads)的尝试[5]。
我们确定了三大类生成式模型:基于语法的、编码器-解码器和连续生成模型。基于语法的模型通过使用语法限制目标域来简化任务,例如,通过基于基于主题,对象,动词模板生成受限句子。编码器-解码器模型首先将源模态编码为潜在表示,然后由解码器使用该潜在表示来生成目标模态。连续生成模型根据源模态输入流连续生成目标模态,最适合在时间序列之间进行翻译,例如文本到语音之间的转换。
基于语法的模型依赖于预定义的语法来生成特定的模态。首先,它们从源模态中检测高级概念,例如图像中的对象和视频中的动作。然后,将这些检测与基于预定义语法的生成过程结合在一起,以产生目标模态。
Kojima等人[112]提出了一种使用检测到的人的头部和手的位置以及基于规则的自然语言生成来描述视频中的人类行为的系统,该系统结合了概念和动作的层次结构。Barbu等人[15]提出了一个视频描述模型,该模型生成以下形式的句子:谁对谁做了什么,在哪里做的以及是如何做的。该系统基于手工制作的对象和事件分类器,并使用了适合该任务的受限语法。Guadarrama等人[76]使用语义层次来预测描述视频的主语、动词、宾语三元组,在不确定的情况下使用更通用的词。结合语言模型,他们的方法允许对字典中没有的动词和名词进行转换。
为了描述图像,Yao等人[243]提出基于与或图的模型和特定领域的词汇化语法规则,目标视觉表示方案以及分层知识本体一起使用的方法。Li等人[126]首先检测对象、视觉属性和对象之间的空间关系。然后,他们对从视觉上提取的短语使用n-gram语言模型来生成主语、介词和宾语风格的句子。Mitchell等人[147]使用一种更复杂的基于树的语言模型来生成语法树,而不是填充模板,从而导致描述更加多样化。大多数方法将整个图像联合表示为一个视觉对象包,而没有捕捉它们的空间和语义关系。为了解决这个问题,Elliott等人[53]提出为图像描述生成显示的建模对象的邻近关系。
一些基于语法的方法依赖于图形模型来生成目标模态。比如BabyTalk [117],它给定一个图像生成(主语、介词,宾语)这些三元组与条件随机场一起用来构造句子。Yang等人[241]利用从图像中提取的视觉特征来预测一组名词、动词、场景、介词等候选词,并使用统计语言模型和隐马尔可夫模型将它们组合成句子。Thomason等人[213]也提出了类似的方法,其中因子图模型被用于视频中的主语、动词、宾语、地点等的描述。因子模型利用语言统计来处理有噪声的视觉表示。另一方面,Zitnick等人[261]提出利用条件随机域,根据从句子中提取的语言三元组生成抽象的视觉场景
基于语法的方法的一个优点是,当它们使用预定义的模板和受限的语法时,它们更有可能生成语法上(就语言而言)或逻辑上正确的目标实例。然而,这限制他们公式化转换,而非创造性转换。此外,基于语法的方法需要于复杂的流水线进行概念检测,每个概念都需要单独的模型和单独的训练数据集。
基于端到端训练神经网络的编码器-解码器模型是目前最流行的多模态翻译技术之一。该模型的主要思想是首先将源模态编码为矢量表示,然后使用解码器模块生成目标模态,所有这些都在单通道管道中完成。尽管这种模型最初用于机器翻译[101],[208],但目前已经成功地用于图像字幕[139],[223]和视频描述[181],[222]。虽然编码器-解码器模型主要用于生成文本,但它们也可以生成图像[137]、[178]以及语音和声音[161]、[164]。
编码器-解码器模型的第一步是对源对象进行编码,这是以模态特定的方式完成的。常用的编码声音信号模型包括RNNs [36]和DBNs [82]。大多数关于单词和句子编码的工作使用了分布语义[146]和RNNs的变体[13]。图像通常使用卷积神经网络进行编码[114],[193]。虽然有学习视频表示的方法[59],[192],但仍然使用着手工制作的特征[181],[213]。虽然可以使用单模态表示法来编码源模态,但已有证明使用协调空间(见第3.2节)会产生更好的结果[110],[166]。
解码通常由RNN或LSTM使用编码表示形式作为初始隐藏状态来执行[56]、[137]、[223]、[223]。为了帮助完成转换工作,对传统的LSTM模式提出了许多扩展。引导向量可用于紧密耦合图像输入中的解[95]。Venugopalan等人[222]证明,在对图像字幕进行微调以适应视频描述之前,对解码器LSTM进行预训练是有益的。Rohrbach等人[181]研究了各种LSTM体系结构(单层、多层、分解)的使用,以及用于视频描述任务的大量训练和正则化技术。
使用RNN生成转换面临的一个问题是,模型必须从图像、句子或视频的单个矢量表示中生成描述。这在生成长序列时变得特别困难,因为这些模型往往会忘记初始输入。通过在解码器[95]的每个步骤中包含编码信息,已经部分解决了这个问题。注意力模型(见第5.2节)也提出,允许解码器在生成过程中更好地聚焦于图像[238]、句子[13]或视频[244]的某些部分。
基于注意力的生成神经网络也被用于从句子中生成图像的研究[137],尽管结果远未达到照片的真实性,但仍显示出很大的前景。最近,在使用生成式对抗网络生成图像方面取得了很大进展[74],该网络被用作从文本生成图像的RNNs的替代[178]。
虽然基于神经网络的编码器-解码器系统已经非常成功,但它们仍然面临着许多问题。Devlin等人[51]观察到k近邻模型与基于生成式模型的表现相似,认为网络可能是在记忆训练数据,而不是学习如何理解视觉场景并生成它。此外,这种模型通常需要大量数据进行训练。
连续生成模型用于序列转换,并以在线方式在每个时间步长产生输出。这些模型在从一个序列转换到另一个序列如文本到语音、语音到文本、视频到文本转换时非常有用。对于这种建模,已经提出了许多不同的技术——图形模型、连续编码器-解码器方法以及各种其他回归或分类技术。这些模型需要解决的困难是模态之间的时间一致性要求。
在序列到序列转换方面的许多早期工作都使用了图形或潜在变量模型。Deena和Galata [49]提出使用共享高斯过程潜在变量模型进行基于音频的可视语音合成。该模型在音频和视觉特征之间创建了一个共享的潜在空间,可用于一个空间生成另一个空间,同时在不同的时间步长加强视觉语音的时间一致性。隐马尔可夫模型也被用于视觉语音生成[212]和文本到语音[253]的研究。它们还被扩展到使用集群自适应训练,以允许对多个说话者、语言和情绪进行训练,从而在生成语音信号[252]或视觉语音时能够进行更多的控制[5]。
最近,编码器-解码器模型在序列到序列建模中变得很流行。Owens等人[164]使用LSTM生成基于视频的鼓槌产生的声音。虽然他们的模型能够通过预测CNN视觉特征的共轴图来产生声音,但他们发现基于预测的共轴图检索最近的音频样本会产生最佳结果。van den Oord等人[161]提出将原始音频信号直接建模用于语音和音乐生成。作者提出使用分层全卷积神经网络,这种网络在语音合成任务上较以前的水平有了很大的改进。RNNs也被用于语音到文本的翻译(语音识别)[75]。最近,基于编码器-解码器的连续方法被证明能够很好地从滤波器组频谱的语音信号中预测字母[36],从而能够更准确地识别罕见和已有词汇外的单词。Collobert等人[44]演示了如何直接使用原始音频信号进行语音识别,消除了对音频特性的需求。
许多早期工作使用图模型在连续信号之间进行多模态转换。然而,这些方法正被基于神经网络的编码器-解码器技术所取代。特别是它们最近被证明能够表现和产生复杂的视觉和听觉信号。
1.4.3 模型评估和讨论
多模态翻译转换方法面临的主要挑战是它们很难评估。某些任务(例如语音识别)只有一个正确的翻译,但有些任务(例如语音合成和媒体描述)却没有。有时,在语言翻译中多个答案是正确的,而决定哪种翻译更好通常是主观的。幸运的是,有许多近似的自动度量来帮助模型进行评估。
通常评价一项主观任务的理想方式是通过人的判断。那就是让一群人来评估每种转换。这可以在李克特量表上完成,其中每种转换在某个维度上进行评估:语音合成的自然度和平均意见得分[161],[252],视觉语音合成的真实性[5],[212],以及媒体描述的语法和语义正确性、相关性、顺序和细节[40],[117],[147],[222]。另一个选择是进行偏好研究,将两个(或更多)转换给参与者用于偏好比较[212],[252]。然而,尽管用户研究结果最接近人类判断的评估,但它们是耗时且昂贵的。此外,在构建和实施时需要小心,以避免流畅性、年龄、性别和文化偏见的影响。
虽然人类研究是评估的黄金标准,但也有人提出了一些替代方法来完成媒体描述的任务:如BLEU [167]、ROUGE [129]、Meteor [50]和CIDEr [219]。然而,它们遭到了许多批评,并已被证明不能很好地符合人类的判断[54],[90]。
Hodosh等人[86]提出使用检索作为图像字幕评价的替代,作为更好地反映人类判断的方法。基于检索的系统不是生成字幕,而是根据可用字幕与图像的匹配程度对其进行排名,然后通过评估正确的字幕是否被赋予较高的排名来进行评估。由于许多字幕生成模型都是可生成的,因此它们可以直接用于评估给定图像的字幕的可能性,并且可以被图像字幕社区[103],[110]所采用。视频字幕社区也采用了这种基于检索的评估标准[182]。
视觉问答(VQA) [135]任务的提出部分原因是由于图像字幕评估面临的问题。VQA给定图像和有关其内容的问题,系统必须回答该问题。由于存在正确答案,评估这样的系统更容易,从而将任务转化为多模态融合(见第6节)而不是简单的转换。图像共同参照方法[113],[138]也被提出解决这种模糊性,通过将任务定为多模态对齐任务,以解决这种歧义(参见第5节)。
我们认为解决评估问题对于多模态转换系统的进一步成功至关重要。这不仅可以更好地比较各种方法,还可以更好的实现优化目标。
1.5 对齐
文章图片
我们将多模态对齐定义为从两个或多个模态中查找实例的子组件之间的关系和对应关系。例如,给定一幅图像和一个标题,我们希望找到图像中与标题的单词或短语相对应的图像区域[102]。再比如,给定一部电影,将其与它所对应的剧本或书籍章节对齐[260]。对于多媒体检索尤其重要,因为它能够基于文本搜索视频内容,例如找到电影中出现特定角色的场景,或者找到包含蓝色椅子的图像。
我们将多模态对齐分为两种类型——隐式对齐和显式对齐。在显式对齐中,我们的主要目标是对齐模态之间的子组件,例如,将配方步骤与相应的教学视频对齐[136]。隐式对齐被用作另一任务的中间(通常是潜在的)步骤,例如,基于文本描述的图像检索可以包括单词和图像区域之间的对齐步骤[103]。此类方法的概述见表4,并在下面的章节中详细介绍。
文章图片
1.5.1 显式对齐
如果论文的主要建模目标是来自两种或多种模态的实例子组件之间的对齐,则将其分类为执行显式对齐(performing explicit alignment)。显式对齐的一个非常重要的部分是相似性度量。大多数方法依赖于以不同方式度量子组件之间的相似性,将其作为基本构建块。这些相似性可以手动定义,也可以从数据中学习。我们确定了两种处理显式对齐的算法——无监督和(弱)监督的。第一种类型在来自不同模态的示例之间没有直接对准标记的情况下操作。第二种类型可以访问弱监督标签。
无监督多模态对齐解决了模态对齐问题,而不需要任何直接的对齐标签。大多数方法都是受早期统计机器翻译[29]和基因组序列[116],[151]的对齐工作的启发。为了使问题变得更容易,这些方法假定了一定的对齐约束,例如序列的时间顺序或模态之间的相似性度量。
动态时间规整(DTW) [116],[151] 是一种被广泛用于多视图时间序列对齐的动态编程方法。DTW测量两个序列之间的相似性,并通过时间规整(插入帧)找到它们之间的最佳匹配。它要求两个序列中的时间步长具有可比性,并且需要它们之间的相似性度量。通过手工制作模态之间的相似性度量,DTW可以直接用于多模态对齐;例如,Anguera等人[8]在字形和音素之间使用人工定义相似性;和Tapaswi等人[210]基于节目中相同角色的出现[210]来定义视觉场景和句子之间的相似性,以对齐电视节目和情节概要。类似DTW的动态编程方法也被用于文本到语音[80]和视频[211]的多模式对齐。
由于最初的DTW公式需要预先定义模态之间的相似性度量,因此使用典型相关分析(CCA)将其扩展映射到协调空间。这允许以无监督的方式联合对齐(通过DTW)和学习(通过 CCA)不同模态流之间的映射[187]、[258]、[259]。虽然基于CCA的DTW模型能够在线性变换下找到多模态数据对齐,但它们不能对非线性关系建模。这已经被深度规范时间规整方法[215]解决了,它可以被视为深度CCA和DTW的一般化。
多种图模型也普遍用于以无监督方式进行多模态序列对齐工作中。Yu和Ballard的早期工作[247]使用了一种生成图模型来将图像中的视觉对象与单词对齐。Cour等人[46]也采用了类似的方法,将电影镜头和场景与相应的剧本对齐。Malmaud等人[136]使用分解隐马尔可夫模型将食谱与烹饪视频对齐,而Noulas等人[160]使用动态贝叶斯网络将说话者与视频对齐。Naim等人[153]使用分层隐马尔可夫模型将句子与对应的帧对齐,并使用改进的IBM [29]对齐算法来对应单词和视频帧[16]。然后,这个模型被扩展到使用潜在条件随机字段来进行对齐[152],并且除了名词和对象之外,还将动词对齐结合到动作中[203]。
用于对齐的DTW和图模型方法都在对齐上进行了限制,例如时间一致性、时间上没有大的跳跃和单调性。虽然DTW扩展允许联合学习相似性度量和对齐,但基于图模型的方法需要专业知识来构建[46],[247]。
监督对齐方法依赖于标记对齐的实例。它们被用来训练用于调整模态的相似度量。
许多有监督的序列对齐技术都是从无监督的序列对齐技术中获得灵感的。Bojanowski等人[23],[24]提出了一种类似于规范时间规整的方法,利用现有(弱)监督对齐数据进行模型训练。Plummer等人[168]使用CCA来寻找图像区域和短语之间的协调空间进行对齐。Gebru等人[68]训练了高斯混合模型,并与无监督潜变量图模型一起执行半监督聚类,将音频中的说话者与其在视频中的位置对齐。Kong等人[113]训练了一个马尔可夫随机域来将3D场景中的对象与文本描述中的名词和代词对齐。
基于深度学习的方法越来越受欢迎,因为在语言和视觉社区中,最近出现了对齐的数据集[138],[168]。Zhu等人[260]通过训练CNN来比较场景和文本之间的相似性,从而将书籍与相应的电影/剧本对齐。Mao等人[138]使用LSTM语言模型和CNN视觉模型来评估图像中的对象的匹配质量。Yu等人[250]扩展了该模型,使之包括相对外观和上下文信息,以便更好地消除同类型对象之间的歧义。最后,Hu等人[88]使用基于LSTM的评分函数来比较图像区域与其描述之间的相似性。
1.5.2 隐式对齐
与显式对齐不同,隐式对齐被用作另一项任务的中间 (通常是潜在的) 步骤。这使得它在包括语音识别、机器翻译、媒体描述和视觉问答在内的许多任务中有更好的表现。这种模型不显式对齐数据,也不依赖于监督对齐示例,而是学习如何在模型训练期间潜在地对齐数据。我们确定了两种类型的隐式对齐模型:早期的基于图模型的方法,以及现代的神经网络方法。
图模型的一些早期工作用于更好地对齐机器转换的语言[224],以及对齐语音音素和它们的转录[194]。然而,它们需要手动构建模态之间的映射,例如将音素映射到声学特征的生成电话模型[194]。构建这样的模型需要训练数据或利用专业知识来手动定义它们。
神经网络转换(第4节)是建模任务的一个示例,如果将对齐作为潜在的中间步骤执行,则通常可以改进该任务。正如我们之前提到的,神经网络是解决这个转换问题的常用方法,要么使用编码器-解码器模型,要么通过跨模式检索。当在没有隐式对齐的情况下进行转换时,那么编码器模块就会付出很大的努力,以便能够用单个矢量表示来恰当地概括整个图像、句子或视频。
解决这个问题的一种常用的方法是通过注意力机制[13],它使得解码器关注源实例的子组件。这与在传统的编码器-解码器模型中将所有源子组件编码在一起形成了对比。注意力模块将告诉解码器更多地关注要转换的源目标子组件——图像区域[238]、句子中的单词[13]、音频序列的片段[36]、[41]、视频中的帧和区域[244]、[249],甚至部分指令[145]。例如,在图像字幕中,与使用CNN编码整个图像不同,注意力机制将允许解码器(通常是RNN)在生成每个连续单词时关注图像的特定部分[238]。学习图像的哪个部分被聚焦的注意力模块,通常是浅层神经网络,并且与目标任务(例如,转换)一起进行端到端的训练。
注意力模型也已经成功地应用于QA任务中,因为它们允许将问题中的单词与信息源的子组件对齐,例如一段文本[236]、一幅图像[65]或一段视频序列[254]。这使得准确性更高,并产生更好的模型可解释性[3]。特别是,已经有人提出了不同类型的注意力模型来解决这个问题,包括基于分层的[133]、基于堆叠的[242]和基于情节记忆注意的[236]。
Karpathy等人[102]、[103]提出了另一种将图像与字幕对齐用于跨模式检索的神经替代方法。他们提出的模型通过使用图像区域和单词表示之间的点积相似性度量将句子片段与图像区域对齐。虽然它没有用到注意力机制,但它通过训练检索模型间接学习到的相似性度量,提取模态之间的潜在对齐。
1.5.3 讨论
多模态对齐面临许多困难:1)具有显式对齐标注的数据集很少;2)很难在不同模态之间设计相似性度量;3)可能存在多种可能的对齐方式,并不是每一种模态中的所有元素在另一种模态中都具有对应。早期关于多模态对齐的工作集中于使用图模型和动态编程技术以无监督的方式对齐多模态序列。它依赖于人工定义的模态之间的相似性度量,或者在无监督的方式下学习它们。随着最近标记训练数据的可用性,模态之间相似性的监督学习已经成为可能。然而,学习联合对齐、转换或融合数据的无监督技术也变得流行起来。
1.6 融合
文章图片
多模态融合是多模态机器学习的原始主题之一,以前的研究都强调早期融合、晚期融合和混合融合方法[52],[255]。用专业术语来说,多模态融合是指将来自多个模态的信息进行整合,通过分类的类别(例如,快乐对悲伤),或者通过回归的连续值(例如,情绪的积极程度) 预测结果度量。这是多模态机器学习研究最多的方面之一,其工作可以追溯到25年前[251]。
对多模态融合研究的兴趣来自于它能提供的三个主要好处。首先,能够使用观察同一现象的多种模态,做出更好的预测。AVSR社区对此进行了探索和研究[170]。其次,拥有多种模态可能让我们获取互补的信息——这种信息在单模态中是不可见的。第三,当一个模态缺失时,多模态系统仍然可以运行,例如,当人不说话时,可以从视觉信号中识别情绪[52]。
多模态融合具有非常广泛的应用范围,包括视听语音识别(AVSR) [170]、多模态情感识别[200]、医学图像分析[93]和多媒体事件检测[122]。关于这个问题存在许多讨论[11],[170],[196],[255]。它们中的大多数专注于特定任务的多模态融合,如多媒体分析、信息检索或情感识别。相比之下,我们更专注于机器学习方法本身以及与这些方法相关的技术挑战。
虽然一些先前的工作使用多模态融合来描述所有的多模态算法,但是当在晚期预测阶段进行多模态融合时,我们将方法分类为融合,目的是预测结果度量。最近,对于诸如深度神经网络之类的模型,多模态表示和融合之间的界限已经变得模糊,其中,表示学习与分类或回归目标相互作用。
我们将多模态融合分为两大类: 模型无关的方法 (第6.1节);和基于模型(第6.2节)的方法,它们在构造中明确地解决了融合问题——比如基于内核的方法、图形模型和神经网络。这些方法的概述见表5。
文章图片
1.6.1 模型无关方法
早期绝大多数多模态融合都是使用模型无关的方法完成的[52]。这种方法可以分为早期融合(基于特征)、晚期融合(基于决策)和混合融合[11]。早期融合在各模态特征被抽取后就进行融合(通常只是简单的串联特征)。另一方面,晚期融合在每个模态已经做出决定(例如,分类或回归)。最后,混合融合结合了早期融合和晚期融合。模型无关的方法的一个优点是,它们可以使用几乎任何单模态分类器或回归器来实现。
早期融合可以被看作是多模态研究人员进行多模态表征学习的早期尝试——因为它可以学习利用每个模态的低级特征之间的相关性和相互作用。它也只需要对单个模型进行训练,与晚期融合和混合融合相比训练上更为简单。
相反,晚期融合在各个模态做出决策后才进行融合,得出最终的决策,例如平均[188],投票[149],基于信道噪声[170]和信号方差的加权[55],或学习模型[71],[175]。它允许对每个模态使用不同的模型,因为不同的预测器可以更好地对每种模式进行建模,从而实现更大的灵活性。此外,当一种或多种模态缺失时,预测会更容易,甚至允许在没有并行数据可用的情况下也可以进行训练。然而,晚期融合忽略了模态之间的低级交互作用。
混合融合试图在一个公共框架中利用上述两种方法的优点。它已经成功地用于多模态扬声器识别[234]和多模态事件检测[122]。
1.6.2 基于模型的方法
虽然模型无关的方法很容易使用单模态机器学习方法来实现,但是它们最终使用的技术不是为多模态数据设计的。在这一节中,我们描述了三类基于模型的多模态融合的方法: 多核学习、图模型和神经网络。
多核学习(MKL)方法是支持向量机(SVM)的扩展,它允许对不同的模态/数据视图使用不同的内核[73]。由于内核可以看作是数据点之间的相似性函数,因此多核学习中特定于模态的内核可以更好地融合异构数据。
MKL方法已经成为融合视觉描述符以进行对象检测的一种特别流行的方法[32],[69],直到最近才被深度学习方法所取代[114]。他们还发现了多模态情感识别[38]、[94]、[189]、多模态情感分析[169]和多媒体事件检测[245]的用途。此外,McFee和Lanckriet [142]提出使用MKL从声学、语义和社会观点数据对音乐艺术家进行相似性排序。最后,Liu等人[130]将MKL用于阿尔茨海默病分类中的多模态融合。它们的广泛适用性证明了这些方法在不同领域和不同模态中的优势。
除了内核选择方面的灵活性,MKL的一个优点是损失函数是凸形的,它允许使用标准优化包和全局最优解进行模型训练[73]。此外,MKL可以用于回归和分类。MKL的主要缺点之一是在测试期间依赖于训练数据(支持向量),导致推理速度慢和内存占用大。
图模型是另一类常用的多模态融合方法。在本节中,我们概述了使用浅层图形模型进行多模态融合工作。深度图模型如深度信念网络的描述可以在3.1节中找到。
大多数图模型可以分为两大类:生成模型——联合概率分布;或判别模型——条件概率分布[209]。早期图模型进行多模态融合的方法包括生成模型,如耦合模型[155]和阶乘隐马尔可夫模型[70]以及动态贝叶斯网络[67]。最近提出的多流隐马尔可夫模型方法提出了AVSR模态的动态加权[78]。
可以说生成模型已不再受条件随机场[120]等判别模型的欢迎,条件随机场牺牲了联合概率模型的预测能力。结合图像描述的视觉和文本信息,使用CRF模型来更好地分割图像[63]。CRF模型已被扩展到使用隐藏条件随机场对潜在状态进行建模[172],并已应用于多模式会议分割[180]。潜在变量判别图模型的其他多模态应用包括多视图隐藏CRF [202]和潜在变量模型[201]。最近,Jiang等人[97]已经证明了多模态隐藏CRF对于多媒体分类任务的好处。虽然大多数图模型的目标是分类,但CRF模型已经扩展为连续版本的回归[171],并应用于多模态设置的视听情感识别[14]。
图模型的好处是能够轻松利用数据的空间和时间结构,这使得它们非常适用于时间建模任务,如AVSR和多模态情感识别。它们还允许在模型中加入专业知识。经常会产生可解释的模型。
神经网络已被广泛用于多模态融合[157]。使用神经网络进行多模态融合的最早例子来自于AVSR的工作[170]。如今,它们被用来用于融合视觉和媒体问答[66],[135],[237],手势识别[156],情感分析[100],[159],和视频描述生成[98],[221]。浅层神经模型[66]和深层[159],[221]神经模型都已被用于多模态融合。
神经网络也已被用于通过使用RNNs和LSTMs来融合时间多模态信息。早期使用双向LSTM来进行视听情感分类[232]。最近,Wollmer等人[231]使用LSTM模型进行连续多模态情感识别,证明了其优于图模型和支持向量机的特点。同样,Nicolaou等人[158]也使用LSTMs进行连续情绪预测。他们提出使用LSTM来融合来自特定模态(声音和面部表情)的结果。
通过递归神经网络的接近模态融合已经被用于各种图像字幕问题,模型包括神经图像字幕[223],其中CNN模型使用LSTM语言模型进行解码,gLSTM [95]在每个时间步骤上将图像数据与句子解码结合在一起,将视觉和句子数据融合在联合表示中。Rajagopalan等人提出了多视图LSTM (MV-LSTM)模型。MV-LSTM模型允许在LSTM框架中灵活地融合模态,显式地模拟模态特异性和跨模态的相互作用。
深度神经网络方法在数据融合中的一大优势是它们能从大量数据中学习的能力。其次,最近的神经体系结构允许多模态表示组件和融合组件的端到端训练。最后,与基于非神经网络的系统相比,它们表现出良好的性能,并且能够学习其他方法难以达到的复杂决策边界。
神经网络方法的主要缺点是缺乏可解释性。很难判断这种预测依赖于什么,以及哪些模态或特征起着重要作用。此外,神经网络需要大量的训练数据集才能成功。
1.6.3 讨论
多模态融合已经成为一个广泛研究的课题,已经提出了大量的方法来解决它,包括模型无关方法、图模型、多核学习和各种类型的神经网络。每种方法都有自己的优缺点,有些更适合较小的数据集,而另一些在嘈杂的环境中表现更好。最近,神经网络已经成为处理多模态融合的一种非常流行的方法,但是图模型和多核学习仍然在使用,特别是在训练数据有限的任务中或者在模型可解释性非常重要的情况下。
尽管取得了这些进步,多模态融合仍然面临以下挑战:(1)信号可能不是时序对齐(可能是密集的连续信号和稀疏事件);(2)很难建立利用补充信息而不仅仅是互补信息的模型;(3)每种模态在不同的时间点可能表现出不同的噪声类型和不同的噪声水平。
1.7 协同学习 分类法中的最后一个多模态挑战是协同学习——通过利用来自(资源丰富的)模态的知识来帮助(资源稀缺的)模态的建模。当其中一种模态资源有限时——如缺少带注释的数据、有噪声和不可靠的标签,这一点尤其重要。我们称这种挑战为协同学习,因为大多数情况下,辅助模态仅在模型训练期间使用,而在测试期间不使用。我们根据他们的训练资源确定了三种类型的联合学习方法:并行数据、非并行数据和混合数据。并行数据方法需要训练数据集,其中一种模态的观测直接联系到从其他模态的观测。换句话说,不同模态之间的实例存在直接对应关系,例如在视听语音数据集中,视频和语音样本来自同一个说话者。相比之下,非并行数据方法不需要不同模态的观测之间的直接联系。这些方法通常通过在类别上使用重叠来实现协同学习。例如,在零次学习中,将传统的视觉对象识别数据集扩展为维基百科中的第二个纯文本数据集,以提高视觉对象识别的泛化能力。在混合数据设置中,模态通过共享模态或数据集进行连接。合作学习方法的概述见表6,数据并行性总结见图3。
文章图片
文章图片
1.7.1 并行数据
在并行的协同学习中,两种模态共享一组实例——音频记录以及相应的视频、图像和句子描述。这允许两种类型的算法利用这些数据来更好地建模: 协同训练和表征学习。
协同训练是当我们在多模态问题中标记样本很少时,创建更多标记的训练样本的过程[22]。基本思想是在每个模态中构建弱分类器,以使用未标记的数据标签相互引导。在Blum和Mitchell的开创性工作中,已经发现了更多基于网页本身和超链接的网页分类训练样本[22]。根据定义,该任务需要并行数据,因为它依赖于多模态样本的重叠。
协同训练已被用于统计分析[185]以构建更好的视觉检测器[125]和视听语音识别[42]。通过过滤掉不可靠的样本,它还被扩展到处理模态之间的分歧[43]。虽然协同训练是一种生成更多标记数据的强大方法,但它也会导致训练样本有偏差,从而导致过度拟合。
迁移学习是利用并行数据进行协作学习的另一种方式。多模态表示学习(第3.1节)方法,如多模态深玻尔兹曼机器[206]和多模态自动编码器[157]将信息从一种模态的表示传递到另一种模态的表示。这不仅会产生多模态表示,而且会产生更好的单模态表示,在测试期间只使用一种模态[157]。
Moon等人[148]展示了如何将信息从语音识别神经网络(基于音频)传输到唇语中(基于图像),产生更好的视觉表现,以及一个可以用于唇语而不需要测试的音频信息的模型。类似地,Arora和Livescu [10]使用声学和发音(嘴唇、舌头和下巴的位置)数据上的CCA建立了更好的声学特征。他们仅在CCA构建期间使用发音数据,并在测试期间使用结果声学(单模态)表示。
1.7.2 非并行数据
依赖于非并行数据的方法不要求模态具有共享实例,而只要求共享类别或概念。非并行的协同学习方法可以帮助学习表征,允许更好的语义概念理解,甚至进行目标识别。
迁移学习也可以在非并行数据上进行,并允许将信息从使用大量数据或无噪声的模态构建的表示中传输到数据稀缺或有噪声的模态来学习更好的表示。这种类型的转换学习通常是通过使用协调的多模态表示来实现(参见第3.2节)。例如,Frome等人[64]通过协调CNN视觉特征和word2vec文本特征[146],使用文本来改善图像分类的视觉表示。以这种方式训练的视觉表现会产生更有意义的错误——将物体误认为是相似类别的物体[64]。Mahasseni和Todorovic [134]演示了如何通过增强隐藏状态之间的相似性, 使用LSTM在3D骨架数据上训练的自动编码器来正则化基于LSTM的彩色视频。这种方法能够改进原始的LSTM,并在动作识别中达到最先进的性能。
概念接地指的不是单纯基于语言,而是基于视觉、声音、甚至嗅觉[17]等其他模态来学习语义含义或概念。虽然大多数概念学习方法纯粹是基于语言的,但人们所想表达的意思不仅仅是直接的语言,还基于我们的感觉运动经验和感知系统[18],[131]。人类语义知识严重依赖于感知信息[131],许多概念建立在感知系统的基础上,并不是纯粹的符号化[18]。这意味着纯粹从文本信息中学习语义可能不是最佳的,促使我们使用视觉或听觉线索为我们的语言表达奠定基础。
从Feng和Lapata [62]的工作开始,通常通过在表示[62],190之间找到一个共同的潜在空间,或者通过分别学习单模态表示,然后将它们连接起来,得到多模态表示[30],[105],[179],188。一旦构建了多模态表示,它就可以用于纯语言任务。Shutova [188]和Bruni等人[30]使用了接地表示,以更好地对隐喻和字面语言进行分类。这种表示对于测量概念上的相似性和关联性也很有用——识别两个单词或动作[179]在语义或概念上是如何相关的[31],[105],[190]。此外,概念不仅可以基于视觉信号,还可以基于听觉信号,从而导致更好的表现,尤其是在具有听觉关联的单词[107]上,甚至具有嗅觉关联的单词的嗅觉信号[106]上。最后,多模态对齐和概念接地之间有很多重叠,因为将视觉场景与其描述对齐会产生更好的文本或视觉表示[113],[168],[179],[248]。
概念接地已经被发现是提高任务性能的一种有效方法。它还表明,语言和视觉(或音频)是互补的信息来源,将它们组合到多模态模型中通常会提高性能。然而,接地并不总是导致更好的性能[106],[107],只有当接地与任务相关时才有意义,例如使用图像进行视觉相关概念的接地。
零次学习(ZSL)指的是在没有明确看到任何例子的情况下识别概念。例如,在从未见过(标记)猫的图像的情况下,在图像中对猫进行分类。这是一个需要解决的问题,因为在许多任务中,例如视觉对象分类,为要分类的视觉对象提供训练的成本非常高。
ZSL有两种主要类型——单模态和多模态。单模态ZSL观察物体的组成部分或属性,如音素,来识别未听过的单词,或视觉属性,如颜色、大小和形状,以预测未见过的视觉类别[57]。多模态ZSL通过第二模态的帮助来识别第一模态中的物体——在第二模态中物体已经被看见。根据定义,ZSL多模式版本面临非并行数据的问题,因为不同模态之间所看到的类的重叠是不同的。
Socher等人[198]将图像特征映射到概念词空间,并能够对可见和不可见的概念进行分类。看不见的概念可以被分配给一个接近视觉表示的单词——这是通过在一个单独的数据集上训练语义空间来实现的,该数据集有更多的概念。Frome等人[64]不是学习从视觉到概念空间的映射,而是学习ZSL概念和图像之间的协调多模态表示。Palatucci等人[165]基于功能性磁共振图像对人们正在思考的单词进行预测,他们展示了如何通过使用中间语义空间来预测无法看见的单词。Lazaridou等人[123]提出了一种通过神经网络将提取的视觉特征向量映射到基于文本向量的ZSL快速映射方法。
1.7.3 混合数据
在混合数据设置中,两个非并行模态由一个共享模态或数据集连接(见图3c)。最显著的例子是桥相关神经网络[174],它使用中枢模式来学习存在非平行数据时的协调多模态表示。例如,对于多语言图像字幕,图像模式将与任何语言的至少一个字幕配对。这样的方法也已经被用于桥接可能没有并行语料库但是可以访问共享的中枢的语言,例如用于机器翻译[154]、[174]和文档音译[104]。
有些方法不使用单独的连接模式,而是依赖于来自相似或相关任务的大数据集,以在仅包含有限注释数据的任务中获得更好的性能。Socher和Fei-Fei [197]利用大文本语料库来指导图像分割。而Hendricks等人[81]使用单独训练的视觉模型和语言模型来产生更好的图像和视频描述系统,对于该系统,只有有限的数据可用。
1.7.4 讨论
多模态协同学习允许一种模态影响另一种模态的训练,利用各种模态之间的互补信息。值得注意的是,协同学习是独立于任务的,可以用来创建更好的融合、转换和对齐模型。这一挑战体现在诸如联合训练、多模态表征学习、概念接地和零次学习(ZSL)等算法中,并已在视觉分类、动作识别、视听语音识别和语义相似度估计中得到了广泛应用。
1.8 结论 【多模态机器学习|Multimodal Machine Learning:A Survey and Taxonomy 多模态机器学习(综述与分类)】多模态机器学习是一个充满活力的多学科领域,旨在建立能够处理和关联来自多种模态信息的模型。本文综述了多模态机器学习的最新进展,并以多模态研究人员面临的五个技术挑战为基础,将它们归纳为一个共同的分类法:表示、转换、对齐、融合和协同学习。对于每一个挑战,我们都提出了分类的子分类,以了解当前多模态研究的发展。尽管这篇调查论文的重点主要是过去十年的多模态研究,但重要的是了解过去的成就来应对未来的挑战。
接着,提出的分类法为研究人员提供了一个框架,以了解当前的研究,并确定未来研究中尚未研究的挑战。我们通过对未来方向和研究问题的讨论总结了每个技术挑战(参见第3.3、4.3、5.3、6.3和7.4节)。我们认为,如果我们想建造能够感知、建模和生成多模态信号的计算机,就需要研究多模态的所有这些方面。多模态机器学习的一个具体领域还没有得到充分研究,那就是协同学习,来自一种模态的知识有助于在另一种模态中建模。这一挑战与协调表示的概念有关,在这种概念中,每个模态保持其自己的表示,但找到了交换和协调知识的方法。我们认为这些研究方向是未来研究中很有希望的方向。