什么是多模态交互? “模态”(Modality)是德国理学家赫尔姆霍茨提出的一种生物学概念,即生物凭借感知器官与经验来接收信息的通道,如人类有视觉、听觉、触觉、味觉和嗅觉模态。多模态是指将多种感官进行融合,而多模态交互是指人通过声音、肢体语言、信息载体(文字、图片、音频、视频)、环境等多个通道与计算机进行交流,充分模拟人与人之间的交互方式。
多模态交互包括了视觉、听觉、嗅觉、触觉以及味觉等方面的感官交互,也就是通过眼睛、耳朵、鼻子、嘴巴以及皮肤触摸实现,其技术应用在实际生活中也是围绕这些感官进行设计。将多个感官的交互技术融合在一起,形成一种多模态的交互形式。
①视觉交互
通过眼睛去看,是一种最简单的交互方式。虚拟现实技术、增强现实技术以及混合现实技术都是这类表现形式,侧重于通过虚拟画面表现内容,增强内容沉浸感。
除了看,通过眼睛控制,即眼动追踪,也是一种视觉交互技术。该技术已经被广泛且成功地运用到了心理学相关领域的研究中。大多数的应用都涉及了信息加工的研究,比如阅读、场景知觉、视觉搜索、音乐阅读和分类。济南大学的郑玉玮教授对眼动追踪技术进行研究,通过该技术考察多种多媒体表征环境下的学习者,探究多媒体学习中学习者的潜在心理进程,为教育研究者将多媒体学习结果和相关的认知加工过程联系起来提供了一个便捷的途径。
②声音交互
声音交互也就是通过声音传达信息。随着人工智能的发展,语音识别技术已得到快速发展,人在表达自己的意思时主要由语言、口音、语法、词汇、语调和语速等决定,而在不同场景下人的语气也会随着情绪而变化,导致相同的语句可能会有不一样的意思。语音识别技术本质上是一种模式匹配识别的过程,是机器通过识别和理解过程把语音信号转变成相应的文本文件或命令的技术。
除了提高识别精度和反馈速度,智能情绪识别属于目前的另一个主要研究方向。智能情绪识别是具备语音交互能力的设备根据用户响应做出反应并进行有意义对话的关键。早在2012年,以色列的初创企业Beyond Verbal就发明了一系列语音情绪识别算法,可以根据说话方式和音域的变化,分析出愤怒、焦虑、幸福或满足等情绪,心情、态度的细微差别也能被精准检测。至今为止,该算法可以分析出11个类别的400种复杂情绪。近年来亚马逊的Alexa团队和苹果的Siri团队也在着力研究语音情绪识别,苹果的最新HomePod广告片WelcomeHome用了类似的方案来表达Siri的智能推荐:辛苦了一天的女主角,疲惫不堪地回到家中,让Siri用 HomePod播放音乐。紧接着神奇的事情发生了:音乐响起,女主拥有了魔力,她可以打开另一个空间,顿时疲劳的感觉一扫而光,尽情漫舞。广告充分展示了HomePod在转换情绪上的“开关”作用,得到国外广告圈的一致好评。
③嗅觉交互
嗅觉是五感中传递唯一不经过丘脑(thalamus)的,而是直接将刺激传到大脑中许多与情感、本能反应相关的腺体,例如杏仁核(管理各种情绪如愤怒与恐惧、欲望与饥饿感等)、海马体(管理长期记忆、空间感受等)、下丘脑(管理性欲和冲动、生长激素与荷尔蒙的分泌、肾上腺素的分泌等)、脑下垂体(管理各种内分泌激素,也是大脑的总司令),因此嗅觉是最直接而且能唤起人类本能行为和情绪记忆的感官。
嗅觉交互技术在提升虚拟环境沉浸感方面有着重要作用,但是该技术目前属于虚拟现实领域研究的一个难题,同时也成为研究热点。东京大学的Haruka等为了呈现气流以及气味的空间分布,设计了一套MSF混合感觉呈现器,气味蒸汽通过管子和一个头戴式耳机传递给用户,该装置能够准确地产生气味,并且迅速进行气味切换,但是不能很好地控制流量。Kad-owaki等设计了一种卡基式的气味发生器,该装置可以避免机械装置产生气味时的噪声影响。Trisenx公司在2003 年发布了一种气味包系统装置,用户可以用任意量的气味来混合产生不同种类的新气味,这款装置的缺点在于不能在可视化的虚拟现实环境中把气味直接呈现给用户。Hoshino等设计了一套触觉和嗅觉相结合的感知系统,该装置能够设置喷发气味的种类、喷发的持续时间和喷发强度,但是在气味清除方面效果不够理想。Ohtsu等、Kadowaki等研发了一种新型的喷墨式气味呈现装置,通过不断地进行电子抛射在短时间内发出一种气味,使得系统能够分析传送的气味并显示出作为气味元素在混合物中的比例。该装置的缺点是不能控制气味的输出量。Ariyakul等研发了一款新型的虚拟嗅觉气味呈现装置,它使用嗅觉传感系统来确定气味,并通过网络将气味信息传送到远处,然后用气味发生装置将气味信息转化为真实的气味。孟宪宇等研究并实现了一种人工鱼的虚拟嗅觉系统。刘振宇等研究了人工嗅觉在物质识别中的应用,对一些表现出香气的物质进行了定性识别,对不同浓度的物质进行了定量判断。
④触觉交互
触觉交互技术是虚拟现实中人机交互的重要组成部分,它通过模拟人类对真实物体的力触觉感知过程,将虚拟环境的力触觉信息真实地反馈给人,极大地提高了虚拟环境的交互性和临场感程度。
科技公司希望借助形变和震动来模拟各种材质的触感,之前,在众筹网站Kickstarter上就出现过一种虚拟现实手套——Gloveone。这种手套中加入了很多小电动机,通过不同频率和强度的振动来配合视觉效果。类似的还有一款叫作HandsOmni的手套,由莱斯大学(Rice University)研发,手套里的小气囊通过充气和放气来模拟触觉,相比于电动机来说,它的效果更好,但仍处于研发的早期阶段。
⑤味觉感知
味觉感知技术是通过舌头感知的一种技术。在现实生活中,可以通过控制电极实现舌头味觉。日本明治大学的研究人员Homei Miyashita创造了一种虚拟味觉设备,该设备借助的是插入到五色凝胶中的电解质,每种凝胶控制苦、盐、鲜味、甜、酸等五种基本口味的强度。微观粒子被电荷激活发生迁移时会产生电泳,而这种虚拟味道就是通过电泳提供的。当该设备的五根电解质管触碰到舌头时,人就会主观地感知到所有的五种味觉。但是,当设备通以较低的电压时会产生不同的电荷,某些味道可能会被放大,而另一些则会减弱。
⑥肢体交互
人类交流时一半依赖于肢体语言,如果没有肢体语言,交流起来将十分困难且费力。肢体语言是一种无声的语言,我们可以通过面部表情、眼神、肢体动作等细节了解一个人当前的情感、态度和性格。
面部表情是表达情感的主要方式。目前大多数的研究集中在6种主要的情感上,即愤怒、悲伤、惊奇、高兴、害怕和厌恶。目前网上已经有很多表情识别的开源项目,例如Github上点赞数较高的FaceClassification,其基于Keras CNN模型与OpenCV进行实时面部检测和表情分类,使用真实数据做测试时,表情识别的准确率只达到66%,但在识别大笑、惊讶等计算机理解起来差不多的表情时效果较差。在人机交互上,用户表情识别除了可以用于理解用户的情感反馈,还可以用于对话中发言的轮换管理,例如机器看到用户表情瞬间变为愤怒时,需要考虑流程是否还继续进行。
在肢体识别上,最出名的莫过于微软的3D体感摄影机Kinect,它具备即时动态捕捉、影像辨识、麦克风输入、语音辨识等功能。Kinect不需要使用任何控制器,它依靠相机就能捕捉三维空间中玩家的运动,可惜的是,微软在2017年已经确认停止生产新的Kinect传感器。
手势识别有两款很不错的硬件产品,一款是Leap Motion,它能在150°视场角的空间内以0.01毫米的精度追踪用户的10根手指,让你的双手在虚拟空间里像在真实世界一样随意挥动。Leap Motion结合虚拟现实头盔,可以让虚拟现实设备脱离手柄,完全使用双手进行互动,如图2所示为Leap Motion绑定在头盔上。
文章图片
【多模态交互|什么是多模态交互()】另外一款是MYO腕带,它通过检测用户运动时胳膊上肌肉产生的生物电变化,配合手臂的物理动作监控实现手势识别。MYO所具备的灵敏度很高,例如握拳的动作即使不用力也能被检测到。有时候你甚至会觉得自己的手指还没开始运动,MYO就已经感受到了,这是因为你的手指开始移动之前,MYO已经感受到大脑控制肌肉运动产生的生物电了。
卡内基梅隆大学机器人学院(CMU RI)的副教授Yaser Sheikh带领的团队正在研发一种可以从头到脚读取肢体语言的计算机系统,可以实时追踪识别大规模人群的多个动作姿势,包括面部表情和手势,甚至是每个人的手指动作。2017年6月和7月,这个项目在Github上相继开源了核心的面部和手部识别源代码,名称为OpenPose。OpenPose的开源已经吸引了数千用户参与完善,任何人只要不涉及商业用途,都可以用它来构建自己的肢体跟踪系统。肢体语言识别为人机交互开辟了新的方式,但整体的肢体语言理解过于复杂,计算机如何将肢体语言语义化并理解仍然是一个技术瓶颈。