智能语音技术(从哪儿来(往何处去?))

近几年,语音识别技术逐渐走向成熟,越来越多的互联网公司及硬件厂商在布局智能语音的商业版图。万物互联的浪潮势不可挡,智能语音技术在汽车、智能家居、教育等各个领域全面开花。
智能语音从何发展至今?当前面临怎样的机遇与挑战?未来又将发展成什么样的形态?本次我们访谈了OPPO资深语音架构师Elon,他将为我们介绍智能语音技术的完整发展路径。
Q1:能否简单介绍一下语音技术的发展历程呢? 早在计算机发明之前,1920年便有了“Radio Rex”玩具狗这种早期的语音识别雏形,可以视为人类对智能语音技术的初次探索;而真正意义上基于计算机的智能语音技术发展最早可追溯至20世纪50年代,从1952年第一个语音识别系统Audrey诞生到现在已走过了近70个年头,早期主要是贝尔实验室、伦敦学院等学术机构在做该方向的布局;到20世纪90年代前后,出现了全球首个非特定说话人的大词汇量连续语音识别系统Sphinx,以及后来一度被学术届普遍使用的剑桥HTK等开源工具;当时中国高科技发展计划863计划也启动,语音识别作为智能计算机系统研究的重要方向之一,被专门列为研究课题;20世纪末至21世纪初,是语音识别快速发展、从学术界逐步走向产业化的阶段,大概在2009年左右,深度学习在语音技术领域发力,识别效果取得了很大突破;2011年苹果手机虚拟助理Siri诞生,之后的10年时间里,语音相关技术和团队开始从学术界走到工业界,不管是互联网公司还是传统硬件厂商,都开始布局智能语音技术,并逐步落地了Alexa、Google Assistant、天猫精灵、小度小度、小爱同学等一系列众所周知的智能语音交互产品。
纵观整个智能语音交互技术的发展历程,从一开始只支持非常简单的指令识别,到后面支持较为复杂的话术理解,并在多场景、多设备上完成了大规模落地,逐步缩短了用户与服务之间的直达路径;小布助手的前身Breeno也正是在这个大背景下于2018年12月诞生的。
Q2:语音技术在近几年蓬勃发展的原因是什么呢? 首先,语音是人类天然的信息传达方式,机器通过识别语音、理解其中的表达,更加快捷的满足用户需求,本质上就是在让人与智能设备之间的信息交流更加高效,尤其是对于驾车、家居等场景,语音技术能大幅提升人机交互体验。
此外,技术发展与行业发展高度相关。国内厂商之所以做智能音箱,更多受到了亚马逊做Alexa的影响,Alexa让国外用户感知到家居场景语音交互的便利性;国内的话,小爱同学及天猫精灵是先把产品做出来,让一部分用户用起来,进而改变了这个行业,让更多入局者加入这个赛道,让更多用户感觉到智能音箱的便利。随着智能音箱的入户,以及更多家居设备支持了AIOT,用户可以通过智能音箱这个中枢去控制家里更多智能设备,就会越来越喜欢用智能交互产品,有点像马太效应,让用户因为一个产品感知到了便利性,并催生他们购买更多产品的时候,一个生态闭环就建立起来了,就会有越来越多用户愿意用语音交互去控制设备,去获取服务。
最后,随着智能助手使用率的不断提升,线上数据规模不断扩大,我们可以用更多真实数据去做更好模型的优化迭代,从而让效果变得更好。从算法技术的演进来看,过去10-20年基本上都是基于有标注数据做模型训练,比如要识别一句话,需要先把很多句话的每一个字,每一句话都标注成文字,加入模型训练,通过有监督学习完成模型优化。现在,行业开始尝试无监督学习,Facebook已经有科研成果证明,基于无标注的海量数据无监督学习也能很好地完成语音识别模型训练。
Q3:不同厂商做智能语音的出发点是什么呢? 【智能语音技术(从哪儿来(往何处去?))】国内的话有不少厂商在做,比如说小米、阿里和百度等,但是每家厂商做这个事情的出发点是不一样的。
百度做智能语音其实是希望通过小度将搜索的产品形态从纯网页文本框搜索变成结合语音交互的更自然的搜索输入形态,通过小度音箱这个产品,收集一些用户信息,建立用户画像,然后给用户推荐一些原先只能通过网页搜索推荐的内容。
阿里做天猫精灵则是希望占据家居场景的流量入口,完成AIoT生态建设的同时,把用户牵引至阿里生态里的虾米音乐、优酷、天猫、及饿了么等内容服务上。
小米做智能音箱的出发点和这两家有明显不同,因为小米的出发点是通过“米家+小爱同学“构建小米万物互联的AIoT生态,覆盖智能生活的方方面面。
OPPO做小布助手的出发点,则是希望在手机硬件+软件产品基础上,通过小布助手的各种能力建设,让用户不断感知产品的“智慧、懂你”,同时打造公司的科技品牌,随着公司多设备生态的不断完善,最终实现万物互融战略目标。
Q4:当前语音技术面临的怎样的机遇? 我认为机遇挺大的。首先,用户教育成本降低。当前,越来越多的用户是从Z世代进入的,这一代的人跟智能接触的更多,他们不像我们父母那代或者我们这一代是从一个无智能时代进入到智能时代,这些用户本身对语音交互或者AI类的交互有着天然的熟悉感。此外,Z世代的人是直接就进入了数字世界,他对数字世界是非常熟悉的,就像现在很小的一个小朋友都会拿着手机去触碰操作,很早就熟悉了硬件产品里的一些虚拟事物。
另一方面,用户与智能产品的情感联系愈发紧密。现实生活中,已经有一些小朋友会因为手机中的游戏人物死去而悲伤很久,但是却很少因为身边某个人比较难过的事情,或者身边某个真实的人的逝去而难过很久。这其实反映了一个问题,就是数字世界的很多东西已经将人的感官牵连了起来。那这个时候,我觉得智能助手在这方面有很大的机遇,人们跟硬件产品中的虚拟世界越来越融合,也就是所谓的代入感增强,随着生活压力、社交压力的增加,其实他们也更希望与虚拟人物交流,而不愿意去跟身边人进行更多的交流。在这种情境下,智能助手可能会变成越来越多用户想要去沟通和接触的一个虚拟对象,而语音技术是其中最为关键的情感和信息纽带。
Q5:当前语音技术面临着什么样的困境呢? 首先,用户对隐私泄露的担心加剧。用户在使用智能交互产品的同时,他也会逐渐意识到隐私问题。过去几年我们会在各大平台看到用户质疑设备是不是在监听,比如说我跟你聊了个雨伞,结果晚上淘宝或者天猫就给我推荐雨伞。所以很多用户想利用语音更便捷的获取服务,但是同时他又害怕设备被持续监听。我觉得这是整个行业都在面临的一个挑战,包括欧盟出台GDPR其实也都是为了保护整个智能生态的隐私数据安全。
此外,用户对语音助手的期望与技术实现能力之间有落差。语音助手的背后是服务,用户对于语音助手的期望是一个真正的人,只是它是数字化的,所以用户对它的期望永远是很高的。用户通常认为所谓智能就是无所不能,但是技术是有瓶颈的,这就意味着技术只能实现一些能力范围内的事情。但是用户对于智能产品会有比较苛刻的要求,他需要智能产品要会查天气,又要会聊天,情商智商都高。但是回到现实中。情商和智商都高的人是很少的。《黑客与画家》里面提到一个观点:每个产品最后长成的样子跟打造这个产品的那些人是相似的,因为它决定了这个产品的灵魂应该是什么样子。对于智能助手来说,它是靠工程师、产品经理和研发团队去做成的,比如说有100人的团队,那这100人的智商情商就决定了这个智能助手大致会是什么样子。
Q6:未来智能语音的应用场景和形态会发展成什么样? 首先从用户感知层面,最早期是满足用户基于文字的交互,逐渐过渡到语音交互,现在及未来更多的过渡到多模态交互。
在应用场景上,AIoT在智能家居上的应用越来越广泛,用户可以通过语音控制整个家里的设备。还有就是智能驾驶,其实在16年的时候,阿里就跟斑马互联网汽车,包括上汽三家合作了一款智能汽车,在这款车上已经搭载语音助手。像特斯拉,小鹏和蔚来这样一些新能源汽车,语音助手已经成为这些汽车的标配,根本逻辑是在于在车载环境下,用户更加专注于驾驶安全。驾驶安全就意味着你在开车的时候不能去查看手机,专注地进行驾驶操作,那当你想在驾驶过程中听音乐或者打电话的时候,只能通过语音交互完成,让驾驶变得更加安全,同时让整个驾驶体验变得更好。现在每个车厂都在布局做这块,甚至成立了自研团队去打造自己的技术。
此外,智能助手需要做到的是让用户与机器之间的交互路径变得更短。以前可能通过好几步,比如UI触控去获取服务。但现在,通过一句话就可以完成天气查询、打电话这些很简单的操作。但是目前的交互路径还不算短,因为现在的执行逻辑还是语音识别先转成文字,然后文字去做意图理解,最后再到对话管理,之后我们还要继续缩短这个路径,让机器能直接能够理解人说的话,不需要中间文字的转化。
智能语音的终极形态,我们期望是可以脱离具体的产品形态,可以是完全数字化的。所以我觉得OPPO公司战略里提到的万物互融还是挺有想象力的。到最后,其实你不关心那个东西到底是一个手机,还是一个音箱,还是其他的智能设备,就站在用户的角度,他只关心一件事就是当我需要什么服务的时候,我开口说话就行了,不需要通过其他第三方的输入媒介去完成一些比较复杂的操作。
Q7:如何看待现在语音助手纷纷进行生态化赋能? 我觉得还是回到用户本身,不管是往生态化发展还是某个场景去发展都是在帮助用户去解决在某个场景里面很核心的一些需求问题。比如AIoT在家居场景的发展,会发现越来越多的设备,比如说传统的灯,空调都开始支持语音控制。背后的逻辑是希望解决用户在家里面控制这些设备不方便的问题,然后让整个家变得更加智能。语音助手本质上还是服务触达的媒介,是用户获取服务时最自然的一种表达方式,它的发展方向始终是为了解决用户的核心需求问题。
更多精彩内容,欢迎关注[OPPO数智技术]公众号
智能语音技术(从哪儿来(往何处去?))
文章图片

    推荐阅读