百度|十年增长700亿,数字人赛道如何转动增长飞轮?( 三 )


因此,更多落地场景和更逼真形象的背后是对技术更高的要求:
首先,在交互维度上,要保证数字人在真实环境下能听能说能交互 。
这也就揭开了曦灵的第一层优势:四大AI引擎 。通过人像驱动引擎、自然对话引擎、语音交互引擎、智能推荐引擎实现数字人能听能说能理解能互动 。
能听能说 。目前百度语音识别ASR(Automatic Speech Recognition)的准确性能够达到98%以上,语音合成TTS(Text To Speech)方面既支持用20句话定义一个新的声音,还支持用更多的数据来进行更精细化的训练,这样既可以轻量化的满足需求,又能保证声音还原度 。李士岩透露,今年百度还最新研发了人工智能变声器,可以将一个人的声音音色特征保留下来,这样就可以发挥更多“人”的创造性 。
能理解 。百度基于多年的搜索及知识图谱积累研发了基于百亿级训练参数的开放域对话平台PLATO-XL 。这是当前最大规模的中英文对话模型,并再次刷新了开放域对话效果 。
能互动 。在传统的动画生产流程中,最难做的就是说话的部分,尤其是3D人像说话 。但曦灵平台基于面部4D数据(3D+时序)的高精数字人“文字到形状的跨模态面部表情生成技术”,使得口型合成准确性达98.5% 。比如a和e这样发音非常接近的字母,都可以有细致的区分 。
这些能力就像一个强大的底座,为百度数字人快速发展提供了底层支撑 。
第二层优势,在于人像资产的生产维度 。由于每一个人说话的样子跟表情是不一样的,如果依旧通过传统流程,即每一个面目表情都通过艺术家手雕或者线下扫描流程来做,既费人力也费物力,因此如何实现低成本、个性化且丰富的还原至关重要 。
对此,百度在AI技术底座上,创建了3D写实、2D写实、3D卡通三条资产生产线,让曦灵较其它竞争者可以“多快好省”地支持更多风格的数字人 。
客户可以根据需求快速选择不同的脸型、五官、发型、服装,通过组合搭配,在一定程度上解决3D资产创建成本较高的问题 。现在曦灵平台上以AI驱动的2D数字人的生产周期已经从一个星期降到了几个小时,而AI驱动的3D虚拟偶像也从原来的两三个月缩短到一两个星期 。
百度在2019年开始布局数字人业务,初期主要以金融、政务类客户为主,因此产品主要是服务型数字人,包括数字客服、数字理财专员、数字大堂经理、数字展厅讲解员等 。
但随着发展,包括虚拟主播、虚拟偶像及数字孪生产品在内的演艺型数字人的需求也在增长,“原来我们只做金融领域,现在广电客户、互联网娱乐客户也纷纷找到我们,甚至一些品牌商找我们做虚拟代言人 。”李士岩对钛媒体APP描述了客户类型的变化 。经过三年积累,现在曦灵平台已经完成了全场景的覆盖 。
全场景覆盖的背后也就对应着企业对数字人更高的要求,即每个客户业务流程不一样,而且业务流程随着业务的发展不断离散,如果让工程师直接开发肯定不现实,尤其是当客户有敏捷型需求的时候,如何帮助其快速实现也是一个关键问题 。
对此,曦灵提供了在AI引擎和资产生产线的基础上设置的三大平台:
人设管理平台——比如服务型数字人的人设要亲和力强、正式,而演艺型数字人则要求个性化程度更高,客户可以在人设管理平台上根据不同的场景搭配设置不同的人设 。
业务编排与技能配置平台——通过一些简单的拖拽,实现业务流程的创新 。以服务型数字人为例,由于落地场景比较离散,每家客户的业务流程不一样,该平台就提供了创建不同业务流的能力 。

推荐阅读