宝剑锋从磨砺出,梅花香自苦寒来。这篇文章主要讲述浅谈语音质量保障:如何测试 RTC 中的音频质量?相关的知识,希望能为你提供帮助。
作者|柯淮
审校|泰一
背景介绍音频质量是指正常网络下的听觉质量和音频 3A 算法质量。听觉质量,是在无损网络情况下人耳对语音优劣的主观感受。但在实际生活中,不同人对同一声音可能会有不同的优劣判断,另外还会受到收听环境和收听心理影响。在测试时,我们可以从声音三要素:响度、音高、音色纬度出发,对一些指标进行量化评估。另外业内标准还会将这些量化指标通过一定的加权处理以期望拟合主观感受,比如 POLQA、PESQ 等。
音频 3A 算法是指:
AGC: Automatic gain control(自动增益控制)
ANS: Adaptive noise suppression(噪声抑制)
AEC: Acoustic echo cancellation(回声消除)
这部分内容公众号中已有较多文章较详细介绍原理及实现,这里不再赘述。
往期文章详解 WebRTC 高音质低延时的背后 — AGC(自动增益控制)
硬货专栏 |深入浅出 WebRTC AEC(声学回声消除)
本系列文章将从音频质量、适配测试、Qos 质量、自动化方案四个维度去介绍阿里云视频云如何保障 RTC 语音质量,本文先介绍音频质量部分(正常网络下的听觉质量和音频 3A 算法质量)。
RTC 语音测试链路拆解
在正式测试前,我们先了解 RTC 语音传输的整个链路框架图,声音通过麦克风采集,而后上行音频算法进行前处理,编解码传输后通过扬声器播放出来。若想测试上行音频算法可在(1)处输入声音,而后在(2)处拉取输出音频进行分析。系统测试时,我们往往从端到端角度评估,即从(1)处输入声音而后在(4)拉取声音进行分析,本文后续测试方法均基于端到端。
文章图片
音频质量测试方案阿里云视频云采用业内常用的客观指标+主观评价相结合的方法来保障音频质量,具体指标请参考下图:
文章图片
客观测试方法
有效频宽Line in 输入扫频文件 +48K 采样率的人声音频(音频素材参考如下),Line out 录制输出音频,通过频率分析读取有效频宽;
文章图片
端到端延迟方法一:使用 VQT 测试,测试结果中输出延迟时间。
方法二:自研。Line in 测试素材,Line out 录制未经过传输及输出音频,计算音频延迟时间。
- 测试素材:一段连续的单音。
- 指标计算:录制文件中读取未经过传输的音频起始时间记为 t1,读取经过会议传输的音频起始时间记为 t2,则 Delay=t2-t1。
文章图片
ANS考察 ANS 算法在纯噪声和语噪混合场景下的表现,分析指标包含:降噪一致性、信噪比提升、收敛时间、消噪后人声音质。
测试拓扑
文章图片
通过音量 Line in 或者外放输入背景素材及语音素材,在拉流端 Line out 录制输出音频进行指标分析。
测试素材
文章图片
指标计算
- 信噪比提升:求取经过消噪后音频的信噪比为 A,则信噪比提升值 =A- 输入信噪比。
- 降噪一致性:计算各种噪声输入后噪声的残留值,并统计各种噪声下噪声残留是否一致。
- 收敛时间:记录噪声能量开始下降的时间为 t1,记录噪声已收敛至平稳的初始时间 t2,收敛时间 =t2-t1。
- 音质:改造 VQT POLQA 测试脚本,计算不同信噪比输入下输出音频 MOS 分。下表展示输入信噪比为 10dB 带噪人声,输出音频音质 MOS 分:
文章图片
AGC考察AGC算法在不同音量下表现,分析指标包括:声音平稳性、输出响度。
测试拓扑参考 ANS 测试拓扑图,通过音量 Line in 或者外放输入语音素材,在拉流端 Line out 录制输出音频进行指标分析。
测试素材
文章图片
指标计算
- 声音平稳性:计算输出音频各音量段的平均 RMS,而后求解这个输出音频的平均 RMS 的方差。如下是平均 RMS 的计算公式:
文章图片
- 输出响度:Line out 方式计算输出音频的平均 RMS;外放方式使用标准声压计,以 A 计权方式记录响度值。
- 音质:改造 VQT POLQA 测试脚本,计算不同音量输入下输出音频 MOS 分。下表展示大中小音量输入下,输出音频音质 MOS 分:
文章图片
AEC考察 AEC 算法单讲和双讲场景下是否存在漏回声、人声抑制等问题。
测试拓扑【单讲】
文章图片
推流端播放单讲语音素材,拉流端默认配置放在空旷会议室中。Line out 录制推流端的输出,判断拉流端是否存在漏回声。
【双讲】
文章图片
同时向推流端和拉流端播放双讲测试素材,Line out 录制推流端的输出,判断拉流端是否存在漏回声和人声抑制。
同时向推流端和拉流端播放双讲测试素材,Line out 录制推流端的输出,判断拉流端是否存在漏回声和人声抑制。
测试素材
文章图片
指标计算
- 漏回声:读取录制音频文件的人声残留量,理论上该处值为 0- 没有漏回声。
- 人声抑制:双讲场景下评估此指标。利用 3gpp TS 26.132 标准评价剪切情况,最终评价以 D 类(连续剪切大于 150ms)为标准,值越接近于 0 质量越好。
- 收敛时间:测试开始时间记为 t1,AEC 收敛完成无漏回声出现时间记为 t2,收敛时间 =t2-t1。
- 人声音质:双讲场景下评估此指标。改造 VQT POLQA 测试脚本,计算双讲场景下人声的音质得分。
- 测试拓扑:参考 ANS 测试拓扑。
- 测试素材:ITU-P863 提供标准人声素材。
- 指标计算:如下框架图展示了 STOI 计算流程,当前业内已有 matlab 和 python 对该算法的工程实现。
文章图片
POLQAITU-T P.863 提供测试方法,可得到 MOS 分和音频延迟。支持 8K、16K、48K 测试,局限性是设备贵。
- 测试拓扑:参考 ANS 测试拓扑。
- 测试素材:ITU-P863 提供标准人声素材 & VQT 内置语音测试素材。
- 指标计算:POLQA MOS 分。
- 测试拓扑:参考 ANS 测试拓扑。
- 测试方法:测试素材:ITU-P863 提供标准人声素材。
- 指标计算:PESQ MOS 分
采用 “YD/T 2309 音频质量主观测试方法(ITU-R BS.1284)” 中提及的评分规则和维度,在不同场景下为专家和普通用户进行打分测试。
评分方法
文章图片
评价维度
文章图片
测试场景【浅谈语音质量保障(如何测试 RTC 中的音频质量())】测试素材采用“惠威试音碟”和“TUT-acoustic-scenes-2017-development”。
文章图片
本文为 RTC 音频测试系列的第一篇,后续我们将从适配测试、Qos 质量、自动化方案的维度去介绍阿里云视频云如何保障 RTC 语音质量,欢迎关注公众号「视频云技术」。
推荐阅读
- RDMAmellonx流控配置工具mlnx_qos
- linuxcentOS7配置网口IP|RDMA配置IP|ensenoenp网口的区别
- 网络nmcli 网络管理工具Linux系统怎么查看网卡的UUID
- 网络Wireshark对远程主机抓包
- SpringBoot技术专题教你如何开发一个”可移植“的轻量级文件服务项目系统!
- WIN10安装虚拟机时如何设置Intel VT-x
- RDMARoCEv2 帧结构|RoCE和RRoCE|Soft-RoCE
- OHOS3.0标准系统编写C程序控制LED
- ubuntu21.04下终端路径显示优化