SER 语音情感识别-论文笔记5 语音识别

SER 语音情感识别-论文笔记5 《MULTI-HEAD ATTENTION FOR SPEECH EMOTION RECOGNITION WITH AUXILIARY LEARNING OF GENDER RECOGNITION》
2020年ICASSP

文章目录

SER 语音情感识别-论文笔记5
前言
一、数据集
二、特征
三、模型方法
- 1. 多头注意力机制
- 2. 位置嵌入
- 3. 多任务学习
四、实验结果
总结

前言提出了一种基于对数梅尔滤波器组能量（LFBE）谱特征的多头注意深度学习语音情感识别网络。多头注意和位置嵌入共同关注来自同一LFBE输入序列的不同表示的信息。位置嵌入通过识别特征在序列中的位置，有助于关注主导情绪特征。除了多头注意和位置嵌入外，还将性别识别作为辅助任务应用于多任务学习。辅助任务有助于学习影响语音情感特征的性别特征，并提高语音情感识别的准确性，而语音情感识别是首要任务。本文在IEMOCAP数据集上进行了所有实验，最终能够实现76.4%的总体准确率和70.1%的平均class准确率。
一、数据集南加州大学的交互式情绪运动捕捉**（UCS-IEMOCAP）语料库**是多模态数据集。它包含大约12小时的视听数据，包括语音、视频、面部运动动态捕捉和文本转录。它由五个二元会话组成，演员在其中即兴表演或脚本场景，特别是为了表现情感表达。在本文中，使用即兴的原始音频样本，因为脚本内容与标记的情感有很强的相关性，即兴语料库在许多方面与自然语音相似，并引发IEMOCAP数据集研究中提到的更强烈的情感。除了上述原因，之前发表在语音情感识别上的大部分工作和最新成果都是基于即兴数据集，特别是关于四种情感——中性、快乐、悲伤和愤怒。
从IEMOCAP中提取的四个实验类的组成偏向于中性情绪，这代表了总数据集的49%。剩下的三个情绪类别包括约12%的愤怒、27%的悲伤和12%的快乐。由于四个类别之间存在数据不平衡，本文给出了测试数据的加权平均（WA）或总体精度，以及未加权平均（UA）或平均类别精度。
同时还给出了所有实验的四类混淆矩阵。数据集按80:20的比例分割，用于训练和测试，所有结果以五倍交叉验证报告。对于训练数据集和测试数据集，情绪类别和性别的表示是平均分布的。
二、特征一种基于对数梅尔滤波器组能量（LFBE）谱特征

原始音频的预处理
IEMOCAP数据库包含长度从一秒到20秒不等的语音。音频文件的采样率为16KHz，并以16位有符号PCM格式存储。80%的音频文件小于6秒，因此将6秒设置为音频输入长度。任何超过6秒的音频文件都会被截断为6秒。短于6秒的文件用零填充。
同时将每个文件分成46ms宽的帧，以23ms的步幅得到260帧。计算每个帧的对数滤波器组能量，滤波器组的数量设置为64。LFBE功能是使用scipy wavfile和python语音功能库生成的。生成的260 X 64矩阵被送入模型，其中260被视为序列长度。

三、模型方法提出的模型方法如下所示：
（1）通过融合位置嵌入和LFBE特征作为输入，基于Transformer编码器的多头注意网络用于SER任务。
（2）在基于MHA的SER网络上应用多任务学习来预测说话人的性别，作为辅助任务，以提高SER准确性。基于MHA的网络训练用于语音情感识别和性别识别是两个并行任务，这两个任务共享除输出层之外的所有网络层。

文章图片

文章图片

1. 多头注意力机制对于音频序列，相邻帧将具有相似的声学特征。如果出现类似的特征，注意可以是模型序列和其他相关联。
Multi-Head Attention在执行点乘之前，对Q，K，V向量执行线性变换，它将向量划分为n个等维向量，计算n次注意力得分。每次使用的线性变换是不同的，这使得模型学习到输入的不同表示。
2. 位置嵌入 【SER 语音情感识别-论文笔记5】虽然多头注意识别了与情绪相关的事件，但在多头注意中并未考虑声学事件本身的顺序。然而，声学事件的顺序将为正确识别情绪提供重要线索，因此将事件的位置作为输入非常重要。
3. 多任务学习多任务学习的好处：

通过学习忽略特定任务的噪声模式来实现更好的泛化
相关vs无关特征之间的对比
共享与不同任务相关的特征

两个任务之间共享位置嵌入和多头注意层。情绪和性别分类使用两个独立的、具有Softmax激活的完全连接层。计算两个任务的负对数似然损失，并对其进行平均，以获得总体多任务损失。
四、实验结果

文章图片

本文给出了使用IEMOCAP数据集进行的各种实验的结果，并在中性、愤怒、悲伤和快乐四种情绪类别上与最先进的语音情绪识别深度学习模型进行了比较。
使用评价指标为加权平均值（WA）或总体精度：在整个测试集上计算标准精度，未加权平均值（UA）也称为平均类精度：分别针对每种情绪计算的平均精度。
IEMOCAP数据中存在阶级不平衡。因此，衡量模型性能的最佳指标是未加权精度或平均类精度。在图所示展示了混淆矩阵，它总结了分类的性能。

文章图片

然而，结合位置嵌入和多任务学习的多头注意模型将快乐class的准确率提高了15%。除了最先进的成绩外，整体class准确性有了显著的提高。
总结本文展示了变压器编码器启发的堆叠式多头自我注意网络在语音情感识别中的应用。除了MHA，还采用了多任务学习和性别识别辅助任务来进一步提高SER。研究结果表明，利用自我注意关注语音特征的不同部分可以显著提高情绪识别的准确性。它将整体准确度提高到74.7%，比四个情绪类的最先进准确度高出3.6%。在MHA的基础上应用多任务学习，结果进一步提高76.4%，总体提高了5.3%。