基于跨模态转换的语音情感识别

塞缪尔·奥尔巴尼* 阿尔沙·纳格拉尼* 安德烈亚·维达尔迪 安德鲁·齐瑟曼
牛津大学视觉几何组
*同等贡献
挑逗性人物

演讲者面部表情的情感内容(或至少人类注释者如何标记他们的表情)和他们演讲的情感内容之间是否有共同的信号(同样,正如注释者所标记的那样)?直觉上,我们可能会认为,两者在一定程度上都是由演讲者的情绪状态驱动的,但也受到演讲者环境中存在的其他因素的驱动。在这项工作中,我们的目标是使用冗余两种模式中的(通用)信号,用于学习情绪识别的语音表示1.

对于机器学习任务来说,情绪是一种声名狼藉的视觉(或音频)信号。也许最重要的问题是,没有“基本真相”(我们很少知道主题的真实情绪状态,只知道他们的面部照片或演讲片段)。尽管如此,当用情感标记面部表情和言语时,人类注释者之间还是有可能达成合理的一致,我们可以将其用作有缺陷但仍可能有用的情感状态代理(预测这些人类注释者标签是我们所指的“情感识别”)。

在这项工作中,我们首先以完全监督的方式训练一个CNN来执行面部表情识别。我们通过采用最先进的图像分类模型(a挤压和激励网络)已在大型人脸验证任务中进行预处理(VGG面2)然后对其进行微调,以预测更小的人的情绪FERPlus公司数据集。然后我们使用交叉模式蒸馏技术(由古普塔、霍夫曼和马利克)其目的是将面部表情模型(“老师”)的知识跨模式“提取”到“学生”模型,该模型只能听到说话者的讲话,但看不到他们的脸。我们在大量未标记视频(VoxCeleb公司数据集),通过使用教师模型对视频剪辑中的人脸进行情感预测,并训练学生模型以匹配教师预测的分布。这个过程产生一个学习信号,但受到高水平标签噪声的影响(参见下面的示例和论文的讨论),因此我们依赖于深层神经网络在存在噪声标签的情况下进行学习的能力。我们发现,学生确实能够学习可用的语音嵌入(根据外部数据集进行评估),这为我们减少对标记语音数据的依赖提供了可能性(前提是我们可以访问标记的面部表情)。然而,就目前而言,学生的表现仍然落后于直接使用高质量标签训练的方法。最近的工作已经表明,对于超大数据集,CNN可以容忍高水平的标签噪声-我们希望能够进一步扩大蒸馏数据集的规模,以便在未来利用这一点。

1.利用不同模式之间冗余的想法由来已久,尤其是在无监督学习中(参见示例。这项工作).

型号和代码

数据:EmoVoxCeleb

为了可视化的目的,下面提供了一些主要情绪的随机样本。每一个都由一个简短的音频剪辑组成,即教师在相应源视频帧上预测的情感的聚合(这被视为条形图,其中每个情感的前三个字母被用作顶部的标签),以及视频中与负责主导情绪的语音片段相关的帧(近似的“峰值帧”)。有关如何进行监督的详细信息,请参阅纸张注意中性情绪的普遍性,这种情绪通常被分配给说话时的过渡帧。获奖感言(第六排)就是一个证明这项任务难度和复杂性的例子。声音的语气和表情都显得悲伤,但从单词内容给出的上下文来看,我们可以推断说话者(可能)很高兴。
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布
峰值帧 分布

下载数据

EmoVoxCeleb数据集由三个组件组成:有关如何使用数据的示例,请参阅代码.

出版物

*美国。阿尔巴尼,*答:。纳格拉尼,A.维达尔迪,A.齐瑟曼
ACM多媒体,2018年。

致谢

作者对EPSRC CDT AIMS拨款EP/L015897/1和Seebibyte计划拨款EP/M0313774/1的支持表示感谢。