交叉模式生物特征匹配

演讲者面部表情的情感内容（或至少人类注释者如何标记他们的表情）和他们演讲的情感内容之间是否有共同的信号（同样，正如注释者所标记的那样）？直觉上，我们可能会认为，两者在一定程度上都是由演讲者的情绪状态驱动的，但也受到演讲者环境中存在的其他因素的驱动。在这项工作中，我们的目标是使用冗余两种模式中的（通用）信号，用于学习情绪识别的语音表示¹.

对于机器学习任务来说，情绪是一种声名狼藉的视觉（或音频）信号。也许最重要的问题是，没有“基本真相”（我们很少知道主题的真实情绪状态，只知道他们的面部照片或演讲片段）。尽管如此，当用情感标记面部表情和言语时，人类注释者之间还是有可能达成合理的一致，我们可以将其用作有缺陷但仍可能有用的情感状态代理（预测这些人类注释者标签是我们所指的“情感识别”）。

在这项工作中，我们首先以完全监督的方式训练一个CNN来执行面部表情识别。我们通过采用最先进的图像分类模型（a挤压和激励网络）已在大型人脸验证任务中进行预处理(VGG面2)然后对其进行微调，以预测更小的人的情绪FERPlus公司数据集。然后我们使用交叉模式蒸馏技术（由古普塔、霍夫曼和马利克)其目的是将面部表情模型（“老师”）的知识跨模式“提取”到“学生”模型，该模型只能听到说话者的讲话，但看不到他们的脸。我们在大量未标记视频（VoxCeleb公司数据集），通过使用教师模型对视频剪辑中的人脸进行情感预测，并训练学生模型以匹配教师预测的分布。这个过程产生一个学习信号，但受到高水平标签噪声的影响（参见下面的示例和论文的讨论），因此我们依赖于深层神经网络在存在噪声标签的情况下进行学习的能力。我们发现，学生确实能够学习可用的语音嵌入（根据外部数据集进行评估），这为我们减少对标记语音数据的依赖提供了可能性（前提是我们可以访问标记的面部表情）。然而，就目前而言，学生的表现仍然落后于直接使用高质量标签训练的方法。最近的工作已经表明，对于超大数据集，CNN可以容忍高水平的标签噪声-我们希望能够进一步扩大蒸馏数据集的规模，以便在未来利用这一点。

^{1.利用不同模式之间冗余的想法由来已久，尤其是在无监督学习中（参见示例。这项工作).}

下载数据

EmoVoxCeleb数据集由三个组件组成：

一组面部帧，从步幅为6的每个轨迹中提取（以便每秒提取25/6帧），可以下载在这里（36 GiB未压缩）。
相应的一组语音片段（每个曲目一个），可以从VoxCeleb项目页面（标题为音频文件的部分-请注意，这需要您填写一个简短的表单。此数据约为38 GiB未压缩）。
教师网络的预测被组织成一个matlab结构。这可以下载在这里.

有关如何使用数据的示例，请参阅代码.

出版物

*美国。阿尔巴尼，*答：。纳格拉尼，A.维达尔迪，A.齐瑟曼

基于跨模态转换的语音情感识别

ACM多媒体，2018年。

Biptex公司|摘要|PDF格式|全部

@诉讼{Albanie18a，author=“Albanie，S.和Nagrani，A.和Vedaldi，A.和Zisserman，A.”，title=“在野外使用跨模式传输进行语音情感识别”，booktitle=“ACM多媒体”，year=“2018”，}

致谢

作者对EPSRC CDT AIMS拨款EP/L015897/1和Seebibyte计划拨款EP/M0313774/1的支持表示感谢。

基于跨模态转换的语音情感识别

型号和代码

数据：EmoVoxCeleb

下载数据

出版物

致谢