演讲者面部表情的情感内容(或至少人类注释者如何标记他们的表情)和他们演讲的情感内容之间是否有共同的信号(同样,正如注释者所标记的那样)?直觉上,我们可能会认为,两者在一定程度上都是由演讲者的情绪状态驱动的,但也受到演讲者环境中存在的其他因素的驱动。在这项工作中,我们的目标是使用冗余两种模式中的(通用)信号,用于学习情绪识别的语音表示1.
对于机器学习任务来说,情绪是一种声名狼藉的视觉(或音频)信号。也许最重要的问题是,没有“基本真相”(我们很少知道主题的真实情绪状态,只知道他们的面部照片或演讲片段)。尽管如此,当用情感标记面部表情和言语时,人类注释者之间还是有可能达成合理的一致,我们可以将其用作有缺陷但仍可能有用的情感状态代理(预测这些人类注释者标签是我们所指的“情感识别”)。
在这项工作中,我们首先以完全监督的方式训练一个CNN来执行面部表情识别。我们通过采用最先进的图像分类模型(a挤压和激励网络)已在大型人脸验证任务中进行预处理(VGG面2)然后对其进行微调,以预测更小的人的情绪FERPlus公司数据集。然后我们使用交叉模式蒸馏技术(由古普塔、霍夫曼和马利克)其目的是将面部表情模型(“老师”)的知识跨模式“提取”到“学生”模型,该模型只能听到说话者的讲话,但看不到他们的脸。我们在大量未标记视频(VoxCeleb公司数据集),通过使用教师模型对视频剪辑中的人脸进行情感预测,并训练学生模型以匹配教师预测的分布。这个过程产生一个学习信号,但受到高水平标签噪声的影响(参见下面的示例和论文的讨论),因此我们依赖于深层神经网络在存在噪声标签的情况下进行学习的能力。我们发现,学生确实能够学习可用的语音嵌入(根据外部数据集进行评估),这为我们减少对标记语音数据的依赖提供了可能性(前提是我们可以访问标记的面部表情)。然而,就目前而言,学生的表现仍然落后于直接使用高质量标签训练的方法。最近的工作已经表明,对于超大数据集,CNN可以容忍高水平的标签噪声-我们希望能够进一步扩大蒸馏数据集的规模,以便在未来利用这一点。