语音成型器

在鸡尾酒会上朗读：
多模态语音分离

阿卡姆·拉希米
Triantafyllos Afouras公司
安德鲁·齐瑟曼

英国牛津大学工程科学系VGG

我们建议语音成型器这是一个多模态语音分离和增强框架，它根据目标说话人话语的文本内容、他们的嘴唇动作或两者来分离语音。我们的框架允许对来自多种模式的线索进行条件反射，而不要求它们在时间上同步或具有共同的时间速率。这使其具有多个优点，例如对输入之间的时间偏差具有鲁棒性。

摘要

本文的目标是在多扬声器和噪声环境中使用不同模态的组合进行语音分离和增强。以前的作品在处理时间或静态视觉证据时表现良好，例如同步的嘴唇运动或面部识别。本文提出了一种基于同步或异步线索的多模态语音分离和增强的统一框架。为此，我们作出了以下贡献：

（i）我们设计了一种基于Transformer的现代架构，用于融合不同的模式，以解决原始波形域中的语音分离任务；
（ii）我们建议单独或结合视觉信息对句子的文本内容进行条件反射；
（iii）我们证明了我们的模型对视听同步偏移的鲁棒性；和，
（iv）我们在成熟的基准数据集LRS2和LRS3上获得了最先进的性能。

文本条件分隔示例

基于视觉线索的分离示例

增强示例

在这里，我们展示了我们的模型通过调节扬声器的视觉线索来过滤掉任何非言语背景噪音的能力。

其他语言中的分离示例

以下示例表明，当根据视觉线索进行条件反射时，我们的模型是语言不可知的

法语

意大利人

纸张和代码

可以找到全文在这里.

这个项目的代码将很快发布

致谢

这项工作由英国EP-SRC AIMS CDT、EPSRC计划资助VisualAI EP/T028572/1和Google-DeepMind研究生奖学金资助。

引用

                    
@诉讼中{Rahimi22，author=“Akam Rahimi、Triantafyllos Afouras和Andrew Zisserman”，title=“鸡尾酒会上的朗读与聆听：多模态语音分离”，institution=“牛津大学工程科学系”，booktitle=“2022年计算机视觉和模式识别会议”，年=“2022”，}

在鸡尾酒会上朗读：多模态语音分离

摘要