视觉几何组-牛津大学

鸡尾酒会上的朗读与聆听：多模态语音分离

A.拉希米，T.阿福拉斯,A.齐瑟曼

2022年IEEE计算机视觉和模式识别会议

下载出版物：

本文的目标是使用不同模式的组合在多扬声器和噪声环境中进行语音分离和增强。以前的作品在处理时间或静态视觉证据时表现良好，例如同步的嘴唇运动或面部识别。本文提出了一种基于同步或异步线索的多模态语音分离和增强的统一框架。为此，我们作出了以下贡献：

我们设计了一种基于Transformer的现代架构，专门用于融合不同的模态，以解决原始波形域中的语音分离任务；

我们建议单独或结合视觉信息对句子的文本内容进行调节；

我们证明了模型对视听同步偏移的鲁棒性；并且，

（iv）我们在成熟的基准数据集LRS2和LRS3上获得了最先进的性能。

链接：

项目页面

BibTex参考：

@诉讼中{Rahimi22，author=“Akam Rahimi和Triantafyllos Afouras以及Andrew Zisserman”，title=“鸡尾酒会上的朗读与聆听：多模态语音分离”，booktitle=“IEEE计算机视觉和模式识别会议”，年=“2022”，}

数据库中的其他出版物：

»Triantafyllos Afouras公司
»安德鲁·齐瑟曼

出版物

鸡尾酒会上的朗读与聆听：多模态语音分离

链接：

项目页面

BibTex参考：

数据库中的其他出版物：