本材料旨在确保学术和技术工作的及时传播。版权及其所有权利由作者或其他版权所有者保留。所有复制此信息的人都应遵守每个作者的版权所引用的条款和限制。在大多数情况下,未经版权所有者明确许可,不得转载这些作品。



鸡尾酒会上的朗读与聆听:多模态语音分离

A.拉希米,T.阿福拉斯,A.齐瑟曼
2022年IEEE计算机视觉和模式识别会议
下载出版物:rahimi22.pdf[1.6Mo] 

本文的目标是使用不同模式的组合在多扬声器和噪声环境中进行语音分离和增强。以前的作品在处理时间或静态视觉证据时表现良好,例如同步的嘴唇运动或面部识别。本文提出了一种基于同步或异步线索的多模态语音分离和增强的统一框架。为此,我们作出了以下贡献:

  1. 我们设计了一种基于Transformer的现代架构,专门用于融合不同的模态,以解决原始波形域中的语音分离任务;
  2. 我们建议单独或结合视觉信息对句子的文本内容进行调节;
  3. 我们证明了模型对视听同步偏移的鲁棒性;并且,
  4. (iv)我们在成熟的基准数据集LRS2和LRS3上获得了最先进的性能。

链接:


BibTex参考:

@诉讼中{Rahimi22,author=“Akam Rahimi和Triantafyllos Afouras以及Andrew Zisserman”,title=“鸡尾酒会上的朗读与聆听:多模态语音分离”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2022”,}

数据库中的其他出版物: