我们建议语音成型器这是一个多模态语音分离和增强框架,它根据目标说话人话语的文本内容、他们的嘴唇动作或两者来分离语音。我们的框架允许对来自多种模式的线索进行条件反射,而不要求它们在时间上同步或具有共同的时间速率。这使其具有多个优点,例如对输入之间的时间偏差具有鲁棒性。
本文的目标是在多扬声器和噪声环境中使用不同模态的组合进行语音分离和增强。以前的作品在处理时间或静态视觉证据时表现良好,例如同步的嘴唇运动或面部识别。本文提出了一种基于同步或异步线索的多模态语音分离和增强的统一框架。为此,我们作出了以下贡献:
可以找到全文在这里.
这个项目的代码将很快发布
这项工作由英国EP-SRC AIMS CDT、EPSRC计划资助VisualAI EP/T028572/1和Google-DeepMind研究生奖学金资助。
@诉讼中{Rahimi22,author=“Akam Rahimi、Triantafyllos Afouras和Andrew Zisserman”,title=“鸡尾酒会上的朗读与聆听:多模态语音分离”,institution=“牛津大学工程科学系”,booktitle=“2022年计算机视觉和模式识别会议”,年=“2022”,}