T.阿福拉斯,J.S.Chung,A.齐瑟曼
2019年国际演讲会
@诉讼中{Aforas19b,author=“Afouras,T.和Chung,J.~S.和Zisserman,A.”,title=“我的嘴唇被遮住了:通过障碍物的视听语音增强”,booktitle=“INTERSPEECH”,year=“2019”,}
我们的目标是建立一个视听模型来分离单个来自混合声音的扬声器,例如其他扬声器和背景噪音。此外,我们希望听到演讲者甚至当视觉线索由于遮挡而暂时消失时。为此,我们引入了深度视听语音增强能够分离说话人声音的网络通过调节说话人的嘴唇动作和/或他们声音的表现。语音表示可以通过(i)注册或(ii)自我注册获得-在有足够unoba的情况下学习表示法-结构化视觉输入。模型通过混合音频进行训练,并在口腔周围引入人工闭塞物防止视觉形态占据主导地位。该方法与说话者无关,我们演示它是关于在培训。该方法还改进了中以前的模型尤其是视觉模式中的遮挡情况。