我的嘴唇被遮住了:通过障碍物的视听语音增强


Afouras三触角菌
Joon Son Chung先生
安德鲁·齐瑟曼
牛津大学视觉几何组




摘要

我们的目标是建立一个视听模型来分离单个来自混合声音的扬声器,例如其他扬声器和背景噪音。此外,我们希望听到演讲者甚至当视觉提示由于遮挡而暂时不存在时。为此,我们引入了深度视听语音增强能够分离说话人声音的网络通过调节说话人的嘴唇动作和/或他们声音的表现。语音表示可以通过(i)注册或(ii)自我注册获得-在有足够unoba的情况下学习表示法-结构化视觉输入。模型通过混合音频进行训练,并在口腔周围引入人工闭塞物防止视觉形态占据主导地位。该方法与扬声器无关,我们演示了它是关于在培训。该方法还改进了中以前的模型尤其是视觉模式中的遮挡情况。

增强示例

实时视频

混合信号
V型变频器
VS-自身(拟议)

人工闭塞

2个扬声器
混合信号
语音过滤器
V型变频器
V-BLSTM公司
VS-自身(拟议)
基本事实

3个扬声器
混合信号
语音过滤器
V型Conv
V-BLSTM公司
VS-自身(拟议)
基本事实

数据集集合

我们使用VGG唇读数据集在这项工作中。

替换文本 替换文本 替换文本 替换文本
替换文本 替换文本 替换文本 替换文本
列车样本
测试样品

出版物

T.阿福拉斯,J.S.Chung,A.齐瑟曼
2019年国际演讲会

致谢

这项工作得到了英国自主智能机器和系统EPSRC CDT牛津大学-谷歌DeepMind研究生奖学金,和EPSRC计划拨款Seebibyte EP/M013774/1:大数据时代的视觉搜索。