概述




本文的目标是学习能够识别无声视频中语音的强大唇读模型。我们的贡献如下:(1)提出了一种基于注意力的聚合机制来聚合视觉言语表征;(2) 我们首次使用子单词单位进行唇读,并表明这使我们能够更好地模拟任务的歧义性;(3) 我们提出了一种在唇读网络上训练的视觉语音检测(VSD)模型。当在公共数据集上训练时,我们在具有挑战性的LRS2和LRS3基准上获得了最新的结果,甚至通过使用一个数量级的较小数据,超过了在大规模工业数据集上培训的模型。我们的最佳模型实现22.6%LRS2数据集上的单词错误率对于唇读模型来说是前所未有的,它大大缩小了唇读和自动语音识别之间的性能差距。此外,在AVA-ActiveSpeaker基准测试中,我们的VSD模型超越了所有视觉基线,甚至超过了几种最新的视听方法。

真实世界示例

我们展示了旧档案记录和无声电影的结果。







致谢

这项研究的资金由EPSRC计划拨款VisualAI(EP/T028572/1)提供。