视觉注意下的次字级唇读

概述

本文的目标是学习能够识别无声视频中语音的强大唇读模型。我们的贡献如下：（1）提出了一种基于注意力的聚合机制来聚合视觉言语表征；（2）我们首次使用子单词单位进行唇读，并表明这使我们能够更好地模拟任务的歧义性；（3）我们提出了一种在唇读网络上训练的视觉语音检测（VSD）模型。当在公共数据集上训练时，我们在具有挑战性的LRS2和LRS3基准上获得了最新的结果，甚至通过使用一个数量级的较小数据，超过了在大规模工业数据集上培训的模型。我们的最佳模型实现22.6%LRS2数据集上的单词错误率对于唇读模型来说是前所未有的，它大大缩小了唇读和自动语音识别之间的性能差距。此外，在AVA-ActiveSpeaker基准测试中，我们的VSD模型超越了所有视觉基线，甚至超过了几种最新的视听方法。

真实世界示例

我们展示了旧档案记录和无声电影的结果。