提供这些材料是为了确保学术和技术工作的及时传播。版权及其所有权利由作者或其他版权所有者保留。所有复制此信息的人都应遵守每个作者的版权所引用的条款和限制。在大多数情况下,未经版权所有者明确许可,不得转载这些作品。



视觉注意下的次字级唇读

K.R.Prajwal,T.阿福拉斯,A.齐瑟曼
2022年IEEE计算机视觉和模式识别会议
下载出版物:prajwal22.pdf[1.4Mo] 
本文的目标是学习能够识别无声视频中语音的强大唇读模型。大多数以前的工作都是通过将现有的自动语音识别技术应用于琐碎的混合视觉特征之上来处理开放集视觉语音识别问题。相反,在本文中,我们关注唇读中遇到的独特挑战,并提出量身定制的解决方案。为此,我们做出了以下贡献:(1)提出了一种基于注意力的聚合机制来聚合视觉语音表征;(2) 我们首次使用子单词单位进行唇读,并表明这使我们能够更好地模拟任务的歧义性;(3) 我们提出了一种在唇读网络上训练的视觉语音检测(VSD)模型。根据上述结果,我们在公共数据集上训练时,在具有挑战性的LRS2和LRS3基准上获得了最新的结果,甚至通过使用一个数量级的较小数据,超过了在大规模工业数据集上培训的模型。我们的最佳模型实现22.6%LRS2数据集上的单词错误率对于唇读模型来说是前所未有的,它大大缩小了唇读和自动语音识别之间的性能差距。此外,在AVA-ActiveSpeaker基准测试中,我们的VSD模型超越了所有视觉基线,甚至超过了几种最新的视听方法。

链接:


BibTex参考:

@诉讼中{Prajwal22,author=“K R Prajwal and Triantafyllos Afouras and Andrew Zisserman”,title=“以视觉注意力进行次字级唇读”,booktitle=“IEEE计算机视觉和模式识别会议”,年=“2022”,}

数据库中的其他出版物: