本材料旨在确保学术和技术工作的及时传播。版权及其所有权利由作者或其他版权所有者保留。所有复制此信息的人都应遵守每个作者的版权所引用的条款和限制。在大多数情况下,未经版权所有者明确许可,不得转载这些作品。



大范围手语视频的自动密集标注

L.莫梅尼,H.公牛,K.R.Prajwal,S.奥尔巴尼,G.瓦罗尔,A.齐瑟曼
2022年欧洲计算机视觉会议
摘要。最近,手语研究人员转向手语翻译电视广播,包括(i)连续签名视频和(ii)与音频内容相对应的字幕,作为随时可用的大规模培训数据来源。此类数据可用性的一个关键挑战是缺少符号注释。以前利用这种弱对齐数据的工作只发现字幕中的关键字与单个符号之间存在稀疏的对应关系。在这项工作中,我们提出了一个简单、可扩展的框架,以大大提高自动注释的密度。我们的贡献如下:(1)通过使用同义词和字幕对齐,显著改进了以前的注释方法;(2) 我们展示了符号识别模型中伪拉贝尔作为一种识别符号的方法的价值;(3) 我们提出了一种基于领域内样本增加已知和未知类注释的新方法;(4) 在BOBSL BSL手语语料库中,我们将自信自动标注的数量从670K增加到5M。我们公开这些注释,以支持手语研究社区。

链接:


BibTex参考:

@诉讼程序{Momeni22,author=“Liliane Momeni和Hannah Bull以及K R Prajwal和Samuel Albanie以及G{\“u}l Varol和Andrew Zisserman”,title=“大型词汇手语视频的自动密集标注”,booktitle=“欧洲计算机视觉会议”,年=“2022”,}

数据库中的其他出版物: