视觉几何组-牛津大学

大范围手语视频的自动密集标注

L.莫梅尼,H.公牛,K.R.Prajwal，S.奥尔巴尼,G.瓦罗尔,A.齐瑟曼

2022年欧洲计算机视觉会议

摘要。最近，手语研究人员转向手语翻译电视广播，包括（i）连续签名视频和（ii）与音频内容相对应的字幕，作为随时可用的大规模培训数据来源。此类数据可用性的一个关键挑战是缺少符号注释。以前利用这种弱对齐数据的工作只发现字幕中的关键字与单个符号之间存在稀疏的对应关系。在这项工作中，我们提出了一个简单、可扩展的框架，以大大提高自动注释的密度。我们的贡献如下：（1）通过使用同义词和字幕对齐，显著改进了以前的注释方法；（2）我们展示了符号识别模型中伪拉贝尔作为一种识别符号的方法的价值；（3）我们提出了一种基于领域内样本增加已知和未知类注释的新方法；（4）在BOBSL BSL手语语料库中，我们将自信自动标注的数量从670K增加到5M。我们公开这些注释，以支持手语研究社区。

链接：

项目页面

BibTex参考：

@诉讼程序{Momeni22，author=“Liliane Momeni和Hannah Bull以及K R Prajwal和Samuel Albanie以及G｛\“u｝l Varol和Andrew Zisserman”，title=“大型词汇手语视频的自动密集标注”，booktitle=“欧洲计算机视觉会议”，年=“2022”，}

数据库中的其他出版物：

»莉莲·莫梅尼
»汉纳公牛
»K R Prajwal公司
»塞缪尔·奥尔巴尼
»吉尔·瓦罗尔
»安德鲁·齐瑟曼

出版物

大范围手语视频的自动密集标注

链接：

项目页面

BibTex参考：

数据库中的其他出版物：