概述




这项工作的目的是用连续的手语在广泛的词汇表中注释手语实例。我们训练Transformer模型来摄取连续的签名流,并在具有弱对齐字幕的签名片段的大规模集合上输出一系列写入的令牌。我们表明,通过这项训练,它能够处理输入序列中大量的符号实例词汇,从而实现它们的本地化。我们的贡献如下:(1)我们证明了利用大量带有弱对齐字幕的连续签名视频来定位连续手势语言中的手势的能力;(2) 我们利用所学的注意力,为大型符号词汇自动生成数十万条注释;(3) 我们在950个符号类的词汇表中收集了一组37K个手动验证的符号实例,以支持我们对手语识别的研究;(4) 通过对我们方法中新注释的数据进行训练,我们在BSL-1K手语识别基准测试中的性能优于现有技术。

视频摘要

第一段视频对工作进行了两分钟的简要总结,说明了所提议的方法、定性结果和应用(无旁白)。第二段视频提供了一个更详细的五分钟叙事描述,包括配音、BSL翻译和英文字幕。

短片(2分钟)

旁白视频(5分钟)

模型发布

我们提供改进的I3D模型(100MB)使用700K稀疏符号注释(有关性能,请参阅本文的表1)。请参阅代码发布我们的ECCV’20论文使用此模型。

通过从5K个单词的词汇表中使用M+D+A注释对该模型进行微调,可以进一步改进:此型号(136MB)可用于预处理或提取视频特征。

致谢

这项工作得到了2019年EPSRC Grant EXTol EP/R03298X/1和RP/R1/191132皇家学会研究教授的支持。我们感谢Cihan Camgöz的有益讨论,感谢Himel Chowdhury和Abhishek Dutta在注释方面的帮助。