这项工作的重点是识别标志-给定一个孤立标志的视频,我们的任务是识别是否和哪里它是在一段连续的、共同表达的手语视频中签署的。为了完成这项识别标志的任务,我们使用多种可用的监督方式训练一个模型:(1)观看现有稀疏标记的镜头;(2)阅读提供额外弱监管的相关字幕(签名内容的现成翻译);(3)抬头看视觉手语词典中的单词(没有共同表达的标记示例),以实现新颖的手势识别。
第一段视频对作品进行了一分钟的简短总结,说明了应用程序(无旁白)。第二段视频提供了更详细的叙述性描述,包括配音、BSL翻译和英文字幕(约10分钟长)。