概述




这项工作的目标是在手语视频中暂时对齐异步字幕。特别是,我们关注的是由(i)连续签名视频和(ii)与音频内容相对应的字幕组成的手语解释电视广播数据。以前利用这种弱对齐数据的工作只考虑了查找关键字-符号对应,而我们的目标是在连续签名中定位完整的字幕文本。我们提出了一种为该任务量身定制的Transformer架构,我们对其进行了手动注释对齐训练,覆盖了超过15K个字幕,跨越17.7小时的视频。我们使用BERT字幕嵌入和学习用于符号识别的CNN视频表示对两个信号进行编码,这两个信号通过一系列注意层进行交互。我们的模型输出帧级预测,即对于每个视频帧,无论它是否属于查询的字幕。通过广泛的评估,我们发现,与现有的未使用字幕文本嵌入进行学习的对齐基线相比,我们有了实质性的改进。我们的自动对齐模型通过提供连续同步的视频文本数据,为推进手语的机器翻译提供了可能性。

视频摘要

视频提供了五分钟的叙述性描述,并配有画外音、BSL翻译和英文字幕。

旁白视频(5分钟)

致谢

这项工作得到了EPSRC Grant EXTol EP/R03298X/1的支持。