对齐手语视频中的字幕

概述

这项工作的目标是在手语视频中暂时对齐异步字幕。特别是，我们关注的是由（i）连续签名视频和（ii）与音频内容相对应的字幕组成的手语解释电视广播数据。以前利用这种弱对齐数据的工作只考虑了查找关键字-符号对应，而我们的目标是在连续签名中定位完整的字幕文本。我们提出了一种为该任务量身定制的Transformer架构，我们对其进行了手动注释对齐训练，覆盖了超过15K个字幕，跨越17.7小时的视频。我们使用BERT字幕嵌入和学习用于符号识别的CNN视频表示对两个信号进行编码，这两个信号通过一系列注意层进行交互。我们的模型输出帧级预测，即对于每个视频帧，无论它是否属于查询的字幕。通过广泛的评估，我们发现，与现有的未使用字幕文本嵌入进行学习的对齐基线相比，我们有了实质性的改进。我们的自动对齐模型通过提供连续同步的视频文本数据，为推进手语的机器翻译提供了可能性。

视频摘要

视频提供了五分钟的叙述性描述，并配有画外音、BSL翻译和英文字幕。

旁白视频（5分钟）

致谢

这项工作得到了EPSRC Grant EXTol EP/R03298X/1的支持。