对齐手语视频中的字幕
汉纳公牛
1,2
*
Triantafyllos Afouras公司
2
*
吉尔·瓦罗尔
2,3
塞缪尔·奥尔巴尼
2
莉莲·莫梅尼
2
安德鲁·齐瑟曼
2
1
法国巴黎大学萨克雷分校LISN
2
英国牛津大学视觉几何小组
三
法国中央研究院古斯塔夫·埃菲尔大学伦敦国际博物馆
ICCV 2021年
概述
视频摘要
纸类
ArXiv公司
Biptex公司
概述
这项工作的目标是在手语视频中暂时对齐异步字幕。
特别是,我们关注的是由(i)连续签名视频和(ii)与音频内容相对应的字幕组成的手语解释电视广播数据。
以前利用这种弱对齐数据的工作只考虑了查找关键字-符号对应,而我们的目标是在连续签名中定位完整的字幕文本。
我们提出了一种为该任务量身定制的Transformer架构,我们对其进行了手动注释对齐训练,覆盖了超过15K个字幕,跨越17.7小时的视频。
我们使用BERT字幕嵌入和学习用于符号识别的CNN视频表示对两个信号进行编码,这两个信号通过一系列注意层进行交互。
我们的模型输出帧级预测,即对于每个视频帧,无论它是否属于查询的字幕。
通过广泛的评估,我们发现,与现有的未使用字幕文本嵌入进行学习的对齐基线相比,我们有了实质性的改进。
我们的自动对齐模型通过提供连续同步的视频文本数据,为推进手语的机器翻译提供了可能性。
视频摘要
视频提供了五分钟的叙述性描述,并配有画外音、BSL翻译和英文字幕。
旁白视频(5分钟)
致谢
这项工作得到了EPSRC Grant EXTol EP/R03298X/1的支持。