TSPNet:基于时间语义金字塔的手语翻译层次特征学习

的一部分神经信息处理系统的进展33(NeurIPS 2020)

作者反馈 Biptex公司 MetaReview公司 纸类 审查 补充的

作者

李栋旭、徐晨晨、余欣、张凯豪、本杰明·斯威夫特、Hanna Suominen、李洪东

摘要

手语翻译(SLT)旨在将手语视频序列翻译成基于文本的自然语言句子。手势视频由连续的手势序列组成,其间没有明确的边界。现有的SLT模型通常以框架方式表示标志视觉特征,以避免将视频明确分割为孤立的标志。然而,这些方法忽视了符号的时间信息,导致了翻译中的大量歧义。在本文中,我们探索了手势视频的时间语义结构,以学习更多的区分特征。为此,我们首先提出了一种新的符号视频段表示方法,该方法考虑了多种时间粒度,从而减少了对精确视频分割的需要。利用所提出的分段表示,我们通过时间语义金字塔网络(TSPNet)开发了一种新的分层符号视频特征学习方法。具体来说,TSPNet引入了尺度间注意来评估和增强符号段的局部语义一致性,引入了尺度内注意来利用非局部视频上下文解决语义歧义。实验表明,在最大的常用SLT数据集上,我们的TSPNet在BLEU分数(从9.58到13.41)和ROUGE分数(从31.80到34.96)方面有显著改进,表现优于最新技术。我们的实施可在https://github.com/verashira/TSPNet。