TSPNet: Hierarchical Feature Learning via Temporal Semantic Pyramid for Sign Language Translation

LI, DONGXU; Xu, Chenchen; Yu, Xin; Zhang, Kaihao; Swift, Benjamin; Suominen, Hanna; Li, Hongdong

TSPNet：基于时间语义金字塔的手语翻译层次特征学习

的一部分神经信息处理系统的进展33（NeurIPS 2020）

作者反馈 Biptex公司 MetaReview公司纸类审查补充的

作者

李栋旭、徐晨晨、余欣、张凯豪、本杰明·斯威夫特、Hanna Suominen、李洪东

摘要

手语翻译（SLT）旨在将手语视频序列翻译成基于文本的自然语言句子。手势视频由连续的手势序列组成，其间没有明确的边界。现有的SLT模型通常以框架方式表示标志视觉特征，以避免将视频明确分割为孤立的标志。然而，这些方法忽视了符号的时间信息，导致了翻译中的大量歧义。在本文中，我们探索了手势视频的时间语义结构，以学习更多的区分特征。为此，我们首先提出了一种新的符号视频段表示方法，该方法考虑了多种时间粒度，从而减少了对精确视频分割的需要。利用所提出的分段表示，我们通过时间语义金字塔网络（TSPNet）开发了一种新的分层符号视频特征学习方法。具体来说，TSPNet引入了尺度间注意来评估和增强符号段的局部语义一致性，引入了尺度内注意来利用非局部视频上下文解决语义歧义。实验表明，在最大的常用SLT数据集上，我们的TSPNet在BLEU分数（从9.58到13.41）和ROUGE分数（从31.80到34.96）方面有显著改进，表现优于最新技术。我们的实施可在https://github.com/verashira/TSPNet。

TSPNet：基于时间语义金字塔的手语翻译层次特征学习

作者

摘要

名称更改策略