的一部分神经信息处理系统的进展33(NeurIPS 2020)
李栋旭、徐晨晨、余欣、张凯豪、本杰明·斯威夫特、Hanna Suominen、李洪东
手语翻译(SLT)旨在将手语视频序列翻译成基于文本的自然语言句子。手势视频由连续的手势序列组成,其间没有明确的边界。现有的SLT模型通常以框架方式表示标志视觉特征,以避免将视频明确分割为孤立的标志。然而,这些方法忽视了符号的时间信息,导致了翻译中的大量歧义。在本文中,我们探索了手势视频的时间语义结构,以学习更多的区分特征。为此,我们首先提出了一种新的符号视频段表示方法,该方法考虑了多种时间粒度,从而减少了对精确视频分割的需要。利用所提出的分段表示,我们通过时间语义金字塔网络(TSPNet)开发了一种新的分层符号视频特征学习方法。具体来说,TSPNet引入了尺度间注意来评估和增强符号段的局部语义一致性,引入了尺度内注意来利用非局部视频上下文解决语义歧义。实验表明,在最大的常用SLT数据集上,我们的TSPNet在BLEU分数(从9.58到13.41)和ROUGE分数(从31.80到34.96)方面有显著改进,表现优于最新技术。我们的实施可在https://github.com/verashira/TSPNet。
在电子程序中更改姓名的请求将被接受,不会提出任何问题。然而,名称更改可能会导致书目跟踪问题。作者被要求仔细考虑这一点,并在要求在电子诉讼中更改姓名之前与合著者进行讨论。
使用“报告问题”链接请求更改名称。