Locality-Sensitive Hashing for Long Context Neural Machine Translation

Frithjof Petrick; Jan Rosendahl; Christian Herold; Hermann Ney

doi:10.18653/v1/2022.iwslt-1.4

用于长上下文神经机器翻译的局部敏感哈希

摘要

Transformer体系结构引入后，很快成为神经机器翻译任务的黄金标准。与以前的体系结构相比，Transformer的一个主要优势是，由于在递归层上使用了注意力，因此通过跨时间步长的完全并行化可以实现更快的训练速度。然而，这也导致了变压器最大的问题之一，即与输入长度相关的二次时间和内存复杂性。在这项工作中，我们将Kitaev等人（2020）的位置敏感哈希方法应用于Transformer中的自我注意，我们将其扩展到交叉注意，并将这种高效记忆的框架应用于句子和文档级别的机器翻译。我们的实验表明，句子级LSH注意方案以略微降低翻译质量为代价。对于文档级NMT，我们能够包含比基线Transformer更大的上下文大小。然而，更多的上下文既不能提高翻译质量，也不能提高目标测试套件的分数。

选集ID：: 2022年。iwslt-1.4
体积：: 第19届国际口语翻译会议记录（IWSLT 2022）
月份：: 五月
年份：: 2022
地址：: 爱尔兰都柏林（现场和在线）
编辑：: 伊丽莎白·塞尔斯基,马塞洛·费德里科,Marta Costa-jussá
地点：: IWSLT公司
信号：: SIGSLT公司
出版商：: 计算语言学协会
注：
页：: 32–42
语言：
网址：: https://aclantology.org/2022.iwslt-1.4
内政部：: 10.18653/v1/2022。iwslt-1.4
比比键：
引用（ACL）：: 弗里乔夫·彼得里克（Frithjof Petrick）、扬·罗森达尔（Jan Rosendahl）、克里斯蒂安·赫罗德（Christian Herold）和赫尔曼·奈（Hermann Ney）。2022用于长上下文神经机器翻译的局部敏感哈希.英寸第19届国际口语翻译会议记录（IWSLT 2022），第32-42页，爱尔兰都柏林（面对面和在线）。计算语言学协会。
引用（非正式）：: 用于长上下文神经机器翻译的局部敏感哈希（Petrick等人，IWSLT 2022）
复制引文：
PDF格式：: https://aclantology.org/2022.iwslt-1.4.pdf

PDF格式引用搜索