用于长上下文神经机器翻译的局部敏感哈希

弗里斯约夫·彼得里克,简·罗森达尔,克里斯蒂安·赫罗德,赫尔曼·奈伊


摘要
Transformer体系结构引入后,很快成为神经机器翻译任务的黄金标准。与以前的体系结构相比,Transformer的一个主要优势是,由于在递归层上使用了注意力,因此通过跨时间步长的完全并行化可以实现更快的训练速度。然而,这也导致了变压器最大的问题之一,即与输入长度相关的二次时间和内存复杂性。在这项工作中,我们将Kitaev等人(2020)的位置敏感哈希方法应用于Transformer中的自我注意,我们将其扩展到交叉注意,并将这种高效记忆的框架应用于句子和文档级别的机器翻译。我们的实验表明,句子级LSH注意方案以略微降低翻译质量为代价。对于文档级NMT,我们能够包含比基线Transformer更大的上下文大小。然而,更多的上下文既不能提高翻译质量,也不能提高目标测试套件的分数。
选集ID:
2022年。iwslt-1.4
体积:
第19届国际口语翻译会议记录(IWSLT 2022)
月份:
五月
年份:
2022
地址:
爱尔兰都柏林(现场和在线)
编辑:
伊丽莎白·塞尔斯基,马塞洛·费德里科,Marta Costa-jussá
地点:
IWSLT公司
信号:
SIGSLT公司
出版商:
计算语言学协会
注:
页:
32–42
语言:
网址:
https://aclantology.org/2022.iwslt-1.4
内政部:
10.18653/v1/2022。iwslt-1.4
比比键:
引用(ACL):
弗里乔夫·彼得里克(Frithjof Petrick)、扬·罗森达尔(Jan Rosendahl)、克里斯蒂安·赫罗德(Christian Herold)和赫尔曼·奈(Hermann Ney)。2022用于长上下文神经机器翻译的局部敏感哈希.英寸第19届国际口语翻译会议记录(IWSLT 2022),第32-42页,爱尔兰都柏林(面对面和在线)。计算语言学协会。
引用(非正式):
用于长上下文神经机器翻译的局部敏感哈希(Petrick等人,IWSLT 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.iwslt-1.4.pdf