用于长上下文神经机器翻译的位置敏感哈希

Frithjof Petrick公司简·罗森达尔克里斯蒂安·赫罗德赫尔曼·奈伊


摘要
Transformer体系结构引入后,很快成为神经机器翻译任务的黄金标准。与以前的体系结构相比,Transformer的一个主要优点是,由于对递归层的关注,通过跨时间步长的完全并行化实现了更快的训练速度。然而,这也导致了变压器最大的问题之一,即与输入长度相关的二次时间和内存复杂性。在这项工作中,我们将Kitaev等人(2020)的位置敏感散列方法应用于Transformer中的自我注意,我们将其扩展到交叉注意,并将此内存高效框架应用于句子和文档级机器翻译。我们的实验表明,句子级LSH注意方案以略微降低翻译质量为代价。对于文档级NMT,我们能够包含比基线Transformer更大的上下文大小。然而,更多的上下文既不能提高翻译质量,也不能提高目标测试套件的分数。
选集ID:
2022.iwslt-1.4
体积:
第19届国际口语翻译会议记录(IWSLT 2022)
月份:
五月
年份:
2022
地址:
爱尔兰都柏林(现场和在线)
编辑:
伊丽莎白·塞尔斯基马塞洛·费德里科Marta Costa-jussá
地点:
IWSLT公司
SIG公司:
信号
出版商:
计算语言学协会
注:
页:
32–42
语言:
网址:
https://aclantology.org/2022.iwslt-1.4
内政部:
10.18653/v1/2022。iwslt-1.4
比比键:
引用(ACL):
弗里乔夫·彼得里克(Frithjof Petrick)、扬·罗森达尔(Jan Rosendahl)、克里斯蒂安·赫罗德(Christian Herold)和赫尔曼·奈(Hermann Ney)。2022用于长上下文神经机器翻译的局部敏感哈希.英寸第19届国际口语翻译会议记录(IWSLT 2022),第32-42页,爱尔兰都柏林(同人和在线)。计算语言学协会。
引用(非正式):
用于长上下文神经机器翻译的局部敏感哈希(Petrick等人,IWSLT 2022)
复制引文:
PDF格式:
https://aclantology.org/2022.iwslt-1.4.pdf