@进行中{petrick-etal-2022位置,title=“长上下文神经机器翻译的局部敏感哈希”,author=“Petrick、Frithjof和罗森达尔,简和赫罗德、克里斯蒂安和Ney,Hermann“,editor=“Salesky、Elizabeth和费德里科、马塞洛和Costa-juss{\`a},玛尔塔“,booktitle=“第19届国际口语翻译大会(IWSLT 2022)会议记录”,月份=五月,年=“2022”,address=“爱尔兰都柏林(常驻和在线)”,publisher=“计算语言学协会”,url=“https://aclantology.org/2022.iwslt-1.4”,doi=“10.18653/v1/2022.iwslt-1.4”,pages=“32--42”,抽象=“在引入Transformer架构后,它很快成为神经机器翻译任务的金标准。与以前的架构相比,Transformer的一个主要优点是,由于对递归层的关注,跨时间步长的完全并行化实现了更快的训练速度。然而,这一点也导致了变压器最大的问题之一,即相对于输入长度的二次时间和内存复杂性。在这项工作中,我们将Kitaev等人(2020)的位置敏感哈希方法应用于Transformer中的自我注意,我们将其扩展到交叉注意,并将这种高效记忆的框架应用于句子和文档级别的机器翻译。我们的实验表明,句子级LSH注意方案以略微降低翻译质量为代价。对于文档级NMT,我们能够包含比基线Transformer更大的上下文大小。然而,更多的上下文既不能提高翻译质量,也不能提高目标测试套件的分数。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“petrick-etal-2022-locality”><标题信息>用于长上下文神经机器翻译的局部敏感哈希</titleInfo><name type=“personal”>弗里斯霍夫彼得里克<角色>作者</角色></name><name type=“personal”>一月罗森达尔<角色>作者</角色></name><name type=“personal”>克里斯蒂安赫罗德<角色>作者</角色></name><name type=“personal”>赫尔曼Ney(奈伊)<角色>作者</角色></name><originInfo>2022-05发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第19届国际口语翻译大会(IWSLT 2022)会议记录</titleInfo><name type=“personal”>伊丽莎白Salesky公司<角色>编辑器</角色></name><name type=“personal”>马塞洛费德里科<角色>编辑器</角色></name><name type=“personal”>玛尔塔Costa-jussá<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>爱尔兰都柏林(同人和在线)</place></originInfo><type-authority=“marcgt”>会议出版物</type></relatedItem>Transformer体系结构引入后,很快成为神经机器翻译任务的黄金标准。与以前的体系结构相比,Transformer的一个主要优势是,由于在递归层上使用了注意力,因此通过跨时间步长的完全并行化可以实现更快的训练速度。然而,这也导致了变压器最大的问题之一,即与输入长度相关的二次时间和内存复杂性。在这项工作中,我们将Kitaev等人(2020)的位置敏感散列方法应用于Transformer中的自我注意,我们将其扩展到交叉注意,并将此内存高效框架应用于句子和文档级机器翻译。我们的实验表明,句子级LSH注意方案以略微降低翻译质量为代价。对于文档级NMT,我们能够包含比基线Transformer更大的上下文大小。然而,更多的上下文既不能提高翻译质量,也不能提高目标测试套件的分数</摘要>petrick-etal-2022-locality地区10.18653/v1/2022.iwslt-1.4<位置><网址>https://aclantology.org/2022.iwslt-1.4</url></位置><部分>2022-05年<扩展单元=“page”><开始>32<end>42</范围></部分></mods></modsCollection>
%0会议记录%用于长上下文神经机器翻译的T局部敏感哈希%A Petrick,弗里斯霍夫%A Rosendahl,简%基督教徒阿赫罗德%赫尔曼·A·奈伊%Y Salesky,伊丽莎白%Y Federico,马塞洛%Y Costa-jussá,玛尔塔%第19届国际口语翻译会议(IWSLT 2022)%D 2022年%5月8日%计算语言学协会%C都柏林,爱尔兰(现场和在线)%F petrick-etal-2022位置%X Transformer体系结构推出后,很快成为神经机器翻译任务的黄金标准。与以前的体系结构相比,Transformer的一个主要优点是,由于对递归层的关注,通过跨时间步长的完全并行化实现了更快的训练速度。然而,这也导致了Transformer最大的问题之一,即相对于输入长度的二次时间和内存复杂性。在这项工作中,我们将Kitaev等人(2020)的位置敏感散列方法应用于Transformer中的自我注意,我们将其扩展到交叉注意,并将此内存高效框架应用于句子和文档级机器翻译。我们的实验表明,句子级LSH注意方案以略微降低翻译质量为代价。对于文档级NMT,我们能够包含比基线Transformer更大的上下文大小。然而,更多的上下文既不能提高翻译质量,也不能提高目标测试套件的分数。%R10.18653/v1/2022。iwslt-1.4%U型https://aclantology.org/2022.iwslt-1.4%U型https://doi.org/10.18653/v1/2022.iwslt-1.4%电话32-42
降价(非正式)
[用于长上下文神经机器翻译的局部敏感哈希](https://aclantology.org/2022.iwslt-1.4)(Petrick等人,IWSLT 2022)
国际计算语言学协会
- 弗里乔夫·彼得里克(Frithjof Petrick)、扬·罗森达尔(Jan Rosendahl)、克里斯蒂安·赫罗德(Christian Herold)和赫尔曼·奈(Hermann Ney)。2022用于长上下文神经机器翻译的局部敏感哈希.英寸第19届国际口语翻译会议记录(IWSLT 2022),第32-42页,爱尔兰都柏林(同人和在线)。计算语言学协会。