Improving the Transformer Translation Model with Document-Level Context

Jiacheng Zhang; Huanbo Luan; Maosong Sun; Feifei Zhai; Jingfang Xu; Min Zhang; Yang Liu

doi:10.18653/v1/D18-1049

利用文档级上下文改进变压器翻译模型

摘要

尽管Transformer翻译模型（Vaswani等人，2017）在各种翻译任务中取得了最先进的表现，但如何使用文档级上下文处理Transformer遇到的话语现象仍然是一个挑战。在这项工作中，我们使用新的上下文编码器扩展了Transformer模型，以表示文档级上下文，然后将其合并到原始编码器和解码器中。由于大规模文档级并行语料库通常不可用，因此我们引入了一种两步训练方法，以充分利用句子级并行语料丰富和文档级平行语料库有限的优势。在NIST中英文数据集和IWSLT法语-英语数据集上的实验表明，我们的方法比Transformer有显著改进。

选集ID：: D18-1049号
体积：: 2018年自然语言处理实证方法会议记录
月份：: 10月-11月
年份：: 2018
地址：: 比利时布鲁塞尔
编辑：: 埃伦·里洛夫,大卫·蒋,朱莉娅·霍肯迈尔,Jun’ichi Tsujii先生
地点：: EMNLP公司
SIG公司：: SIGDAT公司
出版商：: 计算语言学协会
注：
页：: 533–542
语言：
网址：: https://aclantology.org/D18-1049
内政部：: 10.18653/v1/D18-1049年
比比键：
引用（ACL）：: 张嘉诚、栾焕波、孙茂松、翟飞飞、徐静芳、张敏和杨柳。2018利用文档级上下文改进变压器翻译模型.英寸2018年自然语言处理实证方法会议记录，第533-542页，比利时布鲁塞尔。计算语言学协会。
引用（非正式）：: 利用文档级上下文改进变压器翻译模型（Zhang等人，EMNLP 2018）
复制引文：
PDF格式：: https://aclcollectory.org/D18-1049.pdf
代码: 砰/砰+附加社区代码

PDF格式引用搜索代码