利用文档级上下文改进变压器翻译模型

张嘉诚,环波栾,孙茂松,翟飞飞,徐静芳,张敏(音),杨柳


摘要
尽管Transformer翻译模型(Vaswani等人,2017)在各种翻译任务中取得了最先进的表现,但如何使用文档级上下文处理Transformer遇到的话语现象仍然是一个挑战。在这项工作中,我们使用新的上下文编码器扩展了Transformer模型,以表示文档级上下文,然后将其合并到原始编码器和解码器中。由于大规模文档级并行语料库通常不可用,因此我们引入了一种两步训练方法,以充分利用句子级并行语料丰富和文档级平行语料库有限的优势。在NIST中英文数据集和IWSLT法语-英语数据集上的实验表明,我们的方法比Transformer有显著改进。
选集ID:
D18-1049号
体积:
2018年自然语言处理实证方法会议记录
月份:
10月-11月
年份:
2018
地址:
比利时布鲁塞尔
编辑:
埃伦·里洛夫,大卫·蒋,朱莉娅·霍肯迈尔,Jun’ichi Tsujii先生
地点:
EMNLP公司
SIG公司:
SIGDAT公司
出版商:
计算语言学协会
注:
页:
533–542
语言:
网址:
https://aclantology.org/D18-1049
内政部:
10.18653/v1/D18-1049年
比比键:
引用(ACL):
张嘉诚、栾焕波、孙茂松、翟飞飞、徐静芳、张敏和杨柳。2018利用文档级上下文改进变压器翻译模型.英寸2018年自然语言处理实证方法会议记录,第533-542页,比利时布鲁塞尔。计算语言学协会。
引用(非正式):
利用文档级上下文改进变压器翻译模型(Zhang等人,EMNLP 2018)
复制引文:
PDF格式:
https://aclcollectory.org/D18-1049.pdf
代码
砰/砰+附加社区代码