关于无监督复制问题神经网络机器翻译:语言识别器丢失的培训计划

刘一红,亚历山德拉·克洛诺普鲁(Alexandra Chronopoulou),Hinrich Schütze公司,亚历山大·弗雷泽


摘要
虽然无监督神经机器翻译(UNMT)在许多语言对中都取得了成功,但复制问题,即直接复制输入句子的某些部分作为翻译,在远程语言对中很常见,尤其是涉及低资源语言时。我们发现这个问题与在线回译(BT)期间的意外复制行为密切相关。在这项工作中,我们提出了一个简单但有效的训练计划,其中包含了语言鉴别器丢失。损失对中间翻译造成了限制,因此翻译是用所需的语言进行的。通过对不同的语言对进行广泛的实验,包括相似语言和远距离语言、高资源语言和低资源语言,我们发现我们的方法缓解了复制问题,从而提高了低资源语言的翻译性能。
选集ID:
2023.iwslt-1.48年
体积:
第20届国际口语翻译大会(IWSLT 2023)会议记录
月份:
七月
年份:
2023
地址:
加拿大多伦多(现场和在线)
编辑:
伊丽莎白·塞尔斯基,马塞洛·费德里科,海洋木瓜
地点:
IWSLT公司
SIG公司:
SIGSLT公司
出版商:
计算语言学协会
注:
页:
491–502
语言:
网址:
https://aclantology.org/2023.iwslt-1.48
内政部:
10.18653/v1/2023.iwslt-1.48
比比键:
引用(ACL):
刘一红(Yihong Liu)、亚历山德拉(Alexandra Chronopoulou)、辛里希·舒茨(Hinrich Schütze)和亚历山大·弗雷泽(Alexander Fraser)。2023无监督NMT的复制问题:一种语言识别器丢失的训练计划.英寸第20届国际口语翻译大会(IWSLT 2023)会议记录,第491-502页,加拿大多伦多(同人和在线)。计算语言学协会。
引用(非正式):
关于无监督NMT的复制问题:一个具有语言鉴别器损失的训练计划(刘等人,IWSLT 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.iwslt-1.48.pdf