用于并行语料库挖掘的分层文档编码器

曼迪·郭,杨银飞,基思·史蒂文斯,丹尼尔·塞尔,鹤鸣阁,孙云算(Yun-hsuan Sung),布赖恩·斯特罗普,雷库兹韦尔


摘要
我们探索使用多语言文档嵌入进行并行数据的最近邻挖掘。研究了三种文档级表示:(i)简单平均多语言句子嵌入生成的文档嵌入;(ii)神经bagof-words(BoW)文档编码模型;(iii)基于句子级模型的分层多语言文档编码器(HiDE)。结果表明,从句子级平均得到的文档嵌入对干净数据集的效果出人意料,但表明在文档级分层训练的模型对噪声数据更有效。分析实验表明,我们的层次模型对潜在句子嵌入质量的变化非常鲁棒。使用使用HiDE训练的文档嵌入实现了联合国(UN)并行文档挖掘的最先进水平,en-fr为94.9%P@1,en-es为97.3%P@1。
选集ID:
W19-5207号
音量:
第四届机器翻译会议记录(第1卷:研究论文)
月份:
八月
年份:
2019
地址:
意大利佛罗伦萨
编辑:
Ondřej Bojar公司,拉金·查特吉,克里斯蒂安·费德曼,马克·费舍尔,伊维特·格雷厄姆,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,安德烈·马丁斯,克里斯托夫·蒙兹,马泰奥·内格里,奥雷利·内维尔,玛丽亚娜·奈维斯,马特·波斯特,马可·图尔奇,卡林·弗斯波尔
地点:
WMT公司
SIG公司:
SIGMT公司
发布者:
计算语言学协会
注:
页:
64–72
语言:
网址:
https://aclantology.org/W19-5207
DOI(操作界面):
10.18653/v1/W19-5207型
比比键:
引用(ACL):
Mandy Guo、Yinfei Yang、Keith Stevens、Daniel Cer、Heming Ge、Yun-hsuan Sung、Brian Strope和Ray Kurzweil。2019用于并行语料库挖掘的分层文档编码器.英寸第四届机器翻译会议记录(第1卷:研究论文),第64-72页,意大利佛罗伦萨。计算语言学协会。
引用(非正式):
用于并行语料库挖掘的分层文档编码器(Guo等人,WMT 2019)
复制引文:
PDF格式:
https://aclantology.org/W19-5207.pdf