Hierarchical Document Encoder for Parallel Corpus Mining

Mandy Guo; Yinfei Yang; Keith Stevens; Daniel Cer; Heming Ge; Yun-Hsuan Sung; Brian Strope; Ray Kurzweil

doi:10.18653/v1/W19-5207

用于并行语料库挖掘的分层文档编码器

曼迪·郭,杨银飞,基思·史蒂文斯,丹尼尔·塞尔,鹤鸣阁,孙云算（Yun-hsuan Sung）,布赖恩·斯特罗普,雷库兹韦尔

摘要

我们探索使用多语言文档嵌入进行并行数据的最近邻挖掘。研究了三种文档级表示：（i）简单平均多语言句子嵌入生成的文档嵌入；（ii）神经bagof-words（BoW）文档编码模型；（iii）基于句子级模型的分层多语言文档编码器（HiDE）。结果表明，从句子级平均得到的文档嵌入对干净数据集的效果出人意料，但表明在文档级分层训练的模型对噪声数据更有效。分析实验表明，我们的层次模型对潜在句子嵌入质量的变化非常鲁棒。使用使用HiDE训练的文档嵌入实现了联合国（UN）并行文档挖掘的最先进水平，en-fr为94.9%P@1，en-es为97.3%P@1。

选集ID：: W19-5207号
音量：: 第四届机器翻译会议记录（第1卷：研究论文）
月份：: 八月
年份：: 2019
地址：: 意大利佛罗伦萨
编辑：: Ondřej Bojar公司,拉金·查特吉,克里斯蒂安·费德曼,马克·费舍尔,伊维特·格雷厄姆,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,安德烈·马丁斯,克里斯托夫·蒙兹,马泰奥·内格里,奥雷利·内维尔,玛丽亚娜·奈维斯,马特·波斯特,马可·图尔奇,卡林·弗斯波尔
地点：: WMT公司
SIG公司：: SIGMT公司
发布者：: 计算语言学协会
注：
页：: 64–72
语言：
网址：: https://aclantology.org/W19-5207
DOI（操作界面）：: 10.18653/v1/W19-5207型
比比键：
引用（ACL）：: Mandy Guo、Yinfei Yang、Keith Stevens、Daniel Cer、Heming Ge、Yun-hsuan Sung、Brian Strope和Ray Kurzweil。2019用于并行语料库挖掘的分层文档编码器.英寸第四届机器翻译会议记录（第1卷：研究论文），第64-72页，意大利佛罗伦萨。计算语言学协会。
引用（非正式）：: 用于并行语料库挖掘的分层文档编码器（Guo等人，WMT 2019）
复制引文：
PDF格式：: https://aclantology.org/W19-5207.pdf

PDF格式引用搜索