Measuring sentence parallelism using Mahalanobis distances: The NRC unsupervised submissions to the WMT18 Parallel Corpus Filtering shared task

Patrick Littell; Samuel Larkin; Darlene Stewart; Michel Simard; Cyril Goutte; Chi-Kiu Lo

doi:10.18653/v1/W18-6480

使用Mahalanobis距离测量句子平行度：NRC公司向WMT公司18并行语料库筛选共享任务

帕特里克·利特尔,塞缪尔·拉金,达琳·斯图尔特,米歇尔·西马德,西里尔·古特,Chi-kiu Lo公司

摘要

WMT18共享了并行语料库过滤任务（Koehn等人，2018b），要求团队从大型高召回率、低精度网络搜索并行语料夹中为句子对评分（Koehan等人，2018年a）。参与者可以使用现有的样本语料库（例如过去的WMT数据）作为监督信号，以了解“干净”的语料库是什么样的。然而，在资源较低的情况下，经常会发生语言的目标语料库是只有该语言中的平行文本示例。因此，我们做了几个无监督的条目，给自己设置了一个额外的限制，即我们不能使用额外的干净的平行语料库。其中一个条目在100M单词条件的前十大系统中得分相当一致，而在翻译欧洲药品管理局语料库（Tiedemann，2009）的一项任务中，即使在10M单词条件下，该条目也在最佳系统中得分。

选集ID：: W18-6480型
体积：: 第三届机器翻译会议记录：共享任务文件
月份：: 十月
年份：: 2018
地址：: 比利时、布鲁塞尔
编辑：: Ondřej Bojar公司,拉金·查特吉,克里斯蒂安·费德曼,马克·费舍尔,伊维特·格雷厄姆,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,克里斯托夫·蒙兹,马泰奥·内格里,奥雷利·内维尔,玛丽亚娜·奈维斯,马特·波斯特,露西娅·斯佩西亚,马可·图尔奇,卡林·弗斯波尔
地点：: WMT公司
SIG公司：: SIGMT公司
发布者：: 计算语言学协会
注：
页：: 900–907
语言：
网址：: https://aclantology.org/W18-6480
内政部：: 10.18653/v1/W18-6480
比比键：
引用（ACL）：: Patrick Littell、Samuel Larkin、Darlene Stewart、Michel Simard、Cyril Goutte和Chi-kiu Lo。2018使用马氏距离测量句子平行性：NRC向WMT18平行语料库过滤共享任务的无监督提交.英寸第三届机器翻译会议记录：共享任务文件，第900-907页，比利时，布鲁塞尔。计算语言学协会。
引用（非正式）：: 使用马氏距离测量句子平行性：NRC向WMT18平行语料库过滤共享任务的无监督提交（Littell等人，WMT 2018）
复制引文：
PDF格式：: https://aclantology.org/W18-6480.pdf

PDF格式引用搜索