使用Mahalanobis距离测量句子平行度:NRC公司WMT公司18并行语料库筛选共享任务

帕特里克·利特尔,塞缪尔·拉金,达琳·斯图尔特,米歇尔·西马德,西里尔·古特,Chi-kiu Lo公司


摘要
WMT18共享了并行语料库过滤任务(Koehn等人,2018b),要求团队从大型高召回率、低精度网络搜索并行语料夹中为句子对评分(Koehan等人,2018年a)。参与者可以使用现有的样本语料库(例如过去的WMT数据)作为监督信号,以了解“干净”的语料库是什么样的。然而,在资源较低的情况下,经常会发生语言的目标语料库是只有该语言中的平行文本示例。因此,我们做了几个无监督的条目,给自己设置了一个额外的限制,即我们不能使用额外的干净的平行语料库。其中一个条目在100M单词条件的前十大系统中得分相当一致,而在翻译欧洲药品管理局语料库(Tiedemann,2009)的一项任务中,即使在10M单词条件下,该条目也在最佳系统中得分。
选集ID:
W18-6480型
体积:
第三届机器翻译会议记录:共享任务文件
月份:
十月
年份:
2018
地址:
比利时、布鲁塞尔
编辑:
Ondřej Bojar公司,拉金·查特吉,克里斯蒂安·费德曼,马克·费舍尔,伊维特·格雷厄姆,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,克里斯托夫·蒙兹,马泰奥·内格里,奥雷利·内维尔,玛丽亚娜·奈维斯,马特·波斯特,露西娅·斯佩西亚,马可·图尔奇,卡林·弗斯波尔
地点:
WMT公司
SIG公司:
SIGMT公司
发布者:
计算语言学协会
注:
页:
900–907
语言:
网址:
https://aclantology.org/W18-6480
内政部:
10.18653/v1/W18-6480
比比键:
引用(ACL):
Patrick Littell、Samuel Larkin、Darlene Stewart、Michel Simard、Cyril Goutte和Chi-kiu Lo。2018使用马氏距离测量句子平行性:NRC向WMT18平行语料库过滤共享任务的无监督提交.英寸第三届机器翻译会议记录:共享任务文件,第900-907页,比利时,布鲁塞尔。计算语言学协会。
引用(非正式):
使用马氏距离测量句子平行性:NRC向WMT18平行语料库过滤共享任务的无监督提交(Littell等人,WMT 2018)
复制引文:
PDF格式:
https://aclantology.org/W18-6480.pdf