使用语义机器翻译评估度量清理噪声并行语料库的准确语义文本相似度:NRC公司监督提交到并行语料库筛选任务

Chi-kiu Lo公司,米歇尔·西马德,达琳·斯图尔特,塞缪尔·拉金,西里尔·古特,帕特里克·利特尔


摘要
我们提出了一种语义文本相似度方法,该方法使用一种新的语义机器翻译评估指标YiSi来过滤带有噪声的网络爬行并行语料库。主要基于这种监督方法的系统在WMT18并行语料库过滤共享任务中表现良好(在1亿字评估中排名第四,在1000万字评估中位列第八,在48份提交中排名第六)。事实上,我们表现最好的系统-NRC-yisi-bicov是两次评估中仅有的四份排名前10的提交文件之一。我们提交的系统还包括一些初始过滤步骤,用于缩小测试语料库的大小,以及一个最终冗余删除步骤,用于更好地覆盖过滤语料库中的语义和标记。在本文中,我们还描述了我们在自动合成有噪声的并行开发语料库以调整权重以结合不同的并行性和流畅性特征方面的失败尝试。
选集ID:
W18-6481号
体积:
第三届机器翻译会议记录:共享任务文件
月份:
十月
年份:
2018
地址:
比利时、布鲁塞尔
编辑:
Ondřej Bojar公司,拉金·查特吉,克里斯蒂安·费德曼,马克·费舍尔,伊维特·格雷厄姆,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,克里斯托夫·蒙兹,马泰奥·内格里,奥雷利·内维尔,玛丽亚娜·奈维斯,马特·波斯特,露西娅·斯佩西亚,马可·图尔奇,卡林·弗斯波尔
地点:
WMT公司
SIG公司:
SIGMT公司
发布者:
计算语言学协会
注:
页:
908–916
语言:
网址:
https://aclantology.org/W18-6481
内政部:
10.18653/v1/W18-6481
比比键:
引用(ACL):
Chi-kiu Lo、Michel Simard、Darlene Stewart、Samuel Larkin、Cyril Goutte和Patrick Littell。2018使用语义机器翻译评估度量清理噪声并行语料库的准确语义文本相似性:NRC监督提交到并行语料集过滤任务.英寸第三届机器翻译会议记录:共享任务文件,第908–916页,比利时,布鲁塞尔。计算语言学协会。
引用(非正式):
使用语义机器翻译评估度量清理噪声并行语料库的准确语义文本相似性:NRC监督提交到并行语料集过滤任务(Lo等人,WMT 2018)
复制引文:
PDF格式:
https://aclantology.org/W18-6481.pdf