The JHU Parallel Corpus Filtering Systems for WMT 2018

Huda Khayrallah; Hainan Xu; Philipp Koehn

doi:10.18653/v1/W18-6479

这个JHU公司并行语料库过滤系统WMT公司2018

摘要

这项工作描述了我们提交给WMT18并行语料库过滤共享任务的情况。我们使用稍微修改过的Zipporah语料库过滤工具包（Xu和Koehn，2017），该工具包计算句子对的适当性分数和流利性分数，并使用分数的加权和作为选择标准。这项工作与Zipporah的不同之处在于，我们尝试使用要过滤的噪声语料库来计算组合权重，从而避免像标准Zippora那样生成合成数据。

选集ID：: 宽18-6479
体积：: 第三届机器翻译会议记录：共享任务文件
月份：: 十月
年份：: 2018
地址：: 比利时、布鲁塞尔
编辑：: Ondřej Bojar公司,拉金·查特吉,克里斯蒂安·费德曼,马克·费舍尔,伊维特·格雷厄姆,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,克里斯托夫·蒙兹,马泰奥·内格里,奥雷利·内维尔,玛丽亚娜·奈维斯,马特·波斯特,露西娅·斯佩西亚,马可·图尔奇,卡林·弗斯波尔
地点：: WMT公司
SIG公司：: SIGMT公司
发布者：: 计算语言学协会
注：
页：: 896–899
语言：
网址：: https://aclantology.org/W18-6479
内政部：: 10.18653/v1/W18-6479
比比键：
引用（ACL）：: Huda Khayrallah、Hainan Xu和Philipp Koehn。20182018年WMT的JHU并行语料库过滤系统.英寸第三届机器翻译会议记录：共享任务文件，第896–899页，比利时，布鲁塞尔。计算语言学协会。
引用（非正式）：: 用于WMT 2018的JHU并行语料库过滤系统（Khayrallah等人，WMT 2018）
复制引文：
PDF格式：: https://aclantology.org/W18-6479.pdf

PDF格式引用搜索