NICT’s Corpus Filtering Systems for the WMT18 Parallel Corpus Filtering Task

Rui Wang; Benjamin Marie; Masao Utiyama; Eiichiro Sumita

doi:10.18653/v1/W18-6489

NICT公司的语料库过滤系统WMT公司18并行语料库筛选任务

王瑞（Rui Wang）,本杰明·玛丽,Masao Utiyama公司,住田英一郎

摘要

本文介绍了NICT参与WMT18共享并行语料库过滤任务的情况。作为Paracrawl项目的一部分，组织者提供了从网络上抓取的10亿个单词的德语英语语料库。该语料库噪音太大，无法构建可接受的神经机器翻译（NMT）系统。利用WMT18共享新闻翻译任务的干净数据，我们设计了几个特征，并训练分类器对噪声数据中的每个句子对进行评分。最后，我们抽取了1亿和1000万个单词，并构建了相应的NMT系统。经验结果表明，我们在采样数据上训练的NMT系统实现了有希望的性能。

选集ID：: 宽18-6489
体积：: 第三届机器翻译会议记录：共享任务文件
月份：: 十月
年份：: 2018
地址：: 比利时、布鲁塞尔
编辑：: Ondřej Bojar公司,拉金·查特吉,克里斯蒂安·费德曼,马克·费舍尔,伊维特·格雷厄姆,巴里·哈多,马蒂亚斯·哈克,安东尼奥·吉梅诺·耶佩斯,菲利普·科恩,克里斯托夫·蒙兹,马泰奥·内格里,奥雷利·内维尔,玛丽亚娜·奈维斯,马特·波斯特,露西娅·斯佩西亚,马可·图尔奇,卡林·弗斯波尔
地点：: WMT公司
SIG公司：: SIGMT公司
发布者：: 计算语言学协会
注：
页：: 963–967
语言：
网址：: https://aclantology.org/W18-6489
内政部：: 10.18653/v1/W18-6489
比比键：
引用（ACL）：: 王瑞、本杰明·玛丽、尤蒂亚马和苏美田一郎。2018用于WMT18并行语料库过滤任务的NICT语料库筛选系统.英寸第三届机器翻译会议记录：共享任务文件，第963–967页，比利时，布鲁塞尔。计算语言学协会。
引用（非正式）：: 用于WMT18并行语料库过滤任务的NICT语料库筛选系统（Wang等人，WMT 2018）
复制引文：
PDF格式：: https://aclantology.org/W18-6489.pdf

PDF格式引用搜索