@正在进行{wang-etal-2018-nicts,title=“{NICT}{'}的语料库过滤系统{WMT}18并行语料库过滤任务“,author=“王、芮和玛丽、本杰明和Utiyama、Masao和苏美田,Eiichiro“,editor=“Bojar,Ond{\v{r}}ej和Chatterjee、Rajen和费德曼、克里斯蒂安和费舍尔、马克和格雷厄姆、伊维特和哈多、巴里和哈克、马蒂亚斯和是的,安东尼奥·吉梅诺和Koehn、Philipp和蒙兹、克里斯托夫和Negri、Matteo和N{\'e}v{\'e}ol,Aur{\e}谎言和内维斯、玛丽安娜和Post、Matt和Specia、Lucia和图尔奇、马尔科和卡琳·弗斯普尔”,booktitle=“第三届机器翻译会议论文集:共享任务文件”,月=10月,年份=“2018”,address=“比利时,布鲁塞尔”,publisher=“计算语言学协会”,url=“https://aclantology.org/W18-6489”,doi=“10.18653/v1/W18-6489”,pages=“963--967”,abstract=“本文介绍了NICT参与WMT18共享并行语料库过滤任务的情况。组织者提供了10亿单词的德语-英语语料库,作为Paracroble项目的一部分,这些语料库过于嘈杂,无法构建可接受的神经机器翻译(NMT)系统。利用WMT18共享新闻翻译任务的干净数据,我们设计了几个特征,并训练分类器对噪声数据中的每个句子对进行评分。最后,我们抽取了1亿和1000万个单词,并构建了相应的NMT系统。实验结果表明,基于采样数据训练的NMT系统取得了良好的性能。”,}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“wang-etal-2018-nicts”><标题信息>NICT针对WMT18并行语料库筛选任务的语料库过滤系统</titleInfo><name type=“个人”>Rui(Rui)王<namePart type=“family”><角色>作者</角色></name><name type=“个人”>本杰明玛丽<角色>作者</角色></name><name type=“个人”><namePart type=“given”>Masao</namePart>Utiyama<角色>作者</角色></name><name type=“个人”>Eiichiro住田<namePart type=“family”><角色>作者</角色></name><originInfo>2018-10发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第三届机器翻译会议论文集:共享任务文件</titleInfo><name type=“个人”>Ondřej博加尔<角色>编辑器</角色></name><name type=“个人”>拉詹查特吉<角色>编辑器</角色></name><name type=“个人”>克里斯蒂安<namePart type=“family”>费德曼</namePart><角色>编辑器</角色></name><name type=“个人”>标记费舍尔<角色>编辑器</角色></name><name type=“个人”><namePart type=“给定”>Yvette</namePart>格雷厄姆<角色>编辑器</角色></name><name type=“个人”>巴里哈多<角色>编辑器</角色></name><name type=“个人”>马提亚斯哈克<角色>编辑器</角色></name><name type=“个人”>安东尼奥Jimeno是的<角色>编辑器</角色></name><name type=“个人”>飞利浦科恩<角色>编辑器</角色></name><name type=“个人”>克里斯托夫蒙兹<角色>编辑器</角色></name><name type=“个人”>马蒂奥Negri(奈格里)<角色>编辑器</角色></name><name type=“个人”>奥雷利内维尔<角色>编辑器</角色></name><name type=“个人”>玛丽安娜内维斯<角色>编辑器</角色></name><name type=“个人”><namePart type=“given”>马特帖子<角色>编辑器</角色></name><name type=“个人”>露西娅Specia系列<角色>编辑器</角色></name><name type=“个人”><namePart type=“given”>马可图尔奇<namePart type=“family”><角色>编辑器</角色></name><name type=“个人”>卡琳Verspoor公司<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>比利时、布鲁塞尔</place></originInfo>会议出版物</relatedItem><abstract>本文介绍了NICT参与WMT18共享并行语料库过滤任务的情况。组织者提供了10亿单词的德语-英语语料库,作为Paracroble项目的一部分。该语料库噪音太大,无法构建可接受的神经机器翻译(NMT)系统。利用WMT18共享新闻翻译任务的干净数据,我们设计了几个特征,并训练分类器对噪声数据中的每个句子对进行评分。最后,我们抽取了1亿和1000万个单词,并构建了相应的NMT系统。实验结果表明,基于采样数据训练的NMT系统取得了良好的性能</摘要><identifier type=“citekey”>wang-etal-2018-nicts10.18653/v1/W18-6489<位置><网址>https://aclantology.org/W18-6489</url></位置><部分>2018-10年<扩展单元=“page”><开始>963<end>967</范围></部分></mods></modsCollection>
%0会议记录%T NICT用于WMT18并行语料库过滤任务的语料库筛选系统%阿王、芮%本杰明·玛丽%A Utiyama,马绍%A Sumita,Eiichiro%Y Bojar,Ondřej%拉金·查特吉%Y Federmann,克里斯蒂安%Y Fishel,马克%伊维特·Y·格雷厄姆%巴里·Y·哈多%Y哈克,马提亚斯%Y Yepes,安东尼奥·吉梅诺%Y Koehn,菲利普%克里斯托夫·蒙兹%Y Negri,马蒂奥%奥雷利·Y·内维尔%玛丽亚娜·尼维斯%Y Post,马特%露西娅·Y·斯佩西亚%马尔科·图尔奇%Y Verspoor,卡琳%第三届机器翻译会议论文集:共享任务文件%2018年D月%10月8日%计算语言学协会%C比利时,布鲁塞尔%F wang-etal-2018-nicts公司%本文介绍了NICT参与WMT18共享并行语料库过滤任务的情况。组织者提供了10亿单词的德语-英语语料库,作为Paracroble项目的一部分。该语料库噪音太大,无法构建可接受的神经机器翻译(NMT)系统。利用WMT18共享新闻翻译任务的干净数据,我们设计了几个特征,并训练分类器对噪声数据中的每个句子对进行评分。最后,我们抽取了1亿和1000万个单词,并构建了相应的NMT系统。实验结果表明,基于采样数据训练的NMT系统取得了良好的性能。%R 10.18653/v1/W18-6489型%U型https://aclantology.org/W18-6489%U型https://doi.org/10.18653/v1/W18-6489%电话963-967
降价(非正式)
[NICT针对WMT18并行语料库过滤任务的语料库筛选系统](https://aclantology.org/W18-6489)(Wang等人,WMT 2018)
国际计算语言学协会