@进行中{lo-etal-2018-准确,title=“使用语义机器翻译评估度量清理噪声并行语料库的准确语义文本相似性:{NRC}监督提交到并行语料集过滤任务”,author=“Lo、Chi-kiu和Simard、Michel和斯图尔特、达琳和Larkin、Samuel和Goutte、Cyril和帕特里克·利特尔”,editor=“Bojar,Ond{\v{r}}ej和Chatterjee、Rajen和费德曼、克里斯蒂安和费舍尔、马克和格雷厄姆、伊维特和哈多、巴里和哈克、马蒂亚斯和是的,安东尼奥·吉梅诺和Koehn、Philipp和蒙兹、克里斯托夫和Negri、Matteo和N{\'e}v{\'e}ol,Aur{\e}谎言和内维斯、玛丽安娜和Post、Matt和Specia、Lucia和图尔奇、马尔科和卡琳·弗斯普尔”,booktitle=“第三届机器翻译会议论文集:共享任务文件”,月=10月,年份=“2018”,address=“比利时,布鲁塞尔”,publisher=“计算语言学协会”,url=“https://aclantology.org/W18-6481”,doi=“10.18653/v1/W18-6481”,页码=“908--916”,abstract=“我们提出了语义-文本相似性方法,用YiSi{---}过滤有噪声的网络爬虫并行语料库一种新的语义机器翻译评价指标。主要基于这种监督方法的系统在WMT18并行语料库过滤共享任务中表现良好(在1亿字评估中排名第四,在1000万字评估中位列第八,在48份提交中排名第六)。事实上,我们表现最好的系统{---}NRC-yisi-bicov是两次评估中仅有的四个排名前10的提交文件之一。我们提交的系统还包括一些初始过滤步骤,用于缩小测试语料库的大小,以及一个最终冗余删除步骤,用于更好地覆盖过滤语料库中的语义和标记。在本文中,我们还描述了我们在自动合成有噪声的并行开发语料库以调整权重以结合不同的并行性和流畅性特征方面的失败尝试。”,}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“lo-etal-2018-accurate”><标题信息><title>使用语义机器翻译评估度量清理噪声并行语料库的准确语义文本相似性:NRC监督提交到并行语料集过滤任务</titleInfo><name type=“个人”>Chi-kiu<namePart type=“family”>Lo</namePart><角色>作者</角色></name><name type=“个人”>米歇尔西蒙德<角色>作者</角色></name><name type=“个人”><namePart type=“given”>达琳</namePart>斯图尔特<角色>作者</角色></name><name type=“个人”>塞缪尔拉金<角色>作者</角色></name><name type=“个人”>西里尔<namePart type=“family”>痛风</namePart><角色>作者</角色></name><name type=“个人”>帕特里克Littell<角色>作者</角色></name><originInfo>2018-10发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第三届机器翻译会议论文集:共享任务文件</titleInfo><name type=“个人”>Ondřej博加尔<角色>编辑器</角色></name><name type=“个人”>拉詹查特吉<角色>编辑器</角色></name><name type=“个人”>克里斯蒂安<namePart type=“family”>费德曼</namePart><角色>编辑器</角色></name><name type=“个人”>标记费舍尔<角色>编辑器</角色></name><name type=“个人”><namePart type=“给定”>Yvette</namePart>格雷厄姆<角色>编辑器</角色></name><name type=“个人”>巴里哈多<角色>编辑器</角色></name><name type=“个人”>马提亚斯哈克<角色>编辑器</角色></name><name type=“个人”>安东尼奥Jimeno是的<角色>编辑器</角色></name><name type=“个人”>飞利浦科恩<角色>编辑器</角色></name><name type=“个人”>克里斯托夫蒙兹<角色>编辑器</角色></name><name type=“个人”>马蒂奥Negri(奈格里)<角色>编辑器</角色></name><name type=“个人”>奥雷利内维尔<角色>编辑器</角色></name><name type=“个人”>玛丽安娜内维斯<角色>编辑器</角色></name><name type=“个人”><namePart type=“given”>马特帖子<角色>编辑器</角色></name><name type=“个人”>露西娅Specia系列<角色>编辑器</角色></name><name type=“个人”><namePart type=“given”>马可图尔奇<namePart type=“family”><角色>编辑器</角色></name><name type=“个人”>卡琳Verspoor公司<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>比利时、布鲁塞尔</place></originInfo>会议出版物</relatedItem><abstract>我们提出了一种语义文本相似度方法,该方法使用一种新的语义机器翻译评估指标YiSi来过滤有噪声的网络爬行并行语料库。主要基于这种监督方法的系统在WMT18并行语料库过滤共享任务中表现良好(在1亿字评估中排名第四,在1000万字评估中位列第八,在48份提交中排名第六)。事实上,我们表现最好的系统-NRC-yisi-bicov是两次评估中仅有的四份排名前10的提交文件之一。我们提交的系统还包括一些初始过滤步骤,用于缩小测试语料库的大小,以及一个最终冗余删除步骤,用于更好地覆盖过滤语料库中的语义和标记。在本文中,我们还描述了我们在自动合成有噪声的并行开发语料库以调整权重以结合不同的并行性和流畅性特征方面的失败尝试</摘要>2018年lo-etal准确度10.18653/v1/W18-6481<位置><网址>https://aclantology.org/W18-6481</url></位置><部分>2018-10年<扩展单元=“page”><开始>908</开始><end>916</end></范围></部分></mods></modsCollection>
%0会议记录%使用语义机器翻译评估指标清理有噪声的平行语料库的精确语义文本相似性:NRC监督提交给平行语料库过滤任务%A Lo、Chi-kiu%米歇尔·西马德%达琳·斯图尔特%塞缪尔·拉金%西里尔,痛风%帕特里克·利特尔%Y Bojar,Ondřej%拉金·查特吉%Y Federmann,克里斯蒂安%Y Fishel,马克%伊维特·Y·格雷厄姆%巴里·Y·哈多%Y哈克,马提亚斯%Y Yepes,安东尼奥·吉梅诺%Y Koehn,菲利普%克里斯托夫·蒙兹%Y Negri,马蒂奥%奥雷利·Y·内维尔%玛丽亚娜·尼维斯%Y Post,马特%露西娅·Y·斯佩西亚%马尔科·图尔奇%Y Verspoor,卡琳%第三届机器翻译会议论文集:共享任务文件%2018年D月%10月8日%计算语言学协会%C比利时,布鲁塞尔%F lo-etal-2018-准确%我们提出了一种语义文本相似度方法,该方法使用一种新的语义机器翻译评估指标YiSi来过滤有噪声的网络爬行并行语料库。主要基于这种监督方法的系统在WMT18并行语料库过滤共享任务中表现良好(在1亿字评估中排名第四,在1000万字评估中位列第八,在48份提交中排名第六)。事实上,我们表现最好的系统-NRC-yisi-bicov是两次评估中仅有的四份排名前10的提交文件之一。我们提交的系统还包括一些初始过滤步骤,用于缩小测试语料库的大小,以及一个最终冗余删除步骤,用于更好地覆盖过滤语料库中的语义和标记。在本文中,我们还描述了我们在自动合成有噪声的并行开发语料库以调整权重以结合不同的并行性和流畅性特征方面的失败尝试。%10.18653/v1/W18-6481兰特%U型https://aclantology.org/W18-6481%U型https://doi.org/10.18653/v1/W18-6481%电话:908-916
降价(非正式)
[使用语义机器翻译评估指标清理有噪声的平行语料库的精确语义文本相似性:NRC监督提交给平行语料库过滤任务](https://aclantology.org/W18-6481)(Lo等人,WMT 2018)
国际计算语言学协会