@进行中{littell-etal-2018测量,title=“使用马氏距离测量句子平行性:{NRC}向{WMT}18平行语料库过滤共享任务的无监督提交”,author=“Littell、Patrick和Larkin、Samuel和斯图尔特、达琳和Simard、Michel和Goutte、Cyril和Lo,Chi-kiu“,editor=“Bojar,Ond{\v{r}}ej和Chatterjee、Rajen和费德曼、克里斯蒂安和费舍尔、马克和格雷厄姆、伊维特和哈多、巴里和哈克、马蒂亚斯和是的,安东尼奥·吉梅诺和Koehn、Philipp和蒙兹、克里斯托夫和Negri、Matteo和N{\'e}v{\'e}ol,Aur{\e}谎言和内维斯、玛丽安娜和Post、Matt和Specia、Lucia和图尔奇、马尔科和卡琳·弗斯普尔”,booktitle=“第三届机器翻译会议论文集:共享任务文件”,月=10月,年份=“2018”,address=“比利时,布鲁塞尔”,publisher=“计算语言学协会”,url=“https://aclantology.org/W18-6480”,doi=“10.18653/v1/W18-6480”,pages=“900--907”,abstract=“WMT18共享了并行语料库过滤任务(Koehn等人,2018b语料库看起来像。然而,在资源较少的情况下,该语言的目标语料库往往是该语言中并行文本的\textit{only}样本。因此,我们做了几个无监督的条目,为自己设置了一个额外的约束,即我们不使用额外的干净并行语料库。其中一个条目在100M单词条件的前十大系统中得分相当一致,而翻译欧洲药品管理局语料库(Tiedemann,2009)的一项任务{---}在10M单词条件下得分也名列最佳系统之列。”,}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“littell-etal-2018-measuring”><标题信息>使用马氏距离测量句子平行性:NRC向WMT18平行语料库过滤共享任务的无监督提交</titleInfo><name type=“personal”>帕特里克Littell<角色>作者</角色></name><name type=“personal”>塞缪尔拉金<角色>作者</角色></name><name type=“personal”><namePart type=“given”>达琳</namePart>斯图尔特<角色>作者</角色></name><name type=“personal”>米歇尔西蒙德<角色>作者</角色></name><name type=“personal”>西里尔<namePart type=“family”>痛风</namePart><角色>作者</角色></name><name type=“personal”>Chi-kiu<namePart type=“family”>Lo</namePart><角色>作者</角色></name><originInfo>2018-10发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第三届机器翻译会议论文集:共享任务文件</titleInfo><name type=“personal”>Ondřej博加尔<角色>编辑器</角色></name><name type=“personal”>拉詹查特吉<角色>编辑器</角色></name><name type=“personal”>克里斯蒂安<namePart type=“family”>费德曼</namePart><角色>编辑器</角色></name><name type=“personal”>标记费舍尔<角色>编辑器</角色></name><name type=“personal”><namePart type=“给定”>Yvette</namePart>格雷厄姆<角色>编辑器</角色></name><name type=“personal”>巴里哈多<角色>编辑器</角色></name><name type=“personal”>马提亚斯哈克<角色>编辑器</角色></name><name type=“personal”>安东尼奥Jimeno是的<角色>编辑器</角色></name><name type=“personal”>飞利浦科恩<角色>编辑器</角色></name><name type=“personal”>克里斯托夫蒙兹<角色>编辑器</角色></name><name type=“personal”>马蒂奥Negri(奈格里)<角色>编辑器</角色></name><name type=“personal”>奥雷利内维尔<角色>编辑器</角色></name><name type=“personal”>玛丽安娜内维斯<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>马特帖子<角色>编辑器</角色></name><name type=“personal”>露西娅Specia系列<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>马可图尔奇<namePart type=“family”><角色>编辑器</角色></name><name type=“personal”>卡琳Verspoor公司<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>比利时、布鲁塞尔</地点></originInfo>会议出版物</relatedItem>WMT18共享了并行语料库过滤任务(Koehn等人,2018b),要求团队从一个大型的高召回率、低精度的网络搜索并行语料中为句子对评分(Koehan等人,2018年a)。参与者可以使用现有的样本语料库(例如过去的WMT数据)作为监督信号,以了解“干净”的语料库是什么样的。然而,在资源较少的情况下,该语言的目标语料库往往是该语言中并行文本的唯一样本。因此,我们做了几个无监督的条目,给自己设置了一个额外的限制,即我们不能使用额外的干净的平行语料库。其中一个条目在100M单词条件的前十大系统中得分相当一致,而在翻译欧洲药品管理局语料库(Tiedemann,2009)的一项任务中,即使在10M单词条件下,该条目也在最佳系统中得分</摘要>利特尔-塔尔-2018年测量10.18653/v1/W18-6480<位置><网址>https://aclantology.org/W18-6480</url></位置><部分>2018-10年<扩展单元=“page”><开始>900<end>907</范围></部分></mods></modsCollection>
%0会议记录%T使用马氏距离测量句子平行性:NRC向WMT18平行语料库过滤共享任务的无监督提交%帕特里克·利特尔%塞缪尔·拉金%达琳·斯图尔特%米歇尔·西马德%西里尔,痛风%A Lo、Chi-kiu%Y Bojar,Ondřej%拉金·查特吉%Y Federmann,克里斯蒂安%Y Fishel,马克%伊维特·Y·格雷厄姆%巴里·Y·哈多%Y哈克,马提亚斯%Y Yepes,安东尼奥·吉梅诺%Y Koehn,菲利普%克里斯托夫·蒙兹%Y Negri,马蒂奥%奥雷利·Y·内维尔%玛丽亚娜·尼维斯%Y Post,马特%露西娅·Y·斯佩西亚%马尔科·图尔奇%Y Verspoor,卡琳%第三届机器翻译会议论文集:共享任务文件%2018年D月%10月8日%计算语言学协会%C比利时,布鲁塞尔%F littell-etal 2018测量%X WMT18共享了并行语料库过滤任务(Koehn等人,2018b),要求团队从一个大型的高召回率、低精度网络搜索平行语料库中为句子对评分(Koehan等人,2018年a)。参与者可以使用现有的样本语料库(例如过去的WMT数据)作为监督信号,以了解“干净”的语料库是什么样的。然而,在资源较少的情况下,该语言的目标语料库往往是该语言中并行文本的唯一样本。因此,我们做了几个无监督的条目,给自己设置了一个额外的限制,即我们不能使用额外的干净的平行语料库。其中一个条目在100M单词条件的前十大系统中得分相当一致,而在翻译欧洲药品管理局语料库(Tiedemann,2009)的一项任务中,即使在10M单词条件下,该条目也在最佳系统中得分。%R 10.18653/v1/W18-6480型%U型https://aclantology.org/W18-6480%U型https://doi.org/10.18653/v1/W18-6480%电话900-907
降价(非正式)
[使用马氏距离测量句子并行性:NRC向WMT18并行语料库过滤共享任务提交的无监督提交](https://aclantology.org/W18-6480)(Littell等人,WMT 2018)
国际计算语言学协会