@进行中{silva-etal-2018提取,title=“使用数据选择方法提取用于神经机器翻译的域内训练语料库”,author=“Silva、Catarina Cruz和刘朝洪蓬塞拉斯、阿尔贝托和对了,安迪”,editor=“Bojar,Ond{\v{r}}ej和Chatterjee、Rajen和费德曼,克里斯蒂安和费舍尔、马克和格雷厄姆、伊维特和哈多、巴里和哈克、马提亚斯和是的,安东尼奥·吉梅诺和Koehn、Philipp和蒙兹、克里斯托夫和Negri、Matteo和N{\'e}v{\'e}ol,Aur{\e}谎言和内维斯、玛丽安娜和Post、Matt和Specia、Lucia和图尔奇、马尔科和卡琳·弗斯普尔”,booktitle=“第三届机器翻译会议论文集:研究论文”,月=10月,year=“2018”,address=“比利时布鲁塞尔”,publisher=“计算语言学协会”,url=“https://aclantology.org/W18-6323”,doi=“10.18653/v1/W18-6323”,pages=“224--231”,abstract=“数据选择是一个过程,用于选择用于机器翻译(MT)训练的并行数据子集系统,以便1)可以减少用于训练的资源,2)经过训练的模型可以比使用整个语料库训练的模型表现得更好,和/或3)经过训练后的模型更适合特定领域。研究表明,对于统计机器翻译(SMT),使用数据选择有助于显著提高机器翻译的性能。在本研究中,我们回顾了机器翻译的三种数据选择方法,即词频{--}反向文档频率、交叉熵差分和特征衰减算法,并使用这三种方法选择的数据进行了神经机器翻译(NMT)实验。结果表明,对于NMT系统,使用数据选择也提高了性能,尽管增益不如SMT系统。",}
<?xml版本=“1.0”编码=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“silva-etal-2018-extracting”><标题信息>使用数据选择方法提取用于神经机器翻译的域内训练语料库</titleInfo><name type=“personal”><namePart type=“given”>卡塔琳娜</namePart><namePart type=“given”>Cruz</namePart>克鲁兹</namePart席尔瓦<角色>作者</角色></name><name type=“personal”>超宏<namePart type=“given”>超宏</namePart>刘<角色>作者</角色></name><name type=“personal”>阿尔贝托蓬塞拉斯<角色>作者</角色></name><name type=“personal”>安迪方式<角色>作者</角色></name><originInfo>2018-10发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第三届机器翻译会议论文集:研究论文</titleInfo><name type=“personal”>Ondřej博加尔<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>Rajen</namePart>查特吉<角色>编辑器</角色></name><name type=“personal”>克里斯蒂安费德曼<角色>编辑器</角色></name><name type=“personal”>标记费舍尔<角色>编辑器</角色></name><name type=“personal”>Yvette(伊维特)格雷厄姆<角色>编辑器</角色></name><name type=“personal”>巴里哈多<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>Matthias</namePart>哈克<角色>编辑器</角色></name><name type=“personal”>安东尼奥Jimeno是的<角色>编辑器</角色></name><name type=“personal”>飞利浦科恩<角色>编辑器</角色></name><name type=“personal”>克里斯托夫蒙兹<角色>编辑器</角色></name><name type=“personal”>马蒂奥Negri(奈格里)<角色>编辑器</角色></name><name type=“personal”>奥雷利内维尔<角色>编辑器</角色></name><name type=“personal”>玛丽安娜内维斯<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>马特帖子<角色>编辑器</角色></name><name type=“personal”>露西娅Specia系列<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>马可<namePart type=“family”>图尔奇</namePart><角色>编辑器</角色></name><name type=“personal”>卡琳Verspoor公司<角色>编辑器</角色></name><originInfo><publisher>计算语言学协会</publisher><位置>比利时布鲁塞尔</地点></originInfo>会议出版物</relatedItem>数据选择是一个用于选择用于机器翻译(MT)系统训练的并行数据子集的过程,以便1)可以减少训练资源,2)训练模型可以比使用整个语料库训练的模型表现更好,和/或3)训练模型更适合特定领域。研究表明,对于统计机器翻译(SMT),使用数据选择有助于显著提高机器翻译的性能。在本研究中,我们回顾了机器翻译的三种数据选择方法,即术语频率-反向文档频率、交叉熵差分和特征衰减算法,并使用这三种方法对所选数据进行了神经机器翻译(NMT)实验。结果表明,对于NMT系统,使用数据选择也提高了性能,尽管增益不如SMT系统</摘要>silva-etal-2018年提取10.18653/v1/W18-6323<位置><网址>https://aclantology.org/W18-6323</url></位置><部分>2018-10年<扩展单元=“page”><开始>224<end>231</范围></部分></mods></modsCollection>
%0会议记录%基于数据选择方法的神经机器翻译领域内训练语料库T提取%卡塔琳娜·克鲁兹·A·席尔瓦%A Liu、Chao-Hong%阿尔贝托,蓬塞拉斯%好的,安迪%Y Bojar,Ondřej%拉金·查特吉%Y Federmann,克里斯蒂安%Y Fishel,马克%伊维特·Y·格雷厄姆%巴里·Y·哈多%Y哈克,马提亚斯%Y Yepes,安东尼奥·吉梅诺%Y Koehn,菲利普%克里斯托夫·蒙兹%Y Negri,马蒂奥%奥雷利·Y·内维尔%玛丽亚娜·尼维斯%Y Post,马特%露西娅·Y·斯佩西亚%马可·Y·图奇%Y Verspoor,卡琳%第三届机器翻译会议论文集:研究论文%2018年D月%10月8日%计算语言学协会%C比利时布鲁塞尔%F silva-etal-2018提取%X数据选择是一个用于选择机器翻译(MT)系统训练的并行数据子集的过程,以便1)减少训练资源,2)训练的模型可以比使用整个语料库训练的模型表现更好,和/或3)训练的模型更适合特定领域。研究表明,对于统计机器翻译(SMT),使用数据选择有助于显著提高机器翻译的性能。在本研究中,我们回顾了机器翻译的三种数据选择方法,即术语频率-反向文档频率、交叉熵差分和特征衰减算法,并使用这三种方法对所选数据进行了神经机器翻译(NMT)实验。结果表明,对于NMT系统,使用数据选择也提高了性能,尽管增益不如SMT系统。%10.18653/v1/W18-6323兰特%U型https://aclantology.org/W18-6323%U型https://doi.org/10.18653/v1/W18-6323%电话224-231
降价(非正式)
[使用数据选择方法提取用于神经机器翻译的域内训练语料库](https://aclantology.org/W18-6323)(Silva等人,WMT 2018)
国际计算语言学协会
- Catarina Cruz Silva、Chao Hong Liu、Alberto Ponselas和Andy Way。2018使用数据选择方法提取用于神经机器翻译的域内训练语料库.英寸第三届机器翻译会议记录:研究论文,第224-231页,比利时布鲁塞尔。计算语言学协会。