@进行中{stahlberg-etal-2018-simple,title=“简单融合:语言模型的回归”,author=“Stahlberg、Felix和克罗斯、詹姆斯和斯托亚诺夫,韦塞林“,editor=“Bojar,Ond{\v{r}}ej和Chatterjee、Rajen和费德曼、克里斯蒂安和费舍尔、马克和格雷厄姆、伊维特和哈多、巴里和哈克、马提亚斯和是的,安东尼奥·吉梅诺和Koehn、Philipp和蒙兹、克里斯托夫和Negri、Matteo和N{\'e}v{\'e}ol,Aur{\e}谎言和内维斯、玛丽安娜和Post、Matt和Specia、Lucia和图尔奇、马尔科和卡琳·弗斯普尔”,booktitle=“第三届机器翻译会议论文集:研究论文”,月=10月,year=“2018”,address=“比利时布鲁塞尔”,publisher=“计算语言学协会”,url=“https://aclcollectory.org/W18-6321”,doi=“10.18653/v1/W18-6321”,pages=“204--211”,abstract=“神经机器翻译(NMT)通常通过反译在训练中利用单语数据。我们研究了一种使用单语数据进行NMT训练的替代简单方法:我们将预训练和固定语言模型(LM)的分数与翻译模型(TM)的分数相结合而TM是从头开始训练的。为此,我们训练转换模型来预测加入LM预测的训练数据的剩余概率。这使得TM能够将其能力集中在源句建模上,因为它可以依赖LM实现流利性。我们表明,我们的方法优于以前将LM集成到NMT的方法,而体系结构更简单,因为它不需要门控网络来平衡TM和LM。我们在所有四个测试集(英语-土耳其语、土耳其-英语、爱沙尼亚-英语、科萨-英语)上观察到,在没有LM的信号群之上,BLEU的增益在+0.24到+2.36之间。我们将我们的方法与利用单语数据的替代方法进行了比较,如反翻译、浅层融合和冷融合。",}
<?xml版本=“1.0”编码=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“stahlberg-etal-2018-simple”><标题信息>简单融合:语言模型的回归</titleInfo><name type=“personal”>费利克斯斯塔尔伯格<角色>作者</角色></name><name type=“personal”><namePart type=“给定”>James</namePart>交叉<角色>作者</角色></name><name type=“personal”>维塞林斯托亚诺夫<角色>作者</角色></name><originInfo>2018-10发布日期</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第三届机器翻译会议论文集:研究论文</titleInfo><name type=“personal”>Ondřej博加尔<角色>编辑器</角色></name><name type=“personal”>拉詹查特吉<角色>编辑器</角色></name><name type=“personal”>克里斯蒂安费德曼<角色>编辑器</角色></name><name type=“personal”>标记费舍尔<角色>编辑器</角色></name><name type=“personal”>Yvette(伊维特)格雷厄姆<角色>编辑器</角色></name><name type=“personal”>巴里哈多<角色>编辑器</角色></name><name type=“personal”>马提亚斯哈克<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>Antonio</namePart>安东尼奥</namePartJimeno是的<角色>编辑器</角色></name><name type=“personal”>飞利浦科恩<角色>编辑器</角色></name><name type=“personal”>克里斯托夫蒙兹<角色>编辑器</角色></name><name type=“personal”>马蒂奥Negri(奈格里)<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>Aurélie</namePart>内维尔<角色>编辑器</角色></name><name type=“personal”>玛丽安娜内维斯<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>马特帖子<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>露西亚</namePart>Specia系列<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>马可图尔奇<namePart type=“family”><角色>编辑器</角色></name><name type=“personal”>卡琳Verspoor公司<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>比利时布鲁塞尔</地点></originInfo><type-authority=“marcgt”>会议出版物</type></relatedItem>神经机器翻译(NMT)通常通过反译在训练中利用单语数据。我们研究了另一种使用单语数据进行NMT训练的简单方法:我们将预训练和固定语言模型(LM)的分数与翻译模型(TM)的分数相结合,同时从头开始训练TM。为此,我们训练转换模型来预测加入LM预测的训练数据的剩余概率。这使得TM能够将其能力集中在源句建模上,因为它可以依赖LM实现流利性。我们表明,我们的方法优于以前将LM集成到NMT的方法,而体系结构更简单,因为它不需要门控网络来平衡TM和LM。我们在所有四个测试集(英语-土耳其语、土耳其-英语、爱沙尼亚-英语、科萨-英语)上观察到,在没有LM的信号群之上,BLEU的增益在+0.24到+2.36之间。我们将我们的方法与其他利用单语数据的方法进行了比较,如反向翻译、浅层融合和冷融合</摘要>stahlberg-etal-2018-simple(简单)10.18653/v1/W18-6321<位置><网址>https://aclantology.org/W18-6321</url></位置><部分>2018-10年<扩展单元=“page”><开始>204</开始><end>211</end></范围></部分></mods></modsCollection>
%0会议记录%T简单融合:语言模型的回归%费利克斯·斯塔尔伯格%詹姆斯,十字架%韦塞林·斯托亚诺夫%Y Bojar,Ondřej%拉简·Y·查特吉%Y Federmann,克里斯蒂安%Y Fishel,马克%伊维特·Y·格雷厄姆%巴里·Y·哈多%Y哈克,马提亚斯%安东尼奥·希梅诺Y Yepes%Y Koehn,菲利普%克里斯托夫·蒙兹%Y Negri,马蒂奥%奥雷利·Y·内维尔%玛丽亚娜·尼维斯%Y Post,马特%露西娅·Y·斯佩西亚%马可·Y·图奇%Y Verspoor,卡琳%第三届机器翻译会议论文集:研究论文%2018年D月%10月8日%计算语言学协会%C比利时布鲁塞尔%F stahlberg-etal-2018-simple公司%X神经机器翻译(NMT)通常通过反译在训练中利用单语数据。我们研究了另一种使用单语数据进行NMT训练的简单方法:我们将预训练和固定语言模型(LM)的分数与翻译模型(TM)的分数相结合,同时从头开始训练TM。为此,我们训练转换模型来预测加入LM预测的训练数据的剩余概率。这使得TM能够将其能力集中在源句建模上,因为它可以依赖LM实现流利性。我们表明,我们的方法优于以前将LM集成到NMT的方法,而体系结构更简单,因为它不需要门控网络来平衡TM和LM。我们在所有四个测试集(英语-土耳其语、土耳其-英语、爱沙尼亚-英语、科萨-英语)上观察到,在没有LM的信号群之上,BLEU的增益在+0.24到+2.36之间。我们将我们的方法与其他利用单语数据的方法进行了比较,如反向翻译、浅层融合和冷融合。%R 10.18653/v1/W18-6321型%U型https://aclantology.org/W18-6321%U型https://doi.org/10.18653/v1/W18-6321%电话204-211
降价(非正式)
[简单融合:语言模型的回归](https://aclantology.org/W18-6321)(Stahlberg等人,WMT 2018)
国际计算语言学协会
- Felix Stahlberg、James Cross和Veselin Stoyanov。2018简单融合:语言模型的回归.英寸第三届机器翻译会议记录:研究论文,第204-211页,比利时布鲁塞尔。计算语言学协会。