@进行中{zhang-etal-2020-快速,title=“快速交织双向序列生成”,author=“张彪蒂托夫、伊凡和里科·森里奇“,editor={Barrault,Lo{\“\ i}c和Bojar、Ond{\v{r}}ej和布加尔、费蒂和Chatterjee、Rajen和Costa-juss{\`a},Marta R.和费德曼、克里斯蒂安和费舍尔、马克和弗雷泽、亚历山大和格雷厄姆、伊维特和古兹曼、帕科和哈多、巴里和哈克、马提亚斯和是的,安东尼奥·吉梅诺和Koehn、Philipp和马丁斯、安德烈和Morishita、Makoto和蒙兹、克里斯托夫和长田、Masaaki和中泽、Toshiaki和内格里·马特奥,booktitle=“第五届机器翻译会议记录”,月=11月,年=“2020”,address=“在线”,publisher=“计算语言学协会”,url=“https://aclantology.org/2020.wmt-1.62",pages=“503--515”,abstract=“序列生成期间的独立性假设可以加快推理速度,但高度相互依赖令牌的并行生成会以质量为代价。而不是假设相邻令牌之间的独立性(半自回归解码,SA),我们从双向序列生成中得到启发,并引入了一个解码器,它可以同时从左到右和从右到左的方向生成目标单词。我们表明,通过简单地交错两个方向并调整单词位置和自我注意掩码,我们可以很容易地将单向解码的标准架构转换为双向解码器。我们的交错双向解码器(IBDecoder)保留了标准Transformer的模型简单性和训练效率,在五个机器翻译任务和两个文档摘要任务上,与具有同等质量的自回归解码相比,实现了{\textascitilde}2x的解码加速比。值得注意的是,它优于从左到右SA,因为IBDecoder中的独立性假设更为恰当。为了实现更高的加速比,我们探索了一种混合模型,在该模型中,我们要么同时预测每个方向上的多个相邻标记,要么通过分割目标序列来执行多向解码。这些方法将速度提高到4倍{--}11倍在不同的任务中,以{\textless}1 BLEU或{\textless}0.5 ROUGE(平均)为代价”,}
<?xml版本=“1.0”编码=“UTF-8”?><modsCollection xmlns=“http://www.loc.gov/mods/v3"><mods ID=“zhang-etal-2020-fast”><标题信息>快速交织双向序列生成</titleInfo><name type=“personal”><namePart type=“given”>彪<namePart type=“family”>张<角色>作者</角色></name><name type=“personal”>伊凡蒂托夫<角色>作者</角色></name><name type=“personal”>Rico(Rico)Sennrich<角色>作者</角色></name><originInfo><发布日期>2020-11</发布日期></originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>第五届机器翻译会议记录</titleInfo><name type=“personal”><namePart type=“given”>低成本巴罗<namePart type=“family”>Barrault<角色>编辑器</角色></name><name type=“personal”>Ondřej博加尔<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>Fethi</namePart>费提</namePart布加尔<角色>编辑器</角色></name><name type=“personal”>拉詹查特吉<角色>编辑器</角色></name><name type=“personal”>玛尔塔<namePart type=“given”>R</namePart>Costa-jussá<角色>编辑器</角色></name><name type=“personal”>克里斯蒂安费德曼<角色>编辑器</角色></name><name type=“personal”>标记费舍尔<角色>编辑器</角色></name><name type=“personal”>亚历山大弗雷泽<角色>编辑器</角色></name><name type=“personal”>Yvette(伊维特)格雷厄姆<角色>编辑器</角色></name><name type=“personal”>Paco公司古兹曼<角色>编辑器</角色></name><name type=“personal”>巴里哈多<角色>编辑器</角色></name><name type=“personal”>马提亚斯哈克<角色>编辑器</角色></name><name type=“personal”>安东尼奥Jimeno是的<角色>编辑器</角色></name><name type=“personal”>飞利浦科恩<角色>编辑器</角色></name><name type=“personal”>安德烈马丁斯<角色>编辑器</角色></name><name type=“personal”><namePart type=“given”>Makoto<namePart type=“family”>森下</namePart><角色>编辑器</角色></name><name type=“personal”>克里斯托夫蒙兹<角色>编辑器</角色></name><name type=“personal”>马萨基长田<角色>编辑器</角色></name><name type=“personal”>Toshiaki<namePart type=“family”>中泽</namePart><角色>编辑器</角色></name><name type=“personal”>马蒂奥Negri(奈格里)<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>在线</place></originInfo>会议出版物</relatedItem>序列生成期间的独立性假设可以加快推理速度,但高度相互依赖令牌的并行生成会以质量为代价。我们没有假设相邻标记之间的独立性(半自回归解码,SA),而是从双向序列生成中获得灵感,并引入了一个解码器,它可以同时从从左到右和从右到左的方向生成目标单词。我们表明,通过简单地交错两个方向并调整单词位置和自我注意掩码,我们可以很容易地将单向解码的标准架构转换为双向解码器。我们的交错双向解码器(IBDecoder)保留了标准Transformer的模型简单性和训练效率,在五个机器翻译任务和两个文档摘要任务上,与具有同等质量的自回归解码相比,实现了约2倍的解码加速。值得注意的是,它优于从左到右SA,因为IBDecoder中的独立性假设更恰当。为了实现更高的加速比,我们探索了一种混合模型,在该模型中,我们要么同时预测每个方向上的多个相邻标记,要么通过分割目标序列来执行多向解码。这些方法在不同的任务中实现了4倍至11倍的加速,代价是\textless1 BLEU或\textless0.5 ROUGE(平均)</abstract><identifier type=“citekey”>zhang-etal-2020-fast</identifier><位置><网址>https://aclantology.org/2020.wmt-1.62</url></位置><部分><日期>2020-11</date><扩展单元=“page”><开始>503<end>515</范围></部分></mods></modsCollection>
%0会议记录%T快速交织双向序列生成%张彪%伊凡·蒂托夫%A Sennrich,里科%罗伊奇Y Barrault%Y Bojar,Ondřej%Y Bougares,费蒂%拉金·查特吉%Y Costa-jussá,Marta R。%Y Federmann,克里斯蒂安%Y Fishel,马克%亚历山大·弗雷泽%伊维特·Y·格雷厄姆%帕科·Y·古兹曼%巴里·Y·哈多%Y哈克,马提亚斯%Y Yepes,安东尼奥·吉梅诺%Y Koehn,菲利普%安德烈·马丁斯%Y Morishita,Makoto公司%克里斯托夫·蒙兹%Y长田,Masaaki%Y Nakazawa,Toshiaki先生%Y Negri,马蒂奥%第五届机器翻译会议论文集%D 2020年%11月8日%计算语言学协会%C在线%F zhang-etal-2020快速%序列生成期间的X独立性假设可以加快推理速度,但高度相互依赖令牌的并行生成会以质量为代价。我们没有假设相邻标记之间的独立性(半自回归解码,SA),而是从双向序列生成中获得灵感,并引入了一个解码器,它可以同时从从左到右和从右到左的方向生成目标单词。我们表明,通过简单地交错两个方向并调整单词位置和自注意掩码,我们可以很容易地将单向解码的标准架构转换为双向解码器。我们的交错双向解码器(IBDecoder)保留了标准Transformer的模型简单性和训练效率,在五个机器翻译任务和两个文档摘要任务上,与具有同等质量的自回归解码相比,实现了约2倍的解码加速。值得注意的是,它优于从左到右SA,因为IBDecoder中的独立性假设更恰当。为了实现更高的加速比,我们探索了一种混合模型,在该模型中,我们要么同时预测每个方向上的多个相邻标记,要么通过分割目标序列来执行多向解码。这些方法在不同任务中实现了4x–11x的加速,代价是\textles1 BLEU或\textles0.5 ROUGE(平均值)%U型https://aclantology.org/2020.wmt-1.62%电话503-515
降价(非正式)
[快速交织双向序列生成](https://aclantology.org/2020.wmt-1.62)(Zhang等人,WMT 2020)
国际计算语言学协会
- 张彪(Biao Zhang)、伊万·蒂托夫(Ivan Titov)和里科·森里奇(Rico Sennrich)。2020快速交织双向序列生成.英寸第五届机器翻译会议记录,第503-515页,在线。计算语言学协会。