@进行中{ye-etal-2023-fid,title=“{F} 我{D}(D)-{ICL}:一种高效上下文学习的融合解码方法”,author=“Ye、Qinyuan和贝尔塔基、伊茨和彼得斯、马修和任、翔和Hajishirzi,Hannaneh“,editor=“罗杰斯、安娜和Boyd-Graber、Jordan和冈崎、直崎“,booktitle=“计算语言学协会第61届年会会议记录(第1卷:长篇论文)”,月=七月,年份=“2023”,address=“加拿大多伦多”,publisher=“计算语言学协会”,url=“https://aclantology.org/2023.acl-long.454",doi=“10.18653/v1/2023.acl-long.454”,pages=“8158--8185”,abstract=“大型预训练模型能够进行少量的上下文内学习(ICL),即在测试输入之前预先准备几个演示来执行新任务。然而,串联演示通常过长,并导致额外的计算。灵感来自于解码融合(FiD)在开放域QA中,有效聚合更多通道的模型优于基于级联的模型,我们假设可以应用类似的技术来提高ICL的效率和最终任务性能。为了验证这一点,我们对三种融合方法的应用进行了综合研究{---}基于级联(早期融合)、FiD(中期)和基于集成的(后期){---}到ICL。我们采用了元学习设置,其中首先训练模型,使用一种选定的融合方法在混合任务上执行ICL,然后对ICL的保留任务进行评估。11个延迟任务的结果表明,FiD-ICL匹配或优于其他两种融合方法。此外,我们还表明,FiD-ICL(1)在推理时间上比基于连接和基于集成的ICL快10倍,因为我们可以轻松地预先计算上下文中示例的表示并重用它们;(2) 支持向上扩展到元训练3B大小的模型,这对于基于concat的ICL来说是失败的。",}
<?xml version=“1.0”encoding=“UTF-8”?><modsCollection xmlns=“网址:http://www.loc.gov/mods/v3"><mods ID=“ye-etal-2023-fid”><标题信息>FiD-ICL:高效上下文学习的融合解码器方法</titleInfo><name type=“personal”>沁源<namePart type=“given”>叶<角色>作者</角色></name><name type=“personal”>Iz</namePart>贝尔塔基<角色>作者</角色></name><name type=“personal”>马修彼得斯<角色>作者</角色></name><name type=“personal”><namePart type=“given”>项任正非<角色>作者</角色></name><name type=“personal”>汉娜娜哈吉什尔齐<角色>作者</角色></name><originInfo>发布日期:2023-07发布日期:</originInfo><typeOfResource>文本<relatedItem type=“主机”><标题信息>计算语言学协会第61届年会会议记录(第1卷:长篇论文)</titleInfo><name type=“personal”>安娜罗杰斯<角色>编辑器</角色></name><name type=“personal”>约旦博伊德·格雷伯<角色>编辑器</角色></name><name type=“personal”>Naoaki(Naoaki)冈崎<角色>编辑器</角色></name><originInfo>计算语言学协会<位置>加拿大多伦多</place></originInfo>会议出版物</relatedItem><abstract>大型预训练模型能够进行少量的上下文学习(ICL),即通过在测试输入之前预先进行一些演示来执行新任务。然而,串联的演示通常过长,并导致额外的计算。受解码融合(FiD)模型的启发,该模型可以有效地聚合更多的通道,从而在开放域QA中优于基于级联的模型,我们假设可以应用类似的技术来提高ICL的效率和最终任务性能。为了验证这一点,我们对基于级联(早期融合)、FiD(中间)和基于集成(后期)的三种融合方法在ICL中的应用进行了全面研究。我们采用元学习设置,首先训练模型使用一种选定的融合方法对混合任务执行ICL,然后对ICL的延迟任务进行评估。11个延迟任务的结果表明,FiD-ICL匹配或优于其他两种融合方法。此外,我们还表明,FiD-ICL(1)在推理时间上比基于连接和基于集成的ICL快10倍,因为我们可以轻松地预先计算上下文中示例的表示并重用它们;(2) 支持向上扩展到元训练3B大小的模型,这对于基于concat的ICL来说是失败的</摘要><identifier type=“citekey”>ye-etal-2023-fid<identifier type=“doi”>10.18653/v1/2023。acl长.454</identifier><位置><网址>https://acl选集.org/2023.acl-long.454</url></位置><部分>2023-07年<扩展单元=“page”><开始>8158</开始><end>8185</end></范围></部分></mods></modsCollection>
%0会议记录%T FiD-ICL:一种高效上下文学习的融合解码方法%A Ye,沁园%贝尔塔基,伊茨%马修·彼得斯%阿仁,向%哈吉什尔齐,汉纳%安娜·罗杰斯%Y Boyd-Graber,约旦%Y冈崎,直崎%计算语言学协会第61届年会论文集(第一卷:长篇论文)%D 2023年%7月8日%计算语言学协会%C加拿大多伦多%F是-2023-fid%X大型预训练模型能够进行少量上下文学习(ICL),即通过在测试输入之前预先进行一些演示来执行新任务。然而,串联的演示通常过长,并导致额外的计算。受解码融合(FiD)模型的启发,该模型可以有效地聚合更多的通道,从而在开放域QA中优于基于级联的模型,我们假设可以应用类似的技术来提高ICL的效率和最终任务性能。为了验证这一点,我们对基于级联(早期融合)、FiD(中间)和基于集成(后期)的三种融合方法在ICL中的应用进行了全面研究。我们采用元学习设置,首先训练模型使用一种选定的融合方法对混合任务执行ICL,然后对ICL的延迟任务进行评估。11个延迟任务的结果表明,FiD-ICL匹配或优于其他两种融合方法。此外,我们还表明,FiD-ICL(1)在推理时间上比基于连接和基于集成的ICL快10倍,因为我们可以轻松地预先计算上下文中示例的表示并重用它们;(2) 支持向上扩展到元训练3B大小的模型,这对于基于concat的ICL来说是失败的。%R 10.18653/v1/2023.acl长454%U型https://aclantology.org/2023.acl-long.454%U型https://doi.org/10.18653/v1/2023.acl-long.454%电话:8158-8185
降价(非正式)
[FiD-ICL:一种高效上下文学习的融合解码器方法](https://aclantology.org/2023.acl-long.454)(Ye等人,ACL 2023)
国际计算语言学协会