F类D类-ICL公司:一种高效上下文学习的融合解码方法

叶沁源,伊兹·贝尔塔基,马修·彼得斯,向仁,Hannaneh Hajishirzi公司


摘要
大型预训练模型能够进行少量上下文学习(ICL),即通过在测试输入之前预先进行一些演示来执行新任务。然而,串联的演示通常过长,并导致额外的计算。受解码融合(FiD)模型的启发,该模型可以有效地聚合更多的通道,从而在开放域QA中优于基于级联的模型,我们假设可以应用类似的技术来提高ICL的效率和最终任务性能。为了验证这一点,我们对基于级联(早期融合)、FiD(中间)和基于集成(后期)的三种融合方法在ICL中的应用进行了全面研究。我们采用元学习设置,首先训练模型使用一种选定的融合方法对混合任务执行ICL,然后对ICL的延迟任务进行评估。11个延迟任务的结果表明,FiD-ICL匹配或优于其他两种融合方法。此外,我们还表明,FiD-ICL(1)在推理时间上比基于连接和基于集成的ICL快10倍,因为我们可以轻松地预先计算上下文中示例的表示并重用它们;(2) 支持向上扩展到元训练3B大小的模型,这对于基于concat的ICL来说是失败的。
选集ID:
2023.acl长454
体积:
计算语言学协会第61届年会论文集(第一卷:长篇论文)
月份:
七月
年份:
2023
地址:
加拿大多伦多
编辑:
安娜·罗杰斯,乔丹·博伊德·格雷伯,冈崎直(Naoaki Okazaki)
地点:
国际计算语言学协会
SIG公司:
出版商:
计算语言学协会
注:
页:
8158–8185
语言:
网址:
https://acl选集.org/2023.acl-long.454
内政部:
10.18653/v1/2023.acl-long.454
比比键:
引用(ACL):
叶沁源、伊兹·贝尔塔吉、马修·彼得斯、任翔和汉娜妮·哈吉什尔齐。2023FiD-ICL:一种高效上下文学习的融合解码方法.英寸计算语言学协会第61届年会论文集(第一卷:长篇论文),第8158–8185页,加拿大多伦多。计算语言学协会。
引用(非正式):
FiD-ICL:一种高效上下文学习的融合解码方法(Ye等人,ACL 2023)
复制引文:
PDF格式:
https://aclantology.org/2023.acl-long.454.pdf
视频:
 https://aclantology.org/2023.acl-long.454.mp4