FiD-ICL: A Fusion-in-Decoder Approach for Efficient In-Context Learning

Qinyuan Ye; Iz Beltagy; Matthew E. Peters; Xiang Ren; Hannaneh Hajishirzi

doi:10.18653/v1/2023.acl-long.454

F类我D类-ICL公司：一种高效上下文学习的融合解码方法

叶沁源,伊兹·贝尔塔基,马修·彼得斯,向仁,Hannaneh Hajishirzi公司

摘要

大型预训练模型能够进行少量上下文学习（ICL），即通过在测试输入之前预先进行一些演示来执行新任务。然而，串联的演示通常过长，并导致额外的计算。受解码融合（FiD）模型的启发，该模型可以有效地聚合更多的通道，从而在开放域QA中优于基于级联的模型，我们假设可以应用类似的技术来提高ICL的效率和最终任务性能。为了验证这一点，我们对基于级联（早期融合）、FiD（中间）和基于集成（后期）的三种融合方法在ICL中的应用进行了全面研究。我们采用元学习设置，首先训练模型使用一种选定的融合方法对混合任务执行ICL，然后对ICL的延迟任务进行评估。11个延迟任务的结果表明，FiD-ICL匹配或优于其他两种融合方法。此外，我们还表明，FiD-ICL（1）在推理时间上比基于连接和基于集成的ICL快10倍，因为我们可以轻松地预先计算上下文中示例的表示并重用它们；（2）支持向上扩展到元训练3B大小的模型，这对于基于concat的ICL来说是失败的。

选集ID：: 2023.acl长454
体积：: 计算语言学协会第61届年会论文集（第一卷：长篇论文）
月份：: 七月
年份：: 2023
地址：: 加拿大多伦多
编辑：: 安娜·罗杰斯,乔丹·博伊德·格雷伯,冈崎直（Naoaki Okazaki）
地点：: 国际计算语言学协会
SIG公司：
出版商：: 计算语言学协会
注：
页：: 8158–8185
语言：
网址：: https://acl选集.org/2023.acl-long.454
内政部：: 10.18653/v1/2023.acl-long.454
比比键：
引用（ACL）：: 叶沁源、伊兹·贝尔塔吉、马修·彼得斯、任翔和汉娜妮·哈吉什尔齐。2023FiD-ICL：一种高效上下文学习的融合解码方法.英寸计算语言学协会第61届年会论文集（第一卷：长篇论文），第8158–8185页，加拿大多伦多。计算语言学协会。
引用（非正式）：: FiD-ICL：一种高效上下文学习的融合解码方法（Ye等人，ACL 2023）
复制引文：
PDF格式：: https://aclantology.org/2023.acl-long.454.pdf
视频：: https://aclantology.org/2023.acl-long.454.mp4

PDF格式引用搜索视频