你的表现在网络中:大规模模型的可组合和并行适应

的一部分神经信息处理系统进展36(NeurIPS 2023)主要会议轨道

Bibtex公司 纸类 补充的

作者

约纳坦·杜克勒、亚历山德罗·阿基勒、郝扬、瓦莎·维韦克、卢卡·赞卡托、本杰明·鲍曼、阿维纳什·拉维坎德兰、查尔斯·福克斯、阿什温·斯瓦米纳坦、斯特凡诺·索托

摘要

我们提出了一个转移学习框架,该框架通过学习附加到其中间激活的轻量级交叉注意模块,有效地适应大型基础模型。我们将我们的方法命名为InCA(内省-交叉关注),并表明它可以有效地调查网络的表示,并为下游任务识别性能强大的适配器模型。在培训期间,InCA可以有效地并行培训多个适配器,与冻结的基础模型隔离。在ViT-L/16体系结构上,我们的实验表明,单个适配器(占整个模型的1.3%)能够在11个具有挑战性的下游分类任务中平均达到完全微调精度。与其他形式的参数有效性自适应相比,InCA自适应的孤立性在计算上适合于大型模型。例如,我们在单个V100 GPU上使用20多个适配器并行快速调整ViT-G/14(1.8B+参数)(GPU内存减少76%),并详尽地确定其最有用的表示。我们进一步展示了如何对InCA学习的适配器进行增量修改或组合,以实现灵活的学习场景,并且我们的方法在ImageNet到Sketch多任务基准测试上实现了最先进的性能。