Your representations are in the network: composable and parallel adaptation for large scale models

Dukler, Yonatan; Achille, Alessandro; Yang, Hao; Vivek, Varsha; Zancato, Luca; Bowman, Benjamin; Ravichandran, Avinash; Fowlkes, Charless; Swaminathan, Ashwin; Soatto, Stefano

你的表现在网络中：大规模模型的可组合和并行适应

的一部分神经信息处理系统进展36（NeurIPS 2023）主要会议轨道

Bibtex公司纸类补充的

作者

约纳坦·杜克勒、亚历山德罗·阿基勒、郝扬、瓦莎·维韦克、卢卡·赞卡托、本杰明·鲍曼、阿维纳什·拉维坎德兰、查尔斯·福克斯、阿什温·斯瓦米纳坦、斯特凡诺·索托

摘要

我们提出了一个转移学习框架，该框架通过学习附加到其中间激活的轻量级交叉注意模块，有效地适应大型基础模型。我们将我们的方法命名为InCA（内省-交叉关注），并表明它可以有效地调查网络的表示，并为下游任务识别性能强大的适配器模型。在培训期间，InCA可以有效地并行培训多个适配器，与冻结的基础模型隔离。在ViT-L/16体系结构上，我们的实验表明，单个适配器（占整个模型的1.3%）能够在11个具有挑战性的下游分类任务中平均达到完全微调精度。与其他形式的参数有效性自适应相比，InCA自适应的孤立性在计算上适合于大型模型。例如，我们在单个V100 GPU上使用20多个适配器并行快速调整ViT-G/14（1.8B+参数）（GPU内存减少76%），并详尽地确定其最有用的表示。我们进一步展示了如何对InCA学习的适配器进行增量修改或组合，以实现灵活的学习场景，并且我们的方法在ImageNet到Sketch多任务基准测试上实现了最先进的性能。

你的表现在网络中：大规模模型的可组合和并行适应

作者

摘要

名称更改策略