Multitask Multilingual Model Adaptation with Featurized Low-Rank Mixtures

Lin, Chu-Cheng; Wang, Xinyi; Clark, Jonathan H.; Lu, Han; Zhu, Yun; Whitehouse, Chenxi; Yu, Hongkun

计算机科学>计算与语言

arXiv公司：2402.17934（cs）

【于2024年2月27日提交】

标题：基于特征化低秩混合的多任务多语言模型自适应

作者：楚成林,王欣怡,乔纳森·克拉克,韩璐,朱云（Yun Zhu）,陈熙白宫,余洪坤

查看PDF

摘要：将预先训练的大型语言模型（LLM）适应几十种或数百种人类语言的各种下游任务在计算上是昂贵的。参数有效微调（PEFT）通过只微调少量参数，显著降低了自适应成本。然而，由于参数容量有限和不同数据集之间的负面干扰，直接将PEFT方法（如LoRA（Hu et al.，2022））应用于不同的数据集混合物可能会导致性能次优。在这项工作中，我们提出了一种新的PEFT方法，用于有效的多任务多语言调优。FLix将每个独特的数据集功能（如数据集的语言或任务）与其自身的低阶权重更新参数相关联。通过为每个数据集组合特定于特征的参数，FLix可以适应不同的数据集混合，并更好地泛化到未知数据集。我们的实验表明，FLix使用不同的训练数据混合，在监督学习和零快照设置的各种任务上都有显著改进。

学科：	计算与语言（cs.CL）; 人工智能（cs.AI）
引用为：	arXiv公司：2402.17934【cs.CL】
	（或 arX病毒：2402.17934v1【cs.CL】对于此版本）
	https://doi.org/10.48550/arXiv.2402.17934

提交历史记录

发件人：Chu-Cheng Lin[查看电子邮件]
[第1版]2024年2月27日星期二23:12:45 UTC（246 KB）

全文链接：

访问纸张：

查看许可证

当前浏览上下文：

反恐精英。氯

<上一版本 | 下一个>

新的 | 最近的 |2024-02

更改为浏览方式：

反恐精英
反恐精英。人工智能

参考文献和引文

导出BibTeX引文

计算机科学>计算与语言

标题：基于特征化低秩混合的多任务多语言模型自适应

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>计算与语言

标题：基于特征化低秩混合的多任务多语言模型自适应

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目