Specialized Language Models with Cheap Inference from Limited Domain Data

Grangier, David; Katharopoulos, Angelos; Ablin, Pierre; Hannun, Awni

计算机科学>机器学习

arXiv公司：2402.01093（cs）

【于2024年2月2日提交】

标题：基于有限域数据的廉价推理的专用语言模型

作者：大卫·格兰杰,安吉洛斯·卡塔罗普洛斯,皮埃尔·阿布林,奥尼·汉农

查看PDF HTML（实验性）

摘要：大型语言模型已成为一种通用工具，但要应用于缺乏大量推理预算和大型域内训练集的任务，则面临挑战。这项工作将这些约束形式化，并区分了四个重要变量：预训练预算（用于已知目标域之前的训练）、专门化预算（用于知道目标域之后的训练），推理预算和域内训练集大小。在这些设置中，我们比较了机器学习文献中的不同方法。受推理成本的限制，我们找到了更好的替代方法来训练非常大的普通变压器模型的标准实践。特别是，我们表明，超网络和专家的混合对大的预训练预算有更好的困惑，而在重要抽样数据集上训练的小模型对大的专业化预算有吸引力。

学科：	机器学习（cs.LG）; 计算与语言（cs.CL）
引用为：	arXiv公司：2402.01093【cs.LG】
	（或 arXiv:2402.01093v1【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2402.01093

提交历史记录

发件人：David Grangier[查看电子邮件]
[第1版]2024年2月2日星期五01:45:18 UTC（137 KB）

计算机科学>机器学习

标题：基于有限域数据的廉价推理的专用语言模型

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

Demos公司

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：基于有限域数据的廉价推理的专用语言模型

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

Demos公司

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目