计算机科学>机器学习
标题: 基于有限域数据的廉价推理的专用语言模型
摘要: 大型语言模型已成为一种通用工具,但要应用于缺乏大量推理预算和大型域内训练集的任务,则面临挑战。 这项工作将这些约束形式化,并区分了四个重要变量:预训练预算(用于已知目标域之前的训练)、专门化预算(用于知道目标域之后的训练),推理预算和域内训练集大小。 在这些设置中,我们比较了机器学习文献中的不同方法。 受推理成本的限制,我们找到了更好的替代方法来训练非常大的普通变压器模型的标准实践。 特别是,我们表明,超网络和专家的混合对大的预训练预算有更好的困惑,而在重要抽样数据集上训练的小模型对大的专业化预算有吸引力。