计算机科学>机器学习
标题: 重复数据学习的标度律和可解释性
摘要: 最近的大型语言模型都是在大量数据集上进行训练的,但也经常是在重复数据上进行训练,要么是为了提高高质量数据的权重,要么是因为重复数据消除并不完美,而且模型在句子、段落或文档级别暴露于重复数据。 一些工作报告了这种重复数据对性能的重大负面影响。 在本文中,我们试图系统地研究重复数据,并从机理上了解其影响。 为了做到这一点,我们训练了一系列模型,其中大多数数据是唯一的,但只有一小部分数据被多次重复。 我们发现一种强烈的双下降现象,在训练过程中重复数据会导致测试损失增加。 重复频率的可预测范围会导致性能显著下降。 例如,通过将0.1%的数据重复100次,800M参数模型的性能可能会降低到2x较小模型(400M参数)的性能,尽管其他90%的训练令牌保持唯一。 我们怀疑中间有一个存储数据的范围,这样做会消耗模型容量的很大一部分,这可能是性能下降的峰值所在。 最后,我们将这些观察结果与最近的机械可解释性工作联系起来——试图对模型执行的详细计算进行逆向工程——通过显示数据重复不成比例地破坏复制和与泛化相关的内部结构,例如感应头, 为从泛化到记忆的转变提供了可能的机制。 综上所述,这些结果提供了一个假设,说明为什么在大型语言模型中重复相对较少的数据会对性能造成不成比例的巨大危害。