Scaling Laws and Interpretability of Learning from Repeated Data

Hernandez, Danny; Brown, Tom; Conerly, Tom; DasSarma, Nova; Drain, Dawn; El-Showk, Sheer; Elhage, Nelson; Hatfield-Dodds, Zac; Henighan, Tom; Hume, Tristan; Johnston, Scott; Mann, Ben; Olah, Chris; Olsson, Catherine; Amodei, Dario; Joseph, Nicholas; Kaplan, Jared; McCandlish, Sam

计算机科学>机器学习

arXiv:2205.10487（cs）

【于2022年5月21日提交】

标题：重复数据学习的标度律和可解释性

作者：丹尼·埃尔南德斯,汤姆·布朗,汤姆·科纳利,新达萨玛,黎明排水沟,Sheer El-Showk公司,纳尔逊·埃尔哈吉,扎克·哈特菲尔德-道奇,汤姆·海尼汉,特里斯坦·休姆,斯科特·约翰斯顿,本·曼,克里斯·欧拉,凯瑟琳·奥尔森,达里奥·阿莫迪,尼古拉斯·约瑟夫,贾里德·卡普兰,萨姆·麦肯迪什

查看PDF

摘要：最近的大型语言模型都是在大量数据集上进行训练的，但也经常是在重复数据上进行训练，要么是为了提高高质量数据的权重，要么是因为重复数据消除并不完美，而且模型在句子、段落或文档级别暴露于重复数据。一些工作报告了这种重复数据对性能的重大负面影响。在本文中，我们试图系统地研究重复数据，并从机理上了解其影响。为了做到这一点，我们训练了一系列模型，其中大多数数据是唯一的，但只有一小部分数据被多次重复。我们发现一种强烈的双下降现象，在训练过程中重复数据会导致测试损失增加。重复频率的可预测范围会导致性能显著下降。例如，通过将0.1%的数据重复100次，800M参数模型的性能可能会降低到2x较小模型（400M参数）的性能，尽管其他90%的训练令牌保持唯一。我们怀疑中间有一个存储数据的范围，这样做会消耗模型容量的很大一部分，这可能是性能下降的峰值所在。最后，我们将这些观察结果与最近的机械可解释性工作联系起来——试图对模型执行的详细计算进行逆向工程——通过显示数据重复不成比例地破坏复制和与泛化相关的内部结构，例如感应头，为从泛化到记忆的转变提供了可能的机制。综上所述，这些结果提供了一个假设，说明为什么在大型语言模型中重复相对较少的数据会对性能造成不成比例的巨大危害。

评论：	23页，22张图
学科：	机器学习（cs.LG）; 人工智能（cs.AI）
引用为：	arXiv:2205.10487【cs.LG】
	（或 arXiv:2205.10487v1【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2205.10487

提交历史记录

发件人：Danny Hernandez[查看电子邮件]
[第1版]2022年5月21日星期六02:14:27 UTC（8801 KB）

计算机科学>机器学习

标题：重复数据学习的标度律和可解释性

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

标题：重复数据学习的标度律和可解释性

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目