Uncovering mesa-optimization algorithms in Transformers

von Oswald, Johannes; Niklasson, Eyvind; Schlegel, Maximilian; Kobayashi, Seijin; Zucchet, Nicolas; Scherrer, Nino; Miller, Nolan; Sandler, Mark; Arcas, Blaise Agüera y; Vladymyrov, Max; Pascanu, Razvan; Sacramento, João

计算机科学>机器学习

arXiv:2309.05858（cs）

【于2023年9月11日提交】

职务：揭示变压器中的台面优化算法

作者：约翰内斯·冯·奥斯瓦尔德,伊文德·尼克拉森,马克西米利安·施莱格尔,小林精（Seijin Kobayashi）,尼古拉斯·祖切特,尼诺·谢勒,诺兰·米勒,律师桑德勒,布莱斯·阿圭拉（Blaise Agüera y Arcas）,最大Vladymyrov,拉兹万·帕斯卡努,佐奥·萨克拉门托

查看PDF

摘要：变形金刚已经成为深度学习的主导模式，但人们对其卓越性能的原因知之甚少。在此，我们假设变形金刚的强大性能源于对台面优化的架构偏见，这是一个在模型前进过程中运行的学习过程，包括以下两个步骤：（i）构建内部学习目标，以及（ii）通过优化找到相应的解决方案。为了验证这个假设，我们对一系列接受简单序列建模任务训练的自回归变换器进行了逆向工程，揭示了驱动预测生成的基于梯度的台面优化算法。此外，我们表明，学习的前向传递优化算法可以立即重新用于解决有监督的少镜头任务，这表明mesa优化可能是大型语言模型上下文学习能力的基础。最后，我们提出了一种新的自关注层，即台面层，它明确有效地解决了上下文中指定的优化问题。我们发现，这一层可以提高综合和初步语言建模实验的性能，为我们的假设增加了权重，即mesa-optimization是隐藏在训练Transformers权重中的重要操作。

学科：	机器学习（cs.LG）; 人工智能（cs.AI）
引用为：	arXiv:2309.05858【cs.LG】
	（或 arXiv:2309.05858v1型【cs.LG】对于此版本）
	https://doi.org/10.48550/arXiv.2309.05858

提交历史记录

发件人：Johannes Von Oswald Jvo[查看电子邮件]
[第1版]2023年9月11日星期一22:42:50 UTC（4051 KB）

计算机科学>机器学习

职务：揭示变压器中的台面优化算法

提交历史记录

访问纸张：

参考文献和引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目

计算机科学>机器学习

职务：揭示变压器中的台面优化算法

提交历史记录

访问纸张：

参考文献和引文

BibTeX格式的引文

书签

书目和引文工具

与本文相关的代码、数据和媒体

演示

推荐和搜索工具

arXivLabs：与社区合作者合作的实验项目