计算机科学>机器学习
职务: 揭示变压器中的台面优化算法
摘要: 变形金刚已经成为深度学习的主导模式,但人们对其卓越性能的原因知之甚少。 在此,我们假设变形金刚的强大性能源于对台面优化的架构偏见,这是一个在模型前进过程中运行的学习过程,包括以下两个步骤:(i)构建内部学习目标,以及(ii)通过优化找到相应的解决方案。 为了验证这个假设,我们对一系列接受简单序列建模任务训练的自回归变换器进行了逆向工程,揭示了驱动预测生成的基于梯度的台面优化算法。 此外,我们表明,学习的前向传递优化算法可以立即重新用于解决有监督的少镜头任务,这表明mesa优化可能是大型语言模型上下文学习能力的基础。 最后,我们提出了一种新的自关注层,即台面层,它明确有效地解决了上下文中指定的优化问题。 我们发现,这一层可以提高综合和初步语言建模实验的性能,为我们的假设增加了权重,即mesa-optimization是隐藏在训练Transformers权重中的重要操作。