任意深度的宽神经网络在梯度下降下演化为线性模型

的一部分神经信息处理系统进展32(NeurIPS 2019)

作者反馈 Biptex公司 MetaReview公司 元数据 纸类 评论 补充的

作者

Jaehoon Lee、Lechao Xiao、Samuel Schoenholz、Yasaman Bahri、Roman Novak、Jascha Sohl-Dickstein、Jeffrey Pennington

摘要

深度学习研究的一个长期目标是准确描述训练和泛化。然而,神经网络通常具有复杂的损失情况,这使得学习动力学理论难以捉摸。在这项工作中,我们表明,对于宽神经网络,学习动力学大大简化,并且在无限宽度限制下,它们由网络围绕其初始参数的一阶泰勒展开得到的线性模型控制。此外,反映了宽贝叶斯神经网络和高斯过程之间的对应关系,具有平方损失的宽神经网络的基于梯度的训练产生了从具有特定组成核的高斯过程中提取的测试集预测。虽然这些理论结果仅在无限宽度极限下才是准确的,但我们发现,即使对于实际尺寸有限的网络,原始网络的预测与线性化版本的预测之间也存在极好的经验一致性。该协议在不同的体系结构、优化方法和损失函数中都是可靠的。