特征学习的高维渐近性:一个梯度步骤如何改进表示

的一部分神经信息处理系统进展35(NeurIPS 2022)主要会议轨道

Biptex公司 纸类 补充的

作者

Jimmy Ba、Murat A.Erdogdu、Taiji Suzuki、Zhichao Wang、Denny Wu、Greg Yang

摘要

我们研究了两层神经网络中第一层参数$\boldsymbol{W}$的第一个梯度下降步:$f(\boldsymbol{x})=\frac{1}{\sqrt{N}}\boldsimbol{a}^\top\sigma(\bolsymbol{W}^\top \boldsembol{x})$,其中$\bolsombol{W}\in\mathbb{R}^{d\timesN},\boldcymbol{a}\in\ mathbb}{R}^{N}$被随机初始化,训练目标是经验MSE损失:$\frac{1}{n}\sum{i=1}^n(f(\boldsymbol{x} _ i)-y_i)^2美元。在比例渐近极限中,其中$n,d,n to infty$的速率相同,在理想的学生-教师设置中,教师$f^*$是一个单指标模型,我们用学习速率$eta$计算了在$boldsymbol{W}$上梯度一步后共轭核上岭回归的预测风险。我们考虑了第一步学习率$\eta$的两个尺度。对于小的$\eta$,我们为训练的特征图建立了高斯等价性质,并证明了学习的核在初始随机特征模型的基础上有所改进,但在输入上不能击败最佳线性模型。然而,对于足够大的$\eta$,我们证明了对于特定的$f^*$,训练特征上的相同岭估计可以超越这个“线性区域”,并且优于广泛的(固定)核。我们的结果表明,即使是一个梯度步骤也可以比随机特征带来相当大的优势,并突出了学习率缩放在训练初始阶段的作用。