超参数神经网络自然梯度下降的快速收敛

的一部分神经信息处理系统进展32(NeurIPS 2019)

作者反馈 Biptex公司 MetaReview公司 元数据 纸类 评论 补充的

作者

张国栋、詹姆斯·马滕斯、罗杰·格罗斯

摘要

自然梯度下降已被证明在减轻目标函数中病理曲率的灾难性影响方面非常有效,但理论上对其收敛特性知之甚少,尤其是对于{非线性}网络。在这项工作中,我们首次分析了具有平方误差损失的非线性神经网络自然梯度下降收敛到全局最优的速度。我们确定了两个保证全局收敛的条件:(1)雅可比矩阵(网络在所有训练情况下的输出,含参数)是满行秩的,(2)雅可布矩阵对于初始化周围的小扰动是稳定的。对于两层ReLU神经网络(即具有一个隐藏层),我们证明了在输入不退化且网络过参数化的假设下,这两个条件在整个训练过程中都成立。我们进一步将我们的分析扩展到具有类似收敛性质的更一般的损失函数。最后,我们证明了K-FAC,一种近似的自然梯度下降方法,在相同的假设下也收敛到全局极小值。