主页

论文

提交文件

新闻

编辑委员会

特殊问题

开源软件

程序(PMLR)

数据(DMLR)

交易(TMLR)

搜索

统计

登录

常见问题解答

联系我们



RSS源

过参数化多层神经网络:神经切线核的均匀集中和随机梯度下降的收敛性

徐嘉明、朱汉静; 25(94):1−83, 2024.

摘要

通过神经切线核(NTK)透镜,在理解超参数神经网络中梯度下降(GD)和随机梯度下降(SGD)的收敛性方面取得了令人兴奋的进展。然而,理论和实践之间仍存在两个重大差距。首先,现有的收敛理论只考虑了来自最后一个隐藏层的NTK的贡献,而在实践中,中间层也起到了辅助作用。其次,大多数现有的工作都假设训练数据是先验批提供的,而很少关注训练数据流到达的重要设置。在本文中,我们弥合了这两个差距。我们首先证明,随着神经元数量趋于无穷大,在随机初始化的情况下,NTK函数在所有层中一致收敛到某个确定性函数。然后,我们应用一致收敛结果进一步证明了在流数据设置下,SGD下多层神经网络的预测误差在预期范围内收敛。我们证明的一个关键因素是,尽管总共有$mL$个神经元,但宽度为$m$的$L$层神经网络的激活模式的数量仅为$m$中的多项式。

[腹肌][pdf格式][围兜]      
©JMLR公司2024(编辑,贝塔)

乳臭虫