主页

论文

提交文件

新闻

编辑委员会

开源软件

程序(PMLR)

交易(TMLR)

搜索

统计

登录

常见问题

联系我们



RSS源

深度神经网络中的内隐自我正则化:来自随机矩阵理论的证据及其学习意义

查尔斯·马丁(Charles H.Martin)、迈克尔·马奥尼(Michael W.Mahoney); 22(165):1−73, 2021.

摘要

应用随机矩阵理论(RMT)分析深度神经网络(DNN)的权重矩阵,包括生产质量、预训练模型(如AlexNet和Inception)以及从无到有训练的较小模型(如LeNet5和微型-AlexNet)。经验和理论结果清楚地表明,DNN训练过程本身隐含地实现了一种形式的自我规范化,隐含地塑造了一种更规范的能量或惩罚景观。特别是,DNN层矩阵的经验谱密度(ESD)显示了传统正则化统计模型的特征,即使没有外部指定传统形式的显式正则化,如辍学或权重范数约束。基于RMT中相对较新的结果,最显著的是它对重尾矩阵普遍性类的扩展,并将它们应用于这些经验结果,我们开发了一种理论来识别5+1训练阶段,对应于越来越多的内隐自正则化。这些阶段可以在培训过程中和最终学习的DNN中观察到。对于较小和/或较老的DNN,这种隐式自正则化与传统的Tikhonov正则化类似,因为有一个“大小尺度”将信号与噪声分离。然而,对于最先进的DNN,我们发现了一种新形式的重尾自正则化,类似于无序系统统计物理中的自组织(例如实际神经活动的经典模型)。这是由于在所有规模尺度上产生的相关性造成的,而对于DNN而言,这是由于培训过程本身而隐含产生的。这种隐含的自我规范化在很大程度上取决于训练过程中的许多旋钮。特别是,我们证明,只要改变批量大小,就可以让一个小模型展示所有5+1阶段的培训。我们的结果表明,大型、训练有素的DNN架构应该表现出重尾自正则化,我们讨论了这一点的理论和实践意义。

[腹肌][pdf格式][围兜]      
©版权所有JMLR公司2021(编辑,贝塔)