×

通过均匀加倍条件训练DNN的准确性稳定性。 (英语) Zbl 07842071号

摘要:我们研究了深度神经网络(DNN)训练过程中精度的稳定性。在这种情况下,DNN的训练是通过最小化交叉熵损失函数来进行的,性能指标是准确性(正确分类的对象的比例)。虽然训练可以减少损失,但在训练过程中准确性不一定会提高,有时甚至会降低。实现准确度稳定性的目标是确保如果在某个初始时间准确度较高,则在整个训练过程中保持较高的准确度。Berlyand、Jabin和Safsten最近的一项结果在训练数据上引入了一个加倍条件,这确保了使用绝对值激活函数训练DNN时准确性的稳定性。对于\(\mathbb{R}^n\)中的训练数据,这个加倍条件是使用\(\mathbb{R}^n\)中的板来公式化的,并且取决于板的选择。本文的目的是双重的。首先,使加倍条件一致,即与板的选择无关。这为仅就训练数据而言的稳定性提供了充分的条件。换言之,对于满足均匀加倍条件的训练集(T),存在一个DNN族,使得该族在某个训练时间(T_0)训练集上具有高精度的DNN在所有时间(T>T_0)都具有高精度。此外,建立均匀性对于倍增条件的数值实现是必要的。我们演示了如何在数据集上数值实现这种均匀加倍条件的简化版本,并使用几个模型示例应用它来实现精度的稳定性。第二个目标是将绝对值激活函数的原始稳定性结果扩展到更广泛的具有有限多个临界点的分段线性激活函数类,例如流行的Leaky ReLU。

理学硕士:

68T07型 人工神经网络与深度学习

关键词:

深度神经网络

软件:

帕伽索斯
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] LeCun,Y.,Boser,B.,Denker,J.,Henderson,D.,Howard,R.,Hubbard,W.,Jackel,L.:采用反向传播网络的手写数字识别。高级神经信息处理。系统。2, (1989)
[2] Krizhevsky,A。;Sutskever,I。;Hinton,GE,Imagenet深度卷积神经网络分类,Commun。ACM,2017年第60、6、84-90页·doi:10.1145/3065386
[3] 辛顿,G。;邓,L。;Yu,D。;Dahl,通用电气;穆罕默德,A-R;北卡罗来纳州贾特利。;高级,A。;Vanhoucke,V。;Nguyen,P。;Sainath,TN,语音识别中声学建模的深度神经网络:四个研究小组的共同观点,IEEE信号处理。Mag.,29,6,82-972012年·doi:10.1109/MSP.2012.2205597
[4] Sutskever,I.,Vinyals,O.,Le,Q.V.:神经网络的序列到序列学习。高级神经信息处理。系统。2014年7月27日
[5] Berlyand,L。;Jabin,P-E;Safsten,A.,深度神经网络和其他分类器训练的稳定性,数学。模型方法应用。科学。,31, 11, 2345-2390, 2021 ·Zbl 1524.68308号 ·doi:10.1142/S0218202521500500
[6] Goodfellow,I.,Bengio,Y.,Courville,A.:深度学习。麻省理工学院出版社,(2016)·Zbl 1373.68009号
[7] Soudry,D。;霍弗,E。;纳森,理学硕士;Gunasekar,S。;Srebro,N.,可分离数据梯度下降的隐式偏差,J.Mach。学习。决议,2018年1月19日,2822-2878·Zbl 1477.62192号
[8] Shalev-Shwartz,S.,Singer,Y.,Srebro,N.:Pegasos:支持向量机的原始估计子梯度解算器。摘自:《第24届机器学习国际会议论文集》,第807-814页(2007年)
[9] 张,C。;Bengio,S。;Hardt,M。;Recht,B。;Vinyals,O.,理解深度学习(仍然)需要重新思考泛化,Commun。ACM,64、3、107-115、2021年·数字对象标识代码:10.1145/3446776
[10] Ma,S.,Bassily,R.,Belkin,M.:插值的力量:理解sgd在现代超参数化学习中的有效性。摘自:机器学习国际会议,第3325-3334页。PMLR,(2018)
[11] Kawaguchi,K.,Kaelbling,L.P.,Bengio,Y.:深度学习中的泛化。arXiv:1710.05468(2017)
[12] 科恩,O。;O.马尔卡。;Ringel,Z.,《超参数化深度神经网络的学习曲线:场理论视角》,Phys。修订版,3、2、023034、2021·doi:10.1103/PhysRevResearch.3.023034
[13] Xu,Y.,Li,Y.、Zhang,S.、Wen,W.、Wang,B.、Dai,W.,Qi,Y.和Chen,Y。在:2019年第五次能效机器学习和认知计算NeurIPS版研讨会(EMC2-NIPS),第14-17页。IEEE(2019)
[14] Yang,H.、Tang,M.、Wen,W.、Yan,F.、Hu,D.、Li,A.、Li、H.、Chen,Y.:通过奇异向量正交正则化和奇异值稀疏化学习低阶深层神经网络。IEEE/CVF计算机视觉和模式识别研讨会会议记录,第678-679页(2020年)
[15] Xue,J.、Li,J.和Gong,Y.:用奇异值分解重构深层神经网络声学模型。在Interspeech中,第2365-2369页(2013年)
[16] Cai,C.,Ke,D.,Xu,Y.,Su,K.:通过奇异值分解快速学习深度神经网络。摘自:环太平洋国际人工智能会议,第820-826页。斯普林格(2014)
[17] 安浩,X。;彭源,Z。;杰林,P。;Y.Y.Yonghong,基于Svd的dnn修剪和再培训,清华大学理工学院。技术。,56, 7, 772-776, 2016 ·Zbl 1374.68442号
[18] Berlyand,L.,Sandier,E.,Shmalo,Y.,Zhang,L.:使用随机矩阵理论提高深度学习的准确性。arXiv:2310.03165(2023年)
[19] Shmalo,Y.,Jenkins,J.,Krupchytskyi,O.:使用rmt-svd进行深度学习权重修剪:提高准确性并减少过拟合。arXiv:2303.08986(2023)
[20] 斯塔茨,M。;塔姆,M。;Rosenow,B.,用于过滤神经网络权重矩阵的噪声和信息之间的边界,Phys。修订版E,108,L022302203·doi:10.1103/PhysRevE.108.L022302
[21] 加维什,M。;Donoho,DL,奇异值的最佳硬阈值是\(4/\sqrt{3}\),IEEE Trans。信息理论,60,85040-50532014·Zbl 1360.94071号 ·doi:10.1109/TIT.2014.2323359
[22] Goodfellow,I.J.,Shlens,J.,Szegedy,C.:解释和利用对抗性例子。CoRR,abs/1412.6572,(2014)
[23] Szegedy,C.、Zaremba,W.、Sutskever,I.、Bruna,J.、Erhan,D.、Goodfellow,I.和Fergus,R.:神经网络的有趣特性。arXiv:1312.6199(2013)
[24] Zheng,S.,Song,Y.,Leung,T.,Goodfellow,I.:通过稳定性训练提高深度神经网络的鲁棒性。摘自:《Ieee计算机视觉和模式识别会议记录》,第4480-4488页(2016)
[25] Thulasidasan,S.、Chennupati,G.、Bilmes,J.A.、Bhattacharya,T.、Michalak,S.:关于混合训练:深度神经网络的改进校准和预测不确定性。高级神经信息处理。系统。32 (2019)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。