×

用于深度神经网络优化器的基于零化神经动力学的加速优化方法。 (英语) Zbl 07750099号

摘要:深度神经网络(DNN)中的一阶优化器对于具体损失函数在收敛时间内达到损失曲面上的局部极小值或全局极小值至关重要。然而,当遇到特定的应用场景和环境时,每个优化器都有自己的优势和优点。此外,现有的修改优化器大多强调给定的优化器,而没有任何传输属性。本文提出了一种基于零化神经动力学(ZND)的一阶优化方法,该方法可以通过激活函数辅助ZND加快梯度信息的求解过程,具有较低的损失和较高的精度。据我们所知,将控制域中的ZND与DNN中的一阶优化器集成是第一项工作。这项通用工作是针对最常用的一阶优化器的一种优化方法,用于处理不同的应用场景,而不是开发除现有优化器或其修改之外的全新算法。此外,系统地给出了ZND梯度信息变换的数学推导。最后,在路透社、CIFAR和MNIST数据集上进行了对比实验,验证了该方法在不同损失函数和网络框架下的有效性。

MSC公司:

68泰克 人工智能
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alex,K。;伊利亚,S。;Geoffrey,H.,ImageNet分类与深度卷积神经网络,ACM通信,60,6,84-90(2017)
[2] Bottou,L.(1991)。神经网络中的随机梯度学习。程序中。nuero-nimes,法国尼姆。第91卷。第八。
[3] 乔杜里,S;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;山崎,T.(2020)。研究最优进化训练扰动下神经网络的泛化。程序中。IEEE声学、语音和信号处理国际会议。
[4] Courbariaux,M。;Bengio,Y.,Binarynet:训练深度神经网络,权重和激活限制为+1或-1(2016),arXiv预印本arXiv:1602.02830https://arxiv.org/abs/1602.02830
[5] 戴,X。;尹,H。;Jha,N.K.,NeST:基于增长与删减范式的神经网络合成工具,IEEE计算机学报,68,10,1487-1497(2019)·Zbl 07159068号
[6] 丁·H。;Chen,K。;霍强,《利用师生学习和塔克分解压缩OCR的CNN-DBLSTM模型》,模式识别,96,第106957页,(2019)
[7] 杜奇,J。;哈赞,E。;Singer,Y.,在线学习和随机优化的自适应次梯度方法,机器学习研究杂志,12,2121-2159(2011)·Zbl 1280.68164号
[8] 伊斯凡迪亚里,Y。;巴鲁,A。;易卜拉希米,K。;美国瓦迪亚。;Elia,N。;Sarkar,S.,鲁棒深度学习的快速鞍点动态系统方法,神经网络,139,33-44(2021)·Zbl 1521.68183号
[9] 法兹利亚布,M。;里贝罗,A。;莫拉里,M。;Preciado,V.M.,通过积分二次约束分析优化算法:非强凸问题,SIAM优化杂志,28,3,2654-2689(2018)·Zbl 1406.90089号
[10] He,Y.,Liu,P.,Wang,Z.,Hu,Z.和;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;Yang,Y.(2019)。基于几何中值的滤波器剪枝用于深度卷积神经网络加速。程序中。IEEE计算机配置。相对于。模式识别。美国加利福尼亚州长滩(第4340-4349页)。
[11] He,K.、Zhang,X.、Ren,S.和;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;Sun,J.(2016)。用于图像识别的深度残差学习。程序中。IEEE计算机配置。相对于。模式识别。内华达州拉斯维加斯。美国(第770-778页)。
[12] Heo,B.,Chun,S.,Oh,S.J.,Han,D.,Yun,S,Kim,G.等人(2021年)。AdamP:减缓动量优化器在缩放权重上的速度减慢。程序中。关于学习的国际会议。代表。奥地利维也纳。
[13] Huang,G.,Liu,Z.,Maaten,L.V.D.和;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;Weinberger,K.Q.(2017)。紧密连接的卷积网络。程序中。IEEE计算机配置。相对于。模式识别。夏威夷州檀香山。美国(第2261-2269页)。
[14] Ide,H。;小林,T。;Watanabe,K。;Kurita,T.,高效CNN的稳健剪枝,模式识别字母,135,90-98(2020)
[15] 我、D.J.、Tao、M.和;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;Branson,K.(2017)。深度网络损耗面优化的实证分析。程序中。关于学习的国际比较。代表。法国土伦。
[16] 纪毅。;张,H。;张,Z。;Liu,M.,《用于显著目标检测的基于CNN的编解码网络:综合评述和最新进展》,《信息科学》,546835-857(2021)
[17] Jin,L。;Wei,L。;Li,S.,时间相关非线性优化的基于梯度的微分神经网络解,IEEE自动控制汇刊(2022)
[18] Jin,L。;Zhang,Y。;李,S。;Zhang,Y.,带固有噪声容限的时变二次规划的改进ZNN及其在机器人操作器运动冗余度求解中的应用,IEEE工业电子学报,63,11,6978-6988(2016)
[19] Jin,L。;Zhang,Y。;李,S。;Zhang,Y.,用于解决时变寻零问题的噪声容忍ZNN模型:一种控制理论方法,IEEE自动控制汇刊,62,2,992-997(2017)·Zbl 1364.65111号
[20] Kingma,D.和;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;Ba,J.(2015)。亚当:一种随机优化方法。程序中。关于学习的国际比较。代表。美国加利福尼亚州圣地亚哥。
[21] Lessard,L。;Recht,B。;Packard,A.,通过积分二次约束分析和设计优化算法,SIAM优化杂志,26,1,57-95(2016)·Zbl 1329.90103号
[22] 李,S。;陈,S。;Liu,B.,使用符号幂激活函数加速递归神经网络有限时间收敛以求解时变sylvester方程,《神经处理快报》,37,2,189-205(2013)
[23] 李伟(Li,W.)。;肖,L。;Liao,B.,用于求解动态非线性方程的有限时间收敛和抗噪递归神经网络及其离散化,IEEE系统、人与控制论汇刊,50,7,3195-3207(2020)
[24] Liao,S。;黄,H。;刘杰。;Xiao,X。;李,X。;Li,S.,用于图像去模糊的带噪声容限的改进牛顿积分算法,IEEE计算成像学报,71254-1266(2021)
[25] Liao,S。;刘杰。;齐,Y。;黄,H。;Zheng,R。;Xiao,X.,求解动态线性矩阵方程的自适应梯度神经网络,IEEE系统、人与控制论汇刊(2021)
[26] Liao,S。;刘杰。;Xiao,X。;傅,D。;王,G。;Jin,L.,用于求解具有自适应系数的时变sylvester方程并消除矩阵反演的改进梯度神经网络,神经计算,379,1-11(2020)
[27] Liao,B。;项,Q。;Li,S.,计算含时Lyapunov方程的有限时间收敛和噪声容限的有界Z型神经动力学,神经计算,325234-241(2019)
[28] 刘,M。;Chen,L。;杜,X。;Jin,L。;Shang,M.,深度神经网络的激活梯度,IEEE神经网络和学习系统汇刊(2021)
[29] 刘,S。;江,W。;Wu,L。;温,H。;刘,M。;Wang,Y.,使用基于SSR的CNN对橡胶木板进行实时分类,IEEE仪器和测量交易,69,11,8725-8734(2020)
[30] Mathieu,M.、Henaff,M.和;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;LeCun,Y.(2014)。通过FFT快速训练卷积网络。程序中。关于学习的国际比较。代表。加拿大阿联酋班夫。
[31] Nesterov,Y.,解决具有收敛速度的凸规划问题的方法\(O(1/k^2)\,苏联数学。Doklady,269,3543-547(1983)·Zbl 0535.90071号
[32] Park,J.,Li,S.,Wen,W.,Tang,P.T.P.,Li.,H.,Chen,Y.等(2016)。具有直接稀疏卷积和引导剪枝的更快CNN。程序中。关于学习的国际比较。代表。波多黎各圣胡安Caribe Hilton。
[33] Phan,H。;安德烈奥蒂,F。;库雷,N。;Chén,纽约州。;Vos,M.D.,《睡眠阶段自动分类的联合分类和预测CNN框架》,IEEE生物医学工程学报,66,5,1285-1296(2019)
[34] 齐,Y。;Jin,L。;Wang,Y。;林,X。;Zhang,J.,扰动含时复杂二次规划的复值离散时间神经动力学及其应用,IEEE神经网络和学习系统汇刊,31,9,3555-3569(2020)
[35] Rastegari,M.、Ordonnez,V.、Redmon,J.和;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;Farhadi,A.(2016)。Xnornet:使用二进制卷积神经网络对图像进行分类。程序中。欧元。计算机上的conf。相对于。荷兰阿姆斯特丹(第525-542页)。
[36] 罗宾斯,H。;Monro,S.,《随机近似方法》,《数理统计年鉴》,22,3,400-407(1951)·Zbl 0054.05901号
[37] Schiessler,E.J。;C.艾丁,R。;Linka,K。;Cyron,C.J.,《神经网络手术:将训练与拓扑优化结合起来》,《神经网》,144,384-393(2021)
[38] Shi,Y。;Zhang,Y.,零化神经网络解决时变线性和非线性不等式系统的新离散时间模型,IEEE系统、人与控制论汇刊,50,2,565-576(2020)
[39] 辛格,P。;卡迪,V.S.R。;Namboodiri,V.P.,FALF ConvNets:高效深层CNN的基于致命辅助损耗的滤波器校正,图像与视觉计算,93,第103857页,(2020)
[40] Sutskever,I.、Martens,J.、Dahl,G.和;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;Hinton,G.(2013)。关于深度学习中初始化和动量的重要性。程序中。机器上的内部conf。学习。美国佐治亚州亚特兰大。
[41] 陶,H。;李,J。;陈,Y。;斯托亚诺维奇,V。;Yang,H.,具有变初始条件的鲁棒点到点迭代学习控制,IET控制理论;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;应用程序,14、19、3344-3350(2020)
[42] 陶,H。;李,X。;巴斯克,W。;斯托亚诺维奇,V。;Yang,H.,多时滞离散系统在多面体不确定性和频域受限下的鲁棒PD型迭代学习控制,多维系统与信号处理,32,671-692(2021)·Zbl 1461.93145号
[43] Tieleman,T。;Hinton,G.,Rmsprop梯度优化,载于《机器学习神经网络》幻灯片(2012年),https://www.cs.toronto.edu/hinton/coursera_体系结构.html
[44] Vasilache,N.、Johnson,J.、Mathieu,M.、Chintala,S.、Piantino,S.和;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;LeCun,Y.(2015)。带FBFFT的快速卷积网:GPU性能评估。程序中。关于学习的国际比较。代表。美国加利福尼亚州圣地亚哥。
[45] Wang,H。;罗,Y。;安·W。;孙,Q。;徐,J。;Zhang,L.,深度神经网络基于PID控制器的随机优化加速,IEEE神经网络和学习系统汇刊,31,12,5079-5091(2020)
[46] Wen,W.、Xu,C.、Wu,C.,Wang,Y.、Chen,Y.和;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;Li,H.(2017)。为更快的深度神经网络协调滤波器。程序中。IEEE int.conf.计算。相对于。意大利威尼斯(第658-666页)。
[47] 吴,B。;王,D。;赵,G。;邓,L。;Li,G.,神经网络压缩中的混合张量分解,神经网络,132,309-320(2020)·Zbl 1475.68325号
[48] 项,Q。;Liao,B。;肖,L。;Jin,L。;Li,S.,用于动态矩阵伪逆的离散容错zhang神经网络,软计算,22755-766(2019)·Zbl 1415.65097号
[49] 肖,L。;戴J。;Jin,L。;李伟(Li,W.)。;李,S。;Hou,J.,用于等式约束时变非线性优化的抗噪声和有限时间归零神经网络,IEEE系统、人类和控制论汇刊,51,8,4729-4740(2021)
[50] Xiao,X。;江,C。;卢,H。;Jin,L。;刘博士。;Huang,H.,基于归零神经网络的时变复值矩阵Moore-Penrose反演并行计算方法,信息科学,524,216-228(2020)·Zbl 07334870号
[51] 熊,H。;Chi,Y。;胡,B。;Zhang,W.,正则条件下非凸优化中加速梯度下降的分析收敛区域,Automatica,113,第108715页,(2019)·Zbl 1440.93071号
[52] 徐,D。;张,S。;张,H。;Mandic,D.P.,非凸优化惩罚RMSProp深度学习方法的收敛性,神经网络,139,17-23(2021)·Zbl 1522.65109号
[53] 杨,C。;姜瑜。;He,W。;Na,J。;李,Z。;Xu,B.,有限时间收敛机器人操作器的自适应参数估计和控制设计,IEEE工业电子学报,65,10,8112-8123(2018)
[54] 杨,M。;Zhang,Y。;胡,H。;邱,B.,求解非线性不等式和线性方程的未来微分系统的通用7-瞬时DCZNN模型,IEEE神经网络和学习系统汇刊,31,9,3204-3214(2020)
[55] Zagoruyko,S.和;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;amp;Komodakis,N.(2016年)。广泛的残余网络。程序中。英国机器与。conf.,英国赫斯林顿,87.1-87.12。
[56] Zhang,Y。;江,D。;Wang,J.,求解时变系数sylvester方程的递归神经网络,IEEE神经网络汇刊,13,5,1053-1063(2002)
[57] 张,M。;李伟(Li,W.)。;杜琪。;高,L。;Zhang,B.,使用补丁对补丁CNN对高光谱和激光雷达数据进行分类的特征提取,IEEE系统、人与控制论汇刊,50,1,100-111(2020)
[58] Zhang,Y。;Yi,C。;郭,D。;Zheng,J.,张神经动力学与基于梯度的神经动力学在线求解非线性时变方程的比较,神经计算与应用,20,1,1-7(2011)
[59] 张,X。;邹,J。;He,K。;Sun,J.,加速用于分类和检测的超深度卷积网络,IEEE模式分析和机器智能汇刊,38,1011943-1955(2016)
[60] 周,L。;陶,H。;巴斯克,W。;斯托亚诺维奇,V。;Yang,H.,不确定空间互联系统的PD型迭代学习控制,数学,8,9,1528(2020)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。