×

关于\(x^p/(1-x)\)的反导数及其在优化神经网络分类损失函数中的应用。 (英语) Zbl 07504740号

摘要:神经网络中的监督学习意味着优化突触权重W公司这样输出(x个;W公司)用于输入x个尽可能接近相应的目标t吨来自训练数据集。这种优化意味着最小化损失函数({mathcal{L}}(mathbf{W})-t吨虽然经典的交叉熵损失假设误差呈三角形分布,但最近的研究表明,通过拟合用于初始化反向传播学习算法的幂函数的指数(q),广义幂误差损失函数可以适应更真实的误差分布。这种方法可以显著提高性能,但计算损失函数需要对函数(f(y):=(y^{q-1}/(1-y))进行反导数,该函数以前只针对自然(q\in\mathbb{N})确定。在这项工作中,我将这种方法推广到有理数(q=n/2^m),其中分母是2的幂。我给出了反导数的闭式表达式和相应的损失函数。实验表明,最佳指数(q)通常是非自然的,并且在学习过程中,最佳拟合输出误差分布不断变化,在学习收敛过程中通常从大(q>1)减小到小(q<1)。这些结果提出了新的自适应学习方法,其中损失函数可以在学习过程中不断适应输出误差分布。

MSC公司:

68泰克 人工智能
26A42型 Riemann、Stieltjes和Lebesgue型积分
33B20型 不完整的β和γ函数(误差函数、概率积分、菲涅耳积分)
68T05型 人工智能中的学习和自适应系统
68吨10 模式识别、语音识别
92秒20 生物研究、人工生命和相关主题中的神经网络
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abadi,M.,Barham,P.,Chen,J.,Cheng,Z.,Davis,A.,Dean,J.、Devin,M.、Ghemawat,S.、Irving,G.、Isard,M.等人:Tensorflow:大规模机器学习系统。摘自:第12届USENIX操作系统设计与实现研讨会(OSDI 16),第265-283页(2016年)
[2] AlAhmad,R。;Almefleh,H.,涉及不完全β函数的反导数和积分及其应用,奥斯汀。数学杂志。分析。申请。,17, 2, 11 (2020) ·Zbl 1463.33002号
[3] Y.本吉奥。;Simard,P。;Frasconi,P.,学习具有梯度下降的长期依赖性是困难的,IEEE Trans。神经网络。,5, 2, 157-166 (1994) ·doi:10.1109/72.279181
[4] Bishop,C.,模式识别和机器学习(2006),纽约:Springer,纽约·Zbl 1107.68072号
[5] Bryson,AE公司;Ho,YC,《应用最优控制:优化、估计和控制》(1969),纽约:布莱斯德尔,纽约
[6] Chollet,F.:凯拉斯。https://github.com/fchollet/keras (2015)
[7] 盖,T。;Thomas,J.,《信息理论的要素》(1991),纽约:威利出版社,纽约·兹比尔0762.94001 ·doi:10.1002/0471200611
[8] 费雷拉,C。;洛佩兹,J。;Perez Sinusia,E.,不完全β函数在基本函数方面的统一表示,电子。事务处理。数字。分析。,48, 450-461 (2018) ·兹比尔1406.33002 ·doi:10.1553/etnavol48s450
[9] Gers,F。;施密杜贝尔,J。;Cummins,F.,《学会遗忘:LSTM的连续预测》,神经计算。,12, 10, 2451-2471 (2000) ·doi:10.1162/089976600300015015
[10] Glrot,X.,Bengio,Y.:理解训练深度前馈神经网络的困难。参见:Teh,Y.,Titterington,M.(eds.)《第13届国际人工智能与统计会议论文集》,《机器学习研究论文集》第9卷,第249-256页。JMLR研讨会和会议记录,意大利撒丁岛恰拉古纳度假村(2010)
[11] Good,I.,《信息论中的一些术语和符号》,IEE-第C部分:专著,103,3,200-204(1956)
[12] Goodfellow,I.,Bengio,Y.,Courville,A.:深度学习。麻省理工学院出版社。http://www.deeplearningbook.org (2016) ·Zbl 1373.68009号
[13] He,K.,Zhang,X.,Ren,S.,Sun,J.:深入研究整流器:在图像网络分类方面超越人类水平的表现。摘自:IEEE计算机视觉国际会议(ICCV)会议记录(2015)
[14] He,K.,Zhang,X.,Ren,S.,Sun,J.:用于图像识别的深度残差学习。摘自:2016年IEEE计算机视觉和模式识别会议,2016年CVPR,美国内华达州拉斯维加斯,2016年6月27日至30日,第770-778页。IEEE计算机学会。doi:10.1109/CVPR.2016.90(2016)
[15] Hochreiter,S。;Schmidhuber,J.,长短期记忆,神经计算。,9, 8, 1735-1780 (1997) ·doi:10.1162/neco.1997.9.8.1735
[16] Ioffe,S.,Szegedy,C.:批量规范化:通过减少内部协变量的转移来加速深层网络训练。收录:Bach,F.,Blei,D.(eds.)《第32届机器学习国际会议论文集》,《机器学习研究论文集》第37卷,第448-456页。法国里尔PMLR(2015)
[17] Janocha,K.,Czarnecki,W.:关于分类中深层神经网络的损失函数。arXiv:1702.05659(2017)
[18] Kingma,D.,Ba,J.:亚当:一种随机优化方法。In:Bengio,Y.,LeCun,Y.(编辑)《国际学习代表大会(ICLR)第三届会议记录》,arXiv:1412.6980v9(2015)
[19] Knoblauch,A.,幂函数误差初始化可以提高分类神经网络中反向传播学习的收敛性,神经计算。,33, 8, 2193-2225 (2021) ·Zbl 1522.68466号 ·doi:10.1116/neco_a_01407
[20] Krizhevsky,A.:从微小图像中学习多层特征。多伦多大学计算机科学系技术代表(2009年)
[21] Krizhevsky,A.,Sutskever,I.,Hinton,G.:深度卷积神经网络的Imagenet分类。发表于:Pereira,F.、Burges,C.、Bottou,L.、Weinberger,K.(编辑)《神经信息处理系统进展》。https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-paper.pdf,第25卷。Curran Associates,Inc.(2012年)
[22] Krotov,D.,Hopfield,J.:用于模式识别的密集联想存储器。arXiv:1606.01164(2016)
[23] Linnainmaa,S.,累积舍入误差的泰勒展开,BIT数字。数学。,16, 2, 146-160 (1976) ·Zbl 0332.65024号 ·doi:10.1007/BF01931367
[24] Mathematika:12.3.1版。Wolfram Research,Inc.,伊利诺伊州香槟市(2021年)。https://www.wolfram.com/mathematica网站
[25] MATLAB:版本9.7.0.1247435(R2019b)。马萨诸塞州纳蒂克市MathWorks公司(2019年)
[26] Maxima:Maxima,一个计算机代数系统。版本5.43.2(2020)。http://maxima.sourceforge.net/。另请参阅www.integra-calculator.com
[27] Palm,G.,《新奇、信息与惊喜》(2012),柏林:施普林格出版社,柏林·Zbl 1257.94002号 ·doi:10.1007/978-3-642-29075-6
[28] Parker,D.:学习逻辑:用硅铸造人脑皮层。技术代表Tr-47,经济和管理科学计算研究中心。麻省理工学院剑桥分校(1985)
[29] Paszke,A.、Gross,S.、Massa,F.、Lerer,A.、Bradbury,J.、Chanan,G.、Killeen,T.、Lin,Z.、Gimelshein,N.、Antiga,L.、Desmaison,A.、Kopf,A.,Yang,E.、DeVito,Z.,Raison,M.、Tejani,A.、Chilamkurthy,S.,Steiner,B.、Fang,L.,Bai,J.,Chintala,S.:Pytorch:命令式,高性能深度学习库。收录:Wallach,H.、Larochelle,H.,Beygelzimer,A.、d'AlchéBuc,F.、Fox,E.、Garnett,R.(编辑)《神经信息处理系统进展》32。http://papers.neurips.cc/paper/9015-pytorch-an-imperative-style-high-performance-deep-learning-library.pdf第8024-8035页。Curran Associates,Inc.(2019年)
[30] Ronneberger,O.,Fischer,P.,Brox,T.:U-Net:生物医学图像分割的卷积网络。收录于:医学图像计算和计算机辅助干预(MICCAI),LNCS,第9351卷,第234-241页。柏林施普林格出版社(2015)
[31] Ruder,S.:梯度下降优化算法概述。arXiv:1609.04747(2016)
[32] Rumelhart博士。;辛顿,G。;Williams,R.,《通过反向传播错误学习表征》,《自然》,3236088533-536(1986)·Zbl 1369.68284号 ·数字对象标识代码:10.1038/323533a0
[33] Rumelhart,D.,McClelland,J.,Group,P.R.(编辑):并行分布式处理,认知微观结构探索,第1卷。基金会。麻省理工学院出版社,剑桥(1986)
[34] Schmidhuber,J.,《神经网络中的深度学习:概述》,神经网络。,61, 85-117 (2015) ·doi:10.1016/j.neunet.2014.09.003
[35] Shannon,C.,Weaver,W.:传播的数学理论。伊利诺伊大学出版社,厄本纳/芝加哥(1949)·兹比尔0041.25804
[36] Smith,S.,《数字信号处理科学家和工程师指南》(1997),圣地亚哥:加州技术出版社,圣地亚戈
[37] 北斯里瓦斯塔瓦。;辛顿,G。;Krizhevsky,A。;Sutskever,I。;Salakhuttinov,R.,《辍学:防止神经网络过度拟合的简单方法》,J.马赫。学习。1929-1958年第15号、第56号决议(2014年)·兹比尔1318.68153
[38] Tan,M.,Le,Q.:效率网:重新思考卷积神经网络的模型缩放。收录于:Chaudhuri,K.,Salakhutdinov,R.(编辑)《第36届机器学习国际会议论文集》,《机器学习研究论文集》第97卷,第6105-6114页。PMLR(2019年)
[39] Tenne,N.,不完全伽马函数和不完全β函数的一致渐近展开,数学。计算。,29, 132, 1109-1114 (1975) ·Zbl 0313.33002号 ·doi:10.1090/S0025-5718-1975-0387674-2
[40] Werbos,P.J.:超越回归:行为科学中预测和分析的新工具。哈佛大学博士论文(1974年)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。