×

朝向ReLU神经网络深度的下限。 (英语) Zbl 1529.68276号

总结:我们有助于更好地理解可由ReLU激活的神经网络和给定架构表示的函数类。利用混合整数优化、多面体理论和热带几何学的技术,我们为普遍逼近定理提供了一种数学平衡,普遍逼近定理表明,单个隐藏层足以学习任何函数。特别地,我们研究了是否通过添加更多层(不限制大小)严格增加精确表示函数的类。作为我们研究的副产品,我们通过以下方法解决了关于分段线性函数的一个旧猜想S.Wang(王)十、太阳【IEEE Trans.Inf.Theory 51,No.124425-4431(2005;Zbl 1283.94021号)]是的。我们还提出了用对数深度表示函数所需的神经网络大小的上限。

MSC公司:

68T07型 人工神经网络与深度学习
52B55号 与凸性相关的计算方面
90立方厘米 混合整数编程
90 C90 数学规划的应用
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abrahamsen,M.、Kleist,L.和Miltzow,T.,《神经信息处理系统进展》(Advances in NeurIPS)第34卷,Curran Associates,纽约州Red Hook,2021。
[2] Alfarra,M.、Bibi,A.、Hammoud,H.、Gaafar,M.和Ghanem,B.,《关于深层神经网络的决策边界:热带几何学观点》,IEEE Trans。模式分析。机器。智力。,45(2023年),第5027-5037页。
[3] Alvarez,A.M.、Louveaux,Q.和Wehenkel,L.,基于机器学习的强分支近似,INFORMS J.Compute。,29(2017),第185-195页·Zbl 1364.90224号
[4] Anderson,R.、Huchette,J.、Ma,W.、Tjandraatmadja,C.和Vielma,J.P.,训练神经网络的强混合整数编程公式,数学。程序。,183(2020),第3-39页·Zbl 1450.90014号
[5] Anthony,M.和Bartlett,P.L.,《神经网络学习:理论基础》,剑桥大学出版社,1999年·Zbl 0968.68126号
[6] Arora,R.、Basu,A.、Mianjy,P.和Mukherjee,A.,《理解具有校正线性单位的深层神经网络》,学习表征国际会议,2018年。
[7] Bagnara,R.、Hill,P.M.和Zafanella,E.,《帕尔马多面体图书馆:为硬件和软件系统的分析和验证实现一整套数字抽象》,科学。计算。程序。,72(2008),第3-21页。
[8] Barron,A.R.,σ函数叠加的通用近似界,IEEE Trans。通知。《理论》,39(1993),第930-945页·Zbl 0818.68126号
[9] Barron,A.R.,人工神经网络的近似和估计界,马赫数。学习。,14(1994),第115-133页·Zbl 0818.68127号
[10] Bengio,Y.、Lodi,A.和Prouvost,A.,《组合优化的机器学习:方法论之旅》,欧洲期刊Oper。Res.,290(2021)第405-421页·Zbl 1487.90541号
[11] Bertschinger,D.、Hertrich,C.、Jungeblut,P.、Miltzow,T.和Weber,S.,《训练完全连接的神经网络是ER-完整的》,预印本,arXiv:2204.013682022。
[12] Bienstock,D.、noz,G.Mu和Pokutta,S.,《通过线性规划进行原理性深层神经网络训练》,预印本,arXiv:1810.032182018年。
[13] Bonami,P.、Lodi,A.和Zarpellon,G.,《学习混合整数二次规划问题的分类》,载于《约束编程、人工智能和运筹学集成国际会议》,瑞士查姆斯普林格,2018年,第595-604页·Zbl 1511.90304号
[14] Boob,D.、Dey,S.S.和Lan,G.,训练ReLU神经网络的复杂性,离散优化。,44 (2022), 100620. ·Zbl 1506.68088号
[15] Charisopoulos,V.和Maragos,P.,具有分段线性激活的神经网络的热带方法,预印本,arXiv:1805.087492018。
[16] Chen,K.-L.,Garudadri,H.和Rao,B.D.,表示分段线性函数的神经复杂度的改进边界,《神经信息处理系统进展》(NeurIPS),2022年第35卷。
[17] Chen,S.、Klivans,A.R.和Meka,R.,《学习深层ReLU网络是固定参数可处理的》,载于2021年IEEE第62届计算机科学基础年会(FOCS),美国北卡罗来纳州维什诺伊,编辑,IEEE,新泽西州皮斯卡塔韦,2022年,第696-707页。
[18] Cybenko,G.,S形函数的叠加逼近,数学。控制信号系统,2(1989),第303-314页·Zbl 0679.94019号
[19] Dey,S.S.、Wang,G.和Xie,Y.,训练单节点ReLU神经网络的近似算法,IEEE Trans。信号处理。,68(2020),第6696-6706页·Zbl 07591206号
[20] Edelsbrunner,H.,《组合几何中的算法》,施普林格出版社,柏林,1987年·Zbl 0634.52001号
[21] Eldan,R.和Shamir,O.,前馈神经网络的深度能力,Proc。机器。学习。研究(PMLR),49(2016),第907-940页。
[22] Fischetti,M.和Jo,J.,《深度神经网络作为0-1混合整数线性规划:可行性研究预印本》,arXiv:1712.061742017年。
[23] Froese,V.、Hertrich,C.和Niedermeier,R.,数据维参数化ReLU网络训练的计算复杂性,J.Artif。智力。研究,74(2022),第1775-1790页·Zbl 07596560号
[24] Gasse,M.、Chételat,D.、Ferroni,N.、Charlin,L.和Lodi,A.,图卷积神经网络的精确组合优化,《神经信息处理系统进展》(NeurIPS),第32卷,2019年。
[25] Goel,S.、Kanade,V.、Klivans,A.和Thaler,J.,可靠地学习多项式时间的关系,Proc。机器。学习。研究(PMLR),65(2017),第1004-1042页。
[26] Goel,S.、Klivans,A.和Meka,R.,学习具有重叠补丁的卷积层,Proc。机器。学习。研究(PMLR),80(2018),第1783-1791页。
[27] Goel,S.和Klivans,A.R.,在多项式时间内学习两个非线性层的神经网络,Proc。机器。学习。研究(PMLR)99(2019),第1470-1499页。
[28] Goel,S.、Klivans,A.R.、Manurangsi,P.和Reichman,D.,《训练深度-2 ReLU网络的紧密硬度结果》,第12届理论计算机科学创新会议(ITCS’21),德国瓦登Schloss Dagstuhl出版社,2021年,第22页。
[29] Gribonval,R.、Kutyniok,G.、Nielsen,M.和Voigtlaender,F.,深度神经网络的近似空间,Constr。约,55(2022),第259-367页·Zbl 1491.82017年
[30] Gurobi Optimization,LLC,古罗比优化器参考手册,网址:http://www.gurobi.com (2021).
[31] Haase,C.、Hertrich,C.和Loho,G.,通过晶格多胞体积分ReLU神经网络深度的下限,国际学习表征会议,2023年。
[32] Hanin,B.,《宽度有界的深度神经网络和ReLU激活的通用函数逼近》,《数学》,7(2019),992。
[33] Hanin,B.和Sellke,M.,通过最小宽度的ReLU网逼近连续函数,预印本,arXiv:1711.12782017。
[34] He,H.,Daume,H.III,and Eisner,J.M.,《学习在分支定界算法中搜索》,摘自《神经信息处理系统的进展》,第27卷,Curran Associates,Red Hook,NY,2014年,第3293-3301页。
[35] He,J.,Li,L.,Xu,J.和Zheng,C.,ReLU深度神经网络和线性有限元,J.Compute。数学。,38(2020年),第502-527页·Zbl 1463.68072号
[36] Hertrich,C.、Basu,A.、Di Summa,M.和Skutella,M.,朝向ReLU神经网络深度的下限,《神经信息处理系统进展》(NeurIPS),第34卷,2021年,第3336-3348页。
[37] Hertrich,C.和Sering,L.,ReLU多项式大小的神经网络,用于精确的最大流量计算,第24届整数规划和组合优化会议,2023年,接受出版·Zbl 1528.68357号
[38] Hertrich,C.和Skutella,M.,《通过有限大小的神经网络解决背包问题的显著好方法》,载于《AAAI人工智能会议论文集》,第35卷,2021年。
[39] Hiriart Urruty,J.-B.和Lemaréchal,C.,凸分析和最小化算法I,施普林格,柏林,1993年·Zbl 0795.49001号
[40] Hiriart Urruty,J.-B.和Lemaréchal,C.,《凸分析和最小化算法II》,施普林格,柏林,1993年·Zbl 0795.49002号
[41] Hornik,K.,多层前馈网络的逼近能力,神经网络。,4(1991年),第251-257页。
[42] Joswig,M.,《热带组合数学基础》,美国数学学会,普罗维登斯,RI,2022年·Zbl 07517377号
[43] Khalife,S.和Basu,A.,《线性阈值激活的神经网络:结构和算法》,摘自《整数规划和组合优化国际会议》,瑞士查姆斯普林格,2022年,第347-360页·Zbl 07572300号
[44] Khalil,E.,Bodic,P.Le,Song,L.,Nemhauser,G.和Dilkina,B.,《混合整数编程中的分支学习》,载于《AAAI人工智能会议论文集》,2016年第30卷。
[45] Khalil,E.B.、Dilkina,B.、Nemhauser,G.L.、Ahmed,S.和Shao,Y.,《学习在树搜索中运行启发式》,瑞士查姆施普林格IJCAI出版社,2017年,第659-666页。
[46] Kruber,M.、Lübbecke,M.E.和Parmentier,A.,《学习何时使用分解》,载于《组合优化问题约束编程中的AI和OR技术国际会议》,瑞士查姆施普林格,2017年,第202-210页·Zbl 1489.68253号
[47] Liang,S.和Srikant,R.,为什么使用深度神经网络进行函数逼近?,在2017年国际学习代表大会上。
[48] Lodi,A.和Zarpellon,G.,《关于学习和分支:一项调查》,TOP,25(2017),第207-236页·Zbl 1372.90003号
[49] Lu,Z.,《关于GHH代表权的注记》,预印本,arXiv:2101.112862021。
[50] Maclagan,D.和Sturmfels,B.,《热带几何导论》,美国数学学会,普罗维登斯,RI,2015年·Zbl 1321.14048号
[51] Maragos,P.、Charisopoulos,V.和Theodosis,E.,《热带几何学和机器学习》,Proc。IEEE,109(2021),第728-755页。
[52] Mhaskar,H.,《使用神经网络逼近实函数》,《国际计算数学会议论文集》,世界科学,印度新德里,1993年,第267-278页·Zbl 0839.65019号
[53] Mhaskar,H.N.,光滑函数和解析函数最佳逼近的神经网络,神经计算。,8(1996),第164-177页。
[54] Mhaskar,H.N.和Michelli,C.A.,单隐层神经网络和翻译网络的近似度,高级应用。数学。,16(1995年),第151-183页·Zbl 0885.42012号
[55] Montúfar,G.,Ren,Y.和Zhang,L.,最大网络的区域数和Minkowski和的顶点数的Sharp界,SIAM J.Appl。代数几何。,6(2022年),第618-649页·Zbl 07673258号
[56] Montúfar,G.F.、Pascanu,R.、Cho,K.和Bengio,Y.,《关于深层神经网络线性区域的数量》,载于《神经信息处理系统的进展》,第27卷,Ghahramani,Z.、Welling,M.、Cortes,C.、Lawrence,N.D.和Weinberger,K.Q.编辑,Curran Associates,Red Hook,NY,2014年,第2924-232页。
[57] Mukherjee,A.和Basu,A.,《带ReLU Gates的深度神经网络布尔输入下限》,预印本,arXiv:1711.030732017年。
[58] Nguyen,Q.、Mukkamala,M.C.和Hein,M.,《Proc。机器。学习。研究(PMLR),80(2018),第3737-3746页。
[59] Panina,G.Y.和Streĭnu,I.,《虚拟多胞体》,Uspekhi Mat.Nauk,70(2015),第139-202页·Zbl 1352.52015年
[60] Pascanu,R.、Montúfar,G.和Bengio,Y.,《关于具有分段线性激活的深度前馈网络的推理区域的数量》,国际学习表征会议,2014年。
[61] Pinkus,A.,神经网络中MLP模型的近似理论,Acta Numer。,8(1999),第143-195页·Zbl 0959.68109号
[62] Raghu,M.、Poole,B.、Kleinberg,J.、Ganguli,S.和Dickstein,J.S.,《关于深层神经网络的表达能力》,Proc。机器。学习。研究(PMLR),70(2017),第2847-2854页。
[63] Rosenblatt,F.,《感知器:大脑中信息存储和组织的概率模型》,《心理学》。第65版(1958年),第386-408页。
[64] Safran,I.和Shamir,O.,用神经网络逼近自然函数时的深度-宽度权衡,Proc。机器。学习。研究(PMLR),70(2017),第2979-2987页。
[65] Schrijver,A.,《线性和整数规划理论》,威利出版社,纽约,1986年·Zbl 0665.90063号
[66] Serra,T.、Kumar,A.和Ramalingam,S.,深度神经网络的无损压缩,《约束编程、人工智能和运筹学集成国际会议》,瑞士查姆斯普林格,2020年,第417-430页·Zbl 07636034号
[67] Serra,T.和Ramalingam,S.,《深层整流网络线性区域的经验界》,载于《AAAI人工智能会议论文集》,第34卷,AAAI,加州帕洛阿尔托,2020年,第5628-5635页。
[68] Serra,T.、Tjandraatmadja,C.和Ramalingam,S.,深度神经网络线性区域的边界和计数,Proc。机器。学习。研究(PMLR),80(2018),第4565-4573页。
[69] Stanley,R.P.,《超平面排列导论》,美国数学学会,普罗维登斯,RI,2004年·Zbl 1136.52009年
[70] Telgarsky,M.,《深度前馈网络的代表优势》,预印本,arXiv:1509.0810152015年。
[71] Telgarsky,M.,《神经网络深度的益处》,载于《第29届学习理论会议论文集》,2016年6月23日至26日,美国纽约,(2016),第1517-1539页。
[72] Sage Developers、SageMath、Sage数学软件系统(9.0版)、,https://www.sagemath.org (2020).
[73] Vardi,G.、Reichman,D.、Pitassi,T.和Shamir,O.,《用神经网络逼近良性功能中的尺寸和深度分离》,Proc。机器。学习。研究(PMLR),134(2021),第1-29页。
[74] Wang,S.,连续分段线性函数的一般构造表示,IEEE Trans。电路系统。我是Regul。论文,51(2004),第1889-1896页·Zbl 1374.41017号
[75] Wang,S.和Sun,X.,铰链超平面的推广,IEEE Trans。通知。理论,51(2005),第4425-4431页·兹比尔1283.94021
[76] Yarotsky,D.,深度ReLU网络近似的误差界,神经网络。,94(2017年),第103-114页·Zbl 1429.68260号
[77] Zhang,L.,Naitzat,G.和Lim,L.-H.,深层神经网络的热带几何学,Proc。机器。学习。研究(PMLR),80(2018),第5819-5827页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。