×

用LASSO人工神经网络在非线性干草堆中寻找针的相变。 (英语) Zbl 1499.62026号

摘要:为了拟合稀疏线性关联,具有单个超参数的LASSO稀疏性诱导惩罚可以在某些情况下以高概率恢复重要特征(针),即使样本大小小于输入向量(干草堆)的维数。最近,被称为人工神经网络(ANN)的学习者在许多机器学习任务中取得了巨大成功,尤其是拟合非线性关联。较小的学习速率、随机梯度下降算法和较大的训练集有助于应对深度神经网络中参数数量激增的问题。然而,很少有人工神经网络学习器被开发和研究来在非线性的大海捞针。与稀疏线性关联一样,在单个超参数的驱动下,我们的ANN学习器在检索针的概率方面表现出相变,这是我们在其他ANN学习者中没有观察到的。为了选择惩罚参数,我们推广了D.L.多诺霍I.M.约翰斯通【生物统计学81,第3期,425–455页(1994年;Zbl 0815.62019号)]这是一个比保守(错误检测太多)和昂贵的交叉验证更好的规则。本着模拟退火的精神,我们提出了一种热启动稀疏性诱导算法来解决高维、非凸和不可微的优化问题。我们进行了模拟和实际数据的蒙特卡罗实验,以量化我们的方法的有效性。

MSC公司:

62-08 统计问题的计算方法
62J07型 山脊回归;收缩估计器(拉索)
68T07型 人工神经网络与深度学习
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Adcock,B.,Brugiapaglia,S.,Dexter,N.,Morage,S.:深度神经网络可以有效地从有限的数据中学习高维Hilbert值函数。摘自:《第二届数学和科学机器学习会议论文集》,第145卷,第1-36页。PMLR(2022年)
[2] 阿德科克,B。;Dexter,N.,《深度神经网络函数逼近理论与实践之间的差距》,SIAM J.Math。数据科学。,3, 2, 624-655 (2021) ·Zbl 1483.65028号 ·数字对象标识码:10.1137/20M13109X
[3] 阿德瓦尼,理学硕士;萨克斯,AM;Sompolinsky,H.,神经网络泛化误差的高维动力学,神经网络。,132, 428-446 (2020) ·Zbl 1475.68258号 ·doi:10.1016/j.neunet.2020.08.022
[4] 美国阿洛。;Celisse,A.,《模型选择交叉验证程序调查》,统计调查。,4, 40-79 (2010) ·Zbl 1190.62080号 ·doi:10.1214/09-SS054
[5] 巴赫,F。;Jenatton,R。;Mairal,J。;Obozinski,G.,具有稀疏性诱导惩罚的优化,Found。趋势马赫数。学习。,4, 1, 1-106 (2011) ·Zbl 06064248号 ·doi:10.1561/220000015
[6] Barron,AR,σ函数叠加的通用近似界,IEEE Trans。Inf.理论,39,3,930-945(1993)·Zbl 0818.68126号 ·doi:10.109/18.256500
[7] Bastounis,A.,Hansen,A.C.,Vlacic,V.:尽管存在稳定的神经网络,AI-why深度学习中对抗性攻击的数学是不稳定的。arXiv:2109.06098(2021b)
[8] Bastounis,A.,Hansen,A.C.,Vlavcic,V.:扩展的Smale第九个问题——估算、规范化、计算机辅助证明和学习中的计算障碍和悖论(2021a)
[9] 贝克,A。;Teboulle,M.,线性反问题的快速迭代收缩阈值算法,SIAM J.Imag。科学。,2, 183-202 (2009) ·Zbl 1175.94009号 ·doi:10.1137/080716542
[10] 贝洛尼,A。;切尔诺朱科夫,V。;Wang,L.,方形套索:通过圆锥编程实现稀疏信号的关键恢复,Biometrika,98,4,791-806(2011)·Zbl 1228.62083号 ·doi:10.1093/biomet/asr043
[11] Bölcskei,H。;Grohs,P。;Kutyniok,G。;Petersen,P.,稀疏连接深度神经网络的最佳逼近,SIAM J.Math。数据科学。,1, 1, 8-45 (2019) ·Zbl 1499.41029号 ·doi:10.1137/18M118709X
[12] Breiman,L.,《随机森林》,马赫。学习。,45, 1, 5-32 (2001) ·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[13] 布雷曼,L。;弗里德曼,J。;Olshen,R。;Stone,C.,《分类和回归树》(1984),《博卡拉顿:劳特利奇》,博卡拉顿·Zbl 0541.62042号
[14] Bühlmann,P。;van de Geer,S.,《高维数据统计:方法、理论和应用》(2011),海德堡:施普林格出版社·Zbl 1273.62015年 ·doi:10.1007/978-3-642-20192-9
[15] Bühlmann,P。;Kalisch,M。;Meier,L.,《着眼于生物学应用的高维统计》,Ann.Rev.Stat.Appl。,1, 255-278 (2014) ·doi:10.1146/annurev-statistics-022513-115545
[16] 坎迪斯,EJ;Tao,T.,线性规划解码,IEEE Trans。《信息论》,51,4203-4215(2005)·Zbl 1264.94121号 ·doi:10.1109/TIT.2005.858979
[17] Carreira-Perpina,M.A.,Idelbayev,Y.:神经网络修剪的学习压缩算法。摘自:2018 IEEE/CVF计算机视觉和模式识别会议,第8532-8541页(2018)
[18] Chao,S.K.,Wang,Z.,Xing,Y.,Cheng,G.:深度神经网络的定向修剪。In:NeurIPS(2020)
[19] Chen,T。;Chen,H.,具有任意激活函数的神经网络对非线性算子的通用逼近及其在动力系统中的应用,IEEE Trans。神经网络。,6, 4, 911-917 (1995) ·doi:10.1109/72.392253
[20] 陈,SS;多诺霍,DL;马萨诸塞州桑德斯,《基追踪原子分解》,SIAM J.Sci。计算。,20, 1, 33-61 (1999) ·Zbl 0919.94002号 ·doi:10.1137/S1064827596304010
[21] 乔丹·科尔布鲁克;安顿,V。;Hansen,AC,《计算稳定准确的神经网络的困难:关于深度学习的障碍和Smale的第18个问题》,Proc。国家。阿卡德。科学。,119, 12 (2022) ·doi:10.1073/pnas.2107151119
[22] Collins,M.D.,Kohli,P.:记忆有界深度卷积网络。arXiv:1412.1442(2014年)
[23] Curci,S.,Mocanu,D.C.,Pechenizkiyi,M.:规模上的真正稀疏神经网络。arXiv:2102.01732(2021)
[24] Cybenko,G.,S形函数的叠加逼近,数学。控制信号系统。(MCSS),2,4,303-314(1989)·Zbl 0679.94019号 ·doi:10.1007/BF02551274
[25] Descloux,P。;Sardy,S.,《用套索零点选择模型:在干草堆中添加稻草以更好地找到针头》,J.Compute。图表。统计,30,3,530-543(2021)·Zbl 07499899号 ·doi:10.1080/10618600.2020.1869026
[26] Donoho,DL,压缩传感,IEEE Trans。《信息论》,521289-1306(2006)·Zbl 1288.94016号 ·doi:10.1109/TIT.2006.871582
[27] 多诺霍,DL;Johnstone,IM,通过小波收缩实现理想的空间自适应,Biometrika,81,3,425-455(1994)·Zbl 0815.62019号 ·doi:10.1093/biomet/81.3.425
[28] 多诺霍,DL;Tanner,J.,《精确欠采样定理》,Proc。IEEE,98,6,913-924(2010)·doi:10.1109/JPROC.2010.2045630
[29] 多诺霍,DL;约翰斯通,IM;Kerkyacharian,G。;Picard,D.,小波收缩:无症状?,J.R.Stat.Soc.B,57,2,301-369(1995)·Zbl 0827.62035号
[30] 多诺霍,DL;Maleki,A。;Montanari,A.,压缩传感中的噪声敏感性相变,IEEE Trans。信息理论,57,10,6920-6941(2011)·Zbl 1365.94094号 ·doi:10.1109/TIT.2011.2165823
[31] Evci,U.,Pedregosa,F.,Gomez,A.N.,Elsen,E.:训练稀疏神经网络的困难。arXiv:1906.10732(2019)
[32] Feng,J.,Simon,N.:高维非参数回归和分类的稀疏输入神经网络。arXiv:1711.07592(2019)
[33] JH弗里德曼;Stuetzle,W.,投影寻踪回归,美国统计协会,76,817-823(1981)·doi:10.1080/016214591981.10477729
[34] 弗里德曼,JH;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,J.Stat.Softw。,33, 1, 1-22 (2010) ·doi:10.18637/jss.v033.i01
[35] Geiger,M.、Jacot,A.、Spigler,S.、Gabriel,F.、Sagun,L.、d'Ascoli,S.,Biroli,G.、Hongler,C.、Wyart,M.:深度学习中泛化与参数数量的缩放描述。arXiv:1901.01608(2019)·Zbl 1459.82250号
[36] 贾科比诺,C。;Sardy,S。;Diaz Rodriguez,J。;Hengardner,N.,分位数通用阈值,电子。J.Stat.,11,2,4701-4722(2017)·Zbl 1384.62258号 ·doi:10.1214/17-EJS1366
[37] Grohs,P.,Perekrestenko,D.,Elbrächter,D.,Bölcskei,H.:深度神经网络近似理论。arXiv:1901.02220(2019)·Zbl 1473.68178号
[38] Hastie,T.、Montanari,A.、Rosset,S.、Tibshirani,R.J.:高维无脊最小二乘插值的惊喜。arXiv:1903.08560(2019)·Zbl 1486.62202号
[39] He,J。;贾,X。;徐,J。;张,L。;Zhao,L.,Make\(\ell_1\)正则化在稀疏CNN训练中的有效性,计算。最佳方案。申请。,77, 1, 163-182 (2020) ·Zbl 1480.90178号 ·doi:10.1007/s10589-020-00202-1
[40] Hinton,G.,Srivastava,N.,Krizhevsky,A.,Sutskever,I.,Salakhutdinov,R.:通过防止特征检测器的协同适应来改进神经网络。arXiv:1207.0580(2012)·兹比尔1318.68153
[41] 霍尔,AE;Kennard,RW,Ridge回归:非正交问题的有偏估计,技术计量学,12,1,55-67(1970)·Zbl 0202.17205号 ·网址:10.1080/00401706.1970.10488634
[42] Holland,PW,协方差稳定化变换,Ann.Stat.,184-92(1973)·Zbl 0253.60025号 ·doi:10.1214/aos/1193342384
[43] 约翰斯通,IM;Silverman,B.,《干草堆中的针和稻草:可能稀疏序列的经验贝叶斯估计》,《Ann.Stat.》,第32期,第1594-1649页(2004年)·Zbl 1047.62008年 ·数字对象标识代码:10.1214/00905360400000030
[44] Kostadinov,D.,Voloshynovskiy,S.,Ferdowsi,S.:使用近似和精确的闭合形式解学习过完备和稀疏化变换。2018年第七届欧洲视觉信息处理研讨会(EUVIP),第1-6页(2018)
[45] Lee,H.、Battle,A.、Raina,R.、Ng,A.Y.:高效稀疏编码算法。摘自:《第19届神经信息处理系统国际会议论文集》,NIPS'06,第801-808页。麻省理工学院出版社(2006)
[46] 李毅。;陈,CY;Wasserman,WW,深度特征选择:识别增强子和启动子的理论和应用,J.Compute。生物学,23,322-336(2016)·doi:10.1089/cmb.2015.0189
[47] Ma,R.,Miao,J.,Niu,L.,Zhang,P.:用于学习稀疏深度神经网络的变换正则化。arXiv:1901.01021(2019)·Zbl 1434.68512号
[48] 梅,S。;Montanari,A.,《随机特征回归的泛化误差:精确渐近和双下降曲线》,Commun。纯应用程序。数学。(2021) ·Zbl 07513415号 ·doi:10.1002/cpa.2208
[49] Mollaysa,A.,Strasser,P.,Kalousis,A.:使用特征副信息正则化非线性模型。摘自:《第34届机器学习国际会议论文集》,《机器学习研究论文集》第70卷,第2508-2517页,悉尼(2017)
[50] Poggio,T。;哈斯卡,H。;Rosasco,L。;米兰达,B。;Liao,Q.,《为什么以及何时深层而非浅层网络可以避免维度诅咒:国际汽车杂志》。计算。,14, 5, 503-519 (2017) ·doi:10.1007/s11633-017-1054-2
[51] Ranzato,M.A.,Boureau,Y.L.,LeCun,Y.:深度信念网络的稀疏特征学习。摘自:《第20届神经信息处理系统国际会议论文集》,NIPS’07,第1185-1192页。Curran Associates Inc.(2007年)
[52] Ravishankar,S.,Wen,B.,Bresler,Y.:在线稀疏化变换学习第一部分:算法。IEEE J.选择。顶部。信号处理。9(4), 625-636 (2015)
[53] 德国鲁梅尔哈特;通用电气公司Hinton;威廉姆斯,RJ,通过反向传播错误学习表征,《自然》,323533-536(1986)·Zbl 1369.68284号 ·数字对象标识代码:10.1038/323533a0
[54] 北斯利瓦斯塔瓦。;辛顿,G。;Krizhevsky,A。;Sutskever,I。;Salakhutdinov,R.,《辍学:防止神经网络过度拟合的简单方法》,J.Mach。学习。1929-1958年第15号决议(2014年)·Zbl 1318.68153号
[55] 孙,Y。;宋,Q。;Liang,F.,《一致稀疏深度学习:理论和计算》,美国统计协会(2021)·Zbl 1514.68270号 ·doi:10.1080/01621459.2021.1895175
[56] Tibshirani,R.,通过套索进行回归收缩和选择,J.R.Stat.Soc.B,58,1267-288(1996)·兹比尔0850.62538
[57] Ye,M.,Sun,Y.:通过惩罚神经网络进行变量选择:一种退出一损失的方法。摘自:《第35届机器学习国际会议论文集》,第80卷,第5620-5629页(2018)
[58] 袁,M。;Lin,Y.,《分组变量回归中的模型选择和估计》,J.R.Stat.Soc.B,68,1,49-67(2006)·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。