×

稀疏约束神经网络作为混合整数线性规划的优化。 (英语) Zbl 07785180号

总结:文献表明了如何使用混合整数线性规划(MILP)优化和分析不同类型神经网络的参数。基于这些进展,本研究为McCulloch/Pitts和Rosenblatt神经元提供了一种方法。由于原始公式涉及一个阶跃函数,因此它是不可微的,但可以通过使用混合整数线性规划来优化神经元的参数,并将其作为浅层神经网络进行连接。本文的主要贡献是对权重和激活以及使用的神经元数量附加稀疏约束。一些实验表明,这种约束有效地防止了神经网络中的过拟合,并确保了资源优化模型。

MSC公司:

90立方厘米 混合整数编程
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿莫哈马德,HA;Duffuaa,SO,加权图匹配问题的线性规划方法,IEEE Trans。模式分析。机器。智力。,15, 5, 522-525 (1993) ·doi:10.1009/34.211474
[2] 阿马尔迪,E。;Capone,A。;Coniglio,S。;Gianoli,LG,最大公平流量分配下的网络优化问题,IEEE Commun。莱特。,17, 7, 1463-1466 (2013) ·doi:10.1109/LCOMM.2013.060513.130351
[3] 安德森,R。;哈切特,J。;Ma,W.,训练神经网络的强混合整数编程公式,数学。程序。,183, 3-39 (2020) ·Zbl 1450.90014号 ·doi:10.1007/s10107-020-01474-5
[4] Awiszus,M.,Rosenhahn,B.:马尔可夫链神经网络。收录于:IEEE计算机视觉和模式识别研讨会(CVPRW),第2180-2187页,2018年6月
[5] 阿依因德,BO;Zurada,JM,《深入学习约束自动编码器以增强对数据的理解》,IEEE Trans。神经网络。学习。系统。,29, 9, 3969-3979 (2018) ·doi:10.1109/TNNLS.2017.2747861
[6] Bae,W.、Lee,S.、Lee、Y.、Park,B.、Chung,M.、Jung,K.:用于三维医学图像分割的资源优化神经架构搜索。收录于:医学图像计算和计算机辅助干预——2019年MICCAI,第228-236页。柏林施普林格(2019)
[7] Baker,B.,Gupta,O.,Raskar,R.,Naik,N.:使用性能预测加速神经架构搜索。参加:2018年4月30日至5月3日在加拿大不列颠哥伦比亚省温哥华举行的第六届国际学习代表大会,研讨会记录。OpenReview.net(2018)
[8] Baydin,A.G.、Pearlmutter,B.A.、Radul,A.A.、Siskind,J.M.:机器学习中的自动差异化:一项调查。J.马赫。学习。第18(1)号决议:5595-5637(2017)·兹伯利06982909
[9] Bellec,G.,Kappel,D.,Maas W.,Legenstein,R.:深度重新布线:训练非常稀疏的深度网络。在:国际学习代表大会(2018)
[10] 伯格曼博士。;黄,T。;布鲁克斯,P。;Lodi,A。;Raghunathan,AU,Janos:综合预测和规定建模框架,INFORMS J.Compute。,34, 2, 807-816 (2022) ·Zbl 07551211号 ·doi:10.1287/ijoc.2020.1023
[11] Bienstock,D.,Muñoz G.,Pokutta,S.:通过线性规划进行原理性深层神经网络训练(2019年)·Zbl 1520.68166号
[12] Cai,H.,Chen,T.,Zhang,W.,Yu,Y.,Wang,J.:通过网络转换进行高效的架构搜索。收录于:《第32届AAAI人工智能会议论文集》(AAAI-18)、《第30届人工智能创新应用》(IAAI-18。AAAI出版社(2018)
[13] Capobianco,G。;Cerrone,C。;Di Placido,A。;杜兰德,D。;Pavone,L。;俄罗斯,DD;Sebastiano,F.,《图像卷积:滤波器设计的线性规划方法》,《软件》。计算。,25, 14, 8941-8956 (2021) ·doi:10.1007/s00500-021-05783-5
[14] Ceccon,F.、Jalving,J.、Haddad,J.,Thebelt,A.、Tsay,C.、Laird,C.D.、Misener,R.:Omlt:优化和机器学习工具包。arXiv:2202.02414(2022)
[15] Chen,Z.、Liu,J.、Wang,X.、Lu,J.和Yin,W.:关于用图神经网络表示线性程序。arXiv:2209.12288(2022)
[16] 康拉德,TP;弗吉尼亚州福萨罗;罗斯,S。;Johann,D。;拉贾帕克塞,V。;Hitt,BA;SM斯坦伯格;科恩,欧共体;菲什曼,DA;怀特利,G。;巴雷特,JC;洛杉矶利奥塔;皮特里康,EF;Veenstra,TD,用于卵巢癌检测的高分辨率血清蛋白质组学特征,内分泌。相关。癌症,11,2,163-178(2004)·doi:10.1677/erc.0.0110163
[17] Dantzig,GB,受线性不等式约束的变量线性函数的最大化,Act。分析。产品分配。,13, 339-347 (1951) ·Zbl 0045.09802号
[18] Dennis,J.E.,Schnabel,R.B.:无约束优化和非线性方程的数值方法。工业和应用数学学会(1996)·Zbl 0847.65038号
[19] 丁T.W.,Chin,R.,Liu,Z.,Marculescu,D.:训练二值化深度网络的正则化激活分布。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第11400-11409页(2019)
[20] 菲舍蒂,M。;Jo,J.,深度神经网络和混合整数线性优化,约束,23,296-309(2018)·Zbl 1402.90096号 ·doi:10.1007/s10601-018-9285-6
[21] 华盛顿州弗雷杰;Castro-Vargas,FE;方,Z。;Horvath,S。;Cloughesy,T。;利奥,LM;Mischel,PS;Nelson,SF,胶质瘤基因表达谱强烈预测生存率,Can。第64、18、6503-6510号决议(2004年)·doi:10.1158/0008-5472.CAN-04-0452
[22] 甘贝拉,C。;B.加达。;Naoum-Sawaya,J.,《机器学习的优化问题:调查》,欧洲期刊Oper。第290号决议,第3807-828号决议(2021)·Zbl 1487.90004号 ·doi:10.1016/j.ejor.2020.08.045
[23] Grimstad,B。;Andersson,H.,Relu网络作为混合整数线性程序中的代理模型,计算。化学。工程,131(2019)·doi:10.1016/j.compchemeng.2019.106580
[24] 有限责任公司Gurobi Optimization。Gurobi优化器参考手册(2021)
[25] Guyon,我。;Elisseeff,A.,《变量和特征选择简介》,J.Mach。学习。第3号决议,1157-1182(2003年)·Zbl 1102.68556号
[26] Guyon,I.、Gunn,S.、Ben-Hur,A.、Dror,G.:nips 2003特征选择挑战的结果分析。摘自:《神经信息处理系统进展》,第17卷。麻省理工学院出版社(2005)
[27] Guyon,I.、Gunn,S.、Hur,A.B.、Dror,G.:nips 2003特征选择挑战的结果分析。摘自:《第17届神经信息处理系统国际会议论文集》,NIPS’04,第545-552页,美国马萨诸塞州剑桥市,麻省理工学院出版社(2004)
[28] 盖恩,I。;Nikravesh,M。;Gunn,S。;Zadeh,L.,《特征提取基础与应用》,《模糊性与软计算研究》(2006),柏林:斯普林格出版社,柏林·Zbl 1114.68059号 ·doi:10.1007/978-3-540-35488-8
[29] Han,S.、Pool,J.、Tran,J.和Dally,W.J.:学习有效神经网络的权重和连接。摘自:《第28届神经信息处理系统国际会议记录》,NIPS’15,第1卷,第1135-1143页。麻省理工学院出版社,剑桥(2015)
[30] 哈斯林格,C。;Schweifer,N。;Stilgenbauer,S。;Döhner,H。;Lichter,P。;北卡罗来纳州克劳特。;斯特拉托瓦,C。;Abseher,R.,由基因组畸变和vh突变状态定义的b细胞慢性淋巴细胞白血病亚群的微阵列基因表达谱,临床杂志。Oncol.公司。,22, 19, 3937-3949 (2004) ·doi:10.1200/JCO.2004.12.133
[31] Heo,J.,Joo,S.,Moon,T.:通过对抗模型操纵愚弄神经网络解释。摘自:神经信息处理系统进展,第32卷。Curran Associates,Inc.(2019年)
[32] Hubara,I.、Courbariaux,M.、Soudry,D.、El-Yaniv,R.、Bengio,Y.:二值化神经网络。收录:神经信息处理系统进展,第29卷。Curran Associates,Inc.(2016年)·Zbl 1468.68183号
[33] Icarte,R.T.,Illanes L.,Castro,M.P.,CiréA.,McIlraith,S.A.,Beck,J.C.:使用MIP和CP训练二值化神经网络。《约束编程原理与实践》。斯普林格,LNCS 11802(2019)
[34] 吉,B。;卢,X。;Sun,G。;张伟。;李,J。;Xiao,Y.,生物启发特征选择:一种改进的二进制粒子群优化方法,IEEE Access,85989-86002(2020)·doi:10.10109/ACCESS.2020.2992752
[35] Kastellakis,G。;Poirazi,P.,突触聚类和记忆形成,Front。摩尔神经科学。,12, 300 (2019) ·doi:10.3389/fnmol.2019.00300
[36] Komodakis,N。;Tziritas,G.,基于线性规划的通过图切割的近似标记,IEEE Trans。模式分析。机器。智力。,29, 8, 1436-1453 (2007) ·doi:10.1109/TPAMI.2007.1061
[37] Krishnan,R.:PDM:基于知识的模型构建工具。载于:[1989]第二十二届夏威夷国际系统科学年会论文集。第三卷:决策支持和基于知识的系统跟踪,第3卷,第467-474页(1989年)
[38] Kronqvist,J.、Misener,R.、Tsay,C.:步骤之间:大m和凸壳公式之间的中间松弛。摘自:《约束编程、人工智能和运筹学的集成》,第299-314页。查姆斯普林格(2021)·Zbl 07493636号
[39] Le Cun,Y.,Denker J.S.,Solla S.A.:最佳脑损伤。摘自:《神经信息处理系统进展》,第598-605页。摩根·考夫曼(1990)
[40] Liu,H.,Simonyan,K.,Yang,Y.:DARTS:差异化建筑搜索。参加:国际学习代表大会(2019年)
[41] Liu,Q.,Wang,J.,Duch,W.,Girolma,M.,Kaski,S.:一种具有重步长激活函数的单层双重递归神经网络,用于线性规划及其线性赋值应用。摘自:《人工神经网络与机器学习》,2011年,第253-260页。柏林施普林格出版社(2011)
[42] 刘,S。;莫卡努,D。;马塔瓦拉姆,A。;裴,Y。;Pechenizkiy,M.,在商品硬件上使用超过100万个人工神经元的稀疏进化深度学习,神经计算。申请。,33, 04 (2021)
[43] Lu,Z.,Pu,H.,Wang,F.,Hu,Z..,Wang。摘自:《第31届神经信息处理系统国际会议论文集》,NIPS’17,第6232-6240页。Curran Associates Inc,Red Hook(2017年)
[44] Lueg,L.,Grimstad,B.,Mitsos,A.,Schweidtmann,A.M.:Relumip:Relu神经网络milp优化的开源工具(2021)
[45] Donato,M.,Holly W.:OptiCL:带约束学习的混合整数优化(2021)。https://github.com/hwiberg/OptiCL网站/
[46] Makhortov,S.,Ivanov,I.:生产零阶逻辑中推理模型的等价变换。在:2020国际信息技术和纳米技术大会(ITNT),第1-4页(2020)
[47] Mangasarian,OL,神经网络中的数学编程,ORSA J.Comput。,5, 349-360 (1993) ·Zbl 0789.90053号 ·doi:10.1287/ijoc.5.4.349
[48] MATLAB软件。2021b兰特(2021年)
[49] McCulloch,W。;Pitts,W.,《神经活动内在思想的逻辑演算》,布尔。数学。生物物理学。,5, 127-147 (1943) ·Zbl 0063.03860号 ·doi:10.1007/BF02478259
[50] Mocanu,D.、Mocanu、E.、Stone,P.、Nguyen,P.H.、Gibescu,M.、Liotta,A.:受网络科学启发,具有自适应稀疏连接的人工神经网络的可伸缩训练。国家公社。9 (2018)
[51] Modas,A.,Moosavi-Dezfouli,S.-M.,Frossard,P.:Sparsefould:几个像素会产生很大的差异。2019年IEEE/CVF计算机视觉和模式识别会议(CVPR),第9079-9088页(2019年)
[52] Murty,KG,线性规划(1983),霍博肯:威利·Zbl 0521.90071号
[53] Narang,S.、Diamos,G.、Sengupta,S.和Elsen,E.:探索递归神经网络中的稀疏性。参加:国际学习代表大会(2017年)
[54] Negrinho,R.,Patil,D.,Le,N.,Ferreira,D.,Gormley,M.,Gordon,G.:面向模块化和可编程架构搜索。神经信息处理。系统。(2019)
[55] Nguyen,H.T.,Franke,K.:通过混合0-1编程的通用lp-norm支持向量机。摘自:《模式识别中的机器学习和数据挖掘》,第40-49页。柏林施普林格出版社(2012)
[56] Paul,WH,《逻辑与整数编程》(2009),柏林:施普林格出版社,柏林·Zbl 1175.90005号
[57] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;杜堡,V。;范德普拉斯,J。;帕索斯,A。;库纳波,D。;布鲁彻,M。;佩罗,M。;Duchesnay,E.,Scikit学习:Python中的机器学习,J.Mach。学习。第12号决议,2825-2830(2011年)·Zbl 1280.68189号
[58] Picard,D.:Torch.manualseed(3407)就是你所需要的:关于计算机视觉深度学习架构中随机种子的影响。arXiv:2109.08203(2021)
[59] 罗梅罗,E。;Sopena,J.,使用多层感知器执行特征选择,IEEE Trans。神经网络。,19, 431-441 (2008) ·doi:10.1109/TNN.2007.909535
[60] Rosenblatt,F.,《感知器:大脑中信息存储和组织的概率模型》,《心理学》。修订版,65、6、386-408(1958年)·doi:10.1037/h0042519
[61] Schweidtmann,A.M.,Bongartz,D.,Mitsos,A.:嵌入经过训练的机器学习模型的优化。arXiv:2207.12722(2022)
[62] Snoek,J.,Larochelle,H.,Adams,R.P.:机器学习算法的实用贝叶斯优化。摘自:《神经信息处理系统进展》,第2951-2959页(2012年)
[63] 斯皮拉,A。;比恩,JE;沙阿,V。;斯泰林,K。;刘,G。;Schembri,F。;吉尔曼,S。;杜马斯,Y。;卡尔纳,P。;塞巴斯蒂亚尼,P。;Sridhar,S。;Beamis,J。;兰姆,C。;安德森,T。;Gerry,N。;基恩,J。;缅因州伦伯格;Brody,JS,《吸烟患者可疑肺癌诊断评估中气道上皮基因表达》,《国家医学》,13,3,361-366(2007)·doi:10.1038/nm1556
[64] Thiago,S.、Abhinav,K.、Srikumar,R.:深层神经网络的无损压缩。摘自:《约束编程、人工智能和运筹学的集成》,第417-430页。施普林格,商会(2020)·兹伯利07636034
[65] Thorbjarnarson,T.,Yorke Smith,N.:混合整数规划的整数值神经网络的最优训练。PLOS ONE 18(2)(2023年)
[66] Tjandraatmadja,C.,Anderson,R.,Huchette,J.,Ma,W.,Patel,K.K.,Vielma,J.P.:凸弛豫屏障,重访:神经网络验证的紧致单神经元弛豫。摘自:《神经信息处理系统进展》,第33卷,第21675-21686页。Curran Associates,Inc.(2020年)
[67] Wojciech,S.,Müller,K.-R.:走向可解释的人工智能。摘自:《可解释的人工智能:解释、解释和可视化深度学习》,《计算机科学课堂讲稿》,第11700卷,第5-22页(2019年)
[68] Wojtas,M.,Chen,K.:深度学习的特征重要性排名。摘自:《神经信息处理系统进展》,第33卷,第5105-5114页。Curran Associates,Inc.(2020年)
[69] Ye,X.,Li,H.,Imakura,A.,Sakurai,T.:基于中间表示的分布式协同特征选择。参见:《第28届国际人工智能联合会议记录》,IJCAI-19,第4142-4149页。国际人工智能组织联合会议,第7卷(2019年)
[70] Zhu,H.,Murali,P.,Phan,D.,Nguyen,L.,Kalagnanam,J.:基于MIP的学习最优多元决策树的可扩展方法。摘自:《神经信息处理系统进展》,第33卷,第1771-1781页。Curran Associates,Inc.(2020年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。