×

基于深度神经网络的非线性变量选择。 (英语) Zbl 07499876号

摘要:本文提出了一个在监督学习框架下使用深度神经网络进行高维非线性变量选择的通用框架。网络体系结构包括选择层和近似层。该问题可以转化为稀疏约束优化,在选择层中使用稀疏参数,在近似层中使用其他参数。由于稀疏约束和非凸优化,这个问题具有挑战性。我们提出了一种新的算法,称为深度特征选择,以估计稀疏参数和其他参数。理论上,当目标函数具有广义稳定的限制Hessian时,我们建立了算法的收敛性和选择一致性。这一结果为我们的方法提供了理论依据,并推广了高维线性变量选择的已知结果。通过仿真和实际数据分析,证明了该方法的优越性能。本文的补充材料可在网上获得。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Akaike,H。;帕尔岑,E。;田边,K。;Kitagawa,G.,Hirotugu Akaike的论文集,“信息理论与最大似然原理的扩展”,199-213(1998),纽约:Springer,纽约
[2] Allen,G.I.,“通过加权核和正则化自动选择特征”,《计算与图形统计杂志》,22284-299(2013)·doi:10.1080/10618600.2012.681213
[3] Arora,R。;巴苏,A。;Mianjy,P。;Mukherjee,A.,“理解具有整流线性单元的深度神经网络”,国际学习表征会议(2018)
[4] Bach,F.,“用凸神经网络打破维度的诅咒”,机器学习研究杂志,18,1-53(2017)·Zbl 1433.68390号
[5] Bahmani,S。;拉吉,B。;Boufounos,P.T.,“贪婪的稀疏约束优化”,《机器学习研究杂志》,14,807-841(2013)·Zbl 1320.90046号
[6] 巴雷蒂纳,J。;Caponigro,G。;斯特兰斯基,N。;肯塔基州文凯特桑。;Margolin,A.A。;Kim,S。;Wilson,C.J。;Lehár,J。;Kryukov,G.V。;Sonkin,D。;Reddy,A.,“癌症细胞系百科全书支持抗癌药物敏感性的预测模型”,《自然》,483603(2012)
[7] Bartlett,P.L。;Mendelson,S.,“Rademacher和高斯复杂性:风险边界和结构结果”,《机器学习研究杂志》,3463-482(2002)·Zbl 1084.68549号
[8] 布莱奇,J。;Kapelner,A。;E.I.乔治。;Jensen,S.T.,“BART的变量选择:基因调控的应用,应用统计学年鉴,81750-1781(2014)·Zbl 1304.62132号 ·doi:10.1214/14-AOAS755
[9] Breheny,P.,“ncvreg:SCAD和MCP惩罚回归模型的正则化路径,R包版本2-6(2013)
[10] Breiman,L.,“随机森林,机器学习,45,5-32(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[11] Bunea,F.,“通过(####\)和(###+####)惩罚在线性和Logistic回归模型中进行诚实变量选择”,《电子统计杂志》,21153-1194(2008)·Zbl 1320.62170号
[12] 陈,J。;Chen,Z.,“大模型空间模型选择的扩展贝叶斯信息标准,生物特征,95759-771(2008)·Zbl 1437.62415号 ·doi:10.1093/biomet/asn034
[13] 陈,J。;张,C。;科索罗克,M.R。;Liu,Y.,“带自动变量选择和数据提取的双稀疏核学习,统计及其接口,11,401-420(2018)·Zbl 06938708号 ·doi:10.4310/SII.2018.v11.n3.a1
[14] Chipman,H.A。;E.I.乔治。;McCulloch,R.E.,“BART:贝叶斯加性回归树,应用统计年鉴,4266-298(2010)·Zbl 1189.62066号 ·doi:10.1214/09-AOAS285
[15] 康明斯,L。;Dalalyan,A.S.,“高维背景下变量选择一致性的严格条件”,《统计年鉴》,402667-2696(2012)·Zbl 1373.62154号 ·doi:10.1214/12-AOS1046
[16] 多尔曼,S.N。;巴拉诺瓦,K。;Knoll,J.H。;Urquhart,B.L。;Mariani,G。;卡尔坎纽,M.L。;Rogan,P.K.,“通过机器学习获得的乳腺癌中紫杉醇和吉西他滨耐药的基因组特征”,《分子肿瘤学》,10,85-100(2016)
[17] 埃夫隆,B。;哈斯蒂,T。;约翰斯通,I。;Tibshirani,R.,“最小角度回归,统计年鉴,32407-499(2004)·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[18] 范,J。;Li,R.,“通过非证实惩罚可能性及其Oracle属性进行变量选择”,《美国统计协会杂志》,96,1348-1360(2001)·Zbl 1073.62547号 ·doi:10.19198/0162114501753382273
[19] 范,J。;Lv,J.,“超高维特征空间的确定独立筛选”,《皇家统计学会杂志》,B辑,70849-911(2008)·Zbl 1411.62187号 ·doi:10.1111/j.1467-9868.2008.00674.x
[20] Feng,J.和Simon,N.(2017),“用于高维非参数回归和分类的稀疏输入神经网络”,arXiv编号1711.07592。
[21] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,“通过坐标下降的广义线性模型的正则化路径”,《统计软件杂志》,33,1-22(2010)·doi:10.18637/jss.v033.i01
[22] 高,X。;Song,P.X.-K.,“高维数据中模型选择的复合似然贝叶斯信息标准”,《美国统计协会杂志》,105,1531-1540(2010)·Zbl 1388.62034号 ·doi:10.1198/jasa.2010.tm09414
[23] 盖劳,G。;Ingster,Y.,“稀疏加法函数的检测”,《电子统计杂志》,61409-1448(2012)·Zbl 1295.62062号 ·doi:10.1214/12-EJS715
[24] 古德费罗,I。;Y.本吉奥。;科尔维尔,A。;Bengio,Y.,《深度学习》,1(2016),马萨诸塞州剑桥:麻省理工学院出版社,马萨诸塞诸塞州坎布里奇·兹比尔1373.68009
[25] 古德费罗,I。;Pouget-Abadie,J。;米尔扎,M。;徐,B。;Warde-Farley,D。;Ozair,S。;科尔维尔,A。;Bengio,Y.,《生成对抗网》,《神经信息处理系统的进展》,2672-2680(2014)
[26] 哈德利,K.E。;Hendricks,D.T.,“使用NQO1状态作为对17-AAG更敏感的食管鳞癌的选择性生物标记物,BMC癌症,14,334(2014)·doi:10.1186/1471-2407-14-334
[27] 卡卡德,S。;O.沙米尔。;辛德兰,K。;Tewari,A.,381-388(2010年)
[28] Kingma,D.P.和Welling,M.(2013),“自动编码变异贝叶斯”,arXiv编号1312.6114。
[29] 科尔钦斯基,V。;袁明,“多核学习中的稀疏性”,《统计学年鉴》,第38期,第3660-3695页(2010年)·Zbl 1204.62086号 ·doi:10.1214/10-AOS825
[30] Lapanowski,A.和Gaynanova,I.(2019),“通过最优评分进行核判别分析中的稀疏特征选择”,AISTATS。
[31] Lee,H.J.等人。;Hanibuchi,M。;Kim,S.-J。;Yu,H。;Kim,M.S。;He,J。;兰利,R.R。;Lehembre,F。;美国雷根纳斯。;Fidler,I.J.,“内皮素受体双拮抗剂Macitetan与紫杉醇联合治疗小鼠实验性人类乳腺癌和肺癌脑转移”,《神经肿瘤学》,18,486-496(2016)·doi:10.1093/neuonc/now037
[32] 李毅。;Chen,C.-Y。;Wasserman,W.W.,国际计算分子生物学研究会议,“深层特征选择:识别增强子和启动子的理论和应用”,205-217(2015),Springer
[33] 梁,F。;李强。;周,L.,“用于药物敏感基因选择的贝叶斯神经网络”,《美国统计协会杂志》,113955-972(2018)·Zbl 1402.62277号
[34] Mallows,C.L.,“关于\(####)的一些评论”,《技术计量学》,第15期,第661-675页(1973年)·Zbl 0269.62061号
[35] Mockus,J.,《贝叶斯全局优化方法:理论与应用》,37(2012),多德雷赫特:施普林格
[36] Needell,D。;Tropp,J.A.,“CoSaMP:从不完整和不准确样本中恢复迭代信号,ACM通信,53,93-100(2010)·Zbl 1163.94003号 ·数字对象标识代码:10.1145/1859204.1859229
[37] 帕蒂,Y.C。;Rezaiifar,R。;Krishnaprasad,P.S.,“正交匹配追踪:递归函数逼近及其在小波分解中的应用”,载于1993年信号、系统和计算机第二十七届Asilomar会议的会议记录,1993年,IEEE,40-44(1993)
[38] Raskutti,G。;Wainwright,M.J。;Yu,B.,“基于凸规划的核类上稀疏可加模型的最小最大最优速率”,《机器学习研究杂志》,13,389-427(2012)·Zbl 1283.62071号
[39] 拉维库马尔,P。;刘,H。;Lafferty,J。;Wasserman,L.,1201-1208(2007),Curran Associates Inc
[40] Schwarz,G.,“估算模型的维度”,《统计年鉴》,第6461-464页(1978年)·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[41] Tibshirani,R.,“通过拉索进行回归收缩和选择,皇家统计学会期刊,B辑,58,267-288(1996)·Zbl 0850.62538号 ·doi:10.1111/j.2517-6161.1996.tb02080.x
[42] Tropp,J.A。;Gilbert,A.C.,“通过正交匹配追踪从随机测量中恢复信号,IEEE信息理论汇刊,534655-4666(2007)·Zbl 1288.94022号 ·doi:10.1109/TIT.2007.909108
[43] Wainwright,M.J.,“高维和噪声环境下稀疏恢复的信息理论极限,IEEE信息理论汇刊,555728-5741(2009)·Zbl 1367.94106号 ·doi:10.1109/TIT.2009.2032816
[44] Zhang,C.-H.,“最小凹板惩罚下的几乎无偏变量选择,统计年鉴,38894-942(2010)·Zbl 1183.62120号 ·doi:10.1214/09-AOS729
[45] 张,C.-H。;Zhang,T.,“高维稀疏估计问题的凹正则化的一般理论,统计科学,27576-593(2012)·Zbl 1331.62353号 ·doi:10.1214/12-STS399
[46] Zoppoli,G。;Regairaz,M。;利奥,E。;莱因霍尔德,W.C。;瓦尔马,S。;巴列斯特罗,A。;Doroshow,J.H。;Pommier,Y.,“假定的DNA/RNA螺旋酶Schlafen-11(SLFN11)使癌细胞对DNA损伤剂敏感,美国国家科学院学报,10915030-15035(2012)·doi:10.1073/pnas.1205943109
[47] 邹,H。;Hastie,T.,“通过弹性网进行正则化和变量选择”,《皇家统计学会杂志》,B辑,67,301-320(2005)·Zbl 1069.62054号 ·文件编号:10.1111/j.1467-9868.2005.005.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。