×

稀疏GLM的双重外推。 (英语) Zbl 1531.62042号

概述:广义线性模型(GLM)形成了一类广泛的回归和分类模型,其中预测是输入变量线性组合的函数。对于高维的统计推断,稀疏诱导正则化在提供统计保证的同时被证明是有用的。然而,解决由此产生的优化问题可能具有挑战性:即使对于坐标下降等流行的迭代算法,也需要对大量变量进行循环。为了缓解这一问题,筛选规则和工作集技术通过逐步删除变量或解决越来越多的较小问题来减小手头优化问题的规模。对于这两种技术,重要的变量都是通过凸对偶参数确定的。本文证明了当原始问题用近似梯度下降法或循环坐标下降法求解时,GLM的对偶迭代在符号识别后表现出向量自回归(VAR)行为。利用这种规律性,可以构造对偶点,提供更紧密的最优性证明,从而提高筛选规则和工作集算法的性能。

MSC公司:

62J12型 广义线性模型(逻辑模型)
65年第68季度 算法和问题复杂性分析
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] K.Arrow、L.Hurwicz和H.Uzawa。非线性规划研究。斯坦福大学出版社,1958年·Zbl 0091.16002号
[2] F.Bach、R.Jenatton、J.Mairal和G.Obozinski。具有稀疏约简范数的凸优化。机器学习的基础和趋势,4(1):1-1062012。
[3] H.H.Bauschke和P.L.Combettes。Hilbert空间中的凸分析和单调算子理论。施普林格,纽约,2011年·兹比尔1218.47001
[4] S.Behnel、R.Bradshaw、C.Citro、L.Dalcin、D.S.Seljebotn和K.Smith。赛马:两全其美。科学工程计算,13(2):31-392011。
[5] A.Belloni、V.Chernozhukov和L.Wang。正方形套索:通过圆锥编程实现稀疏信号的关键恢复。《生物特征》,98(4):791-8062011·Zbl 1228.62083号
[6] A.Boisbunon、R.Flamary和A.Rakotomamonjy。高维非凸稀疏优化问题的主动集策略。InICASSP,第1517-1521页,2014年。
[7] A.Bonnefoy、V.Emiya、L.Ralaivola和R.Gribonval。套索的动态筛选原理。欧洲证券投资委员会,2014年。
[8] S.Boyd和L.Vandenberghe。凸优化。剑桥大学出版社,2004年·Zbl 1058.90049号
[9] L.Buitink、G.Louppe、M.Blondel、F.Pedregosa、A.Mueller、O.Grisel、V.Niculae、P.Prettenhofer、A.Gramfort、J.Grobler、R.Layton、J.Vanderplas、A.Joly、B.Holt和G.Varoqueux。机器学习软件的API设计:来自scikit-learn项目的经验。arXiv电子版,2013年。
[10] E.Cand'es和B.Recht。恢复低复杂度模型的简单边界。数学规划,141(1-2):577-5892013·Zbl 1278.15038号
[11] A.Chambolle和T.Pock。凸问题的一阶原对偶算法及其在成像中的应用。数学杂志。成像视觉。,40(1):120-145, 2011. ·Zbl 1255.68217号
[12] S.S.Chen和D.L.Donoho。通过基追踪进行原子分解。InSPIE,1995年。
[13] S.Diamond和S.Boyd。CVXPY:一种嵌入Python的凸优化建模语言。J.马赫。学习。决议,17(83):1-52016年·Zbl 1360.90008号
[14] C.D¨unner、S.Forte、M.Tak´a´C和M.Jaggi。主要双重费率和证书。《国际化学品管制公约》,第783-792016页。
[15] L.El Ghaoui、V.Viallon和T.Rabbani。稀疏监督学习中的安全特征消除。J.Pacific Optim.公司。,8(4):667-698, 2012. ·Zbl 1259.65010号
[16] 范瑞英、张家卫、谢长杰、王晓瑞和林俊杰。Liblinear:大型线性分类库。J.马赫。学习。2008年9月1871-1874日决议·Zbl 1225.68175号
[17] J.Fan和J.Lv。超高维特征空间的确定独立筛选。J.R.统计社会服务。B统计方法。,70(5):849-911, 2008. ·Zbl 1411.62187号
[18] O.Fercoq和P.Bianchi。具有较大步长和可能不可分离函数的坐标下降原对偶算法。arXiv预打印arXiv:1508.046252015。
[19] O.Fercoq和P.Richt´arik。加速、平行和近距离坐标下降。SIAM J.Optim.公司。,25(3):1997 - 2013, 2015. ·Zbl 1327.65108号
[20] O.Fercoq、A.Gramfort和J.Salmon。注意二元性差距:套索的安全规则。在ICML中,第333-3422015页。
[21] J.Friedman、T.J.Hastie、H.H¨ofling和R.Tibshirani。路径坐标优化。附录申请。统计,1(2):302-3322007·Zbl 1378.90064号
[22] J.Friedman、T.J.Hastie和R.Tibshirani。广义线性模型的坐标下降正则化路径。J.Stat.软件。,33(1):1, 2010.
[23] J.-J.富克斯。任意冗余基中的稀疏表示。IEEE信息理论学报,50(6):1341-13442004·Zbl 1284.94018号
[24] A.Gramfort、M.Kowalski和M.H¨am¨al¨ainen。基于加速梯度法的M/EEG逆问题的混合形式估计。物理学。医学生物学。,57(7):1937-1961, 2012.
[25] A.Gramfort、M.Luessi、E.Larson、D.A.Engemann、D.Strohmeier、C.Brodbeck、L.Parkkonen和M.S.H–am–al–ainen。用于处理MEG和EEG数据的MNE软件。《神经影像》,2014年第86:446-460页。
[26] E.Hale、W.Yin和Y.Zhang。最小化的不动点延拓:方法论和收敛性。SIAM J.优化。,19(3):1107-1130, 2008. ·Zbl 1180.65076号
[27] W.L.Hare和A.S.Lewis。识别活动歧管。算法运算研究,2(2):75-752007·Zbl 1206.49017号
[28] J.-B.Hiriart-Urruti和C.Lemar’echal。凸分析和最小化算法。二、 第306卷。施普林格·弗拉格,柏林,1993年·Zbl 0795.49001号
[29] C.-J Hsieh、M.Sustik、I.Dhillon和P.Ravikumar。QUIC:稀疏逆协方差估计的二次近似。J.马赫。学习。2014年第15:2911-2947号决议·Zbl 1319.65048号
[30] T.B.Johnson和C.Guestrin。Blitz:一种用于缩放稀疏优化的原则性元算法。InICML,第1171-1179页,2015年。
[31] T.B.Johnson和C.Guestrin。StingyCD:安全避免坐标下降中的浪费更新。InICML,第1752-1760页,2017年。
[32] T.B.Johnson和C.Guestrin。一种在凸问题中利用分段线性结构的快速、有原则的工作集算法。arXiv预印本arXiv:1807.080462018。
[33] P.Karimireddy、A.Koloskova、S.Stich和M.Jaggi。复合问题的高效贪婪坐标下降。arXiv预打印arXiv:1810.06992018。
[34] K.Koh、S.-J.Kim和S.Boyd。大规模l1-正则logistic回归的内点方法。J.马赫。学习。决议,8(8):1519-15552007年·Zbl 1222.62092号
[35] M.Kowalski、P.Weiss、A.Gramfort和S.Anthoine。使用主动集策略加速ISTA。InOPT 2011:第四届机器学习优化国际研讨会,第7页,2011。
[36] S.K.Lam、A.Pitrou和S.Seibert。Numba:基于LLVM的Python JIT编译器。《HPC中LLVM编译器基础结构第二次研讨会论文集》,第1-6页。ACM,2015年。
[37] J.Lee、Y.Sun和M.Saunders。凸优化的近似牛顿型方法。InNIPS,第827-835页,2012年。
[38] J.迈拉尔。用于机器学习、图像处理和计算机视觉的稀疏编码。博士论文,“Ecole normale sup’erieure de Cachan,2010年。
[39] M.Massias、A.Gramfort和J.Salmon。从安全筛选规则到快速套索型解算器的工作集。第十届NIPS机器学习优化研讨会,2017年。
[40] M.Massias、A.Gramfort和J.Salmon。赛勒:拉索的快速求解器,具有双重外推功能。InICML,2018年。
[41] P.McCullagh和J.A.Nelder。广义线性模型,第二版。查普曼和霍尔/CRC统计学和应用概率系列专著。1989. ·Zbl 0744.62098号
[42] D.Myers和W.Shih。一类线性规划的约束选择技术。《运筹学快报》,7(4):191-1951988年·Zbl 0648.90053号
[43] E.Ndiaye、O.Fercoq、A.Gramfort和J.Salmon。稀疏多任务和多类模型的间隙安全筛选规则。InNIPS,第811-819页,2015年。
[44] E.Ndiaye、O.Fercoq、A.Gramfort和J.Salmon。稀疏组套索的GAP安全筛选规则。InNIPS,2016年。
[45] E.Ndiaye、O.Fercoq、A.Gramfort和J.Salmon。针对稀疏执行处罚的间隙安全筛选规则。J.马赫。学习。决议,18(128):1-332017年·Zbl 1442.62161号
[46] G.Obozinski、B.Taskar和M.I.Jordan。多分类问题的联合协变量选择和联合子空间选择。统计与计算,20(2):231-2522010。
[47] 小川、铃木和竹内。路径支持向量机计算中非支持向量的安全筛选。InICML,第1382-1390页,2013年。
[48] F.Palacios-Gomez、L.Lasdon和M.Engquist。连续线性规划的非线性优化。管理科学,28(10):1106-11201982·Zbl 0507.90080号
[49] F.Pedregosa、G.Varoqueaux、A.Gramfort、V.Michel、B.Thirion、O.Grisel、M.Blondel、P.Prettenhofer、R.Weiss、V.Dubourg、J.Vanderplas、A.Passos、D.Cournapeau、M.Brucher、M.Perrot和E.Duchesnay。Scikit学习:Python中的机器学习。J.马赫。学习。Res.,2011年12月2825-2830日·Zbl 1280.68189号
[50] D.Perekrestenko、V.Cevher和M.Jaggi。通过自适应重要性采样实现更快的坐标下降。InAISTATS,第869-877页,2017年。
[51] P.Richt´arik和M.Tak´a´c。最小化复合函数的随机块坐标下降方法的迭代复杂性。数学规划,144(1-2):1-382014·Zbl 1301.65051号
[52] V.Roth和B.Fischer。广义线性模型的群不等式:解的唯一性和有效算法。InICML,第848-855页,2008年。
[53] M.De Santis、S.Lucidi和F.Rinaldi。一种快速主动集块坐标下降算法,用于“1-正则化最小二乘”。SIAM J.Optim.公司。,26(1):781-809, 2016. ·Zbl 1333.65059号
[54] K.Scheinberg和X.Tang。不精确近似牛顿法的复杂性。arXiv预印本arXiv:1311.65472013。
[55] D.Scieur。优化中的加速。博士论文,“Ecole normale sup”erieure,2018年。
[56] D.Scieur、A.D'Aspremont和F.Bach。正则非线性加速度。InNIPS,第712-720页,2016年。
[57] N.Simon、J.Friedman、T.J.Hastie和R.Tibshirani。稀疏的套索。J.计算。图表。统计人员。,22(2):231-245, 2013. ISSN 1061-8600。
[58] G.Thompson、F.Tonge和S.Zionts。从线性规划问题中去除非约束约束和无关变量的技术。管理科学,12(7):588-6081966·Zbl 0135.19904号
[59] R.Tibshirani。通过套索回归收缩和选择。J.R.统计社会服务。B统计方法。,58(1):267-288, 1996. ·Zbl 0850.62538号
[60] R.Tibshirani、J.Bien、J.Friedman、T.J.Hastie、N.Simon、J.Taylor和R.J.Tibschirani。在套索型问题中丢弃预测因子的强规则。J.R.统计社会服务。B统计方法。,74(2):245-2662012年·Zbl 1411.62213号
[61] R.J.Tibshirani。套索问题和唯一性。电子。J.Stat.,7:1456-14902013年·Zbl 1337.62173号
[62] R.J.Tibshirani。Dykstra的算法、ADMM和坐标下降:连接、见解和扩展。InNIPS,第517-528页,2017年。
[63] 曾荫权(P.Tseng)。不可微极小化的块坐标下降法的收敛性。J.优化。理论应用。,109(3):475-494, 2001. ·Zbl 1006.65062号
[64] S.Vaiter、M.Golbabaee、J.Fadili和G.Peyr´e。具有低复杂性先验的模型选择。信息和推断:IMA杂志,4(3):230-2872015·Zbl 1386.94040号
[65] S.Vaiter、G.Peyr´e和J.M.Fadili。部分光滑正则化子的模型一致性。IEEE传输。信息理论,64(3):1725-17372018·兹比尔1464.62345
[66] J.Wang、P.Wonka和J.Ye。通过双多面体投影的拉索筛选规则。arXiv预印本arXiv:1211.39662012。
[67] Z.J.Xiang、Y.Wang和P.J.Ramadge。套索问题筛查测试。IEEE传输。模式分析。机器。智力。,PP(99),2016年。
[68] G Yuan,C.-H Ho,C.-J Lin.一种改进的用于l1-正则化logistic回归的GLMNET。J.马赫。学习。决议,13:199-2302012年·Zbl 1432.68404号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。