马图林·马西亚斯;塞缪尔·维特;亚历山大·格兰福德;约瑟夫·萨勒蒙 稀疏GLM的双重外推。 (英语) 兹伯利07306914 J.马赫。学习。物件。 21,第234号论文,33页(2020年). 概述:广义线性模型(GLM)形成了一类广泛的回归和分类模型,其中预测是输入变量线性组合的函数。对于高维的统计推断,稀疏诱导正则化已被证明在提供统计保证的同时是有用的。然而,解决由此产生的优化问题可能具有挑战性:即使对于坐标下降等流行的迭代算法,也需要对大量变量进行循环。为了缓解这一问题,筛选规则和工作集技术通过逐步删除变量或解决越来越多的较小问题来减小手头优化问题的规模。对于这两种技术,重要的变量都是通过凸对偶参数确定的。本文证明了当原始问题用近似梯度下降法或循环坐标下降法求解时,GLM的对偶迭代在符号识别后表现出向量自回归(VAR)行为。利用这种规律性,可以构造对偶点,提供更紧密的最优性证明,从而提高筛选规则和工作集算法的性能。 引用于三文件 MSC公司: 62J12型 广义线性模型(逻辑模型) 65年第68季度 算法和问题复杂性分析 68T20型 人工智能背景下的问题解决(启发式、搜索策略等) 关键词:凸优化;外推法;筛选规则;工作集;拉索;稀疏logistic回归;广义线性模型 软件:StingyCD;努姆巴;赛马拉松;CVXPY公司;BLITZ公司;MNE公司;赛勒;Scikit公司;LIBLINEAR银行 PDF格式BibTeX公司 XML格式引用 \textit{M.Massias}等人,J.Mach。学习。第21号决议,第234号论文,33页(2020年;Zbl 07306914) 全文: arXiv公司 链接 参考文献: [1] K.Arrow、L.Hurwicz和H.Uzawa。非线性规划研究。斯坦福大学出版社,1958年·Zbl 0091.16002号 [2] F.Bach、R.Jenatton、J.Mairal和G.Obozinski。具有稀疏约简范数的凸优化。机器学习的基础和趋势,4(1):1-1062012。 [3] H.H.Bauschke和P.L.Combettes。Hilbert空间中的凸分析和单调算子理论。施普林格,纽约,2011年·Zbl 1218.47001号 [4] S.Behnel、R.Bradshaw、C.Citro、L.Dalcin、D.S.Seljebotn和K.Smith。赛马:两全其美。科学工程计算,13(2):31-392011。 [5] A.Belloni、V.Chernozhukov和L.Wang。正方形套索:通过圆锥编程实现稀疏信号的关键恢复。《生物特征》,98(4):791-8062011·兹比尔1228.62083 [6] A.Boisbunon、R.Flamary和A.Rakotomamonjy。高维非凸稀疏优化问题的主动集策略。InICASSP,第1517-1521页,2014年。 [7] A.Bonnefoy、V.Emiya、L.Ralaivola和R.Gribonval。套索的动态筛选原理。欧洲证券投资委员会,2014年。 [8] S.Boyd和L.Vandenberghe。凸优化。剑桥大学出版社,2004年·Zbl 1058.90049号 [9] L.Buitink、G.Louppe、M.Blondel、F.Pedregosa、A.Mueller、O.Grisel、V.Niculae、P.Prettenhofer、A.Gramfort、J.Grobler、R.Layton、J.Vanderplas、A.Joly、B.Holt和G.Varoqueux。机器学习软件的API设计:来自scikit-learn项目的经验。arXiv电子版,2013年。 [10] E.Cand’es和B.Recht。恢复低复杂性模型的简单界限。数学规划,141(1-2):577-5892013·Zbl 1278.15038号 [11] A.Chambolle和T.Pock。凸问题的一阶原对偶算法及其在成像中的应用。数学杂志。成像视觉。,40(1):120-145, 2011. ·Zbl 1255.68217号 [12] S.S.Chen和D.L.Donoho。通过基追踪进行原子分解。InSPIE,1995年。 [13] S.Diamond和S.Boyd。CVXPY:一种嵌入Python的凸优化建模语言。J.马赫。学习。决议,17(83):1-52016年·Zbl 1360.90008号 [14] C.D¨unner、S.Forte、M.Tak´a´C和M.Jaggi。主要双重费率和证书。InICML,第783-792页,2016年。 [15] L.El Ghaoui、V.Viallon和T.Rabbani。稀疏监督学习中的安全特征消除。J.Pacific Optim.公司。,8(4):667-698, 2012. ·Zbl 1259.65010号 [16] 范瑞英、张家卫、谢长杰、王晓瑞和林俊杰。Liblinear:大型线性分类库。J.马赫。学习。Res.,9:1871-18742008·Zbl 1225.68175号 [17] J.Fan和J.Lv。超高维特征空间的确定独立筛选。J.R.统计社会服务。B统计方法。,70(5):849-9112008·Zbl 1411.62187号 [18] O.Fercoq和P.Bianchi。一种具有大步长和可能不可分离函数的坐标下降原对偶算法。arXiv预印本arXiv:1508.04625,2015。 [19] O.Fercoq和P.Richt´arik。加速、平行和近距离坐标下降。SIAM J.Optim.公司。,25(3):1997 - 2013, 2015. ·Zbl 1327.65108号 [20] O.Fercoq、A.Gramfort和J.Salmon。注意二元性差距:套索的安全规则。ICML,第333-342页,2015年。 [21] J.Friedman、T.J.Hastie、H.H¨ofling和R.Tibshirani。路径坐标优化。附录申请。统计,1(2):302-3322007·Zbl 1378.90064号 [22] J.Friedman、T.J.Hastie和R.Tibshirani。广义线性模型的坐标下降正则化路径。J.Stat.软件。,33(1):1, 2010. [23] J.-J.富克斯。任意冗余基中的稀疏表示。IEEE信息理论学报,50(6):1341-13442004·Zbl 1284.94018号 [24] A.Gramfort、M.Kowalski和M.H¨am¨al¨ainen。基于加速梯度法的M/EEG逆问题的混合形式估计。物理学。医学生物学。,57(7):1937-1961, 2012. [25] A.Gramfort、M.Luessi、E.Larson、D.A.Engemann、D.Strohmeier、C.Brodbeck、L.Parkkonen和M.S.H–am–al–ainen。用于处理MEG和EEG数据的MNE软件。《神经影像》,2014年第86:446-460页。 [26] E.Hale、W.Yin和Y.Zhang。“1-最小化”的定点延拓:方法论和收敛性。SIAM J.Optim.公司。,19(3):1107-1130, 2008. ·Zbl 1180.65076号 [27] W.L.Hare和A.S.Lewis。识别活动歧管。算法运算研究,2(2):75-752007·Zbl 1206.49017号 [28] J.-B.Hiriart Urruty和C.Lemar´echal。凸分析和最小化算法。二、 第306卷。施普林格出版社,柏林,1993年·Zbl 0795.49001号 [29] C.-J Hsieh、M.Sustik、I.Dhillon和P.Ravikumar。QUIC:稀疏逆协方差估计的二次近似。J.马赫。学习。Res.,15:2911-29472014年·Zbl 1319.65048号 [30] T.B.Johnson和C.Guestrin。Blitz:一种用于缩放稀疏优化的原则性元算法。InICML,第1171-1179页,2015年。 [31] T.B.Johnson和C.Guestrin。StingyCD:安全避免坐标下降中的浪费更新。InICML,第1752-1760页,2017年。 [32] T.B.Johnson和C.Guestrin。在凸问题中利用分段线性结构的快速原则工作集算法。arXiv预印本arXiv:1807.080462018。 [33] P.Karimireddy、A.Koloskova、S.Stich和M.Jaggi。复合问题的高效贪婪坐标下降。arXiv预打印arXiv:1810.06992018。 [34] K.Koh、S.-J.Kim和S.Boyd。大规模l1-正则logistic回归的内点方法。J.马赫。学习。决议,8(8):1519-15552007年·Zbl 1222.62092号 [35] M.Kowalski、P.Weiss、A.Gramfort和S.Anthoine。使用主动集策略加速ISTA。InOPT 2011:第四届机器学习优化国际研讨会,第7页,2011。 [36] S.K.Lam、A.Pitrou和S.Seibert。Numba:基于LLVM的Python JIT编译器。《HPC中LLVM编译器基础结构第二次研讨会论文集》,第1-6页。ACM,2015年。 [37] J.Lee、Y.Sun和M.Saunders。凸优化的近似牛顿型方法。InNIPS,第827-835页,2012年。 [38] J.迈拉尔。机器学习、图像处理和计算机视觉的稀疏编码。博士论文,“Ecole normale sup’erieure de Cachan,2010年。 [39] M.Massias、A.Gramfort和J.Salmon。从安全筛选规则到快速套索型解算器的工作集。第十届NIPS机器学习优化研讨会,2017年。 [40] M.Massias、A.Gramfort和J.Salmon。赛勒:拉索的快速求解器,具有双重外推功能。InICML,2018年。 [41] P.McCullagh和J.A.Nelder。广义线性模型,第二版。Chapman和Hall/CRC关于统计学和应用概率系列的专著。1989. ·Zbl 0744.62098号 [42] D.Myers和W.Shih。一类线性规划的约束选择技术。《运筹学快报》,7(4):191-1951988·Zbl 0648.90053号 [43] E.Ndiaye、O.Fercoq、A.Gramfort和J.Salmon。稀疏多任务和多类模型的间隙安全筛选规则。InNIPS,第811-819页,2015年。 [44] E.Ndiaye、O.Fercoq、A.Gramfort和J.Salmon。稀疏组套索的GAP安全筛选规则。InNIPS,2016年。 [45] E.Ndiaye、O.Fercoq、A.Gramfort和J.Salmon。针对稀疏执行处罚的间隙安全筛选规则。J.马赫。学习。决议,18(128):1-332017年·Zbl 1442.62161号 [46] G.Obozinski、B.Taskar和M.I.Jordan。多分类问题的联合协变量选择和联合子空间选择。统计与计算,20(2):231-2522010。 [47] 小川、铃木和竹内。路径支持向量机计算中非支持向量的安全筛选。InICML,第1382-1390页,2013年。 [48] F.Palacios-Gomez、L.Lasdon和M.Engquist。连续线性规划的非线性优化。管理科学,28(10):1106-11201982·Zbl 0507.90080号 [49] F.Pedregosa、G.Varoqueaux、A.Gramfort、V.Michel、B.Thirion、O.Grisel、M.Blondel、P.Prettenhofer、R.Weiss、V.Dubourg、J.Vanderplas、A.Passos、D.Cournapeau、M.Brucher、M.Perrot和E.Duchesnay。Scikit-learn:Python中的机器学习。J.马赫。学习。决议,12:2825-28302011年·Zbl 1280.68189号 [50] D.Perekrestenko、V.Cevher和M.Jaggi。通过自适应重要性采样实现更快的坐标下降。InAISTATS,第869-877页,2017年。 [51] P.Richt´arik和M.Tak´a´c。最小化复合函数的随机块坐标下降方法的迭代复杂性。数学规划,144(1-2):1-382014·Zbl 1301.65051号 [52] V.Roth和B.Fischer。广义线性模型的群不等式:解的唯一性和有效算法。InICML,第848-855页,2008年。 [53] M.De Santis、S.Lucidi和F.Rinaldi。一种快速主动集块坐标下降算法,用于“1-正则化最小二乘”。SIAM J.优化。,26(1):781-809, 2016. ·Zbl 1333.65059号 [54] K.Scheinberg和X.Tang。不精确近似牛顿法的复杂性。arXiv预印本arXiv:1311.65472013。 [55] D.Scieur。优化中的加速。博士论文,“Ecole normale sup”erieure,2018年。 [56] D.Scieur、A.D'Aspremont和F.Bach。正则非线性加速度。InNIPS,第712-720页,2016年。 [57] N.Simon、J.Friedman、T.J.Hastie和R.Tibshirani。稀疏的套索。J.计算。图表。统计人员。,22(2):231-245, 2013. ISSN 1061-8600。 [58] G.Thompson、F.Tonge和S.Zionts。从线性规划问题中去除非约束约束和无关变量的技术。管理科学,12(7):588-6081966·Zbl 0135.19904号 [59] R.Tibshirani。通过套索回归收缩和选择。J.R.统计社会服务。B统计方法。,58(1):267-288, 1996. ·Zbl 0850.62538号 [60] R.Tibshirani、J.Bien、J.Friedman、T.J.Hastie、N.Simon、J.Taylor和R.J.Tibschirani。套索型问题中丢弃预测因子的强规则。J.R.统计社会服务。B统计方法。,74(2):245-266, 2012. ·Zbl 1411.62213号 [61] R.J.Tibshirani。套索问题和唯一性。电子。J.Stat.,7:1456-14902013年·Zbl 1337.62173号 [62] R.J.Tibshirani。Dykstra的算法、ADMM和坐标下降:连接、见解和扩展。InNIPS,第517-528页,2017年。 [63] 曾荫权(P.Tseng)。不可微极小化的块坐标下降法的收敛性。J.优化。理论应用。,109(3):475-494, 2001. ·Zbl 1006.65062号 [64] S.Vaiter、M.Golbabaee、J.Fadili和G.Peyr´e。具有低复杂度先验的模型选择。信息和推断:IMA杂志,4(3):230-2872015·Zbl 1386.94040号 [65] S.Vaiter、G.Peyr´e和J.M.Fadili。部分光滑正则化子的模型一致性。IEEE传输。信息理论,64(3):1725-17372018·兹比尔1464.62345 [66] J.Wang、P.Wonka和J.Ye。通过双多面体投影的拉索筛选规则。arXiv预印本arXiv:1211.39662012。 [67] Z.J.Xiang、Y.Wang和P.J.Ramadge。套索问题筛查测试。IEEE传输。模式分析。机器。整数。,PP(99),2016年。 [68] G Yuan,C.-H Ho,C.-J Lin.一种改进的用于l1-正则化logistic回归的GLMNET。J.马赫。学习。决议,13:199-2302012年·Zbl 1432.68404号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。