×

用于分层交互的套索。 (英语) Zbl 1292.62109号

摘要:我们向套索添加了一组凸约束,以生成稀疏交互模型,该模型遵循层次限制,即只有当一个或两个变量都不重要时,交互才会包含在模型中。我们给出了这种层次约束效应的精确表征,证明了概率为1的层次成立,并推导了我们的估计器的自由度的无偏估计。此估计值的界限显示层次约束“保存”的拟合量。
我们区分参数稀疏性–非零系数的数量–以及实际稀疏度–必须包含的原始变量数量测量做出新的预测。层次结构侧重于后者,后者与重要的数据收集关注点(如成本、时间和工作量)紧密相关。我们开发了一种可在R包hierNet中使用的算法,并对我们的方法进行了实证研究。

MSC公司:

2007年6月62日 岭回归;收缩估计器(拉索)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agresti,A.(2002年)。分类数据分析,第2版,Wiley Interscience,纽约·Zbl 1018.6202号
[2] 巴赫·F(2011)。具有稀疏诱导惩罚的优化。机器学习的基础和趋势4 1-106·Zbl 06064248号
[3] 巴赫·F、杰纳顿·R、迈拉尔·J、奥博金斯基·G(2012)。通过凸优化实现结构化稀疏性。统计师。科学。27 450-468. ·Zbl 1280.68179号 ·doi:10.1214/12-STS394
[4] Beck,A.和Teboulle,M.(2009年)。线性反问题的快速迭代收缩阈值算法。SIAM J.成像科学。2 183-202. ·Zbl 1175.94009号 ·doi:10.1137/080716542
[5] Bickel,P.、Ritov,Y.和Tsybakov,A.(2010年)。稀疏高维回归中变量的分层选择。《借力:理论驱动应用——劳伦斯·D·布朗(Lawrence D.Brown)的一次飞跃》(In Borring Strength:Theory Powering Applications)。Inst.数学。统计收集。6 56-69. Inst.数学。统计人员。,俄亥俄州比奇伍德。
[6] Bien,J.、Taylor,J.和Tibshirani,R.(2013)。补充“层次交互的套索”·Zbl 1292.62109号
[7] Boyd,S.、Parikh,N.、Chu,E.、Peleato,B.和Eckstein,J.(2011年)。通过交替方向乘数法进行分布式优化和统计学习。机器学习的基础和趋势3 1-124·Zbl 1229.90122号 ·doi:10.1561/220000016
[8] Breiman,L.(1995)。使用非负garrote进行更好的子集回归。技术计量37 373-384·Zbl 0862.62059号 ·doi:10.2307/1269730
[9] Breiman,L.、Friedman,J.H.、Olshen,R.A.和Stone,C.J.(1984)。分类和回归树。Wadsworth Advanced Books and Software,加利福尼亚州贝尔蒙特·Zbl 0541.62042号
[10] Chipman,H.(1996)。具有相关预测因子的贝叶斯变量选择。加拿大。J.统计。24 17-36. ·Zbl 0849.62032号 ·doi:10.2307/3315687
[11] Choi,N.H.、Li,W.和Zhu,J.(2010)。具有强遗传约束的变量选择及其预言性质。J.Amer。统计师。协会105 354-364·Zbl 1320.62171号 ·doi:10.198/jasa.2010.tm08281
[12] Cox,D.R.(1984)。互动。国际。统计师。版次52 1-31·Zbl 0562.62061号 ·doi:10.2307/1403235
[13] Efron,B.(1986年)。预测规则的明显错误率有多大偏差?J.Amer。统计师。协会81 461-470·Zbl 0621.62073号 ·doi:10.2307/2289236
[14] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004年)。最小角度回归。Ann.Statist公司。32 407-499. ·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[15] Forina,M.、Armanino,C.、Lanteri,S.和Tibrivia,E.(1983年)。根据脂肪酸组成对橄榄油进行分类。食品研究和数据分析189-214。应用科学出版社,伦敦。
[16] Friedman,J.H.(1991)。多元自适应回归样条(带讨论)。Ann.Statist公司。19 1-141. ·Zbl 0765.62064号 ·doi:10.1214/aos/1176347963
[17] Friedman,J.H.、Hastie,T.和Tibshirani,R.(2010)。广义线性模型的坐标下降正则化路径。《统计软件杂志》33 1-22。
[18] George,E.和McCulloch,R.(1993)。通过吉布斯采样选择变量。J.Amer。统计师。协会88 884-889。
[19] Hamada,M.和Wu,C.(1992年)。复杂混叠设计实验分析。质量技术杂志24 130-137。
[20] Jenatton,R.、Audibert,J.-Y.和Bach,F.(2011)。具有稀疏诱导范数的结构化变量选择。J.马赫。学习。第12号决议2777-2824·Zbl 1280.68170号
[21] Jenatton,R.、Mairal,J.、Obozinski,G.和Bach,F.(2010年)。稀疏层次字典学习的近似方法。机器学习国际会议(ICML)论文集·Zbl 1280.94029号
[22] McCullagh,P.和Nelder,J.A.(1983年)。广义线性模型。查普曼和霍尔,伦敦·Zbl 0588.62104号
[23] Nardi,Y.和Rinaldo,A.(2012年)。对数线性群最小二乘估计及其渐近性质。伯努利18 945-974·Zbl 1243.62107号 ·doi:10.3150/11-BEJ364
[24] Nelder,J.A.(1977年)。线性模型的重新表述。J.罗伊。统计师。Soc.序列号。A 140 48-76·doi:10.2307/2344517
[25] Nelder,J.A.(1997)。致编辑的信:功能边缘性很重要。J.R.统计社会服务。C.申请。《法律总汇》第46卷第281-286页。
[26] Obozinski,G.、Jacob,L.和Vert,J.(2011)。带重叠的群套索:潜在群套索方法。可从获取。1110.0413
[27] Park,M.和Hastie,T.(2008)。检测基因相互作用的惩罚logistic回归。生物统计学9 30-50·Zbl 1274.62853号
[28] Peixoto,J.(1987)。多项式回归模型中的层次变量选择。阿默尔。统计师。41 311-313.
[29] Radchenko,P.和James,G.M.(2010年)。使用高维自适应非线性交互结构进行变量选择。J.Amer。统计师。协会105 1541-1553·Zbl 1388.62212号 ·doi:10.1198/jasa.2010.tm10130
[30] Rhee,S.、Taylor,J.、Wadhera,G.、Ben-Hur,A.、Brutlag,D.和Shafer,R.(2006)。人类免疫缺陷病毒1型耐药性的基因型预测因子。程序。国家。阿卡德。科学。美国103 17355。
[31] Stein,C.M.(1981)。多元正态分布平均值的估计。Ann.Statist公司。9 1135-1151. ·兹伯利0476.62035 ·doi:10.1214/aos/1176345632
[32] Tibshirani,R.(1996)。通过套索回归收缩和选择。J.罗伊。统计师。Soc.序列号。乙58 267-288·Zbl 0850.62538号
[33] Tibshirani,R.J.和Taylor,J.(2011)。广义套索的解路径。Ann.Statist公司。39 1335-1371. ·Zbl 1234.62107号 ·doi:10.1214/11-AOS878
[34] Tibshirani,R.J.和Taylor,J.(2012)。套索问题的自由度。Ann.Statist公司。40 1198-1232·Zbl 1274.62469号 ·doi:10.1214/12-AOS1003
[35] 曾平(2001)。不可微极小化的块坐标下降法的收敛性。J.优化。理论应用。109 475-494. ·Zbl 1006.65062号 ·doi:10.1023/A:1017501703105
[36] Turlach,B.(2004)。关于“最小角度回归”的讨论。《统计年鉴》。32 481-490. ·Zbl 1091.62054号 ·doi:10.1214/009053604000000067
[37] Wu,J.、Devlin,B.、Ringquist,S.、Trucco,M.和Roeder,K.(2010年)。筛选和清理:在全基因组关联研究中识别相互作用的工具。遗传流行病学34 275-285。
[38] Yuan,M.、Joseph,V.R.和Lin,Y.(2007)。用于分析设计实验的有效变量选择方法。技术计量学49 430-439·doi:10.1198/004017000000173
[39] Yuan,M.、Joseph,V.R.和Zou,H.(2009)。结构化变量选择和估计。附录申请。《美国联邦法律大全》第3卷第1738-1757页·Zbl 1184.62032号 ·doi:10.1214/09-AOAS254
[40] Yuan,M.和Lin,Y.(2006)。分组变量回归中的模型选择和估计。J.R.统计社会服务。B统计方法。68 49-67. ·Zbl 1141.62030号 ·doi:10.1111/j.1467-9868.2005302.x
[41] Zhao,P.、Rocha,G.和Yu,B.(2009年)。用于分组和分层变量选择的复合绝对惩罚系列。Ann.Statist公司。37 3468-3497·Zbl 1369.62164号 ·doi:10.1214/07-AOS584
[42] Zou,H.和Hastie,T.(2005)。通过弹性网进行规则化和变量选择。J.R.统计社会服务。B统计方法。67 301-320. ·兹比尔1069.62054 ·数字对象标识代码:10.1111/j.1467-9868.2005.0050.x
[43] Zou,H.、Hastie,T.和Tibshirani,R.(2007)。关于套索的“自由度”。Ann.Statist公司。35 2173-2192. ·Zbl 1126.62061号 ·doi:10.1214/009053600700000127
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。