×

组斜率–预测组的自适应选择。 (英语) 1478.62200兹罗提

摘要:分类L-One惩罚估计(SLOPE);[最后一位作者等,通过有序规范进行统计估计和测试。斯坦福大学统计系技术报告2013-07(2013);Ann.Appl.Stat.9,No.3,1103-1140(2015;Zbl 1454.62212号)])是一种相对较新的凸优化过程,允许在稀疏高维设计下自适应选择回归变量。在这里,我们扩展了SLOPE的概念,以处理这样一种情况,即人们的目标是选择整组解释变量,而不是选择单个回归变量。通过对强相关预测因子或对应于同一定性预测因子不同水平的虚拟变量组进行聚类,可以形成此类组。我们提出了相应的凸优化问题,即群SLOPE(gSLOPE),并提出了一种有效的算法来求解它。我们还定义了组错误发现率(gFDR)的概念,并为gSLOPE提供了调整参数序列的选择,以便在变量组相互正交的情况下,可以证明gFDR控制在预先指定的水平。此外,我们证明了所得过程适用于未知稀疏性,并且对于由不同组的回归方程解释的响应变量的方差比例的估计是渐近极小极大的。当不同组中的变量不是正交的而是统计独立的时,我们还提供了一种选择正则化序列的方法,并通过计算机模拟说明了其良好的特性。最后,我们在全基因组关联研究的背景下说明了gSLOPE的优势。

MSC公司:

62J07型 岭回归;收缩估计量
62J05型 线性回归;混合模型
62J15型 配对和多重比较;多次测试
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿布拉莫维奇,F。;Y.本杰米尼。;Donoho,D.L。;Johnstone,I.M.,《通过控制错误发现率来适应未知稀疏性》,《统计年鉴》,34584-653(2006)·Zbl 1092.62005年
[2] Akaike,H.,统计模型识别的新视角,IEEE自动控制汇刊,19716-723(1974)·Zbl 0314.62039号
[3] Bakin,S.,数据挖掘问题中的自适应回归和模型选择(1999)
[4] 巴伯,R.F。;Candès,E.J.,《通过敲诈控制虚假发现率》,《统计年鉴》,第43期,2055-2085年(2015年)·Zbl 1327.62082号
[5] 贝克,A。;Teboulle,M.,线性逆问题的快速迭代收缩阈值算法,SIAM成像科学杂志,1183-202(2009)·兹比尔1175.94009
[6] Bellec,P。;Lecué,G。;Tysbakov,A.,带凸惩罚的惩罚最小二乘估计的预测误差界,208,315-333(2016)·Zbl 06848045号
[7] ---《Slope Meets Lasso:甲骨文边界和优化的改进》(2016)
[8] Y.本杰米尼。;Hochberg,Y.,《控制错误发现率:一种实用而有力的多重测试方法》,《皇家统计学会杂志》,第57期,第289-300页(1995年)·Zbl 0809.62014号
[9] 博格丹,M。;查克拉巴蒂,A。;Frommlet,F。;Ghosh,J.K.,一些多重测试程序稀疏性下的渐近贝叶斯最优,统计年鉴,391551-1579(2011)·兹比尔1221.62012
[10] 博格丹,M。;Berg,E。;萨巴蒂,C。;苏·W。;Candès,E.J.,通过凸优化的SLOPE自适应变量选择,应用统计学年鉴,91103-1140(2015)·Zbl 1454.62212号
[11] 博格丹,M。;范登伯格,E。;苏·W。;Candès,E.J.,通过有序的统计估计和测试\(ℓ_1\)规范(2013)
[12] Brzyski,D。;彼得森,C。;Sobczyk,P。;坎迪斯,E。;博格丹,M。;Sabatti,C.,《控制GWAS假发现率》,遗传学,205,61-75(2017)
[13] Brzyski,D。;苏·W。;Bogdan,M.,Group SLOPE-预测组的自适应选择(2015)
[14] Elhamifar,E。;Vidal,R.,通过凸优化实现块解析恢复,IEEE信号处理汇刊,604094-4107(2012)·Zbl 1393.94681号
[15] Figueiredo,M.A.T。;Nowak,R.D.,有序加权(textit{l_1)
[16] Frommlet,F。;Bogdan,M.,稀疏条件下FDR控制规则的一些最优性性质,电子统计学杂志,7,1328-1368(2013)·Zbl 1337.62184号
[17] 戈斯曼,A。;曹,S。;Wang,Y.-P.,通过SLOPE识别重要遗传变异及其对SLOPE组的扩展,生物信息学、计算生物学和生物医学信息学国际会议论文集,232-240(2015)
[18] Jarvelin,M。;Sovio,美国。;金五世。;Lauren,L。;徐,B。;Mccarthy,M。;Hartikainen,A。;莱廷宁,J。;Zitting,P。;Rantakallio,P。;Elliott,P.,1966年芬兰北部出生队列中31岁时的早期生活因素和血压,高血压,44838-846(2004)
[19] Kang,H。;苏尔·J。;服务,S。;Zaitlen,北卡罗来纳州。;孔,S。;弗雷默,N。;萨巴蒂,C。;Eskin,E.,《解释全基因组关联研究中样本结构的方差分量模型》,《自然遗传学》,42,348-355(2010)
[20] Lettre,G。;兰格,C。;Hirschhorn,J.N.,《基于人群的数量性状关联研究中的遗传模型测试和统计能力》,《遗传流行病学》,第31期,第358-362页(2007年)
[21] Maleki,A。;Anitori,L。;杨,Z。;Baraniuk,R.G.,通过复杂近似消息传递(CAMP)对复杂LASSO进行渐近分析,IEEE信息理论汇刊,594290-4308(2013)·Zbl 1364.62188号
[22] Neuvial,P。;Roquain,E.,《关于稀疏分类的错误发现率阈值》,《统计年鉴》,40,2572-2600(2012)·Zbl 1373.62315号
[23] Purcell,S.,包装PLINK(2009年)
[24] Purcell,S。;Neale,B。;托德·布朗,K。;托马斯·L。;费雷拉,M.A.R。;本德,D。;马勒,J。;Sklar,P。;De Bakker,P.I.W。;Daly,M.J。;Sham,P.C.,PLINK:全基因组关联和基于群体的连锁分析工具集,美国人类遗传学杂志,81,559-575(2007)
[25] Rantakallio,P.,《低出生体重儿和围产儿死亡率的风险群体》,《斯堪的纳维亚儿科学报》,193,43(1969)
[26] 萨巴蒂,C。;服务,S.K。;Hartikainen,A。;Pouta,A。;里帕蒂,S。;布罗茨基,J。;琼斯,C.G。;北卡罗来纳州Zaitlen。;瓦里洛,T。;Kaakinen,M。;Sovio,美国。;若科宁,A。;莱廷宁,J。;雅库拉,E。;硬币,L。;霍加特,C。;柯林斯。;图伦,H。;加布里埃尔,S。;埃利奥特,P。;麻省理工学院麦卡锡。;Daly,M.J。;Rvelin,M。;Freimer,N.B。;Peltonen,L.,《创始人群体出生队列中代谢性状的全基因组关联分析》,《自然遗传学》,41,35-46(2009)
[27] Schwarz,G.,估算模型的维度,《统计年鉴》,第6461-464页(1978年)·Zbl 0379.62005年
[28] 西蒙,N。;弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《稀疏群拉索》,《计算与图形统计杂志》,22,231-245(2013)
[29] 西蒙,N。;Tibshirani,R.,《标准化与拉索集团惩罚》,中国统计局,22983-1001(2013)·Zbl 1257.62080号
[30] 苏·W。;博格丹,M。;坎迪斯(Candès,E.),《拉索路径早期的错误发现》(2015)·Zbl 1459.62142号
[31] 苏·W。;Candès,E.,《斜坡适应未知稀疏性和渐进极小值》,《统计年鉴》,40,1038-1068(2016)·Zbl 1338.62032号
[32] Tibshirani,R.,《通过拉索进行回归收缩和选择》,《皇家统计学会杂志》,58267-288(1996)·Zbl 0850.62538号
[33] Tseng,P.,《凹凸优化的加速近似梯度法》(2008)
[34] 范登伯格,E。;Friedlander,M.P.,《探索基础追求解决方案的帕累托边界》,SIAM科学计算杂志,31890-912(2008)·Zbl 1193.49033号
[35] ---,具有最小二乘约束的稀疏优化,SIAM优化杂志,21,1201-1229(2011)·Zbl 1242.49061号
[36] 袁,M。;Lin,Y.,分组变量回归中的模型选择和估计,《皇家统计学会杂志》,68,49-67(2006)·兹比尔1141.62030
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。