×

具有测量误差的高维广义线性模型中的协变量选择。 (英语) 兹布尔07498987

摘要:在许多涉及广义线性模型的问题中,协变量会受到测量误差的影响。当协变量的数量\(p\)超过样本量\(n\)时,需要像lasso或Dantzig选择器这样的正则化方法。最近的几篇论文研究了在(p>n)设置下线性模型的套索或Dantzig选择器中校正测量误差的方法。我们研究了基于Rosenbaum和Tsybakov矩阵不确定性选择器的广义线性模型修正。由于不需要估计测量误差协方差矩阵,这种广义矩阵不确定度选择器在涉及高维数据的问题中具有很大的实际优势。我们进一步推导了一种基于套索的替代方法,并为这两种方法开发了有效的算法。在我们对具有测量误差的logistic和Poisson回归进行的模拟研究中,提出的方法在协变量选择方面优于标准的lasso和Dantzig选择器,大大减少了误报的数量。我们还考虑根据带有噪声测量值的基因表达数据对患者进行分类。本文的补充材料可在网上获得。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 安东尼亚迪斯,A。;Fryzlewicz,P。;Letué,F.,《考克斯比例危险模型中的Dantzig选择器》,《斯堪的纳维亚统计杂志》,37531-552(2010)·Zbl 1349.62473号
[2] 贝洛尼,A。;罗森鲍姆,M。;Tsybakov,A.,高维误差-变量模型中的线性和二次规划估计(2014)
[3] Bertrand,A。;Moonen,M.,Ad Hoc无线传感器网络中基于一致性的分布式总最小二乘估计,IEEE信号处理汇刊,592320-2330(2011)·Zbl 1391.90132号
[4] 比克尔,P.J。;Ritov,Y。;Tsybakov,A.B.,《Lasso和Dantzig选择器的同步分析》,《统计年鉴》,第37期,第1705-1732页(2009年)·Zbl 1173.62022号
[5] 布列斯特,A.-L。;斯特罗布尔,C。;奥古斯丁,T。;Daumer,M.,评估基于微阵列的分类器:综述,癌症信息学,677-97(2008)
[6] 博伊德,S。;Vandenberghe,L.,《凸优化》(2004),英国剑桥:剑桥大学出版社,英国剑桥·Zbl 1058.90049号
[7] Bühlmann,P。;van de Geer,S.,《高维数据统计:方法、理论和应用》(2011),德国柏林:施普林格出版社,德国柏林·Zbl 1273.62015年
[8] 坎迪斯,E。;Tao,T.,《Dantzig选择器:当p远大于n时的统计估计》,《统计年鉴》,3522313-2351(2007)·兹比尔1139.62019
[9] 卡罗尔·R·J。;Ruppert,D。;斯蒂芬斯基,洛杉矶。;Crainiceanu,C.M.,《非线性模型中的测量误差:现代视角》,第二版(2006年),美国佛罗里达州博卡拉顿:Chapman&Hall,美国佛罗里达州博卡拉顿·Zbl 1119.62063号
[10] 陈,Y。;Caramanis,C.,《噪音和缺失数据回归:分布-不经意支持恢复》,JMLR W&CP,28,383-391(2013)
[11] Datta,A。;Zou,H.,CoLasso高维变量误差回归(2015)
[12] Eddelbuettel,D.,《无缝R和C++与Rcpp的集成》(2013),纽约州纽约市:纽约州斯普林格·Zbl 1283.62001号
[13] Eddelbuettel,D。;François,R.,Rcpp:无缝R和C++集成,统计软件杂志,40,1-18(2011)
[14] 弗里德曼,J。;哈斯蒂,T。;Höfling,H。;Tibshirani,R.,路径坐标优化,应用统计学年鉴,1,302-332(2007)·Zbl 1378.90064号
[15] 弗里德曼,J.H。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降的广义线性模型的正则化路径,统计软件杂志,33,1-22(2010)
[16] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素》(2009),纽约州纽约市,美国:斯普林格市,纽约州,美国·兹比尔1273.62005
[17] 詹姆斯·G·M。;Radchenko,P.,《收缩调谐的广义Dantzig选择器》,《生物统计学》,96,323-337(2009)·Zbl 1163.62054号
[18] 考尔,A。;Koul,H.L。;Chawla,A。;Lahiri,S.N.,《具有测量误差或缺失协变量的高维线性模型的两阶段非规范化校正最小二乘法》(2016)
[19] Kipnis,V。;Subar,A.F。;Midthune,D。;弗里德曼,L.S。;巴拉德·巴巴什,R。;Troiano,R.P。;宾厄姆,S。;Schoeller,D.A。;Schatzkin,A。;Carroll,R.J.,《饮食测量误差的结构:开放生物标记物研究的结果》,《美国流行病学杂志》,158,14-21(2003)
[20] Liang,H。;Li,R.,带测量误差的部分线性模型的变量选择,美国统计协会杂志,104234-248(2009)·Zbl 1388.62208号
[21] Loh,P.-L。;Wainwright,M.J.,《含噪声和缺失数据的高维回归:非凸性的可证明保证》,《统计年鉴》,第40期,第1637-1664页(2012年)·Zbl 1257.62063号
[22] 马云(Ma,Y.)。;Li,R.,《测量误差模型中的变量选择》,伯努利,16,274-300(2010)·Zbl 1200.62071号
[23] McCullagh,P。;Nelder,J.,《广义线性模型》(1989),佛罗里达州博卡拉顿:查普曼和霍尔,佛罗里达州波卡拉顿·Zbl 0744.62098号
[24] Meinshausen,北卡罗来纳州。;Bühlmann,P.,《Lasso的高维图和变量选择》,《统计学年鉴》,341436-1462(2006)·Zbl 1113.62082号
[25] Nguyen,N。;Tran,T.,《观测缺失和严重破坏的鲁棒套索》,IEEE信息理论汇刊,592036-2058(2013)·Zbl 1364.94146号
[26] R核心团队,R:统计计算的语言和环境(2016),奥地利维也纳:R统计计算基金会,奥地利维也纳
[27] Reppe,S。;雷夫姆,H。;Gautvik,V.T。;Olstad,Ok K。;Hövring,P.I。;Reinholt,F.P。;霍尔顿,M。;弗里吉斯,A。;Jemtland,R。;Gautvik,K.M.,《绝经后高加索女性的八个基因与骨密度变异高度相关》,Bone,46,604-612(2010)
[28] Roke,D.M。;Durbin,B.,基因表达阵列测量误差模型,计算生物学杂志,8557-569(2001)
[29] 罗森鲍姆,M。;Tsybakov,A.B.,《矩阵不确定性下的稀疏恢复》,《统计年鉴》,382620-2651(2010)·Zbl 1373.62357号
[30] ---《改进的矩阵不确定性选择器》,《从概率到统计再回到:高维模型和过程——纪念Jon A.Wellner的节日》,9(2013),俄亥俄州比奇伍德:俄亥俄州比奇伍德数学统计研究所·Zbl 1327.62410号
[31] 瑟伦森。;弗里吉斯,A。;Thoresen,M.,《拉索中的测量误差:影响和可能性偏差修正》,《中国统计》,第25期,第809-829页(2015年)·Zbl 1534.62093号
[32] Tadesse,M.G。;易卜拉欣,J.G。;R先生。;Chiaretti,S。;Ritz,J。;Foa,R.,基因芯片阵列分析的贝叶斯误差生存模型,生物计量学,61488-497(2005)·Zbl 1077.62116号
[33] Theussl,S。;Hornik,K.,Rglpk:R/GNU线性编程工具包接口(2013)
[34] Tibshirani,R.,《通过拉索进行回归收缩和选择》,《皇家统计学会期刊》,B辑,58,267-288(1996)·Zbl 0850.62538号
[35] van de Geer,S.A.,《高维广义线性模型和拉索》,《统计年鉴》,36614-645(2008)·Zbl 1138.62323号
[36] van de Geer,S.A。;Bühlmann,P.,《关于证明Oracle Lasso结果的条件》,《电子统计杂志》,31360-1392(2009)·兹比尔1327.62425
[37] 温赖特,M.,《使用L1约束二次规划(Lasso)进行高维和噪声稀疏性恢复的尖锐阈值》,IEEE信息理论汇刊,552183-202(2009)·Zbl 1367.62220号
[38] 赵,P。;Yu,B.,关于Lasso的模型选择一致性,机器学习研究杂志,72541-2563(2006)·Zbl 1222.62008年
[39] 朱,H。;Leus,G。;Giannakis,G.,《扰动压缩采样的稀疏识别总最小二乘法》,IEEE信号处理学报,2002-2016年第59期(2011年)·Zbl 1392.94741号
[40] Zou,H.,《自适应套索及其Oracle属性》,《美国统计协会杂志》,第101期,第1418-1429页(2006年)·Zbl 1171.62326号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。