彼得·伯尔曼;菲利普·吕蒂曼;萨拉·范德格尔;张存慧 回归中的相关变量:聚类和稀疏估计。 (英语) Zbl 1278.62103号 J.统计计划。推断 143,第11期,1835-1858(2013). 摘要:我们考虑变量强相关的高维线性模型中的估计。我们建议首先对变量进行聚类,然后进行后续稀疏估计,例如用于聚类表示的Lasso或基于聚类结构的组Lasso。关于第一步,我们提出了一种新的基于典型相关性的自下而上凝聚聚类算法,并证明了该算法找到了最优解,并且在统计上是一致的。我们还提出了一些理论论点,即基于典型相关的聚类导致设计矩阵具有更好的相容常数,从而确保了群Lasso的可识别性和预言不等式。此外,我们还讨论了聚类代表和使用Lasso作为后续估计器的情况,从而改进了变量的预测和检测结果。我们用各种实证结果来补充理论分析。 引用于4评论引用于22文件 MSC公司: 62J05型 线性回归;混合模型 62J07型 岭回归;收缩估计器(拉索) 62H20个 关联度量(相关性、典型相关性等) 62H30型 分类和区分;聚类分析(统计方面) 62-08 统计学相关问题的计算方法 关键词:正准相关;拉索组;层次聚类;高维推理;拉索;oracle不等式;可变筛选;变量选择 软件:格尔姆奈特;玻璃制品;汞 PDF格式BibTeX公司 XML格式引用 \textit{P.Bühlmann}等人,J.Stat.Plann。推断143,No.11,1835--1858(2013;Zbl 1278.62103) 全文: 内政部 arXiv公司 参考文献: [1] Anderson,T.,《多元统计分析导论》(1984),威利·Zbl 0651.62041号 [2] Baba,K。;柴田,R。;Sibuya,M.,作为条件独立性度量的部分相关和条件相关,《澳大利亚和新西兰统计杂志》,46,657-664(2004)·Zbl 1061.62086号 [3] Balding,D.,人口关联研究统计方法教程,《自然评论遗传学》,7781-791(2007) [4] 比克尔,P。;Ritov,Y。;Tsybakov,A.,《Lasso和Dantzig选择器的同步分析》,《统计年鉴》,371705-1732(2009)·Zbl 1173.62022号 [5] 邦德尔,H。;Reich,B.,《OSCAR预测因子的同步回归收缩、变量选择和聚类》,生物统计学,64,115-123(2008)·Zbl 1146.62051号 [6] Bühlmann,P。;van de Geer,S.,《高维数据统计:方法、理论和应用》(2011),施普林格出版社·Zbl 1273.62015年 [8] 卡尔森,C。;埃伯勒,M。;里德,M。;Yi,Q。;Kruglyak,L。;Nickerson,D.,利用连锁不平衡选择一组信息量最大的单核苷酸多态性进行关联分析,《美国人类遗传学杂志》,74,106-120(2004) [9] 戴维森,K。;Szarek,S.,局部算子理论,随机矩阵和Banach空间,(Johnson,W.B.;Lindenstrauss,J.,Banach spaces手册,第一卷(2001),Elsevier),317-366·Zbl 1067.46008号 [10] Dettling,M。;Bühlmann,P.,从微阵列数据中发现预测基因组,多元分析杂志,90,106-131(2004)·Zbl 1047.62103号 [11] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,统计软件杂志,33,1-22(2010) [12] 哈斯蒂,T。;Tibshirani,R。;博茨坦,D。;Brown,P.,《表达树的监督收获》,《基因组生物学》,第2期,第1-12页(2001年) [13] 哈斯蒂,T。;Tibshirani,R。;艾森,M。;Alizadeh,A。;利维,R。;Staudt,L.公司。;Chan,W。;博茨坦,D。;Brown,P.,“基因剃须”作为识别具有相似表达模式的不同基因集的方法,《基因组生物学》,1,1-21(2000) [14] 黄,J。;马,S。;李,H。;Zhang,C.-H.,高维回归的稀疏拉普拉斯收缩估计,《统计年鉴》,392021-2046(2011)·兹比尔1227.62049 [15] Kendall,M.,多元分析课程(1957),格里芬:格里芬伦敦 [16] Meier,L。;van de Geer,S。;Bühlmann,P.,《高维加性建模》,《统计年鉴》,373779-3821(2009)·Zbl 1360.62186号 [17] Meinshausen,N.,Relaxed Lasso,计算统计与数据分析,52,374-393(2007)·Zbl 1452.62522号 [18] 明绍森,N。;Bühlmann,P.,《高维图与拉索变量选择》,《统计年鉴》,341436-1462(2006)·Zbl 1113.62082号 [19] 明绍森,N。;Yu,B.,高维数据稀疏表示的Lasso型恢复,《统计年鉴》,37,246-270(2009)·Zbl 1155.62050号 [20] 西格尔,M。;Dahlquist,K。;Conklin,B.,微阵列数据分析的回归方法,计算生物学杂志,10961-980(2003) [21] She,Y.,《稀疏回归与精确聚类》,《电子统计杂志》,41055-1096(2010)·Zbl 1329.62327号 [23] Sun,T。;Zhang,C.-H.,标度稀疏线性回归,Biometrika,99879-898(2012)·Zbl 1452.62515号 [24] Tibshirani,R.,《通过拉索进行回归收缩和选择》,《皇家统计学会期刊》,B辑,58,267-288(1996)·Zbl 0850.62538号 [25] 托洛西,L。;Lengauer,T.,《相关特征分类:特征排名和解决方案的不可靠性》,生物信息学,271986-1994(2011) [27] van de Geer,S。;Bühlmann,P.,《关于证明拉索预言结果的条件》,《电子统计杂志》,31360-1392(2009)·Zbl 1327.62425号 [29] 袁,M。;Lin,Y.,分组变量回归中的模型选择和估计,《皇家统计学会杂志》,B辑,69,49-67(2006)·兹比尔1141.62030 [30] 张,C.-H。;Huang,J.,高维线性回归中拉索选择的稀疏性和偏差,《统计年鉴》,361567-1594(2008)·Zbl 1142.62044号 [31] 赵,P。;Yu,B.,关于Lasso的模型选择一致性,《机器学习研究杂志》,7,2541-2563(2006)·Zbl 1222.62008年 [32] Zou,H.,自适应拉索及其预言属性,美国统计协会杂志,1011418-1429(2006)·Zbl 1171.62326号 [33] 邹,H。;Hastie,T.,《通过弹性网进行正则化和变量选择》,《皇家统计学会期刊B辑》,67301-320(2005)·Zbl 1069.62054号 [34] 邹,H。;Li,R.,非冲突惩罚似然模型中的一步稀疏估计(带讨论),《统计年鉴》,361509-1566(2008)·Zbl 1282.62112号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。