×

用于成分数据分析的原始路径算法。 (英语) Zbl 1510.62309号

小结:我们考虑协变量非负且其和总是一的成分数据的LASSO估计。由于回归系数的线性约束是由“和为一”条件引起的,因此LASSO的标准算法不能直接应用于成分数据。因此,通常使用具有线性约束的特定正则化回归模型。然而,线性约束会带来额外的计算时间,这在高维情况下会变得更加严重。此外,在现有方法下,没有研究回归的精确计算。本文首先提出了一种高维成分数据的(l_1)正则回归的精确解路径算法,并将其推广到一个分类模型。我们还将其计算速度与先前开发的算法进行了比较,然后将该算法应用于分析经济学中的收入不平等数据和生物学中的人体肠道微生物数据。通过对模拟数据集和实际数据集的分析,我们证明了对于成分数据,我们的专用算法比广义LASSO算法更有效。

MSC公司:

62J07型 岭回归;收缩估计器(拉索)
62J05型 线性回归;混合模型
62H30型 分类和区分;聚类分析(统计方面)
62页第10页 统计学在生物学和医学中的应用;元分析
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 艾格纳,D.J。;Amemiya,T。;Poirier,D.J.,《关于生产边界的估计:不连续密度函数参数的最大似然估计》,国际。经济。修订版,17、2、377-396(1976年)·Zbl 0339.62083号
[2] 艾奇逊,J。;Bacon-shone,J.,混合物实验的对数对比模型,生物统计学,71,2,323-330(1984)
[3] Bezanson,J。;Edelman,A。;卡宾斯基,S。;Shah,V.B.,Julia:《数值计算的新方法》,SIAM Rev.,59,1,65-98(2017)·兹比尔1356.68030
[4] 邦德尔·H·D。;Reich,B.J.,anova中的同时因子选择和崩溃水平,生物统计学,65,1,169-177(2009)·Zbl 1159.62048号
[5] 布罗迪,J。;Daubechies,I。;De Mol,C。;Giannone,D。;Loris,I.,稀疏和稳定的markowitz投资组合,Proc。国家。阿卡德。科学。,106, 30, 12267-12272 (2009) ·Zbl 1203.91271号
[6] Buccianti,A。;Mateu-Figueras,G。;Pawlowsky-Glahn,V.,《地球科学中的成分数据分析:从理论到实践》(2006),伦敦地质学会·Zbl 1155.86002号
[7] 坎农,J.P。;Lee,T.A。;Bolanos,J.T。;Danziger,L.H.,《乳酸菌的致病相关性:对200多例病例的回顾性研究》,《欧洲临床杂志》。微生物。感染。数字化信息系统。,24, 1, 31-40 (2005)
[8] 埃夫隆,B。;哈斯蒂,T。;Johnstone,我。;Tibshirani,R.,最小角回归,Ann.Statist。,32, 2, 407-499 (2004) ·Zbl 1091.62054号
[9] 方,H。;黄,C。;赵,H。;Deng,M.,Cclasso:通过套索对成分数据进行相关性推断,生物信息学,31,19,3172-3180(2015)
[10] 弗里德曼,J。;哈斯蒂,T。;赫夫林,H。;Tibshirani,R.,路径坐标优化,Ann.Appl。统计,1,302-332(2007)·Zbl 1378.90064号
[11] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,J.Stat.Softw。,33, 1, 1-22 (2010)
[12] 盖恩斯,B.R。;Kim,J。;Zhou,H.,拟合约束套索的算法,J.Compute。图表。统计人员。,27, 4, 861-871 (2018) ·Zbl 07498997号
[13] Lee,C.S。;李,X.-D。;张,G。;李,J。;丁安杰。;Wang,T.,香港和广州市区和郊区气溶胶的重金属和铅同位素组成,华南地区-大气污染物远距离传输的证据。环境。,41, 2, 432-447 (2007)
[14] 李,C.-P。;Lin,C.-J.,关于l2-loss(平方铰链损失)多类支持向量机的研究,神经计算。,25, 5, 1302-1323 (2013) ·Zbl 1414.68065号
[15] Leite,M.L.C.,《将成分数据方法应用于营养流行病学》,《统计方法医学研究》,25,6,3057-3065(2016)
[16] Lin,W。;Shi,P。;冯·R。;Li,H.,成分协变量回归中的变量选择,生物统计学,101,4,785-797(2014)·Zbl 1306.62164号
[17] 明绍森,N。;Bühlmann,P.,稳定性选择,J.R.Stat.Soc.Ser。B统计方法。,72, 4, 417-473 (2010) ·Zbl 1411.62142号
[18] Montassier,E。;Al-Ghalith,G.A。;沃德,T。;Corvec,S。;Gastinne,T。;波特尔,G。;莫罗,P。;de la Cochetiere,M.F。;巴塔德,E。;Knights,D.,预处理肠道微生物组预测化疗相关的血流感染,基因组医学,8,1,49(2016)
[19] 奥斯本,M.R。;Presnell,B。;Turlach,B.A.,《关于套索及其对偶物的研究》,J.Compute。图表。统计,9,2,319-337(2000)
[20] R: 《统计计算的语言和环境》(2008),R统计计算基金会:R统计计算基金会,奥地利维也纳,网址:http://www.R-project.org。国际标准图书编号(ISBN)3-900051-07-0
[21] Rosset,S。;朱,J.,分段线性正则解路径,Ann.Statist。,35, 3, 1012-1030 (2007) ·Zbl 1194.62094号
[22] Salminen,M.K。;丁基宁,S。;劳特林,H。;Saxelin,M。;瓦拉,M。;鲁图,P。;萨纳,S。;瓦尔顿,V。;Järvinen,A.,《芬兰鼠李糖乳杆菌gg益生菌使用快速增加期间的乳酸杆菌菌血症》,临床。感染。数字化信息系统。,35, 10, 1155-1160 (2002)
[23] Tibshirani,R.J。;Taylor,J.,广义套索的解路径,Ann.Statist。,1335-1371年3月39日(2011年)·Zbl 1234.62107号
[24] Tibshirani,R.J.,套索问题和唯一性,电子。J.Stat.,71456-1490(2013)·Zbl 1337.62173号
[25] 曾,P。;Yun,S.,非光滑可分离极小化的坐标梯度下降法,数学。程序。,117, 1-2, 387-423 (2009) ·Zbl 1166.90016号
[26] 周,H。;Lange,K.,《约束估计的路径算法》,J.Compute。图表。统计人员。,22, 2, 261-283 (2013)
[27] 周,H。;Wu,Y.,正则化统计估计的通用路径算法,J.Amer。统计师。协会,109,506,686-699(2014)·Zbl 1367.62223号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。