×

稀疏偏最小二乘回归用于同时降维和变量选择。 (英语) Zbl 1411.62184号

摘要:自20世纪60年代以来,偏最小二乘回归在几个科学研究领域一直是处理多重共线性的普通最小二乘的替代方法。近年来,它在高维基因组数据分析中得到了广泛关注。我们证明了一元响应偏最小二乘估计的已知渐近相合性不适用于非常大(p)和小(n)范式。对于偏最小二乘多元响应回归,我们得出了类似的结果。然后,我们提出了一种稀疏偏最小二乘公式,其目的是通过产生原始预测因子的稀疏线性组合来同时实现良好的预测性能和变量选择。我们提供了稀疏偏最小二乘回归的有效实现,并通过仿真实验将其与著名的变量选择和降维方法进行了比较。我们说明了稀疏偏最小二乘回归在基因表达和全基因组结合数据联合分析中的实用性。

MSC公司:

62J05型 线性回归;混合模型
62页第10页 统计学在生物学和医学中的应用;元分析

软件:

标准普尔;
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abramovich,F.、Benjamini,Y.、Donoho,D.L.和Johnstone,I.M.(2006)通过控制错误发现率来适应未知稀疏性。安。统计师。, 34, 584– 653. ·Zbl 1092.62005年
[2] D'Aspremont,A.、Ghaoui,L.E.、Jordan,M.I.和Lanckriet,G.R.G.(2007)使用半定规划的稀疏主成分分析的直接公式。SIAM版本。, 49, 434– 448. ·邮编1128.90050
[3] Bair,E.、Hastie,T.、Paul,D.和Tibshirani,R.(2006)《监督主成分预测》。《美国统计杂志》。助理。, 101, 119– 137. ·Zbl 1118.62326号
[4] Bendel,R.B.和Afifi,A.A.(1976)逐步回归的标准。美国统计局, 30, 85– 87. ·Zbl 0329.62050号
[5] Benjamini,Y.和Hochberg,Y.(1995)控制错误发现率:一种实用且强大的多重测试方法。J.R.统计。Soc.B公司, 57, 289– 300. ·Zbl 0809.62014号
[6] Boulesteix,A.‐L和Strimmer,K.(2005)通过微阵列和芯片数据的联合分析预测转录因子活性:偏最小二乘法。西奥。生物医学模型, 2.
[7] 布列斯特克斯,A.-L。和Strimmer,K.(2006)《偏最小二乘法:分析高维基因组数据的通用工具》。简介。生物信息。, 7, 32– 44.
[8] Ter Braak,C.J.F.和De Jong,S.(1998)偏最小二乘回归的目标函数。J.化学计量学。,12,41–54。
[9] Butler,N.A.和Denham,M.C.(2000)偏最小二乘回归的特殊收缩特性。J.R.统计。Soc B公司, 62, 585– 593. ·兹比尔0963.62057
[10] Chun,H.和Keleš,S.(2009)用多元稀疏偏最小二乘法进行表达定量位点定位。遗传学, 182, 79– 90.
[11] Efron,B.、Hastie,T.、Johnstone,I.和Tibshirani,R.(2004)最小角度回归。安。统计师。, 32, 407– 499. ·Zbl 1091.62054号
[12] Frank,I.E.和Friedman,J.H.(1993)一些化学计量学回归工具的统计观点。技术计量学, 35, 109– 135. ·Zbl 0775.62288号
[13] Friedman,J.H.和Popescu,B.E.(2004)线性回归和分类的梯度定向正则化。技术报告斯坦福大学统计系。
[14] Geman,S.(1980)随机矩阵范数的极限定理。安·普罗巴伯。, 8, 252– 261. ·Zbl 0428.60039号
[15] Golub,G.H.和Van Loan,C.F.(1987)《矩阵计算》。巴尔的摩:约翰·霍普金斯大学出版社。
[16] Goutis,C.(1996)偏最小二乘算法产生收缩估计量。安。统计师。, 24, 816– 824. ·Zbl 0859.62067号
[17] Hastie,T.、Tibshirani,R.、Eisen,M.、Alizadeh,A.、Levy,R.,Staudt,L.、Botstein,D.和Brown,P.(2000)通过“基因剃须”识别具有类似表达模式的不同基因集。基因组生物学。, 1, 1– 21.
[18] Helland,I.S.(1990)偏最小二乘回归和统计模型。扫描。J.统计。, 17, 97– 114. ·Zbl 0713.62062号
[19] Helland,I.S.(2000)回归模型中预测的模型简化。扫描。J.统计。, 27, 1– 20. ·Zbl 0938.62040号
[20] Helland,I.S.和Almoy,T.(1994)当只有几个成分相关时预测方法的比较。《美国统计杂志》。助理。, 89, 583– 591. ·Zbl 0799.62080号
[21] Huang,X.,Pan,W.,Park,S.,Han,X.Miller,L.W.和Hall,J.(2004)通过惩罚偏最小二乘法对人类心脏中lvad支持时间和基因表达变化之间的关系进行建模。生物信息学, 20, 888– 894.
[22] Johnstone,I.M.和Lu,A.Y.(2004)稀疏主成分分析。技术报告斯坦福大学统计系。
[23] Jolliffe,I.T.、Trendafilov,N.T.和Uddin,M.(2003)基于套索的改进主成分技术。J.计算图表。统计师。, 12, 531– 547.
[24] De Jong,S.(1993)SIMPLS:偏最小二乘回归的替代方法。化学家。智力。实验室系统。,18251-263。
[25] Kosorok,M.R.和Ma,S.(2007)“大p,小n”范式的边缘渐近性:应用于微阵列数据。安。统计师。, 35, 1456– 1486. ·Zbl 1123.62005年
[26] Krämer,N.(2007)偏最小二乘回归收缩特性概述。计算机统计。, 22, 249– 273. ·Zbl 1197.62084号
[27] Lee,T.I.,Rinaldi,N.J.,Robert,F.,Odom,D.T.,Bar‐Joseph,Z.,Gerber,G.K.,Hannett,N.M.,Harbison,C.T.,Thomson,C.M.,Simon,I.,Zeitlinger,J.,Jennings,E.G.,Murray,H.L.,Gordon,D.B.,Ren,B.,Wyrick,J.J.,Tagne,J.‐B。,Volkert,T.L.、Fraenkel,E.、Gifford,D.K.和Young,R.A.(2002)《酿酒酵母的转录调控网络》。科学类, 298, 799– 804.
[28] Nadler,B.和Coifman,R.R.(2005)cls和pls中的预测误差:多元校准之前特征选择的重要性。J.化学计量学。, 19, 107– 118.
[29] Naik,P.和Tsai,C.-L。(2000)单指数模型的偏最小二乘估计。J.R.统计。Soc.B公司, 62, 763– 771. ·Zbl 0957.62060号
[30] Pratt,J.W.(1960)关于互换极限和积分。安。数学。统计师。, 31, 74– 77. ·Zbl 0090.26802号
[31] Rosipal,R.和Krämer,N.(2006)偏最小二乘法综述和最新进展。《子空间、潜在结构和特征选择技术》(编辑:C.Saunders、M.Grobelnik、S.Gunn和J.Shawe‐Taylor),第34-51页。纽约:斯普林格。
[32] Spellman,P.T.、Sherlock,G.、Zhang,M.Q.、Iyer,V.R.、Anders,K.、Eisen,M.B.、Brown,P.O.、Botstein,D.和Futcher,B.(1998)酵母细胞周期调控基因的综合鉴定酿酒酵母通过微阵列杂交。摩尔。生物细胞, 9, 3273– 3279.
[33] Stoica,P.和Soderstorom,T.(1998)《偏最小二乘:一阶分析》。扫描。J.统计。, 25, 17– 24. ·Zbl 0903.62057号
[34] Tibshirani,R.(1996)通过套索进行回归收缩和选择。J.R.统计。Soc.B公司, 58, 267– 288. ·Zbl 0850.62538号
[35] Wang,L.,Chen,G.和Li,H.(2007)微阵列时间进程基因表达数据的组扫描回归分析。生物信息学, 23, 1486– 1494.
[36] Wold,H.(1966)用迭代最小二乘法估计主成分和相关模型。纽约:学术出版社·Zbl 0214.46103号
[37] Zou,H.和Hastie,T.(2005)通过弹性网络的正则化和变量选择。J.R.统计。Soc.B公司, 67, 301– 320. ·兹比尔1069.62054
[38] Zou,H.、Hastie,T.和Tibshirani,R.(2006)稀疏主成分分析。J.计算图。统计师。, 15, 265– 286.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。