×

包络和主成分回归。 (英语) Zbl 07784479号

摘要:包络方法为各种统计模型提供了有针对性的降维。目标是通过将数据投影到称为包络的低维子空间上来提高多变量参数估计的效率。包络方法在分析具有高度相关变量的数据方面具有优势,但其迭代格拉斯曼优化算法对高维数据的扩展性不太好。虽然多元线性回归中包络和偏最小二乘之间的联系促进了高维包络研究的最新进展,但我们从新的主成分回归角度提出了一种更直接的包络建模方法。所提出的非迭代包络分量估计(NIECE)方法与高维迭代格拉斯曼优化方法相比具有良好的计算优势。我们发展了一个统一的理论,弥补了包络方法和回归主成分之间的差距。新的理论见解还揭示了包络子空间估计误差是包络建模中使用的两个对称正定矩阵的特征值间隙的函数。我们将新的理论和算法应用于几个包络模型,包括多元线性模型、logistic回归和Cox比例风险模型中的响应和预测约简。模拟和说明性数据分析表明,NIECE有潜力显著改进线性和广义线性模型中的标准方法。

MSC公司:

62H25个 因子分析和主成分;对应分析
62J12型 广义线性模型(逻辑模型)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] ABSIL,P.-A.,MAHONY,R.和SEPULCHRE,R.(2009年)。矩阵流形上的优化算法。普林斯顿大学出版社。数学科学网:MR2364186·Zbl 1147.65043号
[2] AMINI,A.A.和WAINWRIGHT,M.J.(2009年)。稀疏主成分半定松弛的高维分析。安。统计师。37 2877-2921. 数学科学网:MR2541450·Zbl 1173.62049号
[3] BAIR,E.、HASTIE,T.、PAUL,D.和TIBSHIRANI,R.(2006)。监督主成分预测。美国统计协会期刊101 119-137。数学科学网:MR2252436·Zbl 1118.62326号
[4] BRADIC,J.、FAN,J.和JIANG,J.(2011)。具有NP维的Cox比例风险模型的正则化。《统计年鉴》39 3092-3120。数学科学网:MR3012402·Zbl 1246.62202号
[5] BRO,R.、KJELDAHL,K.、SMILDE,A.K.和KIERS,H.(2008)。组件模型的交叉验证:对当前方法的批判性研究。分析与生物分析化学390 1241-1251。
[6] BüHLMANN,P.、KALISCH,M.和MEIER,L.(2014)。着眼于生物学应用的高维统计。
[7] CAI,T.T.,MA,Z.,WU,Y.等人(2013)。稀疏主成分分析:最优速率和自适应估计。《统计年鉴》41 3074-3110。数学科学网:MR3161458·Zbl 1288.62099号
[8] CHEN,K.、CHAN,K.-S.和STENSETH,N.C.(2012年)。具有稀疏奇异值分解的降秩随机回归。英国皇家统计学会杂志:B辑(统计方法)74 203-221。数学科学网:MR2899860·Zbl 1411.62182号
[9] CHEN,L.和HUANG,J.Z.(2012)。稀疏降秩回归用于同时降维和变量选择。美国统计协会杂志107 1533-1545。数学科学网:MR3036414·Zbl 1258.62075号
[10] CHEN,X.、ZOU,C.和COOK,R.D.(2010年)。坐标相关稀疏充分降维和变量选择。《统计年鉴》38 3696-3723。数学科学网:MR2766865·Zbl 1204.62107号
[11] CHUN,H.和KELEö,S.(2010年)。稀疏偏最小二乘回归用于同时降维和变量选择。英国皇家统计学会杂志:B辑(统计方法)72 3-25。数学科学网:MR2751241·Zbl 1411.62184号
[12] CHUN,H.、BALLARD,D.H.、CHO,J.和ZHAO,H.(2011)。通过稀疏偏最小二乘回归确定疾病与多个标记物之间的关联。遗传流行病学35 479-486。
[13] CONWAY,J.(1990)。函数分析课程。第二版。纽约州施普林格。数学科学网:MR1070713·Zbl 0706.46003号
[14] 库克·R·D(2018)。包络线简介:多元统计中有效估计的降维401。约翰·威利父子公司。数学科学网:MR3774758·Zbl 1407.62014年
[15] 库克·R·D(2020)。包络法。威利跨学科评论:计算统计学12 e1484。数学科学网:MR4072465
[16] COOK,R.D.、FORZANI,L.和ZHANG,X.(2015)。包络和缩减秩回归。生物特征102 439-456. 数学科学网:MR3371015·Zbl 1452.62484号
[17] 库克·R·D、福扎尼·L和苏·Z(2016)。关于快速包络估计的注记。多元分析杂志150 42-54。数学科学网:MR3534901·兹比尔1345.62082
[18] 库克·R·D、福扎尼·L等人(2019年)。高维回归中的偏最小二乘预测。《统计年鉴》47 884-908。数学科学网:MR3909954·Zbl 1416.62389号
[19] 库克·R·D、赫尔兰·I·S和苏·Z(2013a)。包络和偏最小二乘回归。J.R.Stat.Soc.系列。B.统计方法。75 851-877. 数学科学网:MR3124794·Zbl 1411.62137号
[20] 库克·R、赫尔兰·I和苏·Z(2013b)。包络和偏最小二乘回归。英国皇家统计学会杂志:B辑(统计方法)75 851-877。数学科学网:MR3124794·Zbl 1411.62137号
[21] 库克·R·D、李·B和齐亚蒙特·F(2010)。简约有效多元线性回归的包络模型。统计师。Sinica 20 927-960年。数学科学网:MR2729839(2012a:62186)·Zbl 1259.62059号
[22] 库克·R·D和苏·Z(2013)。标度包络:多元线性回归中的标度变异和有效估计。生物特征100 939-954. 数学科学网:MR3142342·Zbl 1452.62492号
[23] COOK,R.D.和ZHANG,X.(2015a)。多元线性回归的同时包络。技术计量学57 11月25日。数学科学网:MR3318345
[24] COOK,R.D.和ZHANG,X.(2015b)。包络模型和方法的基础。美国统计协会杂志110 599-611。数字对象标识符:10.1080/01621459.2014.983235谷歌学者:查找链接数学科学网:MR3367250·Zbl 1390.62131号 ·doi:10.1080/01621459.2014.983235
[25] COOK,R.D.和ZHANG,X.(2016)。包络估计算法。计算与图形统计杂志25 284-300。数字对象标识符:10.1080/10618600.2015.029577谷歌学者:查找链接数学科学网:MR3474048·doi:10.1080/10618600.2015.1029577
[26] COOK,R.D.和ZHANG,X.(2018)。快速包络算法。《中国统计》第28卷第1179-1197页。数学科学网:MR3821000·Zbl 1394.62067号
[27] COX,D.R.(1972)。回归模型和生命表。英国皇家统计学会杂志。B系列(方法学)34 87-22。数学科学网:MR0341758
[28] Cox,D.R.(1975)。部分可能性。生物特征62 269-276. 数字对象标识符:10.1093/biomet/62.2.269谷歌学者:查找链接数学科学网:MR0400509·Zbl 0312.62002号 ·doi:10.1093/biomet/62.2.269
[29] 德容S.(1993)。SIMPLS:偏最小二乘回归的另一种方法。化学计量学和智能实验室系统18 251-263。
[30] 丁·S和库克·R(2018)。矩阵变量回归和包络模型。英国皇家统计学会杂志。B辑:统计方法80 387-408。数学科学网:MR3763697·Zbl 06849260号
[31] 丁S.、苏Z.、朱G.和王L.(2021)。包络分位数回归。中国统计31 79-106。数学科学网:MR4270379·Zbl 1464.62259号
[32] EDELMAN,A.、ARIAS,T.A.和SMITH,S.T.(1998年)。具有正交约束的算法的几何结构。SIAM矩阵分析与应用杂志20 303-353。数学科学网:MR1646856·Zbl 0928.6500号
[33] Fan,J.和Li,R.(2001)。通过非冲突惩罚似然及其oracle属性进行变量选择。美国统计协会杂志96 1348-1360。数学科学网:MR1946581·Zbl 1073.62547号
[34] Flury,B.N.(1984)。k群中的常见主成分。美国统计协会杂志79 892-898。数学科学网:MR0770284
[35] FLURY,B.(1988)。常见主成分和相关多元模型。John Wiley&Sons,Inc.数学科学网:MR0986245·Zbl 1081.62535号
[36] FRANKS,A.(2020年)。大规模协方差回归的约化子空间模型。arXiv预打印arXiv:2010.00503。数学科学网:MR4534382·Zbl 1520.62201号
[37] Franks,A.M.和Hoff,P.(2019年)。多组协方差估计的共享子空间模型。机器学习研究杂志20 1-37。数学科学网:MR4048982·Zbl 1446.62209号
[38] FRIEDMAN,J.、HASTIE,T.和TIBSHIRANI,R.(2010)。广义线性模型的坐标下降正则化路径。统计软件杂志33 1。
[39] HELLAND,I.S.(1990年)。偏最小二乘回归和统计模型。扫描。J.统计。17 97-114. 数学科学网:MR1085924(92e:62108)·Zbl 0713.62062号
[40] Hoerl,A.E.和Kennard,R.W.(1970年)。岭回归:非正交问题的有偏估计。技术计量学12 55-67之间。数字对象标识符:10.1080/00401706.1970.10488634谷歌学者:查找链接·Zbl 0202.17205号 ·网址:10.1080/00401706.1970.10488634
[41] 黄J.、孙T.、YING,Z.、YU,Y.和ZHANG,C.-H.(2013)。考克斯模型中套索的Oracle不等式。统计年鉴41 1142。数学科学网:MR3113806·Zbl 1292.62135号
[42] JOLLIFFE,I.T.(1982)。关于回归中使用主成分的注释。英国皇家统计学会杂志:C辑(应用统计学)31 300-303。数学科学网:MR0841268
[43] JOLLIFFE,I.T.(1986年)。回归分析中的主成分。主成分分析129-155。斯普林格。数学科学网:MR0841268
[44] JOLLIFFE,I.(2002)。主成分分析。施普林格科技与商业媒体。数学科学网:MR2036084·Zbl 1011.62064号
[45] JOLLIFFE,I.T.和CADIMA,J.(2016)。主成分分析:综述和最新发展。皇家学会哲学学报A:数学、物理和工程科学374 20150202。数学科学网:MR3479904·Zbl 1353.62067号
[46] JOSSE,J.和HUSSON,F.(2012年)。使用交叉验证近似值选择主成分分析中的成分数量。计算统计与数据分析56 1869-1879。数学科学网:MR2892383·Zbl 1243.62082号
[47] KHARE,K.、PAL,S.、SU,Z.等人(2017年)。包络模型的贝叶斯方法。《统计年鉴》45 196-222。数学科学网:MR3611490·Zbl 1367.62174号
[48] LANG,W.和ZOU,H.(2020年)。一种改进主成分回归的简单方法。斯达e288.数学科学网:MR4116322
[49] LEE,M.和SU,Z.(2020)。包络模型综述。《国际统计评论》88 658-676。数学科学网:MR4180672·Zbl 1528.62027号
[50] Li,L.和Zhang,X.(2017)。简约张量响应回归。美国统计协会杂志112 1131-1146。数学科学网:MR3735365
[51] LI,G.,YANG,D.,NOBEL,A.B.和SHEN,H.(2016)。有监督奇异值分解及其渐近性质。多元分析杂志146 7-17。数学科学网:MR3477645·Zbl 1336.62129号
[52] Ma,Z.(2013)。稀疏主成分分析和迭代阈值。安。统计师。41 772-801. 数字对象标识符:10.1214/13-AOS1097谷歌学者:查找链接数学科学网:MR3099121·Zbl 1267.62074号 ·doi:10.1214/13-AOS1097
[53] NEGAHBAN,S.N.、RAVIKUMAR,P.、WAINWRIGHT,M.J.和YU,B.(2012)。具有可分解正则化子的M估计量高维分析的统一框架。《统计年鉴》27 538-557。数学科学网:MR3025133·Zbl 1331.62350号
[54] 博根市纽约大道。,LINGJÆRDE,O.C.和STØRVOLD,H.L.(2008)。全基因组数据的偏最小二乘Cox回归。终身数据分析14 179-195。数学科学网:MR2398971·Zbl 1147.62080号
[55] OJA,E.(1992年)。主成分、次要成分和线性神经网络。神经网络5 927-935。
[56] SÆBØ,S.,ALM \216'Y,T.,AAR \216]E,J.和AASTVEIT,A.H.(2008)。ST-PLS:通过PLS的多向最近收缩质心类型分类器。化学计量学杂志:化学计学学会杂志22 54-62。
[57] 肖特,J.R.(1999)。部分公共主成分子空间。生物特征86 899-908. 数学科学网:MR1741985·兹比尔0942.62066
[58] SHEN,H.和HUANG,J.Z.(2008)。基于正则化低秩矩阵逼近的稀疏主成分分析。多元分析杂志99 1015-1034。数学科学网:MR2419336·Zbl 1141.62049号
[59] SU,Z.和COOK,R.D.(2011)。多元线性回归中有效估计的部分包络。生物特征98 133-146. 数学科学网:MR2804215·Zbl 1214.62062号
[60] SU,Z.和COOK,R.D.(2012年)。内包络:多元线性回归中的有效估计。生物特征99 687-702. 数学科学网:MR2966778·Zbl 1437.62619号
[61] SU,Z.,ZHU,G.,CHEN,X.和YANG,Y.(2016)。稀疏包络模型:多元线性回归中的有效估计和响应变量选择。生物特征103 579-593. 数学科学网:MR3551785·Zbl 1495.62056号
[62] Tibshirani,R.(1996)。通过套索回归收缩和选择。英国皇家统计学会杂志:B辑(方法学)58 267-288。数学科学网:MR1379242·Zbl 0850.62538号
[63] TIPPING,M.E.和BISHOP,C.M.(1999)。概率主成分分析。英国皇家统计学会杂志:B辑(统计方法)61 611-622。数学科学网:MR1707864·Zbl 0924.62068号
[64] VU,V.Q.和LEI,J.(2013)。高维Minimax稀疏主子空间估计。统计年鉴41 2905-2947。数学科学网:MR3161452·Zbl 1288.62103号
[65] WELLING,M.、WILLIAMS,C.和AGAKOV,F.V.(2004)。极端成分分析。神经信息处理系统进展137-144。
[66] WEN,Z.和YIN,W.(2013)。一种可行的正交约束优化方法。数学编程142 397-434。数学科学网:MR3127080·Zbl 1281.49030号
[67] WITTEN,D.M.、TIBSHIRANI,R.和HASTIE,T.(2009年)。一种惩罚矩阵分解,应用于稀疏主成分和正则相关分析。生物统计学kxp008·兹比尔1437.62658
[68] WOLD,H.(1966年)。通过迭代最小二乘法估计主成分和相关模型。多元分析391-420。数学科学网:MR0220397·Zbl 0214.46103号
[69] YU,Y.,WANG,T.和SAMWORTH,R.J.(2014)。对于统计学家来说,戴维斯-卡汉定理的一个有用变体。生物特征102 315-323. 数学科学网:MR3371006·Zbl 1452.15010号
[70] ZHANG,J.和CHEN,X.(2020)。主包络模型。统计规划与推断杂志206 249-262。数学科学网:MR4036706·Zbl 1437.62222号
[71] ZHANG,X.和MAI,Q.(2018)。无模型信封尺寸选择。电子统计杂志12 2193-2216。数学科学网:MR3829139·Zbl 1410.62086号
[72] ZHANG,X.和MAI,Q.(2019)。判别分析中充分降维和预测的有效集成。技术计量学61 259-272. 数学科学网:MR3957146
[73] ZHOU,F.、CLAIRE,Q.和KING,R.D.(2014)。预测音乐的地理起源。2014年IEEE国际数据挖掘会议1115-1120。电气与电子工程师协会。
[74] ZHOU,L.、COOK,R.D.和ZOU,H.(2020)。包络Huber回归。arXiv预打印arXiv:2011.00119。
[75] ZHU,G.和SU,Z.(2020年)。基于包络的稀疏偏最小二乘。《统计年鉴》48 161-182。数学科学网:MR4065157·Zbl 1439.62174号
[76] Zou,H.、Hastie,T.和Tibshirani,R.(2006)。稀疏主成分分析。计算和图形统计学杂志15 265-286。数学科学网:MR2252527
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。