×

基于包络的稀疏偏最小二乘。 (英语) Zbl 1439.62174号

考虑多元线性回归模型\[Y=\mu+\beta^\top(X-\mu_X)+\epsilon,\]其中,\(Y\in\mathbb{R}^R\)是响应向量,\(X\in\mathbb{R}^p\)是具有平均值\(mu_X\)和有限二阶矩的随机预测向量。误差\(\epsilon\in\mathbb{R}^R\)与\(X\)无关,并且具有零平均值和有限的二阶矩。截距和回归系数是未知的,用\(\mu\in\mathbb{R}^R)和\(\beta\in\mathbb{R}^{p\timers R}表示。\(\beta\)的稀疏偏最小二乘(SPLS)估计量被广泛用作执行降维和变量选择的方法,特别是在高维设置中,其中\(p/n)不趋向于零作为\(n\to\infty)。
在本文中,使用包络模型之间的连接,提出了一种新版本的SPLS,称为基于包络的SPLS(参见,例如[S.De Jong(德容),“SIMPLS:偏最小二乘回归的替代方法”,Chemom。智力。实验室系统。18, 251–263 (1993;doi:10.1016/0169-7439(93)85002-X)])偏最小二乘法。作者建立了估计量的相合性、渐近正态性和选择相合性。同时证明了预言性质,这意味着估计器正确地选择概率趋于1的非活动预测因子,并以与已知真实模型相同的效率估计活动预测因子的系数。同时考虑了大样本场景和高维场景。本文还在GLM的背景下发展了基于包络的SPLS估计,并讨论了估计的相合性、预言性和渐近正态性。仿真结果表明,与SPLS估计相比,基于包络的SPLS估计具有更好的变量选择和预测性能[H.Chun先生S.凯尔什、J.R.Stat.Soc.、Ser。B、 统计方法。72,第1、3–25号(2010年;兹比尔1411.62184)].

MSC公司:

62J12型 广义线性模型(逻辑模型)
62甲12 多元分析中的估计
2012年12月62日 参数估计量的渐近性质
62B05型 足够的统计数据和字段
62J05型 线性回归;混合模型
62兰特 歧管统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agresti,A.(2013)。分类数据分析,第三版,《概率统计中的威利级数》。Wiley Interscience,新泽西州霍博肯·Zbl 1281.62022号
[2] Chen,L.和Huang,J.Z.(2012)。同时进行降维和变量选择的稀疏降秩回归。J.Amer。统计师。协会107 1533-1545·Zbl 1258.62075号 ·doi:10.1080/01621459.2012.734178
[3] Chen,X.、Zou,C.和Cook,R.D.(2010年)。坐标相关稀疏充分降维和变量选择。安。统计师。38 3696-3723. ·Zbl 1204.62107号 ·doi:10.1214/10-AOS826
[4] Chun,H.和Keleš,S.(2010年)。稀疏偏最小二乘回归用于同时降维和变量选择。J.R.统计社会服务。B.统计方法。72 3-25. ·Zbl 1411.62184号 ·文件编号:10.1111/j.1467-9868.2009.00723.x
[5] Chung,D.和Keleš,S.(2010年)。高维数据的稀疏偏最小二乘分类。统计应用程序。遗传学。分子生物学。9第17、32条·Zbl 1304.92041号 ·doi:10.2202/1544-6115.1492
[6] Cook,R.D.、Forzani,L.和Su,Z.(2016)。关于快速包络估计的注记。J.多变量分析。150 42-54. ·Zbl 1345.62082号 ·doi:10.1016/j.jmva.2015.05.006
[7] Cook,R.D.、Helland,I.S.和Su,Z.(2013)。包络和偏最小二乘回归。J.R.统计社会服务。B.统计方法。75 851-877之间·Zbl 1411.62137号 ·doi:10.1111/rssb.12018
[8] Cook,R.D.、Li,B.和Chiaromonte,F.(2010年)。简约有效多元线性回归的包络模型。统计师。Sinica 20 927-1010年·Zbl 1259.62059号
[9] Cook,R.D.和Zhang,X.(2015)。包络模型和方法的基础。J.Amer。统计师。协会110 599-611·Zbl 1390.62131号 ·doi:10.1080/01621459.2014.983235
[10] Cook,R.D.和Zhang,X.(2016)。包络估计算法。J.计算。图表。统计师。25 284-300.
[11] De Jong,S.(1993)。SIMPLS:偏最小二乘回归的另一种方法。化学。智力。实验室系统。18 251-263.
[12] Diaconis,P.和Freedman,D.(1984年)。图形投影追踪的渐近性。安。统计师。12 793-815. ·Zbl 0559.62002号 ·doi:10.1214/aos/1176346703
[13] 丁·B和R·绅士(2005)。使用广义偏最小二乘进行分类。J.计算。图表。统计师。14 280-298.
[14] Huang,X.,Pan,W.,Park,S.,Han,X.Miller,L.W.和Hall,J.(2004)。通过惩罚偏最小二乘法模拟LVAD支持时间与人类心脏基因表达变化之间的关系。生物信息学20 888-894。
[15] Karabulut,E.M.和Ibrikci,T.(2014)。基于具有SMOTE预处理的逻辑模型树的脊柱病变的有效自动预测。医学系统杂志。38 1-9.
[16] Khare,K.,Oh,S.-Y.和Rajaratnam,B.(2015)。具有收敛保证的高维偏相关估计的凸伪似然框架。J.R.统计社会服务。B.统计方法。77 803-825. ·兹伯利1414.62183 ·doi:10.1111/rssb.12088
[17] Khare,K.、Pal,S.和Su,Z.(2017年)。包络模型的贝叶斯方法。安。统计师。45 196-222. ·Zbl 1367.62174号 ·doi:10.1214/16-AOS1449
[18] LíCao,K.-A.,Rossouw,D.,Robert-Granié,C.和Besse,P.(2008)。集成组学数据时用于变量选择的稀疏PLS。统计应用程序。遗传学。分子生物学。7第35、31条·Zbl 1276.62061号
[19] 李·D、李·W、李·Y和帕维坦·Y(2011)。稀疏偏最小二乘回归及其在高通量数据分析中的应用。化学。智力。实验室系统。109 1-8.
[20] Lichman,M.(2013)。UCI机器学习库。
[21] Ma,Y.和Zhu,L.(2013)。降维中的效率损失和线性条件。生物特征100 371-383·Zbl 1284.62262号 ·doi:10.1093/biomet/ass075
[22] 马克思,B.D.(1996)。广义线性回归的迭代重加权偏最小二乘估计。技术计量38 374-381·Zbl 0902.62081号 ·doi:10.1080/00401706.1996.10484549
[23] McCullagh,P.和Nelder,J.A.(1989)。广义线性模型。统计学和应用概率专著。CRC出版社,伦敦·Zbl 0744.62098号
[24] Park,P.J.、Tian,L.和Kohane,I.S.(2002年)。使用偏最小二乘法将基因表达数据与患者生存时间联系起来。生物信息学18 S120-S127。
[25] Peng,J.、Wang,P.、Zhou,N.和Zhu,J.(2009)。联合稀疏回归模型的偏相关估计。J.Amer。统计师。协会104 735-746·兹比尔1388.62046 ·doi:10.1198/jasa.2009.0126
[26] Ramsey,F.和Schafer,D.(2012年)。统计研究:数据分析方法课程。Cengage Learning,波士顿。
[27] Rothman,A.J.、Bickel,P.J.、Levina,E.和Zhu,J.(2008)。稀疏置换不变协方差估计。电子。《美国联邦法律大全》第2卷第494-515页·Zbl 1320.62135号 ·doi:10.1214/08-EJS176
[28] Su,Z.和Cook,R.D.(2011)。多元线性回归中有效估计的部分包络。生物特征98 133-146·Zbl 1214.62062号 ·doi:10.1093/biomet/asq063
[29] Su,Z.和Cook,D.(2012)。内包络:多元线性回归中的有效估计。生物特征99 687-702·Zbl 1437.62619号 ·doi:10.1093/biomet/ass024
[30] Su,Z.,Zhu,G.,Chen,X.和Yang,Y.(2016)。稀疏包络模型:多元线性回归中的有效估计和响应变量选择。生物特征103 579-593·Zbl 1495.62056号 ·doi:10.1093/biomet/asw036
[31] Wang,L.,Chen,G.和Li,H.(2007)。微阵列时间进程基因表达数据的组SCAD回归分析。生物信息学23 1486-1494。
[32] Wold,H.(1966年)。通过迭代最小二乘法估计主成分和相关模型。《多元分析》(Proc.Internat.Sympos.,Dayton,Ohio,1965)391-420。纽约学术出版社·兹比尔0214.46103
[33] Wold,H.(1975)。具有潜在变量的路径模型:NIPALS方法。剑桥大学学术出版社·Zbl 0331.62058号
[34] Zhang,T.和Zou,H.(2014)。通过套索惩罚的D轨迹损失进行稀疏精度矩阵估计。生物特征101 103-120·Zbl 1285.62063号 ·doi:10.1093/biomet/ast059
[35] Zhu,G.和Su,Z.(2019年)。补充“基于包络的稀疏偏最小二乘”https://doi.org/10.1214/18-AOS1796SUPP。
[36] 邹华(2006)。自适应套索及其oracle属性。J.Amer。统计师。协会101 1418-1429·Zbl 1171.62326号 ·doi:10.1198/016214500000735
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。