×

稀疏主成分分析中的稀疏性和不可知推理。 (英语) Zbl 1308.62125号

摘要:在稀疏主成分分析的理论分析中,稀疏“真理”的存在一直是一个不变的假设,并且在其方法论发展中往往是隐含的。这自然引发了关于稀疏主成分分析方法的性质以及它们如何依赖于稀疏性假设的问题。如果假设真理是稀疏的,那么在什么条件下可以一致地选择相关变量?在不假设稀疏且唯一真理的情况下,对于稀疏PCA的结果可以说什么?我们通过研究最近提出的Fantope投影和选择(FPS)方法在高维环境中的特性来回答这些问题。我们的结果为FPS估计的稀疏性提供了一般的充分条件。这些条件很弱,在其他估计值已知失败的情况下也能成立。另一方面,在不假设稀疏性或可识别性的情况下,我们表明FPS提供了一种稀疏的线性降维变换,该变换在最大化预测协方差方面接近最佳可能。

MSC公司:

62H25个 因子分析和主成分;对应分析
62甲12 多元分析中的估计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Akaike,H.(1973)。信息论和似然原理的扩展。第二届信息理论国际研讨会论文集。布达佩斯Akadémiai Kiado·Zbl 0283.62006号
[2] Amini,A.A.和Wainwright,M.J.(2009年)。稀疏主成分半定松弛的高维分析。安。统计师。37 2877-2921. ·Zbl 1173.62049号 ·doi:10.1214/08-AOS664
[3] 伯克·R·H(1966)。模型不正确时后验分布的极限行为。安。数学。统计师。37 51至58;更正,同上37 745-746·Zbl 0151.23802号 ·doi:10.1214/oms/1177699597
[4] Berthet,Q.和Rigollet,P.(2013a)。高维稀疏主成分的最优检测。安。统计师。41 1780-1815. ·Zbl 1277.62155号 ·doi:10.1214/13-AOS1127
[5] Berthet,Q.和Rigollet,P.(2013b)。稀疏PCA的计算下限。预打印。可从获取·Zbl 1277.62155号
[6] Birnbaum,A.、Johnstone,I.M.、Nadler,B.和Paul,D.(2013)。含噪声高维数据的稀疏PCA的极小极大界。安。统计师。41 1055-1084之间·兹比尔1292.62071 ·doi:10.1214/12-AOS1014
[7] Boyd,S.、Parikh,N.、Chu,E.、Peleato,B.和Eckstein,J.(2010年)。通过交替方向乘数法进行分布式优化和统计学习。福恩德。趋势马赫数。学习。3 1-122. ·Zbl 1229.90122号 ·doi:10.1561/220000016
[8] Bühlmann,P.和van de Geer,S.(2011)。高维数据统计:方法、理论和应用。海德堡施普林格·Zbl 1273.62015年 ·doi:10.1007/978-3-642-20192-9
[9] Buja,A.、Hastie,T.和Tibshirani,R.(1989年)。线性平滑器和相加模型。安。统计师。17 453-555. ·Zbl 0689.62029号 ·doi:10.1214/aos/1176347115
[10] Cai,T.T.,Ma,Z.和Wu,Y.(2013)。稀疏PCA:最优速率和自适应估计。安。统计师。41 3074-3110. ·Zbl 1288.62099号 ·doi:10.1214/13-AOS1178
[11] d'Aspremont,A.、Bach,F.和El Ghaoui,L.(2008)。稀疏主成分分析的最优解。J.马赫。学习。第9号决议1269-1294·Zbl 1225.68170号
[12] d'Aspremont,A.、El Ghaoui,L.、Jordan,M.I.和Lanckriet,G.R.G.(2007)。使用半定规划的稀疏PCA的直接公式。SIAM版本49 434-448(电子版)·兹比尔1128.90050 ·doi:10.1137/050645506
[13] Deshpande,Y.和Montanari,A.(2013)。在近似线性时间内查找大小为\(\sqrt{N/e}\)的隐藏团。预打印。可从获取·Zbl 1347.05227号 ·doi:10.1007/s10208-014-9215-y
[14] Fan,J.和Li,R.(2001)。通过非冲突惩罚似然及其oracle属性进行变量选择。J.Amer。统计师。协会96 1348-1360·Zbl 1073.62547号 ·doi:10.1198/016214501753382273
[15] Greenshtein,E.和Ritov,Y.(2004)。高维线性预测器选择的持续性和超参数化的优点。伯努利10 971-988·兹比尔1055.62078 ·doi:10.3150/bj/1106314846
[16] Hastie,T.、Tibshirani,R.和Friedman,J.(2009年)。《统计学习的要素:数据挖掘、推断和预测》,第二版,纽约斯普林格出版社·兹比尔1273.62005 ·doi:10.1007/978-0-387-84858-7
[17] Hotelling,H.(1933)。将复杂的统计变量分析为主成分。J.教育。精神病。498-520.
[18] Huber,P.J.(1967年)。非标准条件下极大似然估计的行为。程序中。伯克利第五交响乐团。数学。统计师。和概率(加州伯克利,1965/66),第一卷:统计221-233。加州大学出版社,伯克利。
[19] Johnstone,I.M.和Lu,A.Y.(2009年)。高维主成分分析的一致性和稀疏性。J.Amer。统计师。协会104 682-693·Zbl 1388.62174号 ·doi:10.1198/jasa.2009.0121
[20] Jolliffe,I.T.、Trendafilov,N.T.和Uddin,M.(2003)。基于LASSO的改进主成分技术。J.计算。图表。统计师。12 531-547. ·doi:10.1198/1061860032148
[21] Journée,M.、Nesterov,Y.、Richtárik,P.和Sepulchre,R.(2010)。稀疏主成分分析的广义幂方法。J.马赫。学习。第11 517-553号决议·Zbl 1242.62048号
[22] Kearns,M.J.、Schapire,R.E.和Sellie,L.M.(1994)。迈向高效的不可知论学习。机器。学习。17 115-141. ·Zbl 0938.68797号 ·doi:10.1007/BF00993468
[23] Krauthgamer,R.、Nadler,B.和Vilenchik,D.(2013年)。半定松弛解稀疏主成分分析达到信息极限吗?预打印。可从获取·Zbl 1320.62138号 ·doi:10.1214/15-AOS1310
[24] Lam,C.和Fan,J.(2009年)。大协方差矩阵估计中的稀疏性和收敛速度。安。统计师。37 4254-4278. ·Zbl 1191.62101号 ·doi:10.1214/09-AOS720
[25] Lounici,K.(2013年)。缺少观测值的稀疏主成分分析。程序。普罗巴伯。66 327-356. ·Zbl 1267.62073号 ·文件编号:10.1007/978-3-0348-0490-5_20
[26] Ma,Z.(2013)。稀疏主成分分析和迭代阈值。安。统计师。41 772-801. ·Zbl 1267.62074号 ·doi:10.1214/13-AOS1097
[27] Mackey,L.W.(2009)。稀疏PCA的收缩方法。《神经信息处理系统进展》21(D.Koller、D.Schuurmans、Y.Bengio和L.Bottou编辑)1017-1024。纽约州Red Hook市Curran Associates。
[28] Meinshausen,N.和Bühlmann,P.(2006)。高维图和用套索选择变量。安。统计师。34 1436年-1462年·Zbl 1113.62082号 ·doi:10.1214/0090536000000281
[29] Negahban,S.N.、Ravikumar,P.、Wainwright,M.J.和Yu,B.(2012)。具有可分解正则化子的M估计量高维分析的统一框架。统计师。科学。27 538-557. ·Zbl 1331.62350号 ·doi:10.1214/12-STS400
[30] Overton,M.L.和Womersley,R.S.(1992年)。对称矩阵最大特征值之和。SIAM J.矩阵分析。申请。13 41-45. ·Zbl 0747.15005号 ·doi:10.137/061306
[31] Paul,D.和Johnstone,I.M.(2012年)。高维数据的增强稀疏主成分分析。预打印。可从获取。
[32] Pearson,K.(1901年)。在与空间中的点系统最接近的直线和平面上。菲洛斯。杂志2 559-572。
[33] Ravikumar,P.、Wainwright,M.J.、Raskutti,G.和Yu,B.(2011年)。通过最小化受(ell_1)惩罚的对数决定散度进行高维协方差估计。电子。《美国联邦法律大全》第5卷第935-980页·Zbl 1274.62190号 ·doi:10.1214/11-EJS631
[34] Rothman,A.J.、Bickel,P.J.、Levina,E.和Zhu,J.(2008)。稀疏排列不变协方差估计。电子。《美国联邦法律大全》第2卷第494-515页·Zbl 1320.62135号 ·doi:10.1214/08-EJS176
[35] Shen,H.和Huang,J.Z.(2008)。基于正则化低秩矩阵逼近的稀疏主成分分析。《多元分析杂志》。99 1015-1034. ·Zbl 1141.62049号 ·doi:10.1016/j.jmva.2007.06.007
[36] van der Vaart,A.W.和Wellner,J.A.(1996)。弱收敛与经验过程:统计应用。纽约州施普林格·Zbl 0862.60002号
[37] Vu,V.Q.和Lei,J.(2012)。高维稀疏PCA的最小最大估计率。程序中。第十五届国际人工智能与统计会议JMLR W&CP 22 1278-1286。
[38] Vu,V.Q.和Lei,J.(2013)。高维Minimax稀疏主子空间估计。安。统计师。41 2905-2947. ·Zbl 1288.62103号 ·数字对象标识代码:10.1214/13-AOS1151
[39] Vu,V.Q.,Cho,J.,Lei,J.和Rohe,K.(2013)。范托普投影和选择:稀疏PCA的近最优凸松弛。《神经信息处理系统进展》(NIPS)26(C.J.C.Burges,L.Bottou,M.Welling,Z.Gahramani和K.Q.Weinberger编辑)2670-2678。纽约州Red Hook市Curran Associates。
[40] Wainwright,M.J.(2009)。使用(ell_1)约束二次规划(Lasso)恢复高维和噪声稀疏性的锐化阈值。IEEE传输。通知。理论55 2183-2202·兹比尔1367.62220 ·doi:10.1109/TIT.2009.2016018
[41] White,H.(1982)。错误指定模型的最大似然估计。《计量经济学》50 1-25·兹比尔0478.62088 ·doi:10.2307/1912526
[42] Witten,D.M.、Tibshirani,R.和Hastie,T.(2009年)。惩罚矩阵分解,应用于稀疏主成分和典型相关分析。生物统计学10 515-534。
[43] Yuan,X.-T.和Zhang,T.(2013)。稀疏特征值问题的截断幂方法。J.马赫。学习。第14号决议899-925·Zbl 1320.62141号
[44] Zhao,P.和Yu,B.(2006)。关于拉索模型选择的一致性。J.马赫。学习。第7号决议2541-2563·兹比尔1222.62008
[45] Zou,H.、Hastie,T.和Tibshirani,R.(2006年)。稀疏主成分分析。J.计算。图表。统计师。15 265-286. ·doi:10.1198/106186006X113430
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。