×

PCA的最优性和次优性。一: 尖峰随机矩阵模型。 (英语) Zbl 1404.62065号

本文的主要目的是解决以下问题:“在PCA成功的情况下,任何统计程序都能检测到阈值以下显著特征向量的存在吗?”为了回答这个问题,研究表明,在高斯Wigner模型中,谱阈值\(λ=1\)对于单位球面上的均匀先验、i.i.d.Rademacher先验以及具有足够亚高斯界的任何先验,都是最优的。在一般的Wigner模型中,作者证明了光谱阈值从来都不是最优的。结果表明,当(x)为i.i.d.Rademacher分布时,光谱阈值有时仅在统计上最优。

MSC公司:

62H25个 因子分析和主成分;对应分析
62H15型 多元分析中的假设检验
60对20 随机矩阵(概率方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Amini,A.A.和Wainwright,M.J.(2008)。稀疏主成分半定松弛的高维分析。IEEE信息理论国际研讨会2454–2458。
[2] Anderson,G.W.、Guionnet,A.和Zeitouni,O.(2010年)。随机矩阵导论。剑桥高等数学研究118。剑桥大学出版社,剑桥·Zbl 1184.15023号
[3] Arias-Castro,E.、Bubeck,S.和Lugosi,G.(2012年)。相关性检测。统计年鉴40 412–435·兹比尔1246.62142 ·doi:10.1214/11-AOS964
[4] Arias-Castro,E.、Candès,E.J.和Durand,A.(2011年)。《网络中异常簇的检测》,《统计年鉴》39 278–304·Zbl 1209.62097号 ·doi:10.1214/10-AOS839
[5] Arias-Castro,E.、Candès,E.J.和Plan,Y.(2011年)。稀疏替代方案下的全球测试:方差分析、多重比较和较高的批评。统计年鉴39 2533–2556·Zbl 1231.62136号 ·doi:10.1214/11-AOS910
[6] Arias Castro,E.和Verzelen,N.(2014)。密集随机网络中的社区检测。统计年鉴42 940–969·Zbl 1305.62035号 ·doi:10.1214/14-AOS1208
[7] Bai,Z.和Silverstein,J.W.(2010年)。大维随机矩阵的谱分析,第2版,Springer,纽约·兹比尔1301.60002
[8] Baik,J.、Ben Arous,G.和Péché,S.(2005)。非零复样本协方差矩阵最大特征值的相变。Ann.Probab.33 1643-1697年·Zbl 1086.15022号 ·doi:10.1214/00911790500000233
[9] Baik,J.和Silverstein,J.W.(2006)。尖峰种群模型大样本协方差矩阵的特征值。《多变量分析杂志》97 1382-1408·Zbl 1220.15011号 ·doi:10.1016/j.jmva.2005.08.003
[10] Bandeira,A.S.、Boumal,N.和Singer,A.(2014)。角同步最大似然半定松弛的紧性。可从arXiv:1411.3272获取·Zbl 1365.90188号 ·doi:10.1007/s10107-016-1059-6
[11] Banks,J.、Moore,C.、Neeman,J.和Netrapalli,P.(2016)。稀疏网络中社区检测的信息理论阈值。第29届学习理论年会383–416。
[12] Banks,J.、Moore,C.、Verzelen,N.、Vershynin,R.和Xu,J.(2017)。聚类、稀疏PCA和子矩阵定位中的信息论边界和相变。可在arXiv:1607.05222下载·Zbl 1401.94065号
[13] Barbier,J.、Dia,M.、Macris,N.、Krzakala,F.、Lesieur,T.和Zdeborova,L.(2016)。对称秩一矩阵估计的互信息:副本公式的证明。可从arXiv:1606.04142获取。
[14] Barron,A.R.(1986)。熵和中心极限定理。《概率年鉴》14 336–342·Zbl 0599.60024号 ·doi:10.1214/aop/1176992632
[15] Bayati,M.和Montanari,A.(2011年)。消息在密集图上传递的动力学,以及在压缩传感中的应用。IEEE传输。通知。神学57 764–785·Zbl 1366.94079号 ·doi:10.1109/TIT.2010.2094817
[16] Benaych-Georges,F.和Nadakuditi,R.R.(2011)。大型随机矩阵的有限低秩扰动的特征值和特征向量。高级数学227 494–521·兹比尔1226.15023 ·doi:10.1016/j.aim.2011.02.007
[17] Berthet,Q.和Rigollet,P.(2013a)。高维稀疏主成分的最优检测。《统计年鉴》41 1780年至1815年·Zbl 1277.62155号 ·doi:10.1214/13-AOS1127
[18] Berthet,Q.和Rigollet,P.(2013b)。稀疏主成分检测的复杂性理论下限。在COLT 1046–1066中。
[19] Birnbaum,A.、Johnstone,I.M.、Nadler,B.和Paul,D.(2013)。含噪声高维数据的稀疏PCA的极小极大界。统计年鉴41 1055–1084·Zbl 1292.62071号 ·doi:10.1214/12-AOS1014
[20] Boumal,N.(2016)。非凸相位同步。SIAM J.Optim.26 2355–2377·Zbl 1356.90111号 ·doi:10.1137/16M105808X
[21] Boumal,N.、Singer,A.、Absil,P.-A.和Blondel,V.D.(2014)。旋转同步的Cramér–Rao边界。信息推断3 1–39·Zbl 1308.94041号 ·doi:10.1093/imaiai/iat006
[22] Brown,L.D.(1982)。由Cramér–Rao不等式驱动的中心极限定理的证明。《统计学与概率:纪念C.R.Rao的论文》(G.Kallianpur、P.Krishnaiah和J.Ghosh编辑)141-148。荷兰北部,阿姆斯特丹·Zbl 0484.60019号
[23] Butucea,C.和Ingster,Y.I.(2013年)。高维噪声矩阵的稀疏子矩阵的检测。伯努利19 2652–2688·Zbl 1457.62072号 ·doi:10.350/12-BEJ470
[24] Cai,T.T.、Jin,J.和Low,M.G.(2007)。稀疏正态混合的估计和置信集。统计年鉴35 2421–2449·Zbl 1360.62113号 ·doi:10.1214/00905360700000334
[25] Cai,T.T.,Ma,Z.和Wu,Y.(2013)。稀疏主成分分析:最优速率和自适应估计。统计年鉴41 3074–3110·Zbl 1288.62099号 ·doi:10.1214/13-AOS1178
[26] Cai,T.、Ma,Z.和Wu,Y.(2015)。稀疏峰值协方差矩阵的最优估计和秩检测。普罗巴伯。理论相关领域161 781–815·Zbl 1314.62130号 ·doi:10.1007/s00440-014-0562-z
[27] Capitaine,M.、Donati-Martin,C.和Féral,D.(2009)。大维格纳矩阵有限秩变形的最大特征值:涨落的收敛性和非均匀性。Ann.概率37 1-47·Zbl 1163.15026号 ·doi:10.1214/08-AOP394
[28] Deshpande,Y.、Abbe,E.和Montanari,A.(2016)。二元随机块模型的渐近互信息。2016年IEEE信息理论国际研讨会185-189·Zbl 1383.62021号
[29] Deshpande,Y.和Montanari,A.(2014a)。通过协方差阈值进行稀疏PCA。《神经信息处理系统进展》334–342·Zbl 1392.62172号
[30] Deshpande,Y.和Montanari,A.(2014b)。信息理论上最优稀疏PCA。IEEE信息理论国际研讨会2197-2201。
[31] Deshpande,Y.、Montanari,A.和Richard,E.(2014)。圆锥约束主成分分析。神经信息处理系统进展2717–2725。
[32] Dobriban,E.(2017)。相关性下主成分分析的敏锐检测:所有特征值都很重要。《统计年鉴》45 1810-1833年·兹比尔1486.62182 ·doi:10.1214/16-AOS1514
[33] Donoho,D.和Jin,J.(2004)。对检测稀疏非均匀混合物的批评更高。统计年鉴32 962–994·Zbl 1092.62051号 ·doi:10.1214/009053604000000265
[34] Donoho,D.L.、Maleki,A.和Montanari,A.(2009年)。压缩感知的消息传递算法。程序。国家。阿卡德。科学。美国106 18914–18919。
[35] Egloff,D.、Leippold,M.和Wu,L.(2010年)。方差互换利率的期限结构和最优方差互换投资。J.财务。数量。分析45 1279–1310。
[36] Féral,D.和Péché,S.(2007年)。大维格纳矩阵秩一变形的最大特征值。公共数学。物理272 185–228·Zbl 1136.82016年
[37] Forni,M.、Hallin,M.,Lippi,M.和Reichlin,L.(2000)。广义动态因子模型:识别和估计。经济收益率。统计数字82 540–554·Zbl 1117.62334号 ·doi:10.1198/0162145000002050
[38] Guerra,F.(2003)。平均场自旋玻璃模型中的破复型对称边界。公共数学。物理233 1–12·Zbl 1013.82023号 ·doi:10.1007/s00220-002-0773-5
[39] Ingster,Y.I.、Tsybakov,A.B.和Verzelen,N.(2010年)。稀疏回归中的检测边界。电子。《美国联邦法律大全》第4卷第1476–1526页·Zbl 1329.62314号 ·doi:10.1214/10-EJS589
[40] Janson,S.(1995)。随机正则图:渐近分布和连续性。组合概率。计算量4 369–405·Zbl 0846.05076号 ·doi:10.1017/S09635484830001735
[41] Javanmard,A.和Montanari,A.(2013)。一般近似消息传递算法的状态演化,以及空间耦合应用。信息推断2 115–144·Zbl 1335.94015号 ·doi:10.1093/imaiai/iat004
[42] Javanmard,A.、Montanari,A.和Ricci-Tersenghi,F.(2016)。半定弛豫中的相变。程序。国家。阿卡德。科学。美国113 E2218–E2223·Zbl 1359.62188号 ·doi:10.1073/pnas.1523097113
[43] Johnstone,I.M.(2001)。关于主成分分析中最大特征值的分布。《统计年鉴》29 295–327·Zbl 1016.62078号 ·doi:10.1214/aos/1009210544
[44] Johnstone,I.M.和Onatski,A.(2015)。高维尖峰模型测试。可从arXiv:1509.07269获取。
[45] Kannan,R.和Vempala,S.(2016年)。超越光谱:种植高斯人的严格界限。可从arXiv:1608.03643获取。
[46] Ke,Z.T.(2016)。检测大协方差矩阵中的罕见和微弱峰值。可从arXiv:1609.00883获取。
[47] Krauthgamer,R.、Nadler,B.和Vilenchik,D.(2015)。半定松弛能解决信息极限下的稀疏PCA吗?《统计年鉴》43 1300–1322·Zbl 1320.62138号 ·doi:10.1214/15-AOS1310
[48] Krzakala,F.、Xu,J.和Zdeborová,L.(2016)。秩一矩阵估计中的互信息。可从arXiv获取:1603.08447。
[49] Lelarge,M.和Miolane,L.(2016)。对称低秩矩阵估计的基本极限。可从arXiv:1611.03888获取。
[50] Lesieur,T.、Krzakala,F.和Zdeborová,L.(2015a)。稀疏主成分分析中的相变。在1635-1639年IEEE信息理论国际研讨会上。
[51] Lesieur,T.、Krzakala,F.和Zdeborová,L.(2015b)。概率低秩矩阵估计的MMSE:关于输出信道的普遍性。第53届Allerton通信、控制和计算年会(Allerton)680-687。
[52] Le Cam,L.(1960年)。局部渐近正态分布族:分布族的某些逼近及其在估计和检验假设理论中的应用。加利福尼亚大学出版社,加利福尼亚州伯克利·Zbl 0104.12701号
[53] Litterman,R.B.和Scheinkman,J.(1991年)。影响债券收益的常见因素。J.固定收入1 54–61。
[54] Ma,Z.(2013)。稀疏主成分分析和迭代阈值。统计年鉴41 772–801·Zbl 1267.62074号 ·doi:10.1214/13-AOS1097
[55] Ma,Z.和Wu,Y.(2015)。极小极大子矩阵检测中的计算障碍。统计年鉴43 1089–1116·Zbl 1328.62354号 ·doi:10.1214/14-AOS1300
[56] McSherry,F.(2001)。随机图的谱划分。第42届IEEE计算机科学基础研讨会论文集529-537。
[57] Molloy,M.S.O.、Robalewska,H.、Robinson,R.W.和Wormald,N.C.(1997年)\随机正则图的(1)-分解。随机结构算法10 305–321·Zbl 0974.05062号 ·doi:10.1002/(SICI)1098-2418(199705)10:3<305::AID-RSA1>3.0.CO;2-%23
[58] Montanari,A.、Reichman,D.和Zeitouni,O.(2015)。关于谱方法的局限性:从高斯隐团问题到高斯张量的秩一扰动。《神经信息处理系统进展》217-225·Zbl 1366.94150号 ·doi:10.1109/TIT.2016.2637959
[59] Montanari,A.和Richard,E.(2016)。非负主成分分析:消息传递算法和尖锐渐近。IEEE传输。通知。Theory62 1458–1484年·Zbl 1359.62224号 ·doi:10.10109/TIT.2015.2457942
[60] Mossel,E.、Neeman,J.和Sly,A.(2015)。种植分区模型中的重建和估计。普罗巴伯。理论相关领域162 431–461·Zbl 1320.05113号 ·doi:10.1007/s00440-014-0576-6
[61] Nadler,B.(2008)。主成分分析的有限样本近似结果:矩阵摄动方法。美国国家统计局36 2791–2817·Zbl 1168.62058号 ·doi:10.1214/08-AOS618
[62] Onatski,A.、Moreira,M.J.和Hallin,M.(2013)。高维数据球形度测试的渐近能力。统计年鉴41 1204–1231·Zbl 1293.62125号 ·doi:10.1214/13-AOS1100
[63] Onatski,A.、Moreira,M.J.和Hallin,M.(2014)。高维信号检测:多尖点情况。统计年鉴42 225–254·Zbl 1296.62123号 ·doi:10.1214/13-AOS1181
[64] Paul,D.(2007年)。大维尖峰协方差模型样本特征结构的渐近性。统计师。Sinica17 1617-1642年·Zbl 1134.62029号
[65] Péché,S.(2006年)。厄米随机矩阵小秩扰动的最大特征值。普罗巴伯。理论相关领域134 127–173·兹比尔1088.15025
[66] Perry,A.、Wein,A.S.和Bandeira,A.S.(2016)。尖峰张量模型的统计极限。可从arXiv:1612.07728获取。
[67] Perry,A.、Wein,A.S.、Bandeira,A.S.和Moitra,A.(2017年)。补充“PCA I的最优性和次优性:尖峰随机矩阵模型”。DOI:10.1214/17-AOS1625SUPP。
[68] 皮特曼·E·J·G(1979)。统计推断的一些基本理论。查普曼和霍尔,伦敦;《霍尔斯特德出版社图书》,威利,纽约·Zbl 0442.62002号
[69] Pizzo,A.、Renfrew,D.和Soshnikov,A.(2013)。关于Wigner矩阵的有限秩变形。亨利·彭加雷·普罗巴布(Henri PoincaréProbab)安·Inst。统计数据49 64–94·Zbl 1278.60014号 ·doi:10.1214/11-AIHP459
[70] Rangan,S.和Fletcher,A.K.(2012年)。噪声中约束秩一矩阵的迭代估计。IEEE信息理论国际研讨会1246-1250。
[71] Robinson,R.W.和Wormald,N.C.(1994年)。几乎所有正则图都是哈密顿图。随机结构算法5 363–374·Zbl 0795.05088号 ·doi:10.1002/rsa.3240050209
[72] Shen,D.、Shen,H.和Marron,J.S.(2013)。稀疏PCA在高维、低样本量环境中的一致性。《多元分析杂志》,115 317–333·Zbl 1258.62072号 ·doi:10.1016/j.jmva.2012.10.007
[73] Singer,A.(2011年)。通过特征向量和半定规划实现角度同步。申请。计算。哈蒙。分析30 20-36·Zbl 1206.90116号 ·doi:10.1016/j.acha.2010.02.001
[74] Stock,J.H.和Watson,M.W.(2002年)。使用大量预测因子的主成分进行预测。J.Amer。统计师。协会97 1167–1179·Zbl 1041.62081号 ·doi:10.1198/016214502388618960
[75] Sun,X.和Nobel,A.B.(2008)。关于随机二元矩阵中子矩阵的大小和恢复。J.Mach。学习。第9号决议2431–2453·Zbl 1225.60016号
[76] Sun,X.和Nobel,A.B.(2013)。关于高斯随机矩阵中大平均和ANOVA-fit子矩阵的最大尺寸。Bernoulli19 275-294·兹比尔1259.62062 ·文件编号:10.3150/11-BEJ394
[77] Tao,T.(2012)。随机矩阵理论专题。数学研究生课程132。阿默尔。数学。佛罗里达州普罗维登斯Soc·兹比尔1256.15020
[78] Tao,T.和Vu,V.(2014)。随机矩阵:维格纳系综的普遍现象。在随机矩阵理论的现代方面。程序。交响乐。申请。数学72 121-172。阿默尔。数学。佛罗里达州普罗维登斯Soc·Zbl 1310.15077号
[79] Verzelen,N.和Arias-Castro,E.(2015)。稀疏随机网络中的社区检测。附录申请。大约25 3465–3510·Zbl 1326.05145号 ·doi:10.1214/14-AAP1080
[80] Vu,V.Q.和Lei,J.(2012)。高维稀疏PCA的最小最大估计率。第15届国际人工智能与统计会议(AISTATS)会议记录1278-1286。
[81] 北卡罗来纳州沃马尔德(1999)。随机正则图的模型。《组合数学调查》,1999年(坎特伯雷)。伦敦数学学会讲座笔记系列267 239–298·Zbl 0935.05080号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。