×

异方差PCA:算法、优化和应用。 (英语) Zbl 1486.62183号

摘要:介绍了异方差噪声下主成分分析(PCA)的一般框架。我们提出了一种称为异方差主成分分析的算法,该算法涉及迭代输入样本协方差矩阵的对角项,以消除异方差引起的估计偏差。在广义峰值协方差模型下,该过程具有计算效率和可证明的最佳性。一个关键的技术步骤是对奇异子空间进行确定性鲁棒摄动分析,这可能是独立的。在一系列高维统计问题中证明了该算法的有效性,包括异方差噪声下的奇异值分解(SVD)、泊松主成分分析(Poisson PCA)以及异方差和不完全数据的奇异值分析。

MSC公司:

62H25个 因子分析和主成分;对应分析
62甲12 多元分析中的估计
62C20个 统计决策理论中的Minimax过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bai,J.和Li,K.(2012年)。高维因子模型的统计分析。安。统计师。40 436-465. ·Zbl 1246.62144号 ·doi:10.1214/11-AOS966
[2] Bai,Z.和Yao,J.(2012)。广义加标总体模型中的样本特征值。《多元分析杂志》。106 167-177. ·Zbl 1301.62049号 ·doi:10.1016/j.jmva.2011.10.009
[3] Baik,J.、Ben Arous,G.和Péché,S.(2005)。非零复样本协方差矩阵最大特征值的相变。安·普罗巴伯。33 1643-1697. ·Zbl 1086.15022号 ·doi:10.1214/00911790500000233
[4] Baik,J.和Silverstein,J.W.(2006)。加标总体模型的大样本协方差矩阵的特征值。《多元分析杂志》。97 1382-1408. ·Zbl 1220.15011号 ·doi:10.1016/j.jmva.2005.08.003
[5] BARTLETT,M.S.(1937年)。心理因素的统计概念。Br.J.健康心理学。28 97.
[6] Bubeck,S.(2015年)。凸优化:算法和复杂性。已找到。趋势马赫数。学习。8 231-357. ·Zbl 1365.90196号 ·doi:101561/2200000050
[7] CAI,J.-F.和WEI,K.(2018年)。在低秩矩阵恢复中有效利用该结构。图像、形状和形式的处理、分析和学习。零件1把手b。数字。分析。19 21-51. 荷兰北部,阿姆斯特丹。
[8] CAI,T.T.,HAN,R.和ZHANG,A.R.(2020年)。关于异方差Wishart型矩阵的非渐近浓度。ArXiv预印本。可从ArXiv:2008.12434获得。
[9] Cai,T.T.和Zhang,A.(2016)。不完全数据下高维协方差矩阵的极小极大率最优估计。《多元分析杂志》。150 55-74. ·Zbl 1347.62088号 ·doi:10.1016/j.jmva.2016.05.002
[10] CAI,T.T.和ZHANG,A.(2018)。奇异子空间的速率最优扰动界及其在高维统计中的应用。安。统计师。46 60-89. ·Zbl 1395.62122号 ·doi:10.1214/17-AOS1541
[11] Candès,E.J.和Recht,B.(2009年)。通过凸优化实现精确矩阵补全。已找到。计算。数学。9 717-772. ·Zbl 1219.90124号 ·doi:10.1007/s10208-009-9045-5
[12] Candès,E.J.、Sing-Long,C.A.和Trzasko,J.D.(2013年)。奇异值阈值估计和谱估计的无偏风险估计。IEEE传输。信号处理。61 4643-4657. ·Zbl 1393.94187号 ·doi:10.1109/TSP.2013.2270464
[13] Candès,E.J.和Tao,T.(2010年)。凸松弛的威力:近最优矩阵补全。IEEE传输。Inf.理论56 2053-2080·Zbl 1366.15021号 ·doi:10.1109/TIT.2010.2044061
[14] 曹毅、张安和李华(2020)。宏基因组数据中细菌组成矩阵的多样本估计。生物特征107 75-92. ·Zbl 1435.62188号 ·doi:10.1093/biomet/asz062
[15] Chatterjee,S.(2015)。基于广义奇异值阈值的矩阵估计。安。统计师。43 177-214. ·Zbl 1308.62038号 ·doi:10.1214/14-AOS1272
[16] COLLINS,M.、DASGUPTA,S.和SCHAPIRE,R.E.(2002年)。将主成分分析推广到指数族。神经信息处理系统的研究进展617-624.
[17] Davis,C.和Kahan,W.M.(1970年)。特征向量的扰动旋转。三、。SIAM J.数字。分析。7 1-46. ·Zbl 0198.47201号 ·doi:10.1137/0707001
[18] DE LATHAUWER,L.、DE MOOR,B.和VANDEWALE,J.(2000)。关于高阶张量的最佳秩-1和秩-[({R_1},{R_2},\dots,{R_N})]逼近。SIAM J.矩阵分析。申请。21 1324-1342. ·Zbl 0958.15026号 ·doi:10.1137/S0895479898346995
[19] Donoho,D.和Gavish,M.(2014)。奇异值阈值矩阵去噪的最小最大风险。安。统计师。42 2413-2440. ·2014年10月13日 ·doi:10.1214/14-AOS1257
[20] Donoho,D.、Gavish,M.和Johnstone,I.(2018年)。尖峰协方差模型中特征值的最优收缩。安。统计师。46 1742-1778. ·Zbl 1403.62099号 ·doi:10.1214/17-AOS1601
[21] FLORESCU,L.和PERKINS,W.(2016)。二分随机块模型中的谱阈值。学习理论会议943-959.
[22] FORTUNATO,S.(2010)。图中的社区检测。物理学。代表。486 75-174. ·doi:10.1016/j.physrep.2009.11.002
[23] GAVISH,M.和DONOHO,D.L.(2017年)。奇异值的最佳收缩。IEEE传输。Inf.理论63 2137-2152. ·Zbl 1366.94100号 ·doi:10.10109/TIT.2017.2653801
[24] GHOSH,J.和DUNSON,D.B.(2009年)。贝叶斯因子分析中的缺省先验分布和有效后验计算。J.计算。图表。统计师。18 306-320. ·doi:10.1198/jcgs.2009.07145
[25] HONG,D.、BALZANO,L.和FESLER,J.A.(2016)。异方差数据主成分分析的理论分析。通信、控制和计算(阿勒顿), 2016 54关于496-503. IEEE,洛斯阿拉米托斯。
[26] HONG,D.、BALZANO,L.和FESSLER,J.A.(2018年)。PCA对高维异方差数据的渐近性能。《多元分析杂志》。167 435-452. ·Zbl 1395.62139号 ·doi:10.1016/j.jmva.2018.06.002
[27] HONG,D.、BALZANO,L.和FESSLER,J.A.(2018年)。PCA对高维异方差数据的渐近性能。《多元分析杂志》。167 435-452. ·Zbl 1395.62139号 ·doi:10.1016/j.jmva.2018.06.002
[28] Hotelling,H.(1936)。两组变量之间的关系。生物特征28 321-377. ·Zbl 0015.40705号
[29] Jain,P.、Netrapalli,P.和Sanghavi,S.(2013)。使用交替最小化完成低秩矩阵(扩展抽象)。STOC公司13-会议记录2013ACM计算理论研讨会665-674. 纽约ACM·Zbl 1293.65073号 ·doi:10.1145/2488608.2488693
[30] Johnstone,I.M.(2001)。关于主成分分析中最大特征值的分布。安。统计师。29 295-327. ·Zbl 1016.62078号 ·doi:10.1214/aos/1009210544
[31] KESHAVAN,R.H.(2012)。斯坦福大学博士论文协同过滤的高效算法。
[32] Keshavan,R.H.、Montanari,A.和Oh,S.(2010年)。从几个条目中完成矩阵。IEEE传输。Inf.理论56 2980-2998. ·Zbl 1366.62111号 ·doi:10.1109/TIT.2010.2046205
[33] Keshavan,R.H.、Montanari,A.和Oh,S.(2010年)。从噪声条目中完成矩阵。J.马赫。学习。研究。11 2057-2078·Zbl 1242.62069号
[34] 劳利·D·N和麦克斯韦·A·E(1962)。因子分析作为一种统计方法。J.R.Stat.Soc公司。,序列号。D、 统计。12 209-229.
[35] LIU,L.T.、DOBRIBAN,E.和SINGER,A.(2018年)\(e)PCA:高维指数族PCA。附录申请。斯达。12 2121-2150. ·Zbl 1411.62376号 ·doi:10.1214/18-AOAS1146
[36] Lounici,K.(2014)。缺失观测值的高维协方差矩阵估计。伯努利20 1029-1058. ·Zbl 1320.62124号 ·文件编号:10.3150/12-BEJ487
[37] LUO,Y.,HAN,R.和ZHANG,A.R.(2020年)。基于摄动投影误差界的Schatten-\(q)矩阵摄动理论。ArXiv预印本。可从ArXiv:2008.01312获得·Zbl 1480.15025号
[38] MARTIN,A.D.、QUINN,K.M.和PARK,J.H.(2011)。MCMCpack:R中的马尔可夫链蒙特卡罗。J.统计软件。42
[39] Mazumder,R.、Hastie,T.和Tibshirani,R.(2010)。用于学习大型不完备矩阵的谱正则化算法。J.马赫。学习。研究。11 2287-2322. ·Zbl 1242.68237号
[40] MELAMED,D.(2014)。二部网络中的社区结构:双投影方法。公共科学图书馆9电子97823·doi:10.1371/journal.pone.0097823
[41] MOHAMED,S.、GHAHRAMANI,Z.和HELLER,K.A.(2009年)。贝叶斯指数族主成分分析。神经信息处理系统的研究进展1089-1096.
[42] Nadakuditi,R.R.(2014)。OptShrink:一种通过数据驱动的最优奇异值收缩来改进低阶信号矩阵去噪的算法。IEEE传输。Inf.理论60 3002-3018. ·Zbl 1360.62399号 ·doi:10.1009/TIT.2014.2311661
[43] Nadler,B.(2008)。主成分分析的有限样本近似结果:矩阵摄动方法。安。统计师。36 2791-2817. ·Zbl 1168.62058号 ·doi:10.1214/08-AOS618
[44] OWEN,A.B.和WANG,J.(2016)。因子分析的双交叉验证。统计师。科学。31 119-139. ·Zbl 1442.62136号 ·doi:10.1214/15-STS539
[45] Paul,D.(2007年)。大维尖峰协方差模型样本特征结构的渐近性。统计师。西尼卡17 1617-1642年·Zbl 1134.62029号
[46] Recht,B.(2011年)。矩阵补全的简单方法。J.马赫。学习。研究。12 3413-3430. ·Zbl 1280.68141号
[47] 罗宾·G、乔斯·J、穆里尼斯·E。和SARDY,S.(2019年)。具有协变的低秩模型,用于具有缺失值的计数数据。《多元分析杂志》。173 416-434. ·Zbl 1422.62192号 ·doi:10.1016/j.jmva.2019.04.004
[48] SALMON,J.、HARMANY,Z.、DELEDALLE,C.-A.和WILLETT,R.(2014)。基于非局部PCA的泊松噪声抑制。数学杂志。图像视觉48 279-294. ·Zbl 1365.94050号 ·doi:10.1007/s10851-013-0435-6
[49] 汤姆森(1939)。人类能力的因子分析。英国教育杂志。精神病。9 188-195.
[50] TIPPING,M.E.和BISHOP,C.M.(1999)。概率主成分分析。J.R.统计社会服务。B.统计方法。61 611-622. ·Zbl 0924.62068号 ·doi:10.1111/1467-9868.00196
[51] VASWANI,N.和GUO,H.(2016)。相关PCA:数据与噪声相关时的主成分分析。神经信息处理系统的研究进展1768-1776.
[52] VASWANI,N.和NARAYANAMURTHY,P.(2017年)。非各向同性和数据相关噪声中PCA的有限样本保证。2017年55第届阿勒顿通信、控制和计算年会(阿勒顿) 783-789. IEEE,洛斯阿拉米托斯。
[53] VASWANI,N.和NARAYANAMURTHY,P.(2018年)。稀疏数据相关噪声中的PCA。2018年IEEE信息理论国际研讨会(ISIT公司) 641-645. IEEE,洛斯阿拉米托斯。
[54] VASWANI,N.和NARAYANAMURTHY,P.(2020年)。稀疏数据相关噪声中基于PCA的快速鲁棒子空间跟踪。IEEE J.选择。区域信息理论1 723-744.
[55] Vershynin,R.(2012)。介绍随机矩阵的非渐近分析。压缩传感210-268. 剑桥大学出版社,剑桥。
[56] Wang,W.和Fan,J.(2017)。高维尖峰协方差经验特征结构的渐近性。安。统计师。45 1342-1374. ·Zbl 1373.62299号 ·doi:10.1214/16-AOS1487
[57] Wedin,P.(1972年)。奇异值分解的扰动界。比特币12 99-111. ·Zbl 0239.15015号 ·doi:10.1007/bf01932678
[58] Yao,J.、Zheng,S.和Bai,Z.(2015)。大样本协方差矩阵与高维数据分析.剑桥统计与概率数学系列39.剑桥大学出版社,纽约·Zbl 1380.62011年 ·doi:10.1017/CBO9781107588080
[59] Yu,Y.,Wang,T.和Samworth,R.J.(2015)。对于统计学家来说,戴维斯-卡汉定理的一个有用变体。生物特征102 315-323. ·兹比尔1452.15010 ·doi:10.1093/biomet/asv008
[60] 张安、蔡、T.T.和吴寅(2022)。《异方差主成分分析:算法、优化和应用》补充https://doi.org/10.1214/21-AOS2074SUPP网站
[61] Zhang,A.和Xia,D.(2018)。张量SVD:统计和计算极限。IEEE传输。Inf.理论64 7311-7338. ·Zbl 1432.62176号 ·doi:10.1109/TIT.2018.2841377
[62] ZHOU,Z.和AMINI,A.A.(2020)。最优二部网络聚类。J.马赫。学习。研究。21 40 ·Zbl 1498.68281号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。