×

高维异方差数据的最优加权PCA。 (英语) Zbl 07677822号

摘要:现代数据越来越具有高维性和异方差性。本文考虑了从高维数据中估计潜在主成分的挑战,这些数据的噪声在样本之间是异方差的,即一些样本比其他样本更具噪声。这种异方差性自然会出现,例如,当组合来自不同来源或传感器的数据时。解释这种异方差的一种自然方法是,通过使用加权样本协方差矩阵的前导特征向量,在主成分分析中给噪声较大的样本块较小的权重。我们考虑了选择权重以最优地恢复潜在分量的问题。一般来说,我们无法知道这些最佳权重,因为它们取决于我们寻求估计的基础成分。然而,我们表明,在一些自然统计假设下,对于高维数据,最优权重收敛到信号和噪声方差的简单函数。令人惊讶的是,最佳权重并不是实际中常用的逆噪声方差权重。我们通过数值模拟和与现有加权方案的比较来验证理论结果。最后,我们简要讨论了当真实方差未知时,如何使用估计的信号和噪声方差,并说明了天文学实际数据的最佳权重。

MSC公司:

62H25个 因子分析和主成分;对应分析

软件:

光收缩
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abdallah,R.B.、Breloy,A.、Korso,M.N.E.和Lautu,D.,复合高斯源的贝叶斯信号子空间估计,信号处理。,167(2020),107310,doi:10.1016/j.sigpro.2019.107310。
[2] Ahumada,R.、Prieto,C.A.、Almeida,A.、Anders,F.等人,《斯隆数字天空测量的第16次数据发布:APOGEE-2南部测量的首次发布和eBOSS光谱的全面发布,天体物理学》。补充期刊。,249(2020),3,doi:10.3847/1538-4365/ab929e。
[3] Ardekani,B.A.、Kershaw,J.、Kashikura,K.和Kanno,I.,《使用子空间建模和最大似然估计的功能MRI激活检测》,IEEE Trans。医学成像,18(1999),第101-114页,doi:10.1109/42.759109。
[4] Bailey,S.,《含噪声和/或缺失数据的主成分分析》,Publ。阿童木。Soc.Pac.公司。,124(2012),第1015-1023页,doi:10.1086/668105。
[5] Benaych-Georges,F.和Nadkuditi,R.R.,大型矩形随机矩阵低秩扰动的奇异值和向量,J.Multivariate Anal。,111(2012),第120-135页,doi:10.1016/j.jmva.2012.04.019·Zbl 1252.15039号
[6] Besson,O.,低阶复合高斯噪声和白高斯噪声的混合界,IEEE Trans。信号处理。,64(2016),第5723-5732页,doi:10.1109/tsp.2016.2603965·Zbl 1414.94076号
[7] Bloemendal,A.、Erdős,L.、Knowles,A.、Yau,H.-T.和Yin,J.,《样本协方差和广义Wigner矩阵的各向同性局部定律》,电子。J.概率。,19(2014),第1-53页,doi:10.1214/ejp.v19-3054·兹比尔1288.15044
[8] Breloy,A.、Ginolhac,G.、Pascal,F.和Forster,P.,低秩非均匀噪声背景下的杂波子空间估计,IEEE Trans。信号处理。,63(2015),第2173-2182页,doi:10.1109/tsp.2015.2403284·Zbl 1394.94091号
[9] Breloy,A.、Ginolhac,G.、Pascal,F.和Forster,P.,异质低秩背景下的稳健协方差矩阵估计,IEEE Trans。信号处理。,64(2016),第5794-5806页,doi:10.1109/tsp.2016.599494·Zbl 1414.94091号
[10] Cochran,R.N.和Horne,F.H.,快速扫描波长动力学实验的统计加权主成分分析,Ana。化学。,49(1977),第846-853页,doi:10.1021/ac50014a045。
[11] Collas,A.、Bouchard,F.、Breloy,A.、Ginolhac,G.、Ren,C.和Ovarlez,J.-P.,《异方差信号的概率主成分分析:几何框架和聚类应用》,IEEE Trans。信号处理。,69(2021),第6546-6560页,doi:10.1109/tsp.2021.3130997。
[12] Deville,J.-C.和Malinvoud,E.,《官方社会经济统计数据分析》,J.R.Stat.Soc.Ser。A、 146(1983),第335-361页,doi:10.2307/2981452。
[13] Ding,X.和Yang,F.,协方差矩阵最大奇异值处边普适性的一个充要条件,Ann.Appl。概率。,28(2018),第1679-1738页,doi:10.1214/17-aap1341·Zbl 1426.15052号
[14] Dobriban,E.、Leeb,W.和Singer,A.,线性变换尖峰模型中的最优预测,Ann.Statist。,48(2020),第491-513页,doi:10.1214/19-aos1819·Zbl 1441.62158号
[15] Donoho,D.、Gavish,M.和Johnstone,I.,尖峰协方差模型中特征值的最佳收缩,Ann.Statist。,46(2018),第1742-1778页,doi:10.1214/17-aos1601·Zbl 1403.62099号
[16] Hong,D.、Balzano,L.和Fessler,J.A.,《异方差数据PCA的理论分析》,载于《第54届Allerton通信、控制和计算会议论文集》,IEEE,2016年,第496-503页,doi:10.1109/Allerton.2016.7852272。
[17] Hong,D.、Balzano,L.和Fessler,J.A.,高维异方差数据主成分分析的渐近性能,J.多元分析。,167(2018),第435-452页,doi:10.1016/j.jmva.2018.06.002·Zbl 1395.62139号
[18] Hong,D.,Balzano,L.和Fessler,J.A.,异方差数据的概率主成分分析,《第八届多传感器自适应处理计算进展国际研讨会论文集》,IEEE,2019年,第26-30页,doi:10.1109/camsap45676.2019.9022436。
[19] Hong,D.、Gilman,K.、Balzano,L.和Fessler,J.A.,《HePPCAT:异方差噪声数据的概率主成分分析》,IEEE Trans。信号处理。,69(2021),第4819-4834页,doi:10.1109/tsp.2021.3104979·兹伯利07591665
[20] Hong,D.、Sheng,Y.和Dobriban,E.,《通过随机符号翻转选择PCA中的组件数量》,预打印,http://arxiv.org/abs/2012.02985v1, 2020.
[21] Jansen,J.J.、Hoefsloot,H.C.J.、Boelens,H.F.M.、van der Greef,J.和Smiled,A.K.,《纵向代谢组学数据分析》,生物信息学,20(2004),第2438-2446页,doi:10.1093/Bioinformatics/bth268。
[22] Johnstone,I.M.和Lu,A.Y.,《关于高维主成分分析的一致性和稀疏性》,J.Amer。统计师。协会,104(2009),第682-693页,doi:10.1198/jasa.2009.0121·Zbl 1388.62174号
[23] Johnstone,I.M.和Paul,D.,《高维度PCA:定位》,Proc。IEEE,106(2018),第1277-1292页,doi:10.1109/jproc.2018.2846730。
[24] Johnstone,I.M.和Titterington,D.M.,高维数据的统计挑战,Philos。事务处理。R.Soc.A数学。物理学。工程科学。,367(2009),第4237-4253页,doi:10.1098/rsta.2009.0159·Zbl 1185.62007号
[25] Jolliffe,I.T.,《主成分分析》,第二版,Springer-Verlag,纽约,2002年,doi:10.1007/b98835·Zbl 1011.62064号
[26] Ke,Z.T.,Ma,Y.和Lin,X.,通过整体特征值匹配分析估计协方差矩阵中的峰值特征值数量,J.Amer。统计师。协会,(2021),第1-19页,doi:10.1080/01621459.2021.1933497。
[27] Knowles,A.和Yin,J.,随机矩阵的各向异性局部定律,Probab。理论相关领域,169(2016),第257-352页,doi:10.1007/s00440-016-0730-4·Zbl 1382.15051号
[28] Landa,B.,Zhang,T.T.C.K.,and Kluger,Y.,《比怀特揭示计数矩阵的等级》,预印本,http://arxiv.org/abs/2103.13840v2, 2021.
[29] Leeb,W.和Romanov,E.,最优谱收缩和异方差噪声PCA,IEEE Trans。《信息理论》,67(2021),第3009-3037页,doi:10.1109/tit.2021.3055075·Zbl 1473.62205号
[30] Leeb,W.E.,加权损失函数和异质信号的矩阵去噪,SIAM J.Math。数据科学。,3(2021),第987-1012页,doi:10.1137/20m1319577·Zbl 1476.62127号
[31] Leek,J.T.,高维基因组数据的渐近条件奇异值分解,生物计量学,67(2010),第344-352页,doi:10.111/J.1541-0420.2010.01455.x·Zbl 1217.62175号
[32] Lyke,B.W.,Higley,A.N.,McLane,J.N.,Schurhammer,D.P.等人,《斯隆数字巡天类星体目录:第十六次数据发布》,《天体物理学》。补充期刊。,250(2020),8,doi:10.3847/1538-4365/aba623。
[33] Marčenko,V.A.和Pastur,L.A.,一些随机矩阵集的特征值分布,数学USSR-Sb.,1(1967),第457-483页,doi:10.1070/sm1967v001n04abeh001994·Zbl 0162.22501号
[34] Nadakuditi,R.R.,OptShrink:一种通过优化、数据驱动的奇异值收缩来改进低阶信号矩阵去噪的算法,IEEE Trans。《信息理论》,60(2014),第3002-3018页,doi:10.1109/tit.2014.231161·兹比尔1360.622399
[35] Nadler,B.,《主成分分析的有限样本近似结果:矩阵摄动法》,Ann.Statist。,36(2008),第2791-2817页,doi:10.1214/08-aos618·Zbl 1168.62058号
[36] Papadimitriou,S.、Sun,J.和Faloutsos,C.,多时间序列中的流模式发现,《第31届超大数据库国际会议论文集》,美国计算机学会,2005年,第697-708页,http://www.vldb.org/archives/website/2005/program/paper/thu/p697-papadimitriou.pdf。
[37] Paul,D.,大维尖峰协方差模型样本特征结构的渐近性,统计量。Sinica,17(2007),第1617-1642页,http://www3.stat.sinica.edu.tw/statistica/J17N4/J17N418/J17N4.18.html。 ·兹比尔1134.62029
[38] Pedersen,H.、Kozerke,S.、Ringgaard,S.,Nehrke,K.和Kim,W.Y.,K-t PCA:使用主成分分析的时间约束K-t BLAST重建,Magn。Reson公司。医学,62(2009),第706-716页,doi:10.1002/mrm.22052。
[39] PurpleAir,实时空气质量监测,https://www2.purpleair.com。
[40] Rockafellar,R.T.和Wets,R.J.B.,变分分析,施普林格,柏林-海德堡,1998,doi:10.1007/978-3642-02431-3·Zbl 0888.49001号
[41] Sharma,N.和Saroha,K.,《一种使用主成分分析和特征排序的癌症数据集降维新方法》,载于《2015年计算机、通信和信息学进展国际会议论文集》(ICACCI),IEEE,2015年,第2261-2264页,doi:10.1109/ICACCI.2015.7275954。
[42] Sun,Y.、Breloy,A.、Babu,P.、Palomar,D.P.、Pascal,F.和Ginolhac,G.,雷达系统低秩杂波参数估计的低复杂度算法,IEEE Trans。信号处理。,64(2016),第1986-1998页,doi:10.1109/tsp.2015.2512535·Zbl 1414.94597号
[43] Tamuz,O.、Mazeh,T.和Zucker,S.,《纠正大量光度光曲线中的系统效应》,Mon。不是。R.阿斯顿。Soc.,356(2005),第1466-1470页,doi:10.1111/j.1365-2966.2004.08585.x。
[44] Tsalmantza,P.和Hogg,D.W.,《光谱的数据驱动模型:在斯隆数字巡天中发现双红移》,天体物理学。J.,753(2012),122,doi:10.1088/0004-637x/753/2/122。
[45] 美国环境保护署,空气质量系统数据集市,https://www.epa.gov/airdata。
[46] Vershynin,R.,《高维概率》,剑桥大学出版社,剑桥,2018年,doi:10.1017/9781108231596·Zbl 1430.60005号
[47] Wagner,G.S.和Owens,T.J.,使用多通道地震数据的信号检测,Bull。地震波。Soc.Amer.,美国。,86(1996),第221-231页,doi:10.1785/bssa08601a0221。
[48] Xi,H.,Yang,F.,and Yin,J.,样本协方差矩阵特征向量经验谱分布的收敛性,Ann.Statist。,48(2020),第953-982页,doi:10.1214/19-aos1832·Zbl 1447.15033号
[49] Young,G.,最大似然估计和因子分析,《心理测量学》,6(1941),第49-53页,doi:10.1007/bf02288574·Zbl 0063.09080号
[50] Zhang,A.R.,Cai,T.T.和Wu,Y.,异方差主成分分析:算法、优化和应用,Ann.Statist。,50(2022),第53-80页,doi:10.1214/21-aos2074·兹比尔1486.62183
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。