×

通过变量投影进行稀疏主成分分析。 (英语) Zbl 1440.62231号

摘要:稀疏主成分分析(Sparse princy component analysis,SPCA)已成为现代数据分析的一种强大技术,通过识别数据中的局部空间结构和消除不同时间尺度之间的歧义,改进了对低阶结构的解释。我们通过将SPCA算法公式化为一个值函数优化问题,展示了一种稳健且可扩展的SPCA算法。这种观点导致了一种灵活且计算效率高的算法。该方法可以进一步利用线性代数中的随机方法,将SPCA扩展到大规模(大数据)环境。我们提出的创新还允许稳健的SPCA公式,尽管输入数据严重损坏,但该公式仍能获得有意义的稀疏主成分。使用合成数据和实际数据证明了所提出的算法,并显示了优异的计算效率和诊断性能。

MSC公司:

62H25个 因子分析和主成分;对应分析
62J12型 广义线性模型(逻辑模型)
68瓦20 随机算法
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] G.Abraham和M.Inouye,大规模全基因组数据的快速主成分分析,《公共科学图书馆·综合》,9(2014),e93766。
[2] A.Aravkin和S.Becker,变分矩阵分解的双重平滑和值函数技术,载于《稳健低秩和稀疏矩阵分解手册:图像和视频处理中的应用》,查普曼和霍尔/CRC出版社,佛罗里达州博卡拉顿,2016年,第3.1-3.33页·Zbl 1339.68002号
[3] A.Y.Aravkin、D.Drusvyatskiy和T.van Leeuwen,通过部分最小化技术的有效二次惩罚,IEEE Trans。自动化。对照,63(2018),第2131-2138页·Zbl 1423.49020号
[4] A.Y.Aravkin和T.van Leeuwen,估算反问题中的妨害参数,反问题,28(2012),115016·Zbl 1253.49021号
[5] T.Askham和J.N.Kutz,优化动态模式分解的变量投影方法,SIAM J.Appl。动态。系统。,17(2018),第380-416页,https://doi.org/10.1137/M1124176。 ·兹比尔1384.37122
[6] H.Attouch、J.Bolt、P.Redont和A.Soubeyran,非凸问题的近似交替最小化和投影方法:基于Kurdyka-Łojasiewicz不等式的方法,数学。操作。研究,35(2010),第438-457页·Zbl 1214.65036号
[7] H.Babaee和T.Sapsis,描述有限时间不稳定性相关模式的最小化原则,Proc。A、 472(2016),20150779·Zbl 1371.34064号
[8] A.Beck和M.Teboulle,线性反问题的快速迭代收缩阈值算法,SIAM J.成像科学。,2(2009),第183-202页,https://doi.org/10.1137/080716542。 ·Zbl 1175.94009号
[9] G.Berkooz、P.Holmes和J.L.Lumley,《湍流分析中的适当正交分解》,载于《流体力学年度评论》,第25卷,《年度评论公司》,加利福尼亚州帕洛阿尔托,1993年,第539-575页。
[10] J.Bolt、S.Sabach和M.Teboulle,非凸和非光滑问题的近似交替线性化最小化,数学。程序。,146(2014),第459-494页·Zbl 1297.90125号
[11] T.Bouwmans、A.Sobral、S.Javed、S.K.Jung和E.-H.Zahzah,分解为低秩加性矩阵用于背景/前景分离:与大规模数据集的比较评估综述,计算。科学。第23版(2017年),第1-71页·Zbl 1398.68572号
[12] M.Brand,含缺失值的不确定数据的增量奇异值分解,欧洲计算机视觉会议,计算机课堂讲稿。科学。2350,施普林格,海德堡,2002年,第707-720页·Zbl 1034.68580号
[13] R.Bro,巴拉法科。化学教程和应用程序。智力。实验室系统。,38(1997),第149-171页。
[14] S.L.Brunton和B.R.Noack,《闭环湍流控制:进展和挑战》,应用。机械。版次:67(2015),050801。
[15] S.L.Brunton、J.L.Proctor和J.N.Kutz,通过非线性动力系统的稀疏识别从数据中发现控制方程,Proc。国家。阿卡德。科学。美国,113(2016),第3932-3937页·Zbl 1355.94013号
[16] 蔡东东,马志明,吴永武,稀疏主成分分析:最优速率与自适应估计,Ann.Statist。,41(2013),第3074-3110页·Zbl 1288.62099号
[17] E.J.Candès、X.Li、Y.Ma和J.Wright,稳健主成分分析?,J.ACM,58(2011),11·Zbl 1327.62369号
[18] K.Carlberg,降阶模型的自适应h精化,国际。J.数字。方法工程师,102(2015),第1192-1210页·Zbl 1352.65136号
[19] P.L.Combettes和J.-C.Pesquet,《信号处理中的近距离分裂方法》,载于《科学与工程中反问题的定点算法》,施普林格,纽约,2011年,第185-212页·Zbl 1242.90160号
[20] P.Comon,Tensors:简介,IEEE信号处理。Mag.,31(2014),第44-53页。
[21] C.Croux、P.Filzmoser和H.Fritz,《稳健稀疏主成分分析》,《技术计量学》,55(2013),第202-214页。
[22] J.P.Cunningham和Z.Ghahramani,《线性降维:调查、见解和概括》,J.Mach。学习。Res.,16(2015),第2859-2900页·Zbl 1351.62123号
[23] A.d'Aspremont、F.Bach和L.E.Ghaoui,稀疏主成分分析的最优解,J.Mach。学习。Res.,9(2008),第1269-1294页·Zbl 1225.68170号
[24] A.d'Aspremont、L.E.Ghaoui、M.I.Jordan和G.R.Lanckriet,《使用半定规划的稀疏PCA直接公式》,载于《神经信息处理系统进展》,2005年,第41-48页。
[25] P.Drineas和M.W.Mahoney,RandNLA:随机化数值线性代数,ACM委员会,59(2016),第80-90页。
[26] B.Efron、T.Hastie、I.Johnstone和R.Tibshirani,最小角度回归,《统计年鉴》。,32(2004年),第407-499页·Zbl 1091.62054号
[27] N.B.Erichson、K.Manohar、S.L.Brunton和J.N.Kutz,随机CP张量分解,预印本,https://arxiv.org/abs/1703.09074, 2017.
[28] N.B.Erichson、S.Voronin、S.L.Brunton和J.N.Kutz,使用R的随机矩阵分解,预印本,https://arxiv.org/abs/1608.02148, 2016.
[29] M.Farazmand和T.P.Sapsis,预测高维系统中爆发现象的动力学指标,物理。E版,94(2016),032212。
[30] G.Golub和V.Pereyra,可分离非线性最小二乘法:变量投影法及其应用,反问题,19(2003),第R1-R26页·Zbl 1022.65014号
[31] J.C.Gower和G.B.Dijksterhuis,《Procrustes问题》,牛津统计师。科学。序列号。30,牛津大学出版社,牛津,2004年·Zbl 1057.62044号
[32] N.Halko、P.-G.Martinsson和J.A.Tropp,《发现随机结构:构造近似矩阵分解的概率算法》,SIAM Rev.,53(2011),第217-288页,https://doi.org/10.1137/090771806。 ·兹比尔1269.65043
[33] J.H.Hong、C.Zach和A.Fitzgibbon,《重新审视可分离非线性最小二乘问题的变量投影方法》,载于《2017年IEEE计算机视觉和模式识别会议论文集》,IEEE,2017年,第5939-5947页。
[34] H.Hotelling,《将复杂的统计变量分析为主要成分》,J.Educ。心理医生。,24(1933年),第417-441页。
[35] P.J.Huber,《稳健统计》,载于《国际统计科学百科全书》,柏林斯普林格出版社,2011年,第1248-1251页。
[36] M.Hubert、T.Reynkens、E.Schmitt和T.Verdonck,带离群值的高维数据的稀疏主成分分析,技术计量学,58(2016),第424-434页。
[37] I.T.Jolliffe,主成分分析和因子分析,摘自《主成分分析》,施普林格,纽约,1986年,第115-128页。
[38] I.T.Jolliffe、N.T.Trendafilov和M.Uddin,基于LASSO、J.Compute的改进主成分技术。图表。统计人员。,12(2003年),第531-547页。
[39] M.Journeáe、Y.Nesterov、P.Richtaárik和R.Sepulchre,稀疏主成分分析的广义幂法,J.Mach。学习。Res.,11(2010),第517-553页·Zbl 1242.62048号
[40] E.Kaiser、B.R.Noack、L.Cordier、A.Spohn、M.Segond、M.Abel、G.Daviller、J.O¨sth、S.Krajnovic¨和R.K.Niven,混合层的基于簇的降阶建模,J.流体力学。,754(2014),第365-414页·Zbl 1329.76177号
[41] J.N.Kutz、X.Fu和S.L.Brunton,多分辨率动态模式分解,SIAM J.Appl。动态。系统。,15(2016),第713-735页,https://doi.org/10.1137/15M1023543。 ·Zbl 1338.37121号
[42] D.Lee、W.Lee、Y.Lee和Y.Pawitan,高通量基因组数据的超解析主成分分析,BMC Bioinf。,11 (2010), 296.
[43] J.-C.Loiseau和S.L.Brunton,约束稀疏Galerkin回归,流体力学杂志。,838(2018),第42-67页·Zbl 1419.76205号
[44] 马绍明,戴义勇,生物信息学研究中基于主成分分析的方法,简介。生物信息。,12(2011年),第714-722页。
[45] M.W.Mahoney,矩阵和数据的随机算法,Found。趋势马赫数。学习。,3(2011年),第123-224页·Zbl 1232.68173号
[46] K.Manohar、B.W.Brunton、J.N.Kutz和S.L.Brunton,重建用数据驱动稀疏传感器布置,IEEE控制系统杂志,38(2018),第63-86页·Zbl 1477.93128号
[47] R.Maronna、R.D.Martin和V.Yohai,《稳健统计》,John Wiley&Sons出版社,奇切斯特,2006年·邮编1094.62040
[48] D.Meng,Q.Zhao,Z.Xu,通过(L_1)-范数最大化提高稀疏PCA的鲁棒性,模式识别。,45(2012),第487-497页·Zbl 1225.68202号
[49] B.Mordukhovich,变分分析和广义微分。一、 格兰德伦数学。威斯。330,施普林格-弗拉格,柏林,2006年。
[50] B.R.Noack、K.Afanasiev、M.Morzynski、G.Tadmor和F.Thiele,瞬态和瞬态后圆柱尾迹的低维模型层次,《流体力学杂志》。,497(2003),第335-363页·Zbl 1067.76033号
[51] V.Ozolin,R.Lai,R.Caflisch和s.Osher,数学和物理变分问题的压缩模式,Proc。国家。阿卡德。科学。美国,110(2013),第18368-18373页·Zbl 1292.81024号
[52] N.Parikh和S.Boyd,发现近似算法。最佳趋势。,1(2014年),第127-239页。
[53] K.Pearson,《关于最接近空间点系的直线和平面》,伦敦、爱丁堡和都柏林哲学杂志和科学杂志,2(1901),第559-572页。
[54] R.W.Reynolds、N.A.Rayner、T.M.Smith、D.C.Stokes和W.Wang,《改进的气候原位和卫星SST分析》,《气候杂志》,15(2002),第1609-1625页。
[55] R.T.Rockafellar和R.J.-B.Wets,变分分析,格兰德伦数学。威斯。317,施普林格-弗拉格,柏林,2009年·Zbl 0888.49001号
[56] T.P.Sapsis和P.F.Lermusiaux,连续随机动力系统的动态正交场方程,Phys。D、 238(2009),第2347-2360页·Zbl 1180.37119号
[57] H.Schaeffer、R.Caflisch、C.D.Hauck和S.Osher,偏微分方程的稀疏动力学,Proc。国家。阿卡德。科学。美国,110(2013),第6634-6639页·Zbl 1292.35012号
[58] 沈浩,黄振中,基于正则化低秩矩阵逼近的稀疏主成分分析,多元分析。,99(2008),第1015-1034页·Zbl 1141.62049号
[59] C.D.Sigg和J.M.Buhmann,稀疏和非负PCA的期望最大化,载于《第25届国际机器学习会议论文集》,ACM,2008年,第960-967页。
[60] N.Simon、J.Friedman、T.Hastie和R.Tibshirani,《稀疏群套索》,J.Compute。图表。统计人员。,22(2013),第231-245页。
[61] K.Taira、S.L.Brunton、S.Dawson、C.W.Rowley、T.Colonius、B.J.McKeon、O.T.Schmidt、S.Gordeyev、V.Theofilis和L.S.Ukeiley,《流体流动的模态分析:概述》,AIAA J.,55(2017),第4013-4041页。
[62] K.Taira和T.Colonius,浸没边界法:投影法,J.Compute。物理。,225(2007),第2118-2137页·Zbl 1343.76027号
[63] K.Taira、A.G.Nair和S.L.Brunton,二维衰减各向同性湍流的网络结构,《流体力学杂志》。,795(2016),R2·Zbl 1359.76124号
[64] R.Tibshirani、M.Saunders、S.Rosset、J.Zhu和K.Knight,《通过融合套索的稀疏性和流畅性》,J.R.Stat.Soc.Ser。B统计方法。,67(2005),第91-108页·Zbl 1060.62049号
[65] P.Tseng,不可微极小化块坐标下降法的收敛性,J.Optim。理论应用。,109(2001),第475-494页·Zbl 1006.65062号
[66] M.Udell和A.Townsend,为什么大数据矩阵近似低秩?,SIAM J.数学。数据科学。,1(2019年),第144-160页,https://doi.org/10.1137/18M1183480。 ·Zbl 1513.68057号
[67] M.Velegar、N.B.Erichson、C.A.Keller和J.N.Kutz,《使用Ristretto库的全球大气化学可扩展诊断》(1.0版),《地球科学》。《模型开发》,第12卷(2019年),第1525-1539页,https://doi.org/10.5194/gmd-12-1525-2019。
[68] D.M.Witten、R.Tibshirani和T.Hastie,《惩罚矩阵分解及其在稀疏主成分和典型相关分析中的应用》,生物统计学,10(2009),第515-534页·Zbl 1437.62658号
[69] 袁明源,林毅,分组变量回归中的模型选择与估计,J.R.Stat.Soc.Ser。B统计方法。,68(2006),第49-67页·Zbl 1141.62030号
[70] H.Zou和T.Hastie,《通过弹性网进行正则化和变量选择》,J.R.Stat.Soc.Ser。B统计方法。,67(2005),第301-320页·Zbl 1069.62054号
[71] H.Zou、T.Hastie和R.Tibshirani,稀疏主成分分析,J.Compute。图表。统计人员。,15(2006年),第265-286页。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。