×

可证明的最优稀疏主成分分析。 (英语) Zbl 1435.62214号

摘要:本文研究了维数为n的协方差矩阵的稀疏主成分分析(SPCA)问题,目的是利用混合整数优化找到具有稀疏性的解。我们提出了一种定制的分枝定界算法Optimal-SPCA,它使我们能够在秒内求解SPCA,以证明(n=100)s,(k=10)s的最优性。同样的算法也可以应用于(n=10{,}000\,\text{s})或更高的问题,以在秒内找到高质量的可行解,同时花几个小时来证明最优性。我们将我们的方法应用于许多实际数据集,以证明我们的方法适用于其他方法尝试的相同问题规模,同时与这些方法相比提供了更好的解决方案,解释了更高的方差部分,并允许完全控制所需的稀疏性。作为提交文件的一部分进行审查的软件已获得DOI(数字对象标识符)https://doi.org/10.5281/zenodo.2027898.

MSC公司:

62H25个 因子分析和主成分;对应分析
2015财年65 矩阵特征值和特征向量的数值计算
65千5 数值数学规划方法
90C06型 数学规划中的大尺度问题
90C26型 非凸规划,全局优化
90立方厘米27 组合优化
62兰特 大数据和数据科学的统计方面
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Amini,A.A.,Wainwright,M.J.:稀疏主成分半定松弛的高维分析。摘自:IEEE信息理论国际研讨会,第2454-2458页。IEEE(2008)
[2] Asteris,M.,Papailiopoulos,D.,Kyrillidis,A.,Dimakis,A.G.:通过二元匹配的稀疏PCA。摘自:神经信息处理系统进展,第766-774页(2015)
[3] Bair,E.,Hastie,T.,Paul,D.,Tibshirani,R.:监督主成分预测。《美国统计协会期刊》101(473),119-137(2006)·Zbl 1118.62326号
[4] Beck,A.,Vaisbourd,Y.:稀疏主成分分析问题:最优性条件和算法。J0最佳。理论应用。170(1), 119-143 (2016) ·Zbl 1376.90061号
[5] Bennett,K.P.,Parrado-Hernández,E.:优化和机器学习研究的相互作用。J.马赫。学习。第7号决议,1265-1281(2006年)·兹比尔1222.68146
[6] Bertsimas,D.,Copenhaver,M.S.:线性和矩阵回归中鲁棒性和正则化等价性的表征。欧洲药典。第270931-942号决议(2017年)·Zbl 1403.62040号
[7] Bertsimas,D.,Copenhaver,M.S.,Mazumder,R.:可证明的最优低秩因子分析。J.马赫。学习。第18(29)号决议,1-53(2017)·Zbl 1437.62216号
[8] Bertsimas,D.,Dunn,J.:最佳分类树。机器。学习。64(1), 1-44 (2017) ·Zbl 1455.68159号
[9] Bertsimas,D.,King,A.:线性回归的算法方法。操作。第64(1)号决议,2-16(2016)·Zbl 1338.90272号
[10] Bertsimas,D.、King,A.、Mazumder,R.等人:通过现代优化透镜进行最佳子集选择。Ann.Stat.44(2),813-852(2016)·Zbl 1335.62115号
[11] Bertsimas,D.,Shioda,R.:通过整数优化进行分类和回归。操作。第55(2)号决议,252-271(2007)·Zbl 1167.90593号
[12] Bixby,R.E.:线性和混合整数编程计算的简史。文件。数学。额外卷:优化故事,107-121(2012)·1270.90003赞比亚比索
[13] Candès,E.J.,Li,X.,Ma,Y.,Wright,J.:稳健主成分分析?J.ACM 58(3),11(2011)·Zbl 1327.62369号
[14] Carrizosa,E.,Guerrero,V.:rs-Sparse主成分分析:使用VNS的混合整数非线性规划方法。计算。操作。第52号决议、第349-354号决议(2014年)·Zbl 1349.62248号
[15] Chamberlain,G.,Rothschild,M.J.:大型资产市场的套利、因子结构和均值-方差分析。《计量经济学》51,1281-1304(1983)·Zbl 0523.90017号
[16] Chan,S.O.,Papailiopoulos,D.,Rubinstein,A.:关于稀疏PCA的最坏情况近似性。arXiv预印arXiv:1507.05950(2015)
[17] Chen,Y.,Jalali,A.,Sanghavi,S.,Xu,H.:通过凸优化聚类部分观察图。J.马赫。学习。第15(1)号决议,2213-2238(2014)·Zbl 1319.62123号
[18] Computing,J.:Julia微观基准(2018)。https://julialang.org/基准/
[19] d'Aspremont,A.,Bach,F.,Ghaoui,L.E.:稀疏主成分分析的最佳解决方案。J.马赫。学习。第9号决议,1269-1294(2008)·Zbl 1225.68170号
[20] d'Aspremont,A.,El Ghaoui,L.,Jordan,M.I.,Lanckriet,G.R.:使用半定规划的稀疏PCA直接公式。SIAM版本49(3),434-448(2007)·邮编1128.90050
[21] Deluzio,K.,Astephen,J.:与膝关节骨性关节炎相关的步态波形数据的生物力学特征:主成分分析的应用。步态姿势25(1),86-93(2007)
[22] Ding,C.,He,X.:K-通过主成分分析进行聚类。2004年7月4日至8日,加拿大阿尔伯塔省班夫,第二十一届机器学习国际会议记录,第29页。ACM,纽约(2004年)。https://doi.org/10.1145/1015330.1015408
[23] Du,Q.,Fowler,J.E.:使用jpeg2000和主成分分析进行高光谱图像压缩。IEEE地质科学。遥感快报。4(2), 201-205 (2007)
[24] Dunning,I.,Huchette,J.,Lubin,M.:JuMP:数学优化的建模语言。SIAM Rev.59(2),295-320(2017)。https://doi.org/10.1137/15M1020575 ·Zbl 1368.90002号 ·doi:10.1137/15M1020575
[25] 古罗比优化公司:古罗比7.0性能基准测试。http://www.gurobi.com/pdfs/benchmarks.pdf (2015). 2016年12月17日访问
[26] 古罗比优化公司:古罗比优化器参考手册(2017)。网址:http://www.gurobi.com
[27] Hand,D.J.,Daly,F.,McConway,K.,Lunn,D.,Ostrowski,E.:《小数据集手册》,第1卷。CRC出版社,博卡拉顿(1993)·Zbl 0949.62500号
[28] Hastie,T.、Tibshirani,R.、Wainwright,M.:《稀疏的统计学习:套索和泛化》。CRC出版社,博卡拉顿(2015)·Zbl 1319.68003号
[29] Hein,M.,Bühler,T.:非线性特征问题的逆幂方法及其在1-谱聚类和稀疏PCA中的应用。摘自:《神经信息处理系统进展》,第847-855页(2010年)
[30] Hotelling,H.:两组变量之间的关系。生物特征28(3/4),321-377(1936)·Zbl 0015.40705号
[31] Hsu,Y.L.,Huang,P.Y.,Chen,D.T.:癌症研究中的稀疏主成分分析。Transl.公司。癌症研究3(3),182(2014)
[32] IBM:IBM ILOG CPLEX用户手册(2017)。https://www-01.ibm.com/software/commerce/optimization/cplex-optimizer/
[33] Iezzoni,A.F.,Pritts,M.P.:主成分分析在园艺研究中的应用。《霍特科学》26(4),334-338(1991)
[34] Iguchi,T.,Mixon,D.G.,Peterson,J.,Villar,S.:可能证明k-means聚类是正确的。数学。程序。165(2), 605-642 (2017) ·Zbl 1377.65012号
[35] Jeffers,J.N.:主成分分析应用中的两个案例研究。申请。《法律总汇》第16(3)、225-236页(1967年)
[36] Jolliffe,I.T.:主成分的旋转:归一化约束的选择。J.应用。《法律总汇》第22(1)页,第29-35页(1995年)
[37] Jolliffe,I.T.:主成分分析。威利,伦敦(2002)·Zbl 1011.62064号
[38] Jolliffe,I.T.,Trendafilov,N.T.,Uddin,M.:基于LASSO的改进主成分技术。J.计算。图表。《统计》第12(3)卷,第531-547页(2003年)
[39] Journée,M.,Nesterov,Y.,Richtárik,P.,Sepulchre,R.:稀疏主成分分析的广义幂法。J.马赫。学习。第11号决议,517-553(2010年)·Zbl 1242.62048号
[40] Kaiser,H.F.:因子分析中分析旋转的方差最大准则。《心理测量学》23(3),187-200(1958)·Zbl 0095.33603号
[41] Kumar,V.,Kanal,法律公告:用于和/或树搜索的并行分支绑定公式。IEEE传输。模式分析。机器。智力。42(6), 768-778 (1984)
[42] Labib,K.,Vemuri,V.R.:主成分分析在计算机网络攻击检测和可视化中的应用。电信年鉴/电信年鉴。61(1-2), 218-234 (2006)
[43] Land,A.H.,Doig,A.G.:解决离散编程问题的自动方法。《计量经济学》28,497-520(1960)·Zbl 0101.37004号
[44] Lee,S.,Epstein,M.P.,Duncan,R.,Lin,X.:在全基因组关联研究中识别祖先信息标记的稀疏主成分分析。遗传学。流行病。36(4), 293-302 (2012)
[45] Lee,Y.K.,Lee,E.R.,Park,B.U.:超高维空间中的主成分分析。统计正弦。22(1), 933-956 (2012) ·Zbl 1257.62069号
[46] Leng,C.,Wang,H.:关于一般自适应稀疏主成分分析。J.计算。图表。统计数字18(1),201-215(2009)
[47] Li,G.J.,Wah,B.W.:处理并行分支定界算法中的异常。IEEE传输。计算。100(6), 568-573 (1986)
[48] Lichman,M.:UCI机器学习库(2013)。http://archive.ics.uci.edu/ml
[49] Lougee-Heimer,R.:运筹学的通用优化界面。IBM J.Res.Dev.47(1),57-66(2003)
[50] Luss,R.,Teboulle,M.:具有稀疏约束的秩一矩阵近似的条件梯度算法。SIAM版本55(1),65-98(2013)·Zbl 1263.90094号
[51] Ma,Z.,et al.:稀疏主成分分析和迭代阈值法。Ann.Stat.41(2),772-801(2013)·兹比尔1267.62074
[52] Mangasarian,O.L.:通过无约束凸可微最小化的精确1-范数支持向量机。J.马赫。学习。第7157-1530号决议(2006年)·兹比尔1211.68329
[53] Mazumder,R.,Radchenko,P.,Dedieu,A.:具有收缩的子集选择:低信噪比时的稀疏线性建模。arXiv预印本arXiv:1708.03288(2017)
[54] Moghaddam,B.,Weiss,Y.,Avidan,S.:稀疏PCA的谱界:精确和贪婪算法。摘自:《神经信息处理系统进展》,第915-922页(2005年)
[55] Nemhauser,G.L.:整数规划:全球影响。2013年在意大利罗马举行的EURO,INFORMS上发表。http://euro-informs2013.org/data/http_/euro2013.org/wp-content/uploads/nemhauser.pdf (2013). 2015年9月9日访问
[56] Papailiopoulos,D.S.,Dimakis,A.G.,Korokithatakis,S.:通过低阶近似的稀疏主成分分析。ICML 3,747-755(2013)
[57] Platt,J.C.:使用序列最小优化快速训练支持向量机。摘自:《内核方法的进展:支持向量学习》,第185-208页。麻省理工学院出版社,剑桥(1999)
[58] Price,A.L.,Patterson,N.J.,Plenge,R.M.,Weinblatt,M.E.,Shadick,N.A.,Reich,D.:主成分分析修正了全基因组关联研究中的分层。自然遗传学。38(8), 904-909 (2006)
[59] Richman,M.B.:主成分的旋转。J.气候。6(3), 293-335 (1986)
[60] Richtárik,P.、Takáć,M.、Ahipašaolu,S.D.:交替最大化:8种稀疏PCA公式和高效并行代码的统一框架。arXiv预打印arXiv:12122.4137(2012)·Zbl 1484.62009年
[61] Scott,D.S.:关于限制实对称矩阵扩散的Gerschgorin圆定理的准确性。线性代数应用。65, 147-155 (1985) ·Zbl 0589.15012号
[62] Snoek,J.,Larochelle,H.,Adams,R.P.:机器学习算法的实用贝叶斯优化。高级神经信息处理。系统。25, 2960-2968 (2012)
[63] Sra,S.、Nowozin,S.和Wright,S.J.:机器学习的优化。麻省理工学院出版社,剑桥(2012)
[64] Tibshirani,R.:通过套索进行回归收缩和选择。J.R.统计社会服务。B(Methodol.)58(1),267-288(1996)·Zbl 0850.62538号
[65] 500强超级计算机站点:性能开发。http://www.top500.org/statistics/perfdevel网站/ (2016). 2016年12月17日访问
[66] Wilkinson,J.H.:代数特征值问题,第87卷。牛津克拉伦登出版社(1965)·Zbl 0258.65037号
[67] Witten,D.,Tibshirani,R.,Hastie,T.:惩罚矩阵分解,应用于稀疏主成分和典型相关分析。生物统计学10(3),515-534(2009)·兹比尔1437.62658
[68] Witten,D.M.,Tibshirani,R.J.:稀疏规范相关性分析在基因组数据应用中的扩展。统计应用程序。遗传学。分子生物学。8(1), 1-27 (2009) ·Zbl 1276.62099号
[69] Yanover,C.,Meltzer,T.,Weiss,Y.:线性规划松弛和信念传播——一项实证研究。J.马赫。学习。1887-1907年第7号决议(2006年)·Zbl 1222.90033号
[70] Yuan,X.T.,Zhang,T.:稀疏特征值问题的截断幂方法。J.马赫。学习。第14号决议,899-925(2013年)·Zbl 1320.62141号
[71] Zeng,Z.Q,Yu,H.B.,Xu,H.R.,Xie,Y.Q,Gao,J.:使用并行序列最小优化快速训练支持向量机。参见:第三届智能系统与知识工程国际会议,2008年,第1卷,第997-1001页。ISKE 2008。IEEE(2008)
[72] Zhang,Y.,Ghaoui,L.E.:大尺度稀疏主成分分析及其在文本数据中的应用。《神经信息处理系统进展》,第24卷,第532-539页(2011年)
[73] Zou,H.,Hastie,T.,Tibshirani,R.:稀疏主成分分析。J.计算。图表。Stat.15(2),265-286(2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。