×

对称函数优化的主成分分析没有伪局部最优。 (英语) Zbl 1430.90468号

摘要:主成分分析(PCA)可以找到数据的最佳线性表示,是许多学习和推理任务中不可或缺的工具。经典地,数据集的主成分被解释为保存其大部分“能量”的方向,这一解释在理论上得到了著名的埃卡特·杨·米尔斯基定理的支持。本文介绍了执行主成分分析的许多其他方法,以及各种几何解释,并证明了相应的非凸程序族不存在伪局部最优,而只具有严格的鞍点。因此,这些程序表现得像凸问题一样松散,可以有效地解决全局最优问题,例如,使用随机梯度下降的某些变体。除了提供新的几何解释和增强我们对主成分分析的理论理解之外,我们的研究结果还可能为结构化降维的全新方法铺平道路,例如稀疏主成分分析和非负矩阵分解。更具体地说,我们使用行列式优化来研究PCA的无约束公式,这可能会为稀疏PCA中常用的紧缩方案提供一种优雅的替代方案。

MSC公司:

90C26型 非凸规划,全局优化
62H25个 因子分析和主成分;对应分析
15A23型 矩阵的因式分解
15甲18 特征值、奇异值和特征向量
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] O.Alter、P.O.Brown和D.Botstein,《全基因组表达数据处理和建模的奇异值分解》,Proc。国家。阿卡德。科学。美国,97(2000),第10101-10106页。
[2] O.Alter和G.Golub,基因组尺度MRNA长度分布的奇异值分解揭示了RNA凝胶电泳谱带展宽的不对称性,Proc。国家。阿卡德。科学。美国,103(2006),第11828-11833页,https://doi.org/10.1073/pnas.0604756103。
[3] S.Bhojanapalli、A.Kyrillidis和S.Sanghavi,为更快的半定优化去掉凸性,《学习理论会议论文集》,2016年,第530-582页。
[4] S.Bhojanapalli、B.Neyshabur和N.Srebro,低秩矩阵恢复局部搜索的全局优化,《神经信息处理系统进展学报》,2016年,第3873-3881页。
[5] I.Borg和P.Groenen,《现代多维尺度:理论和应用》,Springer Ser。统计人员。,施普林格纽约,2013年,https://books.google.co.uk/books?id=NYDSBwAAQBAJ。 ·Zbl 0862.62052号
[6] N.Boumal、V.Voroninski和A.Bandeira,《非凸Burr-Monteiro方法在光滑半定程序上的应用》,载于《神经信息处理系统进展学报》,2016年,第2757-2765页。
[7] S.Burer和R.D.Monteiro,通过低秩因式分解求解半定规划的非线性规划算法,数学。程序。,95(2003),第329-357页·兹比尔1030.900077
[8] A.d'Aspremont、L.E.Ghaoui、M.I.Jordan和G.R.Lanckriet,《使用半定规划的稀疏PCA直接公式》,《神经信息处理系统进展学报》,2005年,第41-48页。
[9] Y.Deshpande和A.Montanari,《信息理论最优稀疏主成分分析》,《IEEE信息理论国际研讨会论文集》,IEEE,2014年,第2197-2201页。
[10] C.Eckart和G.Young,《一个矩阵与另一个低阶矩阵的近似》,《心理测量学》,第1卷(1936年),第211-218页,https://doi.org/10.1007/BF02288367。 ·JFM 62.1075.02标准
[11] A.Edelman、T.A.Arias和S.T.Smith,具有正交约束的算法几何,SIAM J.矩阵分析。申请。,20(1998年),第303-353页·Zbl 0928.6500号
[12] A.Eftekhari、G.Ongie、L.Balzano和M.B.Wakin,《不完整数据的流式主成分分析》,J.Mach。学习。决议,20(2019),第1-62页·Zbl 1441.62159号
[13] R.Ge,F.Huang,C.Jin,Y.Yuan,逃离鞍点——张量分解的在线随机梯度,《学习理论会议论文集》,2015年,第797-842页。
[14] R.Ge、J.D.Lee和T.Ma,《矩阵完成没有虚假的局部最小值》,载于《神经信息处理系统进展学报》,2016年,第2973-2981页。
[15] R.Ge、J.D.Lee和T.Ma,《利用景观设计学习一个隐藏层神经网络》,https://arxiv.org/abs/1711.00501, 2017.
[16] R.Ge和T.Ma,《张量分解的优化前景》,《神经信息处理系统进展学报》,2017年,第3653-3663页。
[17] N.Gillis,The why and how of non-negative matrix factorization,in Regulation,Optimization,Kernel,and Support Vector Machines,J.A.K.Suykens,M.Signoretto,and A.Argyriou,eds.,Chapman&Hall/CRC Press,Boca Raton,FL,2015,第257-292页。
[18] G.Golub和C.Van Loan,《矩阵计算》,约翰霍普金斯大学出版社,巴尔的摩,1996年,https://books.google.ch/books?id=mlOa7wPX6OYC。 ·Zbl 0865.65009号
[19] T.Hastie、R.Tibshirani和J.Friedman,《统计学习的要素:数据挖掘、推断和预测》,Springer Ser。统计人员。,施普林格纽约,2013年,https://books.google.co.uk/books?id=yPfZBwAAQBAJ。 ·Zbl 1273.62005年
[20] R.A.Hauser、A.Eftekhari和H.F.Matzinger,《通过行列式优化的Pca没有伪局部最优》,发表在《第24届ACM SIGKDD知识发现与数据挖掘国际会议论文集》,ACM,2018,第1504-1511页。
[21] R.Horn、R.Horn和C.Johnson,《矩阵分析》,剑桥大学出版社,英国剑桥,1990年,https://books.google.co.uk/books?id=PlYQN0ypTwEC。 ·兹比尔0704.15002
[22] R.Horn和C.Johnson,《矩阵分析主题》,剑桥大学出版社,英国剑桥,1994年,https://books.google.co.uk/books?id=ukd0AgAAQBAJ。 ·兹比尔0801.15001
[23] H.Hotelling,两组变量之间的关系,《生物统计学》(1936年),第321-377页·Zbl 0015.40705号
[24] A.Hyvarinen、J.Karhunen和E.Oja,《独立成分分析》,Wiley Ser。自适应学习系统。信号处理。学习社区。Control,Wiley,2004年,纽约,https://books.google.co.uk/books?id=96D0ypDwAkkC。
[25] C.Jin、R.Ge、P.Netrapalli、S.M.Kakade和M.I.Jordan,《如何有效逃离鞍点》,载于J.Mach。学习。研究,70(2017),第1724-1732页。
[26] C.Jin、S.M.Kakade和P.Netrapalli,通过非凸随机梯度下降证明高效在线矩阵补全,《神经信息处理系统进展学报》,2016年,第4520-4528页。
[27] I.M.Johnstone和A.Y.Lu,《关于高维主成分分析的一致性和稀疏性》,J.Amer。统计师。协会,104(2009),第682-693页·Zbl 1388.62174号
[28] M.Journeáe、Y.Nesterov、P.Richtaárik和R.Sepulchre,稀疏主成分分析的广义幂法,J.Mach。学习。第11号决议(2010年),第517-553页·Zbl 1242.62048号
[29] S.Karlin和Y.Rinott,广义Cauchy-Binet公式及其在全正性和控制中的应用,《多元分析杂志》。,27(1988),第284-299页·Zbl 0653.62038号
[30] 刘易斯和森多夫,谱函数的二次展开,线性代数应用。,340(2002),第97-121页·Zbl 0993.15008号
[31] Q.Li和G.Tang,具有一般目标函数的低秩矩阵优化的非凸几何,https://arxiv.org/abs/1611.03060v1,2016年。
[32] L.Mirsky,对称规范函数和酉不变范数,夸特。数学杂志。牛津,(1966),第1156-1159页。
[33] A.Mokhtari、A.Ozdaglar和A.Jadbabaie,《在约束优化中逃离鞍点》,《神经信息处理系统进展论文集》,2018,第3633-3643页。
[34] NIST/SEMATECH工程统计手册,https://books.google.co.uk/books?id=v-欧洲民航协会,2002年。
[35] K.Pearson,《关于最接近空间点系的直线和平面》,Philos。Mag.,2(1901),第559-572页,https://doi.org/10.1080/14786440109462720。 ·JFM 32.0710.04号
[36] B.Scho¨lkopf和A.Smola,《使用内核学习:支持向量机、正则化、优化和超越》,麻省理工学院出版社,马萨诸塞州剑桥,2002年,https://books.google.co.uk/books?id=y8ORL3DWt4sC。
[37] J.Shawe Taylor和N.Cristianini,模式分析的核方法,剑桥大学出版社,英国剑桥,2004年,https://books.google.co.uk/books?id=MX0hAwAAQBAJ。 ·Zbl 0994.68074号
[38] M.Soltanolkotabi、A.Javanmard和J.D.Lee,超参数浅层神经网络优化前景的理论见解,https://arxiv.org/abs/1707.04926, 2017. ·Zbl 1428.68255号
[39] J.Sun、Q.Qu和J.Wright,非凸问题什么时候不可怕?,https://arxiv.org/abs/1510.06096,2015年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。