×

近似核主成分分析:计算与统计权衡。 (英语) Zbl 07628838号

摘要:核心方法是强大的学习方法,可以执行非线性数据分析。尽管它们很受欢迎,但它们在大数据场景中的可扩展性较差。为了缓解这个问题,人们提出了各种近似方法,包括随机特征近似。然而,除了核脊回归之外,大多数这些近似核方法的统计一致性还没有被很好地理解,其中已经表明随机特征近似不仅在计算上有效,而且在统计上与最小最大最优收敛率一致。在本文中,我们通过研究近似KPCA的计算和统计行为之间的权衡,研究了随机特征近似在核主成分分析(KPCA)背景下的有效性。我们表明,与KPCA相比,近似KPCA在基于其投影到相应特征空间的核函数重构相关误差方面具有计算和统计效率。该分析依赖于算子的Bernstein型不等式和自共轭Hilbert-Schmidt算子值U-统计量的Hilbert-Schmidt-范数,这两个算子是独立的。

MSC公司:

62H25个 因子分析和主成分;对应分析
62G07年 密度估算
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] ALAOUI,A.和MAHONEY,M.(2015)。具有统计保证的快速随机核岭回归。神经信息处理系统研究进展28(C.Cortes、N.D.Lawrence、D.D.Lee、M.Sugiyama和R.Garnett编辑)775-783。Curran Associates,Red Hook公司。
[2] Aronszajn,N.(1950)。再生核理论。事务处理。阿默尔。数学。Soc公司。68 337-404. ·Zbl 0037.20701号 ·数字对象标识代码:10.2307/1990404
[3] BACH,F.(2013)。低阶核矩阵近似的尖锐分析。程序。26第十届学习理论年会(S.Shalev-Shwartz和I.Steinwart编辑)。机器学习研究进展30 185-209. PMLR公司。
[4] BACH,F.和JORDAN,M.I.(2005)。核方法的预测低秩分解。程序。22第二届国际机器学习会议(L.D.Raedt和S.Wrobel编辑)33-40。
[5] Blanchard,G.、Bousquet,O.和Zwald,L.(2007年)。核主成分分析的统计性质。机器。学习。66 259-294. ·Zbl 1470.62077号
[6] Caponetto,A.和De Vito,E.(2007年)。正则化最小二乘算法的最优速率。已找到。计算。数学。7 331-368·兹比尔1129.68058 ·doi:10.1007/s10208-006-0196-8
[7] CHANG,P.C.和WU,J.L.(2015)。股票交易模型中基于核主成分分析的关键特征提取。软计算。19 1393-1408.
[8] COHN,D.L.(2013)。测量理论,第2版。Birkhäuser高级文本:巴斯勒·勒布彻. [Birkhäuser高级文本:巴塞尔教材]. Birkhäuser/Springer,纽约·兹比尔1292.28002 ·doi:10.1007/978-1-4614-6956-8
[9] DE MOURA,N.N.和DE SEIXAS,J.M.(2017)。被动声纳系统中使用核方法的新颖性检测。在13年第十届自然计算、模糊系统和知识发现国际会议116-122.
[10] DIESTEL,J.和UHL,J.J.JR.(1977年)。向量度量.数学调查,否. 15. 阿默尔。数学。罗德岛普罗维登斯Soc·Zbl 0369.46039号
[11] 丁库利阿努,N.(2000)。Banach空间中的向量积分和随机积分.纯数学和应用数学(纽约). Wiley Interscience,纽约·Zbl 0974.28006号 ·数字对象标识代码:10.1002/9781118033012
[12] DRINEAS,P.和MAHONEY,M.W.(2005)。关于Nyström逼近Gram矩阵以改进基于核的学习的方法。J.马赫。学习。物件。6 2153-2175. ·Zbl 1222.68186号
[13] FINE,S.和SCHEINBERG,K.(2001)。使用低阶核表示的高效SVM训练。J.马赫。学习。物件。2 243-264. ·Zbl 1037.68112号
[14] HALKO,N.、MARTINSON,P.G.和TROPP,J.A.(2011年)。寻找随机结构:构造近似矩阵分解的概率算法。SIAM版本。53 217-288. ·Zbl 1269.65043号 ·数字对象标识代码:10.1137/090771806
[15] HOFFMANN,H.(2007)。用于新颖性检测的内核PCA。模式识别。40 863-874. ·Zbl 1118.68140号
[16] JADE,A.M.、SRIKANTH,B.、JAYARAMAN,V.K.、KULKARNI,B.D.、JOG,J.P.和PRIYA,L.(2003)。使用核PCA进行特征提取和去噪。化学。工程科学。58 4441-4448.
[17] Jolliffe,I.T.(1986)。主成分分析.统计学中的施普林格系列。斯普林格,纽约·doi:10.1007/9781-4757-1904-8
[18] KIM,K.I.、FRANZ,M.O.和SCHLKOPF,B.(2005)。图像建模的迭代核主成分分析。IEEE传输。模式分析。机器。智力。27 1351-1366.
[19] KIMELDORF,G.和WAHBA,G.(1971)。关于切比雪夫样条函数的一些结果。数学杂志。分析。申请。33 82-95. ·Zbl 0201.39702号 ·doi:10.1016/0022-247X(71)90184-3
[20] KUMAR,S.、MOHRI,M.和TALWALKAR,A.(2009年)。集成Nyström方法。神经信息处理系统研究进展22(Y.Bengio、D.Schuurmans、J.D.Lafferty、C.K.I.Williams和A.Culotta编辑)1060-1068。Curran Associates,Red Hook公司。
[21] LAMPERT,C.(2009)。计算机视觉中的核心方法。计算机图形学和视觉的基础和发展趋势4 193-285.
[22] LI,Z.、KRUGER,U.、XIE,L.、ALMANSOORI,A.和SU,H.(2015)。非线性系统的自适应KPCA建模。IEEE传输。信号处理。63 2364-2376. ·Zbl 1394.94320号 ·doi:10.1109/TSP.2015.2412913
[23] LOPEZ-PAZ,D.、SRA,S.、SMOLA,A.、GHAHRAMANI,Z.和SCHLKOPF,B.(2014)。随机非线性成分分析。会议记录31第1届国际机器学习大会(E.P.Xing和T.Jebara编辑)。机器学习研究进展32 1359-1367. PMLR公司。
[24] MIKA,S.、SCHLKOPF,B.、SMOLA,A.J.、MüLLER,K.-R.、SCHOLZ,M.和RTSCH,G.(1999)。核主成分分析和特征空间去噪。神经信息处理系统研究进展11(M.J.Kearns、S.A.Solla和D.A.Cohn编辑)536-542。麻省理工学院出版社,剑桥。
[25] PETER,M.、MINOI,J.-L.和HIPINY,I.H.M.(2019年)。基于核PCA方法的三维人脸识别。计算科学与技术(R.Alfred,Y.Lim,A.A.A.Ibrahim和P.Anthony编辑)77-86。新加坡施普林格。
[26] PHOPHALIA,A.和MITRA,S.K.(2017年)。基于粗糙集和核PCA方法的三维MR图像去噪。Magn.公司。Reson公司。成像36 135-145.
[27] RAHIMI,A.和RECHT,B.(2008年)。大型内核机的随机特性。神经信息处理系统研究进展20(J.C.Platt、D.Koller、Y.Singer和S.T.Roweis编辑)1177-1184。Curran Associates,Red Hook公司。
[28] REED,M.和SIMON,B.(1980年)。现代数学物理方法。功能分析I第二版,学术出版社[Harcourt Brace Jovanovich,出版商],纽约·Zbl 0459.46001号
[29] RUDI,A.、CAMORIANO,R.和ROSASCO,L.(2015)。少即是多:Nyström计算正则化。神经信息处理系统研究进展28(C.Cortes、N.D.Lawrence、D.D.Lee、M.Sugiyama和R.Garnett编辑)1657-1665年。Curran Associates,Red Hook公司。
[30] RUDI,A.、CANAS,G.和ROSASCO,L.(2013)。关于子空间学习的样本复杂性。神经信息处理系统研究进展26(C.J.C.Burges、L.Bottou、M.Welling、Z.Ghahramani和K.Q.Weinberger编辑)2067-2075年。Curran Associates,Red Hook公司。
[31] RUDI,A.和ROSASCO,L.(2017年)。具有随机特征的学习的泛化性质。神经信息处理系统研究进展30(I.Guyon、U.V.Luxburg、S.Bengio、H.Wallach、R.Fergus、S.Vishwanathan和R.Garnett编辑)3215-3225。Curran Associates,Red Hook公司。
[32] SAMUEL,R.T.和CAO,Y.(2016)。使用核主成分分析和核密度估计的非线性过程故障检测和识别。系统。科学。控制工程师。4 165-174.
[33] SCHLKOPF,B.和SMOLA,A.J.(2002)。用内核学习麻省理工学院出版社,马萨诸塞州剑桥。
[34] SCHLKOPF,B.、SMOLA,A.和MüLLER,K.R.(1998)。非线性分量分析是一个核心特征值问题。神经计算。10 1299-1319.
[35] SHAWE-TAYLOR,J.、WILLIAMS,C.K.I.、CRISTIANINI,N.和KANDOLA,J.(2005)。关于Gram矩阵的特征谱和核PCA的泛化误差。IEEE传输。Inf.理论51 2510-2522. ·Zbl 1310.15076号 ·doi:10.1109/TIT.2005.850052
[36] SMOLA,A.J.和SCHÖLKOPF,B.(2000年)。机器学习的稀疏贪婪矩阵近似。程序. 17第十届国际机器学习会议911-918. Morgan Kaufmann,加利福尼亚州旧金山。
[37] SRIPERUMBUDUR,B.K.和STERGE,N.(2017年)。具有随机特征的核主成分分析的统计一致性。可在https://arxiv.org/pdf/1706.06296v1.pdf。 ·Zbl 07628838号
[38] SRIPERUMBUDUR,B.K.和STERGE,N.(2018年)。使用随机特征的近似内核PCA:计算与统计权衡https://arxiv.org/pdf/1706.06296v2.pdf。 ·Zbl 07628838号
[39] SRIPERUMBUDUR,B.K和STERGE,N.(2022)。补充“近似核PCA:计算与统计权衡”https://doi.org/10.1214/22-AOS2204SUPP网站 ·Zbl 07628838号
[40] Steinwart,I.和Christmann,A.(2008年)。支持向量机纽约州施普林格·Zbl 1203.68171号
[41] TEIXEIRA,A.R.、TOM E,A.M.、STADLTHANNER,K.和LANG,E.W.(2008)。KPCA去噪和图像预处理问题。数字。信号处理。18 568-580.
[42] ULLAH,E.、MIANJY,P.、MARINOV,T.V.和ARORA,R.(2018年)。具有\[\tilde{O}(\sqrt{n})\]随机特征的流式内核PCA。神经信息处理系统研究进展(S.Bengio、H.Wallach、H.Larochelle、K.Grauman、N.Cesa Bianchi和R.Garnett编辑)31 7311-7321。Curran Associates,红钩。
[43] WENDLAND,H.(2005)。分散数据近似.剑桥应用数学和计算数学专著17.剑桥大学出版社,剑桥·Zbl 1075.65021号
[44] WILLIAMS,C.K.I.和SEEGER,M.(2001年)。使用Nyström方法加速内核机器。神经信息处理系统研究进展13(V.T.T.K.Leen T.G.Diettrich编辑)682-688。麻省理工学院出版社,马萨诸塞州剑桥。
[45] YANG,Y.、PILANCI,M.和WAINWRIGHT,M.J.(2017)。内核随机草图:快速最佳非参数回归。安。统计师。45 991-1023·Zbl 1371.62039号 ·doi:10.1214/16-AOS1472
[46] YANG,T.,LI,Y.,MAHDAVI,M.,JIN,R.和ZHOU,Z.-H.(2012)。Nyström方法与随机傅里叶特征:理论和经验比较。神经信息处理系统研究进展25(F.Pereira、C.J.C.Burges、L.Bottou和K.Q.Weinberger编辑)476-484。Curran Associates,Red Hook公司。
[47] ZWALD,L.和BLANCHARD,G.(2006)。核主成分分析中特征空间的收敛性。神经信息处理系统研究进展18(Y.Weiss、B.Schölkopf和J.C.Platt编辑)1649-1656。麻省理工学院出版社
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。