×

稳健的核主成分分析和分类。 (英语) Zbl 1284.62370号

摘要:核主成分分析(KPCA)将线性主成分分析从实向量空间扩展到任何高维核特征空间。线性PCA对异常值的敏感性是众所周知的,文献中已经提出了各种稳健的备选方案。对于KPCA来说,这种健壮的版本受到的关注少得多。在本文中,我们给出了三种鲁棒PCA算法的内核版本:球形PCA、投影寻踪和ROBPCA。这些稳健的KPCA算法在分类上下文中进行了分析,并对KPCA分数进行了判别分析。在比较干净数据和污染数据的误分类率的仿真研究中,研究了不同鲁棒KPCA算法的性能。构造了一个离群值映射来可视化此类分类问题中的离群值。一个来自蛋白质分类的真实例子说明了鲁棒KPCA及其相应的离群值映射的有用性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G35型 非参数稳健性
62H25个 因子分析和主成分;对应分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alzate C,Suykens JAK(2008)使用ε不敏感鲁棒损失函数的内核分量分析。IEEE Trans神经网络19:1583–1598·doi:10.1109/TNN.2008.2000443
[2] Croux C,Ruiz-Gazen A(1996)基于投影追踪的鲁棒主成分快速算法。收录:COMPSTAT:《计算统计学学报》,第211-216页·Zbl 0900.62300号
[3] Croux C,Ruiz-Gazen A(2005)《主成分的高分解估计:重新审视投影寻踪法》。多变量分析杂志95:206–226·Zbl 1065.62040号 ·doi:10.1016/j.jmva.2004.08.002
[4] Croux C,Filzmoser P,Oliveira MR(2007)投影追踪稳健主成分分析算法。化学智能实验室系统87:218–225·doi:10.1016/j.chemolab.2007.01.004
[5] Cui H,He X,Ng KW(2003)基于稳健分散的主成分渐近分布。生物特征90:953–966·Zbl 1436.62222号 ·doi:10.1093/biomet/90.4.953
[6] Debruyne M(2009)支持向量机分类的离群图。应用统计年鉴3(4):1566–1580·Zbl 1185.62112号 ·doi:10.1214/09-AOAS256
[7] Debruyne M,Hubert M(2009)最小异常的Stahel-Donoho协方差估计的影响函数。统计概率快报79:275–282·Zbl 1169.62049号 ·doi:10.1016/j.spl.2008.08.006
[8] Debruyne M、Hubert M、Van Horebeek J(2009a)《检测核主成分分析中的影响观察》。计算统计数据分析(按)。doi:10.1016/j.csda.2009.08.018·Zbl 1284.62046号
[9] Debruyne M,Serneels S,Verdonck T(2009b)稳健最小二乘支持向量分类。化学计量学杂志23(9):479–486·doi:10.1002/cem.1241
[10] Donoho DL,Gasko M(1992)基于半空间深度和投影边距的位置估计的分解特性。Ann Stat 20:1803–1827年·Zbl 0776.62031号 ·doi:10.1214/aos/1176348890
[11] Friedman JH,Tukey JW(1974)探索性数据分析的投影寻踪算法。IEEE传输计算C-23(9):881–890·Zbl 0284.68079号 ·doi:10.1109/T-C.1974.224051
[12] Huber PJ(1985)投影追踪。安统计13:435–475·Zbl 0595.62059号 ·doi:10.1214操作系统/1176349519
[13] Hubert M,Engelen S(2004)《生物科学中的稳健PCA和分类》。生物信息学20:1728–1736·doi:10.1093/bioinformatics/bth158
[14] Hubert M,Van Driessen K(2004)快速稳健判别分析。计算统计数据分析45:301–320·Zbl 1429.62247号 ·doi:10.1016/S0167-9473(02)00299-2
[15] Hubert M,Rousseeuw PJ,Verboven S(2002)《主成分快速稳健方法及其在化学计量学中的应用》。化学智能实验室系统60:101–111·doi:10.1016/S0169-7439(01)00188-5
[16] Hubert M,Rousseeuw PJ,Vanden Branden K(2005)《ROBPCA:稳健主成分分析的新方法》。技术计量学47:64–79·doi:10.1198/00401700400000563
[17] Li G,Chen Z(1985)稳健分散矩阵和主成分的投影寻踪方法:基本理论和蒙特卡罗。美国统计协会J Am Stat Assoc 80:759–766·Zbl 0595.62060号 ·doi:10.1080/01621459.1985.10478181
[18] Liu Z,Chen D,Bensmail H(2005)基于核主成分分析的基因表达数据分类。生物技术杂志2:155–169·doi:10.1155/JBB.2005.155
[19] Locantore N、Marron JS、Simpson DG、Tripoli N、Zhang JT、Cohen KL(1999),功能数据的稳健主成分分析。测试8:1–73·Zbl 0980.62049号 ·doi:10.1007/BF02595862
[20] Lu C-D,Zhang T-Y,Du X-Z,Li C-P(2004)一种稳健的核PCA算法。Proc Int Conf Mach学习Cybernet 5:3084–3087
[21] Marden JI(1999)主要成分的一些稳健估计。统计概率快报43:349–359·Zbl 0939.62055号 ·doi:10.1016/S0167-7152(98)00272-7
[22] Maronna RA(2005)基于稳健尺度的主成分和正交回归。技术计量学47:264–273·doi:10.1198/004017005000000166
[23] Maronna RA,Zamar R(2002)高维数据集位置和离散度的稳健估计。技术计量学44:307–317·doi:10.1198/004017002188618509
[24] Mika S,Rätsch G,Weston J,Schölkopf B,Müller KR(1999)Fisher核判别分析。摘自:IEEE信号处理神经网络国际研讨会IX,第41–48页
[25] Nguyen MH,De la Torre F(2009)稳健核主成分分析。高级神经信息处理系统21:1185–1192
[26] Ohst C(1988)Best approximierende Kreise und ihre Eigenschaften(最佳近似球体及其特性)。亚琛RWTH大学统计与Wirtschaftsmatik研究所数学文凭
[27] Pollack JD,Li Q,Pearl DK(2005)古菌、细菌和真核生物的磷酸甘油酸激酶蛋白系统发育分析的分类学效用:贝叶斯分析的见解。分子系统进化35:420–430·doi:10.1016/j.ympev.2005.02.002
[28] Rousseeuw PJ(1984)最小二乘回归。美国统计协会J Am Stat Assoc 79:871–880·Zbl 0547.62046号 ·doi:10.1080/01621459.1984.10477105
[29] Rousseeuw PJ,Croux C(1993)《中值绝对偏差的替代方法》。美国统计协会杂志88:1273–1283·Zbl 0792.62025号 ·doi:10.1080/01621459.1993.10476408
[30] Rousseeuw PJ,Van Driessen K(1999)最小协方差行列式估计器的快速算法。技术计量学41:212–223·doi:10.1080/00401706.1999.10485670
[31] Saigo H,Vert J,Ueda N,Akutsul T(2004)使用字符串对齐核进行蛋白质同源性检测。生物信息学20:1682–1689·doi:10.1093/bioinformatics/bth141
[32] Schölkopf B,Smola A(2002)《使用内核学习》。麻省理工学院出版社,剑桥·Zbl 1019.68094号
[33] Schölkopf B,Smola A,Müller K-R(1998)作为核特征值问题的非线性分量分析。神经计算10:1299–1319·doi:10.1162/08997669830017467
[34] Shawe-Taylor J,Cristianini N(2004),模式分析的核方法。剑桥大学出版社·Zbl 0994.68074号
[35] Stahel WA(1981)《健壮的Schätzungen:无限的最优性与Schátzungen von Kovarianzmatrizen》。苏黎世理工学院博士论文·Zbl 0531.62036号
[36] Suykens JAK、Van Gestel T、De Brabanter J、De Moor B、Vandewalle J(2002)最小二乘支持向量机。新加坡世界科学·Zbl 1017.93004号
[37] Takahashi T,Kurita T(2002),基于核PCA的鲁棒去噪。摘自:人工神经网络国际会议论文集。计算机科学课堂讲稿,第2415卷,第739–744页·Zbl 1013.68831号
[38] Verboven S,Hubert M(2005)LIBRA:用于鲁棒分析的MATLAB库。化学智能实验室系统75:127–136·doi:10.1016/j.chemolab.2004.06.003
[39] 杨J,金Z,杨JY,张D,Frangi AF(2004)核Fisher判别式的本质:KPCA加LDA。图案识别37:2097–2100·Zbl 02117452号 ·doi:10.1016/j.patcog.2003.10.15
[40] Yang J,Frangi AF,Yang JY,Zhang D,Jin Z(2005)KPCA plus LDA:用于特征提取和识别的完整核Fisher判别框架。IEEE Trans-Pattern Ana Mach Intell 27:230–244标准·Zbl 05110640号 ·doi:10.1109/TPAMI.2005.33
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。