×

未知簇结构数据的降维。 (英语) Zbl 06871032号

摘要:出于多种原因,需要保留数据某些特征的降维。在这项工作中,我们将重点放在来自混合高斯分布的数据上,并且我们提出了一种保持聚类结构的显著性的方法,尽管假定这种结构还未知。该方法背后的基本原理如下:(i)如果已知数据中的簇(类),可以通过将数据投影到Fisher线性子空间来促进进一步分析并降低空间维数,根据定义,该子空间最能保留给定类的结构;(ii)在一些合理的假设下,这可以做到,尽管是近似的,而无需事先了解集群(类)。在本文中,我们展示了这种方法的工作原理。我们提出了一种初步数据转换方法,该方法使总体变化最大的方向接近类间最佳分离的方向。因此,对于转换后的数据,简单PCA提供了Fisher子空间的近似值。我们表明,转换在很大程度上保留了数据中未知结构的显著性。

MSC公司:

62H25个 因子分析和主成分;对应分析
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Achlioptas,D。;McSherry,F.,关于混合分布的谱学习,学习理论。学习理论,计算机科学讲稿,第3559卷,458-469(2005),施普林格出版社:柏林施普林格·Zbl 1137.68512号
[2] 安德森,T.W。;Bahadur,R.R.,《用不同协方差矩阵将多元正态分布分类》,《数学年鉴》。Stat.,33,2,420-431(1962)·兹伯利0113.13702
[3] Arora,S。;Kannan,R.,《分离的非球面高斯混合的学习》,《Ann.Appl。概率。,15,1A,69-92(2005年)·Zbl 1059.62062号
[4] 波隆-卡内多,V。;Sánchez-Maroño,N。;Alonso-Betanzos,A.,《大数据背景下特征选择的最新进展和新挑战》,Knowl。基于系统。,86, 33-45 (2015)
[5] Bouhamed,S.A。;Kallel,I.K。;Masmoudi,D.S。;Solaiman,B.,可能性建模中的特征选择,模式识别。,48, 11, 3627-3640 (2015)
[6] 布兰德,M。;Huang,K.,谱嵌入和聚类的统一定理,(Bishop,C.M.;Frey,B.J.,《第九届人工智能与统计国际研讨会论文集》(2003),人工智能与统计学学会)
[7] 布鲁贝克,S。;Vempala,S.,《各向同性PCA和仿射不变聚类》,(Grötschel,M.;Katona,G.;Sági,G.,《建筑桥梁》,博莱雅数学研究学会,第19卷(2008),施普林格:施普林格柏林,海德堡),241-281·Zbl 1159.68542号
[8] 布莱恩特,J。;Jr.,G.L.,保距离线性特征选择,模式识别。,11, 5-6, 347-352 (1979) ·Zbl 0424.62040号
[9] Dasgupta,S.,《高斯混合学习》,第40届计算机科学基础年度研讨会论文集,634-644(1999)
[10] Decell,H.P。;Odell,P.L。;Coberly,W.A.,线性降维和贝叶斯分类,模式识别。,13, 3, 241-243 (1981) ·Zbl 0462.62044号
[11] 费维舍夫斯基。;Goldberger,J.,一种保留簇结构的无监督数据投影,Pattern Recognit。莱特。,33, 3, 256-262 (2012)
[12] Fisher,R.,《分类问题中多重测量的使用》,Ann.Eugen。,7, 2, 179-188 (1936)
[13] Fukunaga,K.,《统计模式识别导论》。统计模式识别导论,计算机科学和科学计算(1990),学术出版社:学术出版社,马萨诸塞州波士顿·Zbl 0711.62052号
[14] 加西亚·托雷斯,M。;Gómez-Vela,F。;梅利安·巴蒂斯塔,B。;Moreno-Vega,J.M.,《通过特征分组进行高维特征选择:可变邻域搜索方法》,《信息科学》。,326,102-118(2016)
[15] Ghosh,S。;Henderson,S.G.,随着维数的增加,相关随机向量生成的NORTA方法的行为,ACM Trans。模型。计算。模拟。,13276-294(2003年)·Zbl 1390.65009号
[16] Ghosh,S。;Henderson,S.G.,勘误:相关随机向量生成的NORTA方法随维数增加的行为,ACM Trans。模型。计算。模拟。,19, 4, 20:1-20:3 (2009) ·Zbl 1408.65005号
[17] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推断和预测》。《统计学习的要素:数据挖掘、推断和预测》,《统计学中的斯普林格系列》(2009),斯普林格出版社:纽约斯普林格·Zbl 1273.62005年
[18] 霍恩,R.A。;Johnson,C.R.,矩阵分析(1985),剑桥大学出版社:剑桥大学出版社·Zbl 0576.15001号
[19] Hotelling,H.,两组变量之间的关系,生物统计学,28,3-4,321-377(1936)·Zbl 0015.40705号
[20] Jing,L。;田,K。;黄建忠,高维数据集成聚类的分层特征抽样方法,模式识别。,48, 11, 3688-3702 (2015)
[21] Joe,H.,基于部分相关性生成随机相关矩阵,J.Multivar。分析。,97, 10, 2177-2189 (2006) ·Zbl 1112.62055号
[22] 卡莱,A.T。;莫伊特拉,A。;Valiant,G.,《两个高斯人的有效学习混合》(Schulman,L.J.,第42届美国计算机学会计算理论研讨会论文集(2010)),553-562·Zbl 1293.68229号
[23] Kannan,R。;Salmasian,H。;Vempala,S.,《一般混合模型的谱方法》(Auer,P.;Meir,R.,《学习理论》,计算机科学讲义,3559(2005),Springer:Springer Berlin,Heidelberg),444-457·Zbl 1137.68543号
[24] Kurowicka,D。;Cooke,R.,《高维相关性模型的不确定性分析》。《高维相关性模型的不确定性分析》,《概率统计中的威利级数》(2006),约翰·威利父子有限公司:约翰·威利家子有限公司奇切斯特·Zbl 1096.62073号
[25] Lipovetsky,S.,非负载荷下的PCA和SVD,模式识别。,42, 1, 68-76 (2009) ·Zbl 1173.68676号
[26] Lipovetsky,S.,通过多项式logit模型聚类的总几率和其他目标,Adv.Adapt。数据分析。,04, 03, 1250019 (2012)
[27] Lipovetsky,S.,《加法和乘法混合正态分布与寻找簇中心》,国际期刊Mach。学习。赛博。,4, 1, 1-11 (2013)
[28] Mardia,K.V。;肯特,J.T。;Bibby,J.M.,《多元分析:概率和数学统计:一系列专著和教科书》(1979年),学术出版社[Harcourt Brace Jovanovich,出版商]:学术出版社[Hacourt Blace Jovanocich,出版社]伦敦,纽约,多伦多,安大略省·Zbl 0432.62029号
[29] 莫伊特拉,A。;Valiant,G.,解决高斯混合多项式的可学习性,2010年IEEE第51届计算机科学基础年度研讨会论文集,93-102(2010)
[30] Nowakowska,E。;Koronacki,J。;Lipovetsky,S.,高斯混合模型组分重叠的可追踪测量,ArXiv电子版(2014)
[31] Nowakowska,E。;科罗纳基,J。;Lipovetsky,S.,高斯混合模型的聚类性评估,应用。数学。计算。,256591-601(2015)·Zbl 1341.62187号
[32] Odell,P.L.,使用连续数据进行模式识别的降维模型,模式识别。,11, 1, 51-54 (1979) ·Zbl 0412.62041号
[33] 邱伟。;Joe,H.,具有指定分离度的随机簇的生成,J.Classif。,23, 2, 315-334 (2006) ·Zbl 1336.62189号
[34] Ray,S。;Lindsay,B.G.,《多元正态混合物的地形》,《Ann.Stat.》,33,5,2042-2065(2005)·Zbl 1086.62066号
[35] 孙海杰。;孙,M。;Wang,S.-R.,高斯分量之间重叠率的测量,机器学习和控制论国际会议,第4卷,2373-2378(2007)
[36] Trefethen,L.N。;Bau,D.,《数值线性代数》(1997年),工业和应用数学学会(SIAM):美国宾夕法尼亚州费城·Zbl 0874.65013号
[37] Tubbs,J。;Coberly,W。;Young,D.,线性降维和未知总体参数的贝叶斯分类,模式识别。,15, 3, 167-172 (1982) ·Zbl 0491.62047号
[38] Vempala,S。;Wang,G.,用于学习混合分布的谱算法,第43届IEEE计算机科学基础年会论文集,2002,113-122(2002)
[39] 韦加拉,J。;Estévez,P.,基于互信息的特征选择方法综述,神经计算。申请。,24, 1, 175-186 (2014)
[40] 王,X。;Paliwal,K.K.,特征提取和降维算法及其在元音识别中的应用,模式识别。,36, 10, 2429-2439 (2003) ·Zbl 1039.68114号
[41] 沃夫,L。;Shashua,A.,分类机的核心主角及其在图像序列解释中的应用,2003年IEEE计算机学会计算机视觉和模式识别会议论文集,第1卷,I-635-I-640(2003)
[42] 沃尔夫,L。;Shashua,A.,使用核主角学习集合,J.Mach。学习。第4913-931号决议(2003年)·Zbl 1098.68679号
[43] O.山口。;福井,K。;Maeda,K.,使用时间图像序列进行人脸识别,第三届IEEE自动人脸和手势识别国际会议论文集,1998,318-323(1998)
[44] Young,医学博士。;Odell,P.L。;Marco,V.R.,一般统计模式识别模型的最佳线性特征选择,模式识别。莱特。,3, 3, 161-165 (1985) ·Zbl 0566.62052号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。