×

光谱聚类中的特征选择:理论指导实践。 (英语) Zbl 1514.62108号

摘要:基于(K)分量的高斯混合型模型,我们导出了特征选择程序,该程序改进了高维设置中常用的谱聚类算法,通常作用于从数据矩阵导出的亲和矩阵(例如,(mathbf{X}^{top})的前几个特征向量。我们的选择原则形式化了两个直觉:(i)当特征向量没有聚类能力时,应该删除它们;(ii)由于估计不准确性,应该丢弃与较小的尖峰特征值相对应的一些特征向量。我们的选择过程导致了新的谱聚类算法:ESSC用于(K=2),GESSC用于(K>2)。新提出的算法具有更好的稳定性,与标准替代方案相比,具有更好的优势,这在广泛的模拟和多个实际数据研究中得到了证明。对于本文,可以在线获取。

理学硕士:

62H30型 分类和区分;聚类分析(统计方面)
15A69号 多线性代数,张量演算
15甲18 特征值、奇异值和特征向量
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿贝,E。;范,J。;王凯。;钟一桥。,“低期望秩随机矩阵的条目特征向量分析,统计年鉴,481452-1474(2020)·Zbl 1450.62066号 ·doi:10.1214/19-aos1854
[2] Azizyan,M。;辛格,A。;Wasserman,L.,具有稀疏平均分离的高维高斯混合的极小极大理论,神经信息处理系统的进展,2139-2147(2013)
[3] Bandeira,A.S。;Boumal,N。;Singer,A.,“角度同步的最大似然半定松弛的紧性,数学规划,163145-167(2017)·Zbl 1365.90188号 ·doi:10.1007/s10107-016-1059-6
[4] 包,Z。;丁,X。;Wang,K.,“矩阵去噪模型的奇异向量和奇异子空间分布,统计学年鉴,49,370-392(2021)·兹比尔1459.60011 ·doi:10.1214/20-AOS1960
[5] 布拉德利,P.S。;法耶兹,U.M。;Mangasarian,O.L.,“数据挖掘的数学编程:公式和挑战”,《计算信息杂志》,11,217-238(1999)·Zbl 0973.90096号 ·doi:10.1287/ijoc.11.3.217
[6] 蔡,T。;马,Z。;Wu,Y.,“稀疏主成分分析:最优速率和自适应估计”,《统计年鉴》,第41期,第3074-3110页(2013年)·Zbl 1288.62099号 ·doi:10.1214/13-AOS1178
[7] Cai,T.T。;马,J。;Zhang,L.,“编钟:用EM算法对高维高斯混合数据进行聚类及其最优性”,《统计年鉴》,471234-1267(2019)·Zbl 1428.62182号 ·doi:10.1214/18-AOS1711
[8] Chan,Y.-b。;Hall,P.,“使用混合人口证据来选择用于聚类超高维数据的变量”,《美国统计协会杂志》,105,798-809(2010)·Zbl 1392.62178号 ·doi:10.1198/jasa.2010.tm09404
[9] Dettling,M.,“利用基因表达数据进行肿瘤分类的Bagboosting,生物信息学,20,3583-3593(2004)·doi:10.1093/生物信息学/bth447
[10] 范,J。;范,Y。;韩,X。;Lv,J.,“具有分散尖峰的随机矩阵特征向量的渐近理论”,美国统计协会杂志(2020)·Zbl 1507.60012号 ·doi:10.1080/01621459.2020.1840990
[11] 范,J。;郭杰。;Zheng,S.,“通过调整特征值阈值估计因子数”,美国统计协会杂志,1-10(2020)
[12] 戈登·G·J。;Jensen,R.V。;萧,L-L。;S.R.Gullans。;布卢门斯托克,J.E。;拉马斯瓦米,南卡罗来纳州。;理查兹,W.G。;Sugarbaker,D.J。;Bueno,R.,“利用肺癌和间皮瘤中的基因表达比率将微阵列数据转换为临床相关癌症诊断测试”,《癌症研究》,62,4963-4967(2002)
[13] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.H.,《统计学习的要素:数据挖掘、推断和预测》(2009),纽约:Springer-Verlag Inc,纽约·Zbl 1273.62005年
[14] 詹姆斯·G。;维滕,D。;哈斯蒂,T。;Tibshirani,R.,《统计学习导论:R中的应用》(2014),《统计中的斯普林格文本:统计中的斯普林格文本》,斯普林格出版社
[15] Jin,J.,“基于分数的快速社区检测,统计年鉴,43,57-89(2015)·Zbl 1310.62076号 ·doi:10.1214/14-AOS1265
[16] Jin,J。;Wang,W.,“高维聚类的影响特征PCA”,《统计年鉴》,442323-2359(2016)·Zbl 1359.62249号 ·doi:10.1214/15-AOS1423
[17] MLG ULB和Worldline,Defeatfraud:欺诈检测的深度特征工程和学习解决方案的评估和验证(2018)
[18] Ng,A.Y。;M.I.乔丹。;韦斯,Y。;托马斯·迪特里奇(Thomas G.Dietterich)。;苏珊娜·贝克尔;Ghahramani,Zoubin,神经信息处理系统进展,“光谱聚类:分析和算法”,849-856(2001),马萨诸塞州剑桥:麻省理工学院出版社
[19] Von Luxburg,U.,“光谱聚类、统计和计算教程,17,395-416(2007)·数字对象标识代码:10.1007/s11222-007-9033-z
[20] Ward,J.H.Jr.,“优化目标函数的分层分组”,《美国统计协会杂志》,58236-244(1963)·doi:10.1080/01621459.1963.10500845
[21] Witten,D.M。;Tibshirani,R.,“聚类中特征选择的框架”,《美国统计协会杂志》,105,713-726(2010)·Zbl 1392.62194号 ·doi:10.1198/jasa.2010.tm09415
[22] Xiang,T。;龚,S.,“特征向量选择的光谱聚类,模式识别,411012-1029(2008)·Zbl 1132.68808号 ·doi:10.1016/j.patcog.2007.07.023
[23] Yousefi,M.R。;Hua,J。;西玛,C。;Dougherty,E.R.,“使用真实数据集分析分类性能时的报告偏差,生物信息学,26,68-76(2009)·doi:10.1093/bioinformatics/btp605
[24] Zou,H.,“高维特征分类,WIREs:计算统计,11,e1453(2019)·doi:10.1002/wics.1453
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。