刘天奇;陆,余;朱碧清;赵宏宇 通过特征选择对高维数据进行聚类。 (英语) Zbl 1522.62184号 生物计量学 79,编号2,940-950(2023). 摘要:高维聚类分析在统计学和机器学习中是一个具有挑战性的问题,具有广泛的应用,例如微阵列数据和RNA-seq数据的分析。在本文中,我们提出了一种新的聚类过程,称为带特征选择的谱聚类(SC-FS),其中我们首先通过谱聚类获得标签的初始估计,然后选择与这些标签平方最大的一小部分特征,即组标签解释的变差比例,并使用选定的特征再次进行聚类。在较温和的条件下,我们证明了该方法能够以较高的概率识别所有信息特征,并对稀疏高斯混合模型实现了最小最大的最佳聚类错误率。SC-FS在四个真实数据集上的应用证明了它在聚类高维数据方面的有用性。{©2022国际生物识别学会。} MSC公司: 62页第10页 统计学在生物学和医学中的应用;元分析 关键词:特征选择;高维数据;光谱聚类 软件:预防卒中;麦克卢斯特;数据微阵列;CLIFF公司;github PDF格式BibTeX公司 XML格式引用 \textit{T.Liu}等人,《生物统计学》79,第2期,940--950(2023;Zbl 1522.62184) 全文: 内政部 arXiv公司 参考文献: [1] Anandkumar,A.、Hsu,D.和Kakade,S.M.(2012)混合模型和隐马尔可夫模型的矩方法。在第25届学习理论年会上。JMLR:研讨会和会议记录,23,33.1-33.34 [2] Arthur,D.和Vassilvitskii,S.(2007)k‐意味着++:仔细播种的优势。第十八届ACM‐SIAM离散算法年会论文集。宾夕法尼亚州费城:工业和应用数学学会,第1027-1035页·兹比尔1302.68273 [3] Awasthi,P.和Sheffet,O.(2012),《聚类的改进谱范数界限》,收录于:Goemans,M.(编辑)、Jansen,K.(编辑),Rolim,J.D.P.(编)和Trevisan,L.(编辑。)近似、随机化和组合优化。算法和技术。柏林:施普林格出版社,第37-49页·Zbl 1358.68220号 [4] Balasubramanian,K.,Sriperumbudur,B.和Lebanon,G.(2013)通过RKHS嵌入进行超高维特征筛选。摘自:第16届国际人工智能与统计会议(AISTATS 2013),亚利桑那州斯科茨代尔。机器学习研究杂志,31,126-134。 [5] Cai,T.T.和Zhang,A.(2016)奇异子空间的速率最优扰动界及其在高维统计中的应用[Preprint]。arXiv:1605.00353。 [6] Chakraborty,S.,Paul,D.,Das,S.和Xu,J.(2020)熵加权幂k-均值聚类。在:国际人工智能与统计会议。机器学习研究论文集,108,691-701 [7] Chen,M.和Zhou,X.(2018)《毒蛇:单细胞RNA测序研究中精确基因表达恢复的保变异插补》。基因组生物学,19,1-15。 [8] Chormunge,S.和Jena,S.(2018)基于相关性的特征选择与高维数据的聚类。《电气系统与信息技术杂志》,第5542-549页。 [9] Dash,M.和Liu,H.(2000)《聚类的特征选择》。收录:Terano,T.(编辑)、Liu,H(编辑)和Chen,A.L.P.(编辑,编辑)《知识发现和数据挖掘》。当前问题和新应用,(亚太知识发现和数据挖掘会议,2000年)。计算机科学课堂讲稿,第1805卷。柏林:施普林格出版社,第110-121页。 [10] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977)通过em算法从不完整数据中获得最大似然。英国皇家统计学会杂志。B系列(方法学),39,1‐22·Zbl 0364.62022号 [11] Duö,A.,Soneson,C.,Duó,M.A.,biocoviews SingleCellData,E.,ExperimentHub,I.和SingleCell Experiment,S.(2019)《2018年双聚类》包。 [12] Fan,J.和Lv,J.(2008)超高维特征空间的确定独立筛选。英国皇家统计学会杂志:B辑(统计方法),70849-911·Zbl 1411.62187号 [13] Fan,J.、Samworth,R.和Wu,Y.(2009)超高维特征选择:超越线性模型。机器学习研究杂志,2013-2038年10月·Zbl 1235.62089号 [14] Fern,X.Z.和Brodley,C.E.(2003)高维数据聚类的随机投影:聚类集成方法。《第20届机器学习国际会议论文集》(ICML-03),加利福尼亚州帕洛阿尔托:AAAI出版社,186-193年。 [15] Greene,D.和Cunningham,P.(2006)《内核文档聚类中对角优势问题的实用解决方案》,收录于《第23届机器学习国际会议论文集》(ICML'06)。纽约:ACM出版社,第377-384页。 [16] Guo,J.、Levina,E.、Michailidis,G.和Zhu,J.(2010)基于高维模型聚类的成对变量选择。生物统计学,66,793-804·Zbl 1203.62190号 [17] Hao,Y.、Hao,S.、Andersen‐Nissen,E.、MauckIII,W.M.、Zheng,S.和Butler,A.等人(2021)多模态单细胞数据的综合分析。细胞,184(13),3573‐3587.e29。 [18] Jin,J.,Wang,W.,et al.(2016)高维聚类的影响特征PCA。《统计年鉴》,442323-2359·Zbl 1359.62249号 [19] Kannan,R.和Vempala,S.(2009)谱算法。理论计算机科学基础与趋势,4157-288·Zbl 1191.68852号 [20] Kriegel,H.‐P。,Kröger,P.和Zimek,A.(2009)《高维数据聚类:子空间聚类、基于模式的聚类和相关聚类的调查》。《ACM数据知识发现交易》(TKDD),第3期,第1-58页。 [21] Krishnamurthy,A.(2011)稀疏高斯混合模型的高维聚类[未发表论文]。卡内基·梅隆大学。 [22] Kumar,A.和Kannan,R.(2010)用谱范数和k‐means算法进行聚类。2010年IEEE第51届计算机科学基础年会(FOCS)。新泽西州皮斯卡塔韦:IEEE出版社,第299-308页。 [23] Kumar,A.和Sabharwal,Y.(2004)一种用于任何维度上的k均值聚类的简单线性时间(1+ε)近似算法。 [24] Lee,D.‐H。(2013)伪标签:用于深度神经网络的简单高效的半监督学习方法。收录于:ICML2013:表征学习挑战研讨会,第3卷。 [25] Lei,J.和Rinaldo,A.(2013)稀疏随机块模型中谱聚类的一致性【预印本】。arxiv:1312.2050。 [26] Lindsay,B.G.和Basak,P.(1993)多元正态混合:快速一致的矩方法。美国统计协会杂志,88,468-476·Zbl 0773.62037号 [27] Liu,T.、Lee,K.Y。和Zhao,H.(2016)通过核典型相关分析进行超高维特征选择【预印本】。arXiv:1604.07354。 [28] Liu,T.,Yuan,M.和Zhao,H.(2022)通过低阶张量分解表征人脑时空转录组。生物科学统计。提前在线发布。https://doi.org/10.1007/s12561‐021‐09331‐5 ·doi:10.1007/s12561‐021‐09331‐5 [29] Lloyd,S.(1982)PCM中的最小二乘量化。IEEE信息理论汇刊,28129-137·Zbl 0504.94015号 [30] Lu,Y.和Zhou,H.H.(2016)劳埃德算法及其变体的统计和计算保证【预印本】。arXiv:1612.02099。 [31] MacQueen,J.(1967)多元观测分类和分析的一些方法。摘自:加州奥克兰第五届伯克利数理统计与概率研讨会论文集,第1卷。加州伯克利:加利福尼亚大学出版社,第281-297页·兹比尔0214.46201 [32] Pan,W.和Shen,X.(2007)基于惩罚模型的聚类及其在变量选择中的应用。机器学习研究杂志,81145-1164·Zbl 1222.68279号 [33] Patel,A.P.、Tirosh,I.、Trombetta,J.J.、Shalek,A.K.、Gillespie,S.M.、Wakimoto,H.等(2014)单细胞RNA‐seq强调了原发性胶质母细胞瘤的瘤内异质性。科学,3441396-1401。 [34] Ramey,J.(2016)数据微阵列:分类数据集的收集。网址:https://github.com/ramhiser/datamicroray。 [35] Rohe,K.、Chatterjee,S.和Yu,B.(2011)谱聚类和高维随机块模型。《统计年鉴》,39(4),1878-1915年·Zbl 1227.62042号 [36] Scrucca,L.、Fop,M.、Murphy,T.B.和Raftery,A.E.(2016)mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计。R杂志,8289。 [37] Song,Q.,Ni,J.和Wang,G.(2011)一种用于高维数据的基于聚类的快速特征子集选择算法。IEEE知识与数据工程汇刊,25,1-14。 [38] Su,K.,Yu,T.和Wu,H.(2021)精确的特征选择改善单细胞RNA-seq细胞聚类。生物信息学简报,22(5),bbab034。 [39] Vershynin,R.(2010)随机矩阵的非渐近分析简介[预印本]。arXiv:1011.3027。 [40] Wainwright,M.J.(2009)高维和噪声稀疏恢复的尖锐阈值ℓ_1约束二次规划(Lasso)。IEEE信息理论汇刊,552183-2202·Zbl 1367.62220号 [41] Witten,D.M.和Tibshirani,R.(2012)《聚类中特征选择的框架》,《美国统计协会杂志》,105(490),713-726·Zbl 1392.62194号 [42] Wu,C.,Kwon,S.,Shen,X.和Pan,W.(2016)基于惩罚回归的聚类的新算法和理论。机器学习研究杂志,17,1-25·兹比尔1392.68371 [43] Xing,E.P.和Karp,R.M.(2001)Cliff:通过使用归一化切割的迭代特征过滤对高维微阵列数据进行聚类。生物信息学,17,S306-S315。 [44] Zamanighomi,M.,Lin,Z.,Daley,T.,Chen,X.,Duren,Z..,Schep,A.等人(2018)《单细胞的无监督聚类和表观遗传分类》。《自然通讯》,9,1-8。 [45] Zeisel,A.、Muñoz‐Manchado,A.B.、Codeluppi,S.、Lönnerberg,P.、La Manno,G.、Juréus,A.等(2015)单细胞Rna‐seq揭示的小鼠皮层和海马的细胞类型。科学,3471138-1142。 [46] Zhang,X.,Zhao,J.和LeCun,Y.(2015)文本分类的字符级卷积网络。神经信息处理系统进展,28649-657。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。