×

通过特征选择对高维数据进行聚类。 (英语) Zbl 1522.62184号

摘要:高维聚类分析在统计学和机器学习中是一个具有挑战性的问题,具有广泛的应用,例如微阵列数据和RNA-seq数据的分析。在本文中,我们提出了一种新的聚类过程,称为带特征选择的谱聚类(SC-FS),其中我们首先通过谱聚类获得标签的初始估计,然后选择与这些标签平方最大的一小部分特征,即组标签解释的变差比例,并使用选定的特征再次进行聚类。在较温和的条件下,我们证明了该方法能够以较高的概率识别所有信息特征,并对稀疏高斯混合模型实现了最小最大的最佳聚类错误率。SC-FS在四个真实数据集上的应用证明了它在聚类高维数据方面的有用性。
{©2022国际生物识别学会。}

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Anandkumar,A.、Hsu,D.和Kakade,S.M.(2012)混合模型和隐马尔可夫模型的矩方法。在第25届学习理论年会上。JMLR:研讨会和会议记录,23,33.1-33.34
[2] Arthur,D.和Vassilvitskii,S.(2007)k‐意味着++:仔细播种的优势。第十八届ACM‐SIAM离散算法年会论文集。宾夕法尼亚州费城:工业和应用数学学会,第1027-1035页·兹比尔1302.68273
[3] Awasthi,P.和Sheffet,O.(2012),《聚类的改进谱范数界限》,收录于:Goemans,M.(编辑)、Jansen,K.(编辑),Rolim,J.D.P.(编)和Trevisan,L.(编辑。)近似、随机化和组合优化。算法和技术。柏林:施普林格出版社,第37-49页·Zbl 1358.68220号
[4] Balasubramanian,K.,Sriperumbudur,B.和Lebanon,G.(2013)通过RKHS嵌入进行超高维特征筛选。摘自:第16届国际人工智能与统计会议(AISTATS 2013),亚利桑那州斯科茨代尔。机器学习研究杂志,31,126-134。
[5] Cai,T.T.和Zhang,A.(2016)奇异子空间的速率最优扰动界及其在高维统计中的应用[Preprint]。arXiv:1605.00353。
[6] Chakraborty,S.,Paul,D.,Das,S.和Xu,J.(2020)熵加权幂k-均值聚类。在:国际人工智能与统计会议。机器学习研究论文集,108,691-701
[7] Chen,M.和Zhou,X.(2018)《毒蛇:单细胞RNA测序研究中精确基因表达恢复的保变异插补》。基因组生物学,19,1-15。
[8] Chormunge,S.和Jena,S.(2018)基于相关性的特征选择与高维数据的聚类。《电气系统与信息技术杂志》,第5542-549页。
[9] Dash,M.和Liu,H.(2000)《聚类的特征选择》。收录:Terano,T.(编辑)、Liu,H(编辑)和Chen,A.L.P.(编辑,编辑)《知识发现和数据挖掘》。当前问题和新应用,(亚太知识发现和数据挖掘会议,2000年)。计算机科学课堂讲稿,第1805卷。柏林:施普林格出版社,第110-121页。
[10] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977)通过em算法从不完整数据中获得最大似然。英国皇家统计学会杂志。B系列(方法学),39,1‐22·Zbl 0364.62022号
[11] Duö,A.,Soneson,C.,Duó,M.A.,biocoviews SingleCellData,E.,ExperimentHub,I.和SingleCell Experiment,S.(2019)《2018年双聚类》包。
[12] Fan,J.和Lv,J.(2008)超高维特征空间的确定独立筛选。英国皇家统计学会杂志:B辑(统计方法),70849-911·Zbl 1411.62187号
[13] Fan,J.、Samworth,R.和Wu,Y.(2009)超高维特征选择:超越线性模型。机器学习研究杂志,2013-2038年10月·Zbl 1235.62089号
[14] Fern,X.Z.和Brodley,C.E.(2003)高维数据聚类的随机投影:聚类集成方法。《第20届机器学习国际会议论文集》(ICML-03),加利福尼亚州帕洛阿尔托:AAAI出版社,186-193年。
[15] Greene,D.和Cunningham,P.(2006)《内核文档聚类中对角优势问题的实用解决方案》,收录于《第23届机器学习国际会议论文集》(ICML'06)。纽约:ACM出版社,第377-384页。
[16] Guo,J.、Levina,E.、Michailidis,G.和Zhu,J.(2010)基于高维模型聚类的成对变量选择。生物统计学,66,793-804·Zbl 1203.62190号
[17] Hao,Y.、Hao,S.、Andersen‐Nissen,E.、MauckIII,W.M.、Zheng,S.和Butler,A.等人(2021)多模态单细胞数据的综合分析。细胞,184(13),3573‐3587.e29。
[18] Jin,J.,Wang,W.,et al.(2016)高维聚类的影响特征PCA。《统计年鉴》,442323-2359·Zbl 1359.62249号
[19] Kannan,R.和Vempala,S.(2009)谱算法。理论计算机科学基础与趋势,4157-288·Zbl 1191.68852号
[20] Kriegel,H.‐P。,Kröger,P.和Zimek,A.(2009)《高维数据聚类:子空间聚类、基于模式的聚类和相关聚类的调查》。《ACM数据知识发现交易》(TKDD),第3期,第1-58页。
[21] Krishnamurthy,A.(2011)稀疏高斯混合模型的高维聚类[未发表论文]。卡内基·梅隆大学。
[22] Kumar,A.和Kannan,R.(2010)用谱范数和k‐means算法进行聚类。2010年IEEE第51届计算机科学基础年会(FOCS)。新泽西州皮斯卡塔韦:IEEE出版社,第299-308页。
[23] Kumar,A.和Sabharwal,Y.(2004)一种用于任何维度上的k均值聚类的简单线性时间(1+ε)近似算法。
[24] Lee,D.‐H。(2013)伪标签:用于深度神经网络的简单高效的半监督学习方法。收录于:ICML2013:表征学习挑战研讨会,第3卷。
[25] Lei,J.和Rinaldo,A.(2013)稀疏随机块模型中谱聚类的一致性【预印本】。arxiv:1312.2050。
[26] Lindsay,B.G.和Basak,P.(1993)多元正态混合:快速一致的矩方法。美国统计协会杂志,88,468-476·Zbl 0773.62037号
[27] Liu,T.、Lee,K.Y。和Zhao,H.(2016)通过核典型相关分析进行超高维特征选择【预印本】。arXiv:1604.07354。
[28] Liu,T.,Yuan,M.和Zhao,H.(2022)通过低阶张量分解表征人脑时空转录组。生物科学统计。提前在线发布。https://doi.org/10.1007/s12561‐021‐09331‐5 ·doi:10.1007/s12561‐021‐09331‐5
[29] Lloyd,S.(1982)PCM中的最小二乘量化。IEEE信息理论汇刊,28129-137·Zbl 0504.94015号
[30] Lu,Y.和Zhou,H.H.(2016)劳埃德算法及其变体的统计和计算保证【预印本】。arXiv:1612.02099。
[31] MacQueen,J.(1967)多元观测分类和分析的一些方法。摘自:加州奥克兰第五届伯克利数理统计与概率研讨会论文集,第1卷。加州伯克利:加利福尼亚大学出版社,第281-297页·兹比尔0214.46201
[32] Pan,W.和Shen,X.(2007)基于惩罚模型的聚类及其在变量选择中的应用。机器学习研究杂志,81145-1164·Zbl 1222.68279号
[33] Patel,A.P.、Tirosh,I.、Trombetta,J.J.、Shalek,A.K.、Gillespie,S.M.、Wakimoto,H.等(2014)单细胞RNA‐seq强调了原发性胶质母细胞瘤的瘤内异质性。科学,3441396-1401。
[34] Ramey,J.(2016)数据微阵列:分类数据集的收集。网址:https://github.com/ramhiser/datamicroray。
[35] Rohe,K.、Chatterjee,S.和Yu,B.(2011)谱聚类和高维随机块模型。《统计年鉴》,39(4),1878-1915年·Zbl 1227.62042号
[36] Scrucca,L.、Fop,M.、Murphy,T.B.和Raftery,A.E.(2016)mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计。R杂志,8289。
[37] Song,Q.,Ni,J.和Wang,G.(2011)一种用于高维数据的基于聚类的快速特征子集选择算法。IEEE知识与数据工程汇刊,25,1-14。
[38] Su,K.,Yu,T.和Wu,H.(2021)精确的特征选择改善单细胞RNA-seq细胞聚类。生物信息学简报,22(5),bbab034。
[39] Vershynin,R.(2010)随机矩阵的非渐近分析简介[预印本]。arXiv:1011.3027。
[40] Wainwright,M.J.(2009)高维和噪声稀疏恢复的尖锐阈值ℓ_1约束二次规划(Lasso)。IEEE信息理论汇刊,552183-2202·Zbl 1367.62220号
[41] Witten,D.M.和Tibshirani,R.(2012)《聚类中特征选择的框架》,《美国统计协会杂志》,105(490),713-726·Zbl 1392.62194号
[42] Wu,C.,Kwon,S.,Shen,X.和Pan,W.(2016)基于惩罚回归的聚类的新算法和理论。机器学习研究杂志,17,1-25·兹比尔1392.68371
[43] Xing,E.P.和Karp,R.M.(2001)Cliff:通过使用归一化切割的迭代特征过滤对高维微阵列数据进行聚类。生物信息学,17,S306-S315。
[44] Zamanighomi,M.,Lin,Z.,Daley,T.,Chen,X.,Duren,Z..,Schep,A.等人(2018)《单细胞的无监督聚类和表观遗传分类》。《自然通讯》,9,1-8。
[45] Zeisel,A.、Muñoz‐Manchado,A.B.、Codeluppi,S.、Lönnerberg,P.、La Manno,G.、Juréus,A.等(2015)单细胞Rna‐seq揭示的小鼠皮层和海马的细胞类型。科学,3471138-1142。
[46] Zhang,X.,Zhao,J.和LeCun,Y.(2015)文本分类的字符级卷积网络。神经信息处理系统进展,28649-657。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。