文件Zbl 1522.62184-zbMATH打开

通过特征选择对高维数据进行聚类。（英语） Zbl 1522.62184号

生物计量学 79，编号2，940-950（2023）.

摘要：高维聚类分析在统计学和机器学习中是一个具有挑战性的问题，具有广泛的应用，例如微阵列数据和RNA-seq数据的分析。在本文中，我们提出了一种新的聚类过程，称为带特征选择的谱聚类（SC-FS），其中我们首先通过谱聚类获得标签的初始估计，然后选择与这些标签平方最大的一小部分特征，即组标签解释的变差比例，并使用选定的特征再次进行聚类。在较温和的条件下，我们证明了该方法能够以较高的概率识别所有信息特征，并对稀疏高斯混合模型实现了最小最大的最佳聚类错误率。SC-FS在四个真实数据集上的应用证明了它在聚类高维数据方面的有用性。
{©2022国际生物识别学会。}

MSC公司：

62页第10页

统计学在生物学和医学中的应用；元分析

关键词：

特征选择;高维数据;光谱聚类

软件：

预防卒中;麦克卢斯特;数据微阵列;CLIFF公司;github

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Anandkumar，A.、Hsu，D.和Kakade，S.M.（2012）混合模型和隐马尔可夫模型的矩方法。在第25届学习理论年会上。JMLR:研讨会和会议记录，23，33.1-33.34
[2]	Arthur，D.和Vassilvitskii，S.（2007）k‐意味着++：仔细播种的优势。第十八届ACM‐SIAM离散算法年会论文集。宾夕法尼亚州费城：工业和应用数学学会，第1027-1035页·兹比尔1302.68273
[3]	Awasthi，P.和Sheffet，O.（2012），《聚类的改进谱范数界限》，收录于：Goemans，M.（编辑）、Jansen，K.（编辑），Rolim，J.D.P.（编）和Trevisan，L.（编辑。）近似、随机化和组合优化。算法和技术。柏林：施普林格出版社，第37-49页·Zbl 1358.68220号
[4]	Balasubramanian，K.，Sriperumbudur，B.和Lebanon，G.（2013）通过RKHS嵌入进行超高维特征筛选。摘自：第16届国际人工智能与统计会议（AISTATS 2013），亚利桑那州斯科茨代尔。机器学习研究杂志，31，126-134。
[5]	Cai，T.T.和Zhang，A.（2016）奇异子空间的速率最优扰动界及其在高维统计中的应用[Preprint]。arXiv:1605.00353。
[6]	Chakraborty，S.，Paul，D.，Das，S.和Xu，J.（2020）熵加权幂k-均值聚类。在：国际人工智能与统计会议。机器学习研究论文集，108，691-701
[7]	Chen，M.和Zhou，X.（2018）《毒蛇：单细胞RNA测序研究中精确基因表达恢复的保变异插补》。基因组生物学，19，1-15。
[8]	Chormunge，S.和Jena，S.（2018）基于相关性的特征选择与高维数据的聚类。《电气系统与信息技术杂志》，第5542-549页。
[9]	Dash，M.和Liu，H.（2000）《聚类的特征选择》。收录：Terano，T.（编辑）、Liu，H（编辑）和Chen，A.L.P.（编辑，编辑）《知识发现和数据挖掘》。当前问题和新应用，（亚太知识发现和数据挖掘会议，2000年）。计算机科学课堂讲稿，第1805卷。柏林：施普林格出版社，第110-121页。
[10]	Dempster，A.P.、Laird，N.M.和Rubin，D.B.（1977）通过em算法从不完整数据中获得最大似然。英国皇家统计学会杂志。B系列（方法学），39，1‐22·Zbl 0364.62022号
[11]	Duö，A.，Soneson，C.，Duó，M.A.，biocoviews SingleCellData，E.，ExperimentHub，I.和SingleCell Experiment，S.（2019）《2018年双聚类》包。
[12]	Fan，J.和Lv，J.（2008）超高维特征空间的确定独立筛选。英国皇家统计学会杂志：B辑（统计方法），70849-911·Zbl 1411.62187号
[13]	Fan，J.、Samworth，R.和Wu，Y.（2009）超高维特征选择：超越线性模型。机器学习研究杂志，2013-2038年10月·Zbl 1235.62089号
[14]	Fern，X.Z.和Brodley，C.E.（2003）高维数据聚类的随机投影：聚类集成方法。《第20届机器学习国际会议论文集》（ICML-03），加利福尼亚州帕洛阿尔托：AAAI出版社，186-193年。
[15]	Greene，D.和Cunningham，P.（2006）《内核文档聚类中对角优势问题的实用解决方案》，收录于《第23届机器学习国际会议论文集》（ICML'06）。纽约：ACM出版社，第377-384页。
[16]	Guo，J.、Levina，E.、Michailidis，G.和Zhu，J.（2010）基于高维模型聚类的成对变量选择。生物统计学，66，793-804·Zbl 1203.62190号
[17]	Hao，Y.、Hao，S.、Andersen‐Nissen，E.、MauckIII，W.M.、Zheng，S.和Butler，A.等人（2021）多模态单细胞数据的综合分析。细胞，184（13），3573‐3587.e29。
[18]	Jin，J.，Wang，W.，et al.（2016）高维聚类的影响特征PCA。《统计年鉴》，442323-2359·Zbl 1359.62249号
[19]	Kannan，R.和Vempala，S.（2009）谱算法。理论计算机科学基础与趋势，4157-288·Zbl 1191.68852号
[20]	Kriegel，H.‐P。，Kröger，P.和Zimek，A.（2009）《高维数据聚类：子空间聚类、基于模式的聚类和相关聚类的调查》。《ACM数据知识发现交易》（TKDD），第3期，第1-58页。
[21]	Krishnamurthy，A.（2011）稀疏高斯混合模型的高维聚类[未发表论文]。卡内基·梅隆大学。
[22]	Kumar，A.和Kannan，R.（2010）用谱范数和k‐means算法进行聚类。2010年IEEE第51届计算机科学基础年会（FOCS）。新泽西州皮斯卡塔韦：IEEE出版社，第299-308页。
[23]	Kumar，A.和Sabharwal，Y.（2004）一种用于任何维度上的k均值聚类的简单线性时间（1+ε）近似算法。
[24]	Lee，D.‐H。（2013）伪标签：用于深度神经网络的简单高效的半监督学习方法。收录于：ICML2013:表征学习挑战研讨会，第3卷。
[25]	Lei，J.和Rinaldo，A.（2013）稀疏随机块模型中谱聚类的一致性【预印本】。arxiv:1312.2050。
[26]	Lindsay，B.G.和Basak，P.（1993）多元正态混合：快速一致的矩方法。美国统计协会杂志，88，468-476·Zbl 0773.62037号
[27]	Liu，T.、Lee，K.Y。和Zhao，H.（2016）通过核典型相关分析进行超高维特征选择【预印本】。arXiv：1604.07354。
[28]	Liu，T.，Yuan，M.和Zhao，H.（2022）通过低阶张量分解表征人脑时空转录组。生物科学统计。提前在线发布。https://doi.org/10.1007/s12561‐021‐09331‐5 ·doi:10.1007/s12561‐021‐09331‐5
[29]	Lloyd，S.（1982）PCM中的最小二乘量化。IEEE信息理论汇刊，28129-137·Zbl 0504.94015号
[30]	Lu，Y.和Zhou，H.H.（2016）劳埃德算法及其变体的统计和计算保证【预印本】。arXiv:1612.02099。
[31]	MacQueen，J.（1967）多元观测分类和分析的一些方法。摘自：加州奥克兰第五届伯克利数理统计与概率研讨会论文集，第1卷。加州伯克利：加利福尼亚大学出版社，第281-297页·兹比尔0214.46201
[32]	Pan，W.和Shen，X.（2007）基于惩罚模型的聚类及其在变量选择中的应用。机器学习研究杂志，81145-1164·Zbl 1222.68279号
[33]	Patel，A.P.、Tirosh，I.、Trombetta，J.J.、Shalek，A.K.、Gillespie，S.M.、Wakimoto，H.等（2014）单细胞RNA‐seq强调了原发性胶质母细胞瘤的瘤内异质性。科学，3441396-1401。
[34]	Ramey，J.（2016）数据微阵列：分类数据集的收集。网址：https://github.com/ramhiser/datamicroray。
[35]	Rohe，K.、Chatterjee，S.和Yu，B.（2011）谱聚类和高维随机块模型。《统计年鉴》，39（4），1878-1915年·Zbl 1227.62042号
[36]	Scrucca，L.、Fop，M.、Murphy，T.B.和Raftery，A.E.（2016）mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计。R杂志，8289。
[37]	Song，Q.，Ni，J.和Wang，G.（2011）一种用于高维数据的基于聚类的快速特征子集选择算法。IEEE知识与数据工程汇刊，25，1-14。
[38]	Su，K.，Yu，T.和Wu，H.（2021）精确的特征选择改善单细胞RNA-seq细胞聚类。生物信息学简报，22（5），bbab034。
[39]	Vershynin，R.（2010）随机矩阵的非渐近分析简介[预印本]。arXiv:1011.3027。
[40]	Wainwright，M.J.（2009）高维和噪声稀疏恢复的尖锐阈值ℓ_1约束二次规划（Lasso）。IEEE信息理论汇刊，552183-2202·Zbl 1367.62220号
[41]	Witten，D.M.和Tibshirani，R.（2012）《聚类中特征选择的框架》，《美国统计协会杂志》，105（490），713-726·Zbl 1392.62194号
[42]	Wu，C.，Kwon，S.，Shen，X.和Pan，W.（2016）基于惩罚回归的聚类的新算法和理论。机器学习研究杂志，17，1-25·兹比尔1392.68371
[43]	Xing，E.P.和Karp，R.M.（2001）Cliff：通过使用归一化切割的迭代特征过滤对高维微阵列数据进行聚类。生物信息学，17，S306-S315。
[44]	Zamanighomi，M.，Lin，Z.，Daley，T.，Chen，X.，Duren，Z..，Schep，A.等人（2018）《单细胞的无监督聚类和表观遗传分类》。《自然通讯》，9，1-8。
[45]	Zeisel，A.、Muñoz‐Manchado，A.B.、Codeluppi，S.、Lönnerberg，P.、La Manno，G.、Juréus，A.等（2015）单细胞Rna‐seq揭示的小鼠皮层和海马的细胞类型。科学，3471138-1142。
[46]	Zhang，X.，Zhao，J.和LeCun，Y.（2015）文本分类的字符级卷积网络。神经信息处理系统进展，28649-657。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
”ab c公司”	短语
(ab c公司)	圆括号

示例

领域

操作员

通过特征选择对高维数据进行聚类。（英语） Zbl 1522.62184号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

通过特征选择对高维数据进行聚类。 （英语） Zbl 1522.62184号

MSC公司：

关键词：

软件：

参考文献：

通过特征选择对高维数据进行聚类。（英语） Zbl 1522.62184号