×

用凸聚类恢复树。 (英语) Zbl 1482.68194号

摘要:层次聚类是一项基本的无监督学习任务,其目的是将点集合组织成嵌套簇树。凸聚类是最近提出的一种新方法,用于构建数据的树组织,与标准的层次聚类算法相比,这种树组织对输入数据中的扰动更具鲁棒性。在本文中,我们提出了保证凸聚类解决方案路径何时恢复树的条件,并明确了凸聚类公式中的仿射参数如何调节恢复树的结构。我们主要结果的证明依赖于在希尔伯特空间中建立点云的一个新特性,这可能是一个独立的兴趣。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
2007年6月62日 岭回归;收缩估计器(拉索)
90立方厘米25 凸面编程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 《美国支持民主行动》,2001年投票记录:自由进步的破碎承诺,《今日美国残疾人法案》,57(2002),第1-17页。
[2] J.I.Ankenman,《调查问卷中的对偶网络几何与分析》,耶鲁大学博士论文,2014年。
[3] M.Belkin和P.Niyogi,用于降维和数据表示的拉普拉斯特征映射,神经计算。,15(2003年),第1373-1396页·Zbl 1085.68119号
[4] K.S.Beyer、J.Goldstein、R.Ramakrishnan和U.Shaft,“最近的邻居”什么时候有意义?,《第七届数据库理论国际会议论文集》,ICDT’99,Springer-Verlag,1999年,第217-235页。
[5] H.D.Bondell和B.J.Reich,同步回归收缩、变量选择和OSCAR预测因子的监督聚类,生物统计学,64(2008),第115-123页·兹比尔1146.62051
[6] B.M.Broome、V.Jayaraman和G.Laurent,《重叠气味序列的编码和解码》,《神经元》,51(2006),第467-482页。
[7] S.L.Brown、J.Joseph和M.Stopfer,用时间结构神经表征编码时间结构刺激,《自然神经科学》。,8(2005),第1568-76页。
[8] L.Carrillo Reid、F.Tecuapetla、D.Tapia、A.Hernández-Cruz、E.Galarraga、R.Drucker Colin和J.Bargas,通过纹状体细胞组装编码网络状态,J.Neurophys。,99(2008),第1435-1450页。
[9] G.K.Chen、E.C.Chi、J.M.Ranola和K.Lange,《凸聚类:层次聚类的一个有吸引力的替代方案》,《公共科学图书馆·计算》。《生物学》,11(2015),e1004228。
[10] E.C.Chi、G.I.Allen和R.G.Baraniuk,《凸双聚类》,《生物统计学》,73(2017),第10-19页·Zbl 1366.62208号
[11] E.C.Chi,B.R.Gaines,W.W.Sun,H.Zhou,J.Yang,张量的可证明凸共簇,预印本,https://arxiv.org/abs/1803.06518, 2018. ·Zbl 07306902号
[12] E.C.Chi和K.Lange,凸聚类的分裂方法,J.Compute。图表。统计学。,24(2015),第994-1013页。
[13] R.R.Coifman和S.Lafon,扩散图,应用。计算。哈蒙。分析。,21(2006),第5-30页·兹比尔1095.68094
[14] J.de Leeuw和P.Mair,《R中最优缩放的Gifi方法:封装homals》,J.Statist。《软件》,31(2009),第1-21页。
[15] D.L.Donoho和C.Grimes,Hessian特征映射:高维数据的局部线性嵌入技术,Proc。国家。阿卡德。科学。美国,100(2003),第5591-5596页·Zbl 1130.62337号
[16] J.Fan和R.Li,通过非洞穴惩罚似然的变量选择及其预言性质,J.Amer。统计师。协会,96(2001),第1348-1360页·Zbl 1073.62547号
[17] J.M.Garciía-Goímez、J.Goí)mez-Sanchis、P.Escandell-Montero、E.Fuster-Garcia和E.Soria-Olivas,稀疏流形聚类和嵌入以区分胶质母细胞瘤和脑膜瘤肿瘤的基因表达谱,计算机。《生物医学》,43(2013),第1863-1869页。
[18] J.C.Gower和G.J.S.Ross,最小生成树和单连锁聚类分析,应用。统计学。,18(1969年),第54-64页。
[19] T.D.Hocking、A.Joulin、F.Bach和J.-P.Vert,使用凸融合惩罚的聚类算法,《第28届机器学习国际会议论文集》(ICML-11),Omnipress,2011年,第745-752页。
[20] X.Jiang、X.Hu、H.Shen和T.He,流形学习揭示了宏基因组图谱中的非线性结构,2012年IEEE生物信息学和生物医学国际会议,2012年,第1-6页。
[21] S.C.Johnson,《层次聚类方案》,《心理测量学》,32(1967),第241-254页·Zbl 1367.62191号
[22] 柯振堂、范俊华、吴彦,《追求同质性》,J.Amer。《统计协会》,110(2015),第175-194页·Zbl 1373.62345号
[23] G.N.Lance和W.T.Williams,分类排序策略的一般理论:1。分层系统,计算。J.,9(1967),第373-380页。
[24] K.Lange、D.R.Hunter和I.Yang,使用代理目标函数的优化转移,J.Compute。图表。统计学。,9(2000),第1-20页。
[25] F.Lindsten、H.Ohlsson和L.Ljung,放松一下,来集群吧!《(k)-意味着集群的召集》,技术报告,Linko­pings Universite,2011年。
[26] Y.Marchetti和Q.Zhou,自适应凹惩罚的解路径聚类,电子。J.统计。,8(2014),第1569-1603页·兹比尔1297.62142
[27] E.Marras、A.Travaglione和E.Capobianco,蛋白质相互作用体中的多种学习,J.Compute。《生物学》,18(2010),第81-96页。
[28] G.Mishne、R.Talmon、I.Cohen、R.R.Coifman和Y.Kluger,数据驱动树转换和度量,IEEE Trans。信号通知。过程。净值。,4(2018),第451-466页。
[29] G.Mishne、R.Talmon、R.Meir、J.Schiller、M.Lavzin、U.Dubin和R.R.Coifman,神经元结构和活动模式发现的层次耦合几何分析,IEEE J.选定主题信号处理。,10(2016),第1238-1253页。
[30] F.Murtagh,《层次聚类算法最新进展概览》,计算。J.,26(1983),第354-359页·Zbl 0523.68030号
[31] W.Pan、X.Shen和B.Liu,《聚类分析:通过非凸惩罚的监督学习实现无监督学习》,J.Mach。学习。Res.,14(2013),第1865-1889页·Zbl 1317.68179号
[32] A.Panahi、D.Dubbhashi、F.D.Johansson和C.Bhattacharyya,《范数和聚类:随机增量算法、收敛和聚类恢复》,第34届国际机器学习会议论文集,D.Precup和Y.W.Teh编辑,Proc。马赫。学习。第70号决议,JMLR.org,2015年,第2769-2777页。
[33] K.Pelckmans、J.De Brabanter、J.Suykens和B.De Moor,凸聚类收缩,PASCAL聚类车间统计与优化研讨会,2005年。
[34] P.Radchenko和G.Mukherjee,通过l1融合惩罚的凸聚类,J.R.Stat.Soc.Seri。B.统计方法。,79(2017),第1527-1546页·Zbl 1381.62193号
[35] S.T.Roweis和L.K.Saul,通过局部线性嵌入降低非线性维数,《科学》,290(2000),第2323-2326页。
[36] D.Saha、K.Leong、C.Li、S.Peterson、G.Siegel和B.Raman,背景非变异气味识别的时空编码机制,自然神经科学。,16(2013),第1830-1839页。
[37] E.D.Schifano、R.L.Strawderman和M.T.Wells,非光滑惩罚目标函数的优化最小化算法,Electron。J.统计。,4(2010年),第1258-1299页·Zbl 1267.65009号
[38] J.Sharpnack、A.Singh和A.Rinaldo,图上边缘套索的稀疏性,第15届国际人工智能与统计会议(AISTATS)论文集,PMLR.org,2012年,第1028-1036页。
[39] Y.She,具有精确聚类的稀疏回归,Electron。J.统计。,4(2010年),第1055-1096页·Zbl 1329.62327号
[40] M.Stopfer、V.Jayaraman和G.Laurent,《嗅觉系统中的强度与身份编码》,《神经元》,39(2003),第991-1004页。
[41] 孙德华,陶克强,袁永元,凸聚类:模型,理论保证和有效算法,预印本,https://arxiv.org/abs/1810.02677, 2018. ·Zbl 07370526号
[42] K.M.Tan和D.Witten,凸聚类的统计特性,电子。J.统计。,9(2015),第2324-2347页·兹比尔1336.62193
[43] J.B.Tenenbaum、V.de Silva和J.C.Langford,《非线性降维的全球几何框架》,《科学》,290(2000),第2319-2323页。
[44] R.Tibshirani、M.Saunders、S.Rosset、J.Zhu和K.Knight,《通过融合套索的稀疏性和流畅性》,J.R.Stat.Soc.Ser。B统计方法。,67(2005),第91-108页·兹比尔1060.62049
[45] J.T.Vogelstein、Y.Park、T.Ohyama、R.A.Kerr、J.W.Truman、C.E.Priebe和M.Zlatic,通过多尺度无监督结构学习发现全脑神经行为图,《科学》,344(2014),第386-392页。
[46] B.Wang,Y.Zhang,W.W.Sun,Y.Fang,稀疏凸聚类,J.Compute。图表。统计学。,27(2018),第393-403页·Zbl 07498956号
[47] J.H.Ward,优化目标函数的分层分组,J.Amer。统计师。协会,58(1963),第236-244页。
[48] D.M.Witten、A.Shojaie和F.Zhang,《未知变量分组的高维回归的簇弹性网》,《技术计量学》,56(2014),第112-122页。
[49] C.Wu、S.Kwon、X.Shen和W.Pan,基于惩罚回归聚类的新算法和理论,J.Mach。学习。决议,17(2016),第1-25页·Zbl 1392.68371号
[50] Z.-H.You、Y.-K.Lei、J.Gui、D.-S.Huang和X.Zhou,利用流形嵌入从高通量实验数据评估和预测蛋白质相互作用,生物信息学,26(2010),第2744-2751页。
[51] 袁明源,林毅,分组变量回归中的模型选择与估计,J.R.Stat.Soc.Ser。B统计方法。,68(2006),第49-67页·Zbl 1141.62030号
[52] L.Zelnik-Manor和P.Perona,自校正谱聚类,摘自《神经信息处理系统进展》17,L.K.Saul、Y.Weiss和L.Bottou编辑,麻省理工学院出版社,2005年,第1601-1608页。
[53] 张春海,极小极大凹罚下的几乎无偏变量选择,安统计学家。,38(2010),第894-942页·Zbl 1183.62120号
[54] C.Zhu、H.Xu、C.Leng和S.Yan,《聚类的凸优化过程:理论回顾》,《神经信息处理系统进展》27,Z.Gahramani、M.Welling、C.Cortes、N.D.Lawrence和K.Q.Weinberger编辑,Curran Associates,2014,第1619-1627页。
[55] H.Zou和R.Li,非洞穴惩罚似然模型中的一步稀疏估计,Ann.Statist。,36(2008),第1509-1533页·Zbl 1142.62027号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。