×

基于Langevin退火的数据聚类,具有自洽潜力。 (英语) Zbl 1419.62154号

摘要:本文介绍了一种基于朗之万动力学的新型数据聚类算法,其中关联势是直接从数据中构造的。为了引入自洽势,我们采用了已建立的量子聚类方法中的势模型。第一步是使用径向基函数从数据中构造密度分布。然后构造一个势函数,使该密度分布成为与时间无关的薛定谔方程的基态解。第二步是在亚临界温度下将此势函数用于朗之万动力学,以避免遍历性。朗之万方程采用经典吉布斯分布作为不变测度,其中分布的峰值与势面的极小值重合。单个数据点的时间动力学导致不同的亚稳态,这些亚稳态被解释为聚类中心。因此,当数据集合的子集在特定的潜在最小值附近时(由于朗之万动力学在适当的时间段内),就可以实现聚类。当数据点被势梯度推向势极小值时,布朗运动使它们能够有效地穿过局部势垒,逃逸鞍点,进入势能面上其他禁止的位置。该算法的可行性首先是基于几个示例和理论分析确定的,然后使用标准基准数据集进行更严格的评估。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
82立方31 随机方法(福克-普朗克、朗之万等)应用于含时统计力学问题
60 H10型 随机常微分方程(随机分析方面)
37米25 遍历理论的计算方法(不变测度的近似、Lyapunov指数的计算、熵等)
2005年第81季度 薛定谔、狄拉克、克莱恩·戈登和其他量子力学方程的封闭解和近似解
60磅65英寸 布朗运动
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 达里奥·班布西;桑德罗·格拉菲;Paul,Thierry,《量子流的长时间半经典近似:埃伦菲时间的证明》,渐近线。分析。,21, 2, 149-160 (1999) ·Zbl 0934.35142号
[2] 安德烈亚·贝尔托齐(Andrea L.Bertozzi)。;Flenner,Arjuna,用于高维数据分类的图上扩散界面模型[MR3022033],SIAM Rev.,58,2,293-328(2016)·Zbl 1339.68287号 ·doi:10.1137/16M1070426
[3] 文章:9 A.Bewley和B.Upcroft,利用投影结构分割稠密三维点云的优势,《澳大利亚机器人与自动化会议论文集》(2013年)。
[4] 第3条:L.V.Bijuraj,集群及其应用,《信息技术新地平线国家会议论文集》(2013年)。
[5] 文章:22 K.Blekas和I.E.Lagaris,《牛顿聚类:基于分子动力学和全局优化的方法》,模式识别40(2007),1734-1744·Zbl 1111.68107号
[6] 文章:49 T.Buhler和M.Hein,基于图p-laplacian的谱聚类,第26届机器学习国际会议论文集(2009),81-88。
[7] 科菲,W.T。;于卡尔米科夫。体育。;Waldron,J.T.,《朗之万方程及其在物理、化学和电气工程随机问题中的应用》,《当代化学物理世界科学丛书》14,xxiv+678页(2004),世界科学出版公司,新泽西州River Edge·Zbl 1098.82001号 ·doi:10.1142/5343
[8] 文章:44 R.R.Coifman、S.Lafon、A.B.Lee、M.Maggioni、B.Nadler、F.Warner和S.W.Zucker,《几何扩散作为数据调和分析和结构定义的工具:扩散图》,《国家科学院学报》102(2005),第21期,1788-1794·Zbl 1405.42043号
[9] 文章:31 Y.Dauphin、R.Pascanu、C.Gulcehre、K.Cho、S.Ganguli和Y.Bengio,识别和解决高维非凸优化中的鞍点问题,第27届神经信息处理系统国际会议论文集(2014),2933-2941。
[10] 文章:11 V.Estivil Castro,《为什么有这么多聚类算法-立场论文》,ACM SIGKDD探索通讯4(2002),第1期,65-75页。
[11] 丹尼斯·埃文斯。;Debra J.Searles。;威廉姆斯,斯蒂芬·R,《经典统计热力学基础》。耗散、松弛和涨落定理,xiii+205 pp.(2016),WILEY-VCH Verlag Berlin GmbH,Weinheim·doi:10.1002/9783527695782
[12] 条款:8 R.Filipovych,S.M。Resnick和C.Davatzikos,成像数据的半监督聚类分析,Neuroimage 54(2011),第3期,2185-2197。
[13] 文章:47 C.Garcia-Cardona、A.Flenner和A.G.Percus,用于高维数据分类的图上扩散界面模型,第二届模式识别应用和方法国际会议论文集(2013),78-86。
[14] 文章:32 R.Ge,F.Huang,C.Jin,Y.Yuan,逃离鞍点-张量分解的在线随机梯度,JMLR:研讨会和会议记录40(2015),1-46。
[15] 帕特里克·G’erard;彼得·马科维奇(Peter A.Markowich)。;诺伯特·J·毛瑟。;Poupaud,Fr’ed’eric,均质极限和Wigner变换,Comm.Pure Appl。数学。,50323-379(1997年)·Zbl 0881.35099号 ·doi:10.1002/(SICI)1097-0312(199704)50:\(4\langle323\)::AID-CPA
[16] 乔治·哈格多恩(George A.Hagedorn)。;Joye,Alain,指数精确半经典动力学:传播,局部化,Ehrenfest时间,散射和更一般的状态,Ann.Henri Poincar,1,5837-883(2000)·Zbl 1050.81017号 ·doi:10.1007/PL00001017
[17] 大卫·霍恩(David Horn),《通过希尔伯特空间聚类》(Clustering via Hilbert space),《物理学》(Phys)。A、 302、1-4、70-79(2001)·Zbl 0980.68027号 ·doi:10.1016/S0378-4371(01)00442-3
[18] 文章:28 D.Horn和I.Axel,截断svd空间中微阵列表达数据的新型聚类算法,生物信息学19(2003),第15期,第1110页。
[19] 文章:16 D.Horn和A.Gottlieb,基于量子力学的模式识别问题中的数据聚类算法,《物理评论快报》88(2002),第1期,018702。
[20] 文章:5 A.K.Jain,《数据聚类:超越K-means的50年》,《模式识别快报》31(2010),第8期,651-666。
[21] 条款:6 A.K.Jain,M.N。Murty和P.J.Flynn,《数据聚类:综述》,ACM Computing Surveys 31(1999),第3期,651-666。
[22] Jolliffe,I.T.,主成分分析,Springer Series in Statistics,xxx+487 pp.(2002),Springer-Verlag,纽约·Zbl 1011.62064号
[23] 小林,Shoshichi;Nomizu,Katsumi,微分几何基础。第二卷,《纯数学和应用数学跨学科专题》,第15卷第二期,xv+470页(1969年),跨学科出版商John Wiley&Sons,Inc.,纽约-朗顿-悉尼·Zbl 0175.48504号
[24] 文章:14 R.Kubo,涨落扩散定理,物理学进展报告29(1966),第1期,255-284·Zbl 0163.23102号
[25] 条款:21 S.Lafon和A.B。Lee,Diffusion maps and coarse graining:A unified framework for dimensionality reduction,graph partitioning,and data set parameterization,IEEE Transactions on Pattern Analysis and Machine Intelligence 28(2006),第9期,1393-1403。
[26] 文章:34 B.Leimkuhler和C.Matthews,《通过朗之万动力学进行稳健高效的构型分子取样》,《化学物理杂志》138(2013),第17期。
[27] 文章:43 C.Li、C.Chen、D.Carlson和L.Carin,深度神经网络的预条件随机梯度Langevin动力学,第三十届AAAI人工智能会议论文集(2016),1788-1794。
[28] 文章:4廖东伟,时间序列数据的聚类——一项调查,模式识别38(2005),第11期,1857-1874·Zbl 1077.68803号
[29] 狮子队,皮埃尔·卢伊斯;蒂埃里·保罗(Thierry Paul),《维格纳的测量》(Sur les mesures de Wigner),《伊比利亚美洲评论》(Rev.Mat.Iberoamericana),第9、3、553-618页(1993年)·Zbl 0801.35117号 ·doi:10.4171/RMI/143
[30] 文章:35J.Lu和Z.Zhou,非绝热系统热平衡采样的带表面跳跃的路径积分分子动力学,《化学物理杂志》146(2017),第15期。
[31] 波阿斯·纳德勒;圣埃芬省拉丰;罗纳德·科伊夫曼(Ronald R.Coifman)。;Kevrekidis,Ioannis G.,Difusion图,动力学系统的光谱聚类和反应坐标,应用。计算。哈蒙。分析。,21, 1, 113-127 (2006) ·Zbl 1103.60069号 ·doi:10.1016/j.acha.2005.07.004
[32] 文章:10 D.Pfitzner、R.Leibbrandt和D.Powers,成对聚类相似性度量的表征与评估,知识与信息系统,16(2009),361-394。
[33] 第7条E.Ramasso、V.Placet和M.L。Boubakar,用于复合材料稳健损伤序列估计的声发射时间序列的无监督共识聚类,IEEE仪器与测量学报64(2015),第12期,3297-3307。
[34] Ripley,B.D.,模式识别和神经网络,xii+403页(2007年),剑桥大学出版社,剑桥·Zbl 0853.62046号
[35] 条款:27 S.J。罗伯茨,参数和非参数无监督聚类分析,模式识别30(1997),第2期,261-272。
[36] 第33条:上午。萨克斯,J.L。McClelland和S.Ganguli,深度线性神经网络中学习非线性动力学的精确解,学习表征国际会议(2014年)。
[37] Stratonovich,Rouslan L.,非线性非平衡热力学。一、 线性和非线性波动分配定理,由V.V.Stratonovich和A.P.Repjev 57,xvi+361 pp.(1992)从俄语翻译而来,Springer-Verlag,柏林·Zbl 0786.73002号 ·doi:10.1007/978-3-642-77343-3
[38] 亚瑟·D·斯拉姆。;Maugioni,Mauro;Coifman,Ronald R.,具有函数自适应扩散过程的图的正则化,J.Mach。学习。第9号决议,1711-1739(2008年)·Zbl 1225.68217号
[39] 文章:39 P.-N.Tan、M.Steinback、A.Karpatne和V.Kumar,《数据挖掘导论》,皮尔逊出版社,2005年。
[40] 文章:48 U.von Luxburg,光谱聚类教程,技术报告TR-149,马克斯·普朗克生物控制论研究所,德国图宾根(2006)。
[41] 文章:24 M.Weinstein和D.Horn,《动态量子聚类:数据结构可视化探索方法》,《物理评论》E 80(2009),066117。
[42] 何,齐;Xin,Jack,Bayesian学习的混合决定论-随机梯度Langevin动力学,Commun。信息系统。,12, 3, 221-232 (2012) ·Zbl 1329.60260号 ·doi:10.4310/CIS.2012.v12.n3.a3
[43] 文章:25 P.Wittek,图形处理器上的高性能动态量子聚类,计算物理杂志233(2013),262-271。
[44] 张玲松;Marron,J.S.(马伦,J.S.)。;沈海鹏;朱正元,奇异值分解及其可视化,计算机学报。图表。统计学。,16, 4, 833-854 (2007) ·doi:10.1198/106186007X256080
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。