×

动力学系统的扩散图、光谱聚类和反应坐标。 (英语) Zbl 1103.60069号

摘要:数据分析的一个核心问题是高维数据的低维表示及其基本几何结构和密度的简明描述。在复杂动力学系统的大规模模拟分析中,时间演化的概念发挥了作用,重要的问题是识别慢变量和捕捉系统长时间演化的动态有意义的反应坐标。我们通过考虑一系列扩散映射,为这些明显不同的任务提供了统一的观点,扩散映射定义为通过定义在给定数据集上的适当定义的随机行走的特征向量,将复杂(高维)数据嵌入到低维欧氏空间。假设数据是从潜在的一般概率分布(p(x)=e^{-U(mathbf x)})中随机抽样的,我们证明了当样本数趋于无穷大时,每个扩散映射的特征向量收敛到在概率分布的支持下定义的相应微分算子的特征函数。
图上马尔可夫链的不同规范化导致不同的极限微分算子。具体来说,归一化图Laplacian导致了一个反向Fokker-Planck算子,其潜在势为\(2U(\mathbf x)\),最适合于谱聚类。随机游走的不同各向异性归一化导致了具有势\(U(\mathbf x,最适合分析由具有相同势的随机微分方程控制的高维随机系统的长时间渐近性。最后,另一个归一化导致数据所在流形上Laplace-Beltrami(heat)算子的本征函数,最适合分析数据集的几何结构,而不管其可能的非均匀密度。

MSC公司:

60英尺60英寸 扩散过程
60J70型 布朗运动和扩散理论的应用(种群遗传学、吸收问题等)
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.H.,《统计学习的要素》(2001),Springer-Verlag:Springer-Verlag纽约·Zbl 0973.62007号
[2] 科伊夫曼,R.R。;拉丰,S。;Lee,A.B。;Maggioni,M。;纳德勒,B。;华纳,F。;Zucker,S.,《几何扩散作为调和分析和数据结构定义的工具》,第一部分:扩散图,Proc。国家。阿卡德。科学。,102, 21, 7426-7431 (2005) ·Zbl 1405.42043号
[3] Givon,D。;Kupferman,R。;Stuart,A.,《提取宏观动力学:模型问题和算法》,非线性,17,R55-R127(2004)·Zbl 1073.82038号
[4] 惠辛加,W。;贝斯特,C。;Roitzsch,R。;Ch.Schütte。;Cordes,F.,《从模拟数据到构象集成:基于结构和动力学的方法》,J.Compute。化学。,20, 1760-1774 (1999)
[5] 惠辛加,W。;Ch.Schütte。;Stuart,A.M.,《提取宏观随机动力学:模型问题》,Comm.Pure Appl。数学。,56, 234-269 (2003) ·Zbl 1033.60080号
[6] Faradjan,T。;Elber,R.,《milestoning从反应坐标计算时间尺度》,J.Chem。物理。,120, 10880-10889 (2004)
[7] 科伊夫曼,R.R。;Lafon,S.,扩散图,应用。计算。哈蒙。分析。,21,1,6-31(2006年)·Zbl 1095.68094号
[8] Chung,F.R.K.,谱图理论,Reg.Conf.Ser。数学。,第92卷(1997年),美国。数学。Soc.:美国。数学。佛罗里达州普罗维登斯Soc.Providence·Zbl 0867.05046号
[9] Weiss,Y.,《使用特征向量的分割:统一观点》,(IEEE国际计算机视觉会议,第2卷(1999)),975-982
[10] Ng,A.Y。;M.I.乔丹。;Weiss,Y.,《关于谱聚类:分析和算法》,高级神经信息。过程。系统。,14 (2002)
[11] 史J。;Malik,J.,标准化切割和图像分割,(IEEE计算机视觉和模式识别会议(1997)),731-737
[12] 贝尔金,M。;Niyogi,P.,用于降维和数据表示的拉普拉斯特征映射,神经计算。,15, 6, 1373-1396 (2003) ·Zbl 1085.68119号
[13] Saerens,M。;福斯,F。;Yen,L。;Dupont,P.,《图的主成分分析及其与谱聚类的关系》,第15届欧洲机器学习会议论文集,第15次欧洲机器学习大会论文集,ECML,2004年。程序。第十五届欧洲机器学习会议。程序。第15届欧洲机器学习会议,ECML,2004年,《人工智能讲义》,第3201卷(2004年),施普林格出版社:施普林格出版社,柏林),371-383·Zbl 1132.68589号
[14] M.Belkin,P.Niyogi,《迈向基于拉普拉斯流形方法的理论基础》,载于:第18届学习理论会议,2005年;M.Belkin,P.Niyogi,《迈向基于拉普拉斯流形方法的理论基础》,载于:第18届学习理论会议,2005年·Zbl 1137.68521号
[15] M.Meila,J.Shi,光谱分割的随机行走观点,人工智能与统计学,2001;M.Meila,J.Shi,光谱分割的随机漫步观点,人工智能与统计,2001年
[16] Yen,L。;Vanvyve,D。;沃特斯,F。;福斯,F。;Verleysen,M。;Saerens,M.,使用基于随机游程的距离度量进行聚类,(欧洲人工神经网络研讨会(2005)),317-324
[17] 蒂什比,N。;Slonim,N.,《基于马尔可夫松弛和信息瓶颈方法的数据聚类》,高级神经信息。过程。系统。,第13页(2001年)
[18] 伯恩斯坦,M。;Brown,L.S.,《超对称和双稳态福克-普朗克方程》,《物理学》。修订稿。,52, 1933-1935 (1984)
[19] Kevrekidis,I.G。;齿轮,C.W。;海曼,J.M。;Kevrekidis,P.G。;Runborg,O。;Theodoropoulos,C.,《无方程多尺度计算:使微观模拟器能够执行系统级任务》,Commun。数学。科学。,1, 4, 715 (2003) ·Zbl 1086.65066号
[20] Schuss,Z.,《随机微分方程的理论与应用》(1980),威利出版社,威利纽约·Zbl 0439.60002号
[21] Gardiner,C.W.,《物理、化学和自然科学随机方法手册》(2004),Springer-Verlag:Springer-Verlag纽约·Zbl 1143.60001号
[22] Risken,H.,《福克-普朗克方程:解的方法和应用》(1989),施普林格-弗拉格出版社:柏林/纽约·Zbl 0665.60084号
[23] 纳德勒,B。;拉丰,S。;Kevrekidis,I.G。;Coifman,R.R.,扩散图,福克-普朗克算子的光谱聚类和本征函数,高级神经信息。过程。系统。,18 (2005)
[24] J.Ham,D.D.Lee,S.Mika,B.Schölkopf,流形降维的核心观点,技术报告TR-110,Max-Planck-Institut für biologische Kybernetik,Tübingen,2003;J.Ham,D.D.Lee,S.Mika,B.Schölkopf,流形降维的核心观点,技术报告TR-110,Max-Planck-Institut für biologische Kybernetik,Tübingen,2003
[25] 辛格,J.,量子力学(1997),威利:威利纽约
[26] 霍恩,D。;Gottlieb,A.,基于量子力学的模式识别问题中的数据聚类算法,物理学。修订稿。,88, 1, 018702 (2002)
[27] 南帕克。;Sener,M.K。;卢·D。;Schulten,K.,《基于平均首次通过时间的反应路径》,J.Chem。物理。,119, 3, 1313-1319 (2003)
[28] von Luxburg,美国。;O.布斯克。;Belkin,M.,谱聚类的极限,高级神经信息。过程。系统。,17(2004年)
[29] M.Hein,J.Audibert,U.von Luxburg,《从图到流形——拉普拉斯图的弱和强点态一致性》,载于:第18届学习理论会议,2005年;M.Hein,J.Audibert,U.von Luxburg,从图到流形——图的弱和强点态一致性Laplacians,收录于:第18届学习理论会议,2005年·Zbl 1095.68097号
[30] R.R.Coifman、S.Lafon、M.Maggioni、I.G.Kevrekidis、B.Nadler,《扩散图、反应坐标和随机系统的低维表示法》,编制中;R.R.Coifman、S.Lafon、M.Maggioni、I.G.Kevrekidis、B.Nadler,《扩散图、反应坐标和随机系统的低维表示》,编制中·Zbl 1175.60058号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。