×

数据聚类中加权拉普拉斯算子的谱分析。 (英语) Zbl 07432352号

摘要:由加权邻接矩阵计算出的图拉普拉斯算子被广泛用于识别数据中的几何结构,尤其是聚类;它们的谱特性在许多无监督和半监督学习算法中起着核心作用。当适当缩放时,图拉普拉斯逼近大数据极限中的极限连续算子。因此,研究这些限制操作符有助于了解学习算法。本文致力于研究作为图Laplacians的大数据极限出现的参数化散度型椭圆算子族。解释了拉普拉斯三参数图族和微分算子三参数族之间的联系。在数据由两个几乎分离的簇组成的情况下,分析了这些微分算子的光谱特性,这在某种意义上是非常精确的。特别地,我们研究了谱间隙如何依赖于进入拉普拉斯图的三个参数,以及如何依赖于测量完美聚集情况下扰动大小的参数。给出了数值结果,为分析提供了例证,并在以下方面对其进行了扩展:计算研究了存在两个几乎分离的簇的情况,但这违反了我们理论中使用的假设;存在两个以上集群的情况也超出了我们的理论;以及通过图Laplacian证明我们对微分算子的研究对于理解有限数据问题的相关性的情况。这些发现为基于加权邻接矩阵的学习算法中的参数选择提供了深入的见解;它们还为分析各种无监督和半监督学习算法在大数据限制下的一致性提供了基础。

MSC公司:

47A75型 线性算子的特征值问题
62小时30分 分类和区分;聚类分析(统计方面)
68吨10 模式识别、语音识别
35B20型 PDE背景下的扰动
05元50分 图和线性代数(矩阵、特征值等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 亚当斯,R.A。;Fournier,J.J.,Sobolev Spaces,第140卷(2003年),Elsevier·Zbl 1098.46001号
[2] Bakry,D。;Gentil,I。;Ledoux,M.,《马尔可夫扩散算子的分析与几何》,第348卷(2013),Springer科学与商业媒体:Springer科技与商业媒体纽约
[3] 巴莱,S。;Abhyankar,S。;亚当斯,M.F。;Brown,J.等人。;布鲁纳,P。;Buschelman,K。;达尔星。;Dener,A。;埃伊霍特,V。;格罗普,W.D。;卡佩耶夫,D。;考希克,D。;Knepley,M.G。;May,D.A。;McInnes,L.C.公司。;Mills,R.T。;Munson,T。;鲁普,K。;萨南,P。;B.F.史密斯。;扎皮尼,S。;张,H。;Zhang,H.(2019),阿贡国家实验室,PETSc用户手册。技术报告ANL-95/11-3.11版
[4] 贝尔金,M。;Niyogi,P.,用于降维和数据表示的拉普拉斯特征映射,神经计算。,15, 6, 1373-1396 (2003) ·Zbl 1085.68119号
[5] 贝尔金,M。;Niyogi,P.,拉普拉斯特征映射的收敛性,(NIPS(2006))
[6] 贝尔金,M。;Niyogi,P.,《拉普拉斯流形方法的理论基础》,J.Compute。系统。科学。,74, 8, 1289-1308 (2008) ·Zbl 1157.68056号
[7] 贝里,T。;Harlim,J.,可变带宽扩散核,应用。计算。哈蒙。分析。,40, 1, 68-96 (2016) ·Zbl 1343.94020号
[8] 贝尔托齐,A.L。;Flenner,A.,高维数据分类图上的扩散界面模型,多尺度模型。模拟。,10, 3, 1090-1118 (2012) ·Zbl 1259.68215号
[9] 贝尔托齐,A.L。;罗,X。;Stuart,A.M。;Zygalakis,K.C.,基于图形的高维数据分类中的不确定性量化,SIAM/ASA J.不确定性。量化。,6, 2, 568-595 (2018) ·兹比尔1394.62083
[10] Bovier,A。;埃克霍夫,M。;盖拉德,V。;Klein,M.,《可逆扩散过程的亚稳定性i:容量和退出时间的尖锐渐近性》,《欧洲数学杂志》。Soc.,6,4,399-424(2004)·Zbl 1076.82045号
[11] Bovier,A。;盖拉德,V。;Klein,M.,可逆扩散过程的亚稳定性ii:小特征值的精确渐近性,《欧洲数学杂志》。Soc.,7,1,69-99(2005)·Zbl 1105.82025号
[12] Calder,J.,《博弈论p-Laplacian和少标签半监督学习》,《非线性》,32,1,301(2018)·Zbl 1408.35048号
[13] Calder,J。;Trillos,N.G.,图Laplacians在ϵ-图和k-NN图上的改进谱收敛速度(2019)
[14] 科伊夫曼,R.R。;Lafon,S.,扩散图,应用。计算。哈蒙。分析。,21, 1, 5-30 (2006) ·Zbl 1095.68094号
[15] de Kergorlay,H.-L。;Higham,D.J.,基于主持人的光谱聚类的一致性(2020年),arXiv预印本
[16] Deufhard,P。;Dellnitz,M。;O.Junge。;Schütte,C.,用细分技术计算基本分子动力学,(计算分子动力学:挑战,方法,思想(1999),Springer),98-115·Zbl 0966.81067号
[17] Deufhard,P。;惠辛加,W。;Fischer,A。;Schütte,C.,可逆几乎非耦合马尔可夫链中几乎不变聚集体的识别,线性代数应用。,315, 1-3, 39-59 (2000) ·Zbl 0963.65008号
[18] 邓洛普,M.M。;Slepčev博士。;Stuart,A.M。;Thorpe,M.,基于图形的半监督学习算法的大数据和零噪声极限,应用。计算。哈蒙。分析。(2019) ·Zbl 1442.62768号
[19] Evans,L.C.,《偏微分方程》,《数学研究生》,第19卷(2010年),AMS:AMS Providence,RI·Zbl 1194.35001号
[20] 北卡罗来纳州加西亚·特里洛斯。;Gerlach,M。;海因,M。;Slepčev,D.,随机几何图上的图Laplacian向Laplace-Beltrami算子的谱收敛的误差估计,Found。计算。数学。,20, 4, 827-887 (2020) ·Zbl 1447.62141号
[21] García Trillos,北卡罗来纳州。;霍夫曼,F。;Hosseini,B.,图的几何结构——拉普拉斯嵌入,J.Mach。学习。决议,22,第63条pp.(2021),55 pp·Zbl 07370580号
[22] 北卡罗来纳州加西亚·特里洛斯。;Slepčev,D.,点云总变化的连续极限,Arch。定额。机械。分析。,220, 1, 193-241 (2016) ·Zbl 1336.68215号
[23] 北卡罗来纳州加西亚·特里洛斯。;Slepčev,D.,光谱聚类一致性的变分方法,应用。计算。哈蒙。分析。,45, 2, 239-281 (2018) ·Zbl 1396.49013号
[24] 吉内,E。;Koltchinskii,V.,Laplace-Beltrami算子的经验图Laplacian近似:大样本结果,(高维概率(2006),数学统计研究所),238-259·Zbl 1124.60030号
[25] Hafiene,Y。;法迪利,J.M。;Chesneau,C。;Elmoataz,A.,随机非均匀图上非局部p-Laplacian演化问题的连续极限,ESAIM:Math。模型。数字。分析。,54, 2 (2020) ·Zbl 1442.65212号
[26] Hafiene,Y。;法迪利,J.M。;Elmoataz,A.,图上非局部p-Laplacian变分问题的连续极限,SIAM J.成像科学。,12, 4, 1772-1807 (2019) ·Zbl 1447.65056号
[27] 霍夫曼,F。;侯赛尼,B。;任,Z。;Stuart,A.M.,图上半监督学习算法的一致性:probit和one-hot方法,J.Mach。学习。决议,第21条,第186页(2020年),第55页·Zbl 1527.68179号
[28] 惠辛加,W。;Meyn,S。;Schütte,C.,《马尔科夫和分子系统中的相变和亚稳性》,《应用年鉴》。概率。,14, 1, 419-458 (2004) ·Zbl 1041.60026号
[29] 加藤,T.,线性算子的扰动理论,数学经典(1995),施普林格:施普林格纽约·Zbl 0836.47009号
[30] 洛夫茨加登,D.O。;Quesenberry,C.P.,多元密度函数的非参数估计,《数学年鉴》。Stat.,36,3,1049-1051(1965)·Zbl 0132.38905号
[31] Logg,A。;马尔达尔,K.-A。;Wells,G.,《用有限元方法自动求解微分方程:FEniCS图书,计算科学与工程讲义》,第84卷(2012),Springer Science&Business Media·Zbl 1247.65105号
[32] McLean,W.,《强椭圆系统和边界积分方程》(2000),剑桥大学出版社:剑桥大学出版社·Zbl 0948.35001号
[33] A.Y.Ng、M.I.Jordan、Y.Weiss,《关于光谱聚类:分析和算法》,载于《第14届神经信息处理系统国际会议论文集:自然和合成》。
[34] Ng,A.Y。;约旦医学院。;Weiss,Y.,《关于谱聚类:分析和算法》,(神经信息处理系统进展(2002)),849-856
[35] Pavliotis,G.A.,《随机过程与应用:扩散过程》,Fokker-Planck和Langevin方程,应用数学文本,第60卷(2014),Springer:Springer New York·Zbl 1318.60003号
[36] 希宾格,G。;Wainwright,M.J。;Yu,B.,《核化谱聚类的几何》,Ann.Stat.,43,2,819-846(2015)·兹比尔1312.62082
[37] 舒特,C。;惠辛加,W。;Deufhard,P.,生物分子系统构象动力学的转移算子方法,(Bernold,F.,遍历理论,动力学系统的分析和有效模拟(2001),Springer:Springer-Berlin),191-223·Zbl 0996.92012号
[38] 史J。;Malik,J.,标准化切割和图像分割,IEEE Trans。模式分析。机器。智力。,22,888-905(2000年8月)
[39] Shi,T。;贝尔金,M。;Yu,B.,《数据光谱学:卷积算子和聚类的特征空间》,Ann.Stat.,37,6B,3960-3984(2009)·Zbl 1191.62114号
[40] 斯莱普切夫,D。;Thorpe,M.,半监督学习中p-Laplacian正则化分析,SIAM J.数学。分析。,51, 3, 2085-2120 (2019) ·兹比尔1422.49020
[41] Spielmat,D.A。;Teng,S.-H.,《谱划分工作:平面图和有限元网格》,(第37届计算机科学基础会议论文集(1996),IEEE),96-105
[42] 特雷尔,G.R。;Scott,D.W.,《可变核密度估计》,《Ann.Stat.》,第20、3、1236-1265页(1992年)·Zbl 0763.62024号
[43] von Luxburg,U.,《光谱聚类教程》,《统计计算》。,17, 4, 395-416 (2007)
[44] von Luxburg,美国。;贝尔金,M。;Bousquet,O.,《光谱聚类的一致性》,《Ann.Stat.》,36,2,555-586(2008)·Zbl 1133.62045号
[45] C.L.Wormell,S.Reich,《扩散图的谱收敛:改进的误差边界和替代归一化》,2020年·Zbl 1486.65237号
[46] Zelnik-Manor,L。;Perona,P.,自校正谱聚类,(神经信息处理系统进展(2005)),1601-1608
[47] 朱,X。;加赫拉马尼,Z。;Lafferty,J.D.,使用高斯场和调和函数的半监督学习,(第20届机器学习国际会议论文集(2003)),912-919
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。