小安娜;丹尼尔·麦肯齐;詹姆斯·墨菲。 平衡几何和密度:高维数据的路径距离。 (英语) Zbl 1493.62391号 SIAM J.数学。数据科学。 4,编号1,72-99(2022). 总结:提出了功率加权最短路径距离(PWSPD)的新几何和计算分析。通过阐明这些指标在基础数据中平衡几何结构和密度的方式,我们阐明了它们的关键参数,并说明了它们如何为数据分析提供多个视角。与相关数据驱动度量进行了比较,说明了密度在基于核的无监督和半监督机器学习中的更广泛作用。在计算上,我们将完全加权图上的PWSPD与其加权最近邻图上的类似物联系起来,为它们的近似最优等价性提供了高概率保证。发展了与渗流理论的联系,以在有限样本设置中建立对PWSPD偏差和方差的估计。理论结果得到了示例性实验的支持,证明了PWSPD在广泛的数据设置中的通用性。在整篇论文中,我们的结果通常只需要从一个紧凑的低维流形中采样底层数据,并且最关键的取决于该流形的内在维数,而不是它的环境维数。 引用于2文件 MSC公司: 62H30型 分类和区分;聚类分析(统计方面) 68T09号 数据分析和大数据的计算方面 关键词:路径距离;流形学习;群集;机器学习;高维统计;内核方法 软件:t-SNE公司 PDF格式BibTeX公司 XML格式引用 \textit{A.Little}等人,SIAM J.数学。数据科学。4,编号1,72--99(2022;Zbl 1493.62391) 全文: 内政部 arXiv公司 参考文献: [1] E.Aamari、J.Kim、F.Chazal、B.Michel、A.Rinaldo和L.Wasserman,估计流形的范围,电子。《美国联邦法律大全》,13(12019),第1359-1399页·Zbl 1418.62100号 [2] M.Alamgir和U.Von Luxburg,随机k近邻图中的最短路径距离,《ICML学报》,2012年,第1251-1258页。 [3] K.S.Alexander,关于第一代渗流收敛速度的注记,Ann.Appl。概率。,第81-90页,1993年·Zbl 0771.60090号 [4] H.Antil、T.Berry和J.Harlim,分数扩散图,应用。计算。哈蒙。分析。,54(2021年),第145-175页·Zbl 1469.60247号 [5] E.Arias-Castro,当数据为混合维时基于成对距离的聚类,IEEE Trans。通知。《理论》,57(2011),第1692-1706页·Zbl 1366.62117号 [6] A.Auffinger、M.Damron和J.Hanson,《首次穿越50年》,大学讲师。68,AMS,普罗维登斯,RI,2017年·Zbl 1452.60002号 [7] M.Azizyan、A.Singh和L.Wasserman,《密度敏感半监督推理》,《统计年鉴》。,41(2013),第751-771页·Zbl 1267.62057号 [8] M.Belkin和P.Niyogi,用于降维和数据表示的拉普拉斯本征映射,神经计算。,15(2003年),第1373-1396页·Zbl 1085.68119号 [9] M.Belkin和P.Niyogi,拉普拉斯特征映射的收敛,《NIPS学报》,第129-136页,2007年。 [10] R.E.Bellman,《自适应控制过程:导览》,普林斯顿大学出版社,新泽西州普林斯顿,2015年。 [11] T.Berry和J.Harlim,可变带宽扩散内核,应用。计算。哈蒙。分析。,40(2016年),第68-96页·Zbl 1343.94020号 [12] T.Berry和T.Sauer,局部核与数据的几何结构,应用。计算。哈蒙。分析。,40(2016年),第439-469页·Zbl 1376.94002号 [13] A.S.Bijral、N.Ratliff和N.Srebro,《基于密度距离的半监督学习》,《UAI学报》,2011年,第43-50页。 [14] J.-D.Boissonnat、A.Lieutier和M.Wintraecken,《可达性、度量畸变、测地凸性和切线空间的变化》,J.Appl。计算。白杨。,3(2019年),第29-58页·Zbl 1431.53043号 [15] L.Boinsegna、G.Gobbo、F.Noeí和C.Clementi,通过变量优化扩散图研究分子动力学,化学理论计算杂志。,11(2015),第5947-5960页。 [16] E.Borghini、X.Fernández、P.Groisman和G.Mindlin,通过基于密度的度量学习的内在持久同调,预印本\hrefhttps://arxiv.org/abs/2012.07621arXiv:2012.076212020年。 [17] O.Bousquet、O.Chapelle和M.Hein,《基于度量的正则化》,《NIPS会议记录》,2003年,第1221-1228页。 [18] H.Chang和D.-Y.Yeung,稳健的基于路径的光谱聚类,模式识别,41(2008),第191-203页·Zbl 1122.68525号 [19] Y.Cheng,Mean shift,模式搜索和聚类,IEEE Trans。模式分析。《机器智能》,17(1995),第790-799页。 [20] T.Chu、G.L.Miller和D.R.Sheehy,通过图上的Lipschitz嵌入和最短路径精确计算流形度量,《SODA学报》,2017年,第411-425页·Zbl 07304048号 [21] R.R.Coifman和S.Lafon,扩散图,应用。计算。哈蒙。分析。,21(2006),第5-30页·Zbl 1095.68094号 [22] R.R.Coifman、S.Lafon、A.B.Lee、M.Maggioni、B.Nadler、F.Warner和S.W.Zucker,《几何扩散作为调和分析和数据结构定义的工具:扩散图》,Proc。国家。阿卡德。科学。美国,102(2005),第7426-7431页·Zbl 1405.42043号 [23] S.B.Damelin、F.J.Hickernell、D.L.Ragozin和X.Zeng,关于欧氏空间可测子集的能量、差异和群不变测度,J.Fourier Ana。申请。,16(2010年),第813-839页·Zbl 1292.49041号 [24] M.Damron和X.Wang,欧几里德第一通过渗流中的熵减少,电子。J.概率。,21 (2016). ·Zbl 1354.60116号 [25] L.P.Devroye和T.J.Wagner,最近邻密度估计的强一致一致性,Ann.Statist。,5(1977年),第536-540页·兹伯利0367.62061 [26] D.L.Donoho和C.Grimes,Hessian特征映射:高维数据的局部线性嵌入技术,Proc。国家。阿卡德。科学。,100(2003年),第5591-5596页·Zbl 1130.62337号 [27] M.Ester、H.-P.Kriegel、J.Sander和X.Xu,一种基于密度的算法,用于在有噪声的大型空间数据库中发现簇,《KDD学报》,1996年,第226-231页。 [28] A.M.Farahmand、C.Szepesvaíri和J.-Y.Audibert,《显性适应维度估计》,载于《国际资本市场协会学报》,2007年,第265-272页。 [29] H.费德勒,曲率测量,Trans。阿默尔。数学。《社会学杂志》,93(1959),第418-491页·Zbl 0089.38402号 [30] B.Fischer、T.Zoõller和J.M.Buhmann,基于路径的成对数据聚类及其在纹理分割中的应用,在计算机视觉和模式识别中的能量最小化方法国际研讨会上,斯普林格,纽约,2001年,第235-250页·Zbl 1001.68765号 [31] N.Garciía Trillos、D.Sanz-Alonso和R.Yang,噪声点云的局部正则化:改进的全球几何估计和数据分析,J.Mach。学习。研究,20(2019),第1-37页·Zbl 1434.68407号 [32] P.Groisman、M.Jonckheere和F.Sapienza,非均质欧几里德第一通道渗透和远程学习,预印本\hrefhttps://arxiv.org/abs/1810.09398arXiv:1810.093982018年·Zbl 1491.60178号 [33] L.Gyoïrfi、M.Kohler、A.Krzyzak和H.Walk,《非参数回归的无分布理论》,施普林格出版社,2006年·兹比尔1021.62024 [34] M.Hein和M.Maier,流形去噪,《NIPS学报》,第19卷,第561-568页,2006年。 [35] C·D·霍华德和C·M·纽曼,第一通过渗流的欧几里德模型,普罗巴伯。理论相关领域,108(1997),第153-170页·Zbl 0883.60091号 [36] C·D·霍华德和C·M·纽曼,欧几里德第一次通过渗流的测地学和生成树,Ann.Probab。,29(2001),第577-623页·Zbl 1062.60099号 [37] G.Hughes,《关于统计模式识别器的平均准确度》,IEEE Trans。通知。《理论》,14(1968),第55-63页。 [38] S.J.Hwang、S.B.Damelin和A.Hero,《通过随机点的最短路径》,Ann.Appl。概率。,26(2016),第2791-2823页·Zbl 1353.60028号 [39] D.B.Johnson,《稀疏网络中最短路径的高效算法》,J.ACM,24(1977),第1-13页·Zbl 0343.68028号 [40] J.Kileel、A.Moscovich、N.Zelesko和A.Singer,《任意规范的流形学习》,预印本\hrefhttps://arxiv.org/abs/2012.14172arXiv:2012.141722020年·Zbl 1530.68214号 [41] A.Little、M.Maggioni和J.M.Murphy,《基于路径的谱聚类:保证、对异常值的鲁棒性和快速算法》,J.Mach。学习。决议,21(2020),第1-66页·Zbl 1497.68430号 [42] D.O.Loftsgaarden和C.P.Quesenberry,多元密度函数的非参数估计,《数学年鉴》。统计学。,36(1965),第1049-1051页·Zbl 0132.38905号 [43] P.C.Mahalanobis,《关于统计学中的广义距离》,印度国家科学研究所,1936年·Zbl 0015.03302号 [44] J.Malik、C.Shen、H.-T.Wu和N.Wu,《连接点:从局部协方差到经验内禀几何和局部线性嵌入》,Pure Appl。分析。,1(2019年),第515-542页·Zbl 1433.62142号 [45] D.Mckenzie和S.Damelin,聚类欧氏数据的幂加权最短路径,发现。《数据科学》第1卷(2019年),第307-327页。 [46] A.Moscovich、A.Jaffe和B.Nadler,未知流形上的Minimax最优半监督回归,《AISTATS学报》,2017,第933-942页。 [47] A.Y.Ng、M.I.Jordan和Y.Weiss,《关于光谱聚类:分析和算法》,《NIPS学报》,第849-856页,2002年。 [48] P.Niyogi、S.Smale和S.Weinberger,从随机样本中发现高置信度子流形的同源性,离散计算。地理。,39(2008),第419-441页·Zbl 1148.68048号 [49] A.Rinaldo和L.Wasserman,广义密度聚类,Ann.Statist。,38(2010),第2678-2722页·Zbl 1200.62066号 [50] A.Rodriguez和A.Laio,通过快速搜索和发现密度峰值进行聚类,《科学》,344(2014),第1492-1496页。 [51] Sajama和A.Orlitsky,基于密度的距离度量的估计和计算,《ICML学报》,2005年,第760-767页。 [52] L.K.Saul和M.I.Jordan,基于模型插值的变分原理,《NIPS学报》,1997年,第267-273页。 [53] G.Schiebinger,M.J.Wainwright,B.Yu,《核化谱聚类的几何》,《统计年鉴》。,43(2015),第819-846页·Zbl 1312.62082号 [54] J.Shi和J.Malik,标准化切割和图像分割,IEEE Trans。模式分析。《机器智能》,22(2000),第888-905页。 [55] J.B.Tenenbaum、V.De Silva和J.C.Langford,《非线性降维的全球几何框架》,《科学》,290(2000),第2319-2323页。 [56] L.van der Maaten和G.Hinton,《使用t-SNE可视化数据》,《机器学习研究杂志》,9(2008),第2579-2605页·Zbl 1225.68219号 [57] D.Van Dijk、R.Sharma、J.Nainys、K.Yim、P.Kathail、A.J.Carr、C.Burdziak、K.R Moon、C.L.Chaffer、D.Pattabiraman、B.Bierie、L.Mazutis、G.Wolf、S.Krishnaswamy和D.Peer,《使用数据扩散从单细胞数据中恢复基因交互作用》,《细胞》,174(2018),第716-729页。 [58] P.Vincent和Y.Bengio,《密度敏感指标和内核》,雪鸟学习研讨会,2003年。 [59] U.Von Luxburg,光谱聚类教程,统计计算。,17(2007),第395-416页。 [60] R.Xu、S.Damelin、B.Nadler和D.C.Wunsch II,用特征过滤方法和扩散图聚类高维基因表达数据,人工智能医学,48(2010),第91-98页。 [61] L.Zelnik-Manor和P.Perona,自校正谱聚类,《NIPS学报》,第1601-1608页,2005年。 [62] S.Zhang和J.M.Murphy,高光谱图像聚类与空间规则超测量,遥感,13(2021),955。 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。