×

平衡几何和密度:高维数据的路径距离。 (英语) Zbl 1493.62391号

总结:提出了功率加权最短路径距离(PWSPD)的新几何和计算分析。通过阐明这些指标在基础数据中平衡几何结构和密度的方式,我们阐明了它们的关键参数,并说明了它们如何为数据分析提供多个视角。与相关数据驱动度量进行了比较,说明了密度在基于核的无监督和半监督机器学习中的更广泛作用。在计算上,我们将完全加权图上的PWSPD与其加权最近邻图上的类似物联系起来,为它们的近似最优等价性提供了高概率保证。发展了与渗流理论的联系,以在有限样本设置中建立对PWSPD偏差和方差的估计。理论结果得到了示例性实验的支持,证明了PWSPD在广泛的数据设置中的通用性。在整篇论文中,我们的结果通常只需要从一个紧凑的低维流形中采样底层数据,并且最关键的取决于该流形的内在维数,而不是它的环境维数。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T09号 数据分析和大数据的计算方面

软件:

t-SNE公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] E.Aamari、J.Kim、F.Chazal、B.Michel、A.Rinaldo和L.Wasserman,估计流形的范围,电子。《美国联邦法律大全》,13(12019),第1359-1399页·Zbl 1418.62100号
[2] M.Alamgir和U.Von Luxburg,随机k近邻图中的最短路径距离,《ICML学报》,2012年,第1251-1258页。
[3] K.S.Alexander,关于第一代渗流收敛速度的注记,Ann.Appl。概率。,第81-90页,1993年·Zbl 0771.60090号
[4] H.Antil、T.Berry和J.Harlim,分数扩散图,应用。计算。哈蒙。分析。,54(2021年),第145-175页·Zbl 1469.60247号
[5] E.Arias-Castro,当数据为混合维时基于成对距离的聚类,IEEE Trans。通知。《理论》,57(2011),第1692-1706页·Zbl 1366.62117号
[6] A.Auffinger、M.Damron和J.Hanson,《首次穿越50年》,大学讲师。68,AMS,普罗维登斯,RI,2017年·Zbl 1452.60002号
[7] M.Azizyan、A.Singh和L.Wasserman,《密度敏感半监督推理》,《统计年鉴》。,41(2013),第751-771页·Zbl 1267.62057号
[8] M.Belkin和P.Niyogi,用于降维和数据表示的拉普拉斯本征映射,神经计算。,15(2003年),第1373-1396页·Zbl 1085.68119号
[9] M.Belkin和P.Niyogi,拉普拉斯特征映射的收敛,《NIPS学报》,第129-136页,2007年。
[10] R.E.Bellman,《自适应控制过程:导览》,普林斯顿大学出版社,新泽西州普林斯顿,2015年。
[11] T.Berry和J.Harlim,可变带宽扩散内核,应用。计算。哈蒙。分析。,40(2016年),第68-96页·Zbl 1343.94020号
[12] T.Berry和T.Sauer,局部核与数据的几何结构,应用。计算。哈蒙。分析。,40(2016年),第439-469页·Zbl 1376.94002号
[13] A.S.Bijral、N.Ratliff和N.Srebro,《基于密度距离的半监督学习》,《UAI学报》,2011年,第43-50页。
[14] J.-D.Boissonnat、A.Lieutier和M.Wintraecken,《可达性、度量畸变、测地凸性和切线空间的变化》,J.Appl。计算。白杨。,3(2019年),第29-58页·Zbl 1431.53043号
[15] L.Boinsegna、G.Gobbo、F.Noeí和C.Clementi,通过变量优化扩散图研究分子动力学,化学理论计算杂志。,11(2015),第5947-5960页。
[16] E.Borghini、X.Fernández、P.Groisman和G.Mindlin,通过基于密度的度量学习的内在持久同调,预印本\hrefhttps://arxiv.org/abs/2012.07621arXiv:2012.076212020年。
[17] O.Bousquet、O.Chapelle和M.Hein,《基于度量的正则化》,《NIPS会议记录》,2003年,第1221-1228页。
[18] H.Chang和D.-Y.Yeung,稳健的基于路径的光谱聚类,模式识别,41(2008),第191-203页·Zbl 1122.68525号
[19] Y.Cheng,Mean shift,模式搜索和聚类,IEEE Trans。模式分析。《机器智能》,17(1995),第790-799页。
[20] T.Chu、G.L.Miller和D.R.Sheehy,通过图上的Lipschitz嵌入和最短路径精确计算流形度量,《SODA学报》,2017年,第411-425页·Zbl 07304048号
[21] R.R.Coifman和S.Lafon,扩散图,应用。计算。哈蒙。分析。,21(2006),第5-30页·Zbl 1095.68094号
[22] R.R.Coifman、S.Lafon、A.B.Lee、M.Maggioni、B.Nadler、F.Warner和S.W.Zucker,《几何扩散作为调和分析和数据结构定义的工具:扩散图》,Proc。国家。阿卡德。科学。美国,102(2005),第7426-7431页·Zbl 1405.42043号
[23] S.B.Damelin、F.J.Hickernell、D.L.Ragozin和X.Zeng,关于欧氏空间可测子集的能量、差异和群不变测度,J.Fourier Ana。申请。,16(2010年),第813-839页·Zbl 1292.49041号
[24] M.Damron和X.Wang,欧几里德第一通过渗流中的熵减少,电子。J.概率。,21 (2016). ·Zbl 1354.60116号
[25] L.P.Devroye和T.J.Wagner,最近邻密度估计的强一致一致性,Ann.Statist。,5(1977年),第536-540页·兹伯利0367.62061
[26] D.L.Donoho和C.Grimes,Hessian特征映射:高维数据的局部线性嵌入技术,Proc。国家。阿卡德。科学。,100(2003年),第5591-5596页·Zbl 1130.62337号
[27] M.Ester、H.-P.Kriegel、J.Sander和X.Xu,一种基于密度的算法,用于在有噪声的大型空间数据库中发现簇,《KDD学报》,1996年,第226-231页。
[28] A.M.Farahmand、C.Szepesvaíri和J.-Y.Audibert,《显性适应维度估计》,载于《国际资本市场协会学报》,2007年,第265-272页。
[29] H.费德勒,曲率测量,Trans。阿默尔。数学。《社会学杂志》,93(1959),第418-491页·Zbl 0089.38402号
[30] B.Fischer、T.Zoõller和J.M.Buhmann,基于路径的成对数据聚类及其在纹理分割中的应用,在计算机视觉和模式识别中的能量最小化方法国际研讨会上,斯普林格,纽约,2001年,第235-250页·Zbl 1001.68765号
[31] N.Garciía Trillos、D.Sanz-Alonso和R.Yang,噪声点云的局部正则化:改进的全球几何估计和数据分析,J.Mach。学习。研究,20(2019),第1-37页·Zbl 1434.68407号
[32] P.Groisman、M.Jonckheere和F.Sapienza,非均质欧几里德第一通道渗透和远程学习,预印本\hrefhttps://arxiv.org/abs/1810.09398arXiv:1810.093982018年·Zbl 1491.60178号
[33] L.Gyoïrfi、M.Kohler、A.Krzyzak和H.Walk,《非参数回归的无分布理论》,施普林格出版社,2006年·兹比尔1021.62024
[34] M.Hein和M.Maier,流形去噪,《NIPS学报》,第19卷,第561-568页,2006年。
[35] C·D·霍华德和C·M·纽曼,第一通过渗流的欧几里德模型,普罗巴伯。理论相关领域,108(1997),第153-170页·Zbl 0883.60091号
[36] C·D·霍华德和C·M·纽曼,欧几里德第一次通过渗流的测地学和生成树,Ann.Probab。,29(2001),第577-623页·Zbl 1062.60099号
[37] G.Hughes,《关于统计模式识别器的平均准确度》,IEEE Trans。通知。《理论》,14(1968),第55-63页。
[38] S.J.Hwang、S.B.Damelin和A.Hero,《通过随机点的最短路径》,Ann.Appl。概率。,26(2016),第2791-2823页·Zbl 1353.60028号
[39] D.B.Johnson,《稀疏网络中最短路径的高效算法》,J.ACM,24(1977),第1-13页·Zbl 0343.68028号
[40] J.Kileel、A.Moscovich、N.Zelesko和A.Singer,《任意规范的流形学习》,预印本\hrefhttps://arxiv.org/abs/2012.14172arXiv:2012.141722020年·Zbl 1530.68214号
[41] A.Little、M.Maggioni和J.M.Murphy,《基于路径的谱聚类:保证、对异常值的鲁棒性和快速算法》,J.Mach。学习。决议,21(2020),第1-66页·Zbl 1497.68430号
[42] D.O.Loftsgaarden和C.P.Quesenberry,多元密度函数的非参数估计,《数学年鉴》。统计学。,36(1965),第1049-1051页·Zbl 0132.38905号
[43] P.C.Mahalanobis,《关于统计学中的广义距离》,印度国家科学研究所,1936年·Zbl 0015.03302号
[44] J.Malik、C.Shen、H.-T.Wu和N.Wu,《连接点:从局部协方差到经验内禀几何和局部线性嵌入》,Pure Appl。分析。,1(2019年),第515-542页·Zbl 1433.62142号
[45] D.Mckenzie和S.Damelin,聚类欧氏数据的幂加权最短路径,发现。《数据科学》第1卷(2019年),第307-327页。
[46] A.Moscovich、A.Jaffe和B.Nadler,未知流形上的Minimax最优半监督回归,《AISTATS学报》,2017,第933-942页。
[47] A.Y.Ng、M.I.Jordan和Y.Weiss,《关于光谱聚类:分析和算法》,《NIPS学报》,第849-856页,2002年。
[48] P.Niyogi、S.Smale和S.Weinberger,从随机样本中发现高置信度子流形的同源性,离散计算。地理。,39(2008),第419-441页·Zbl 1148.68048号
[49] A.Rinaldo和L.Wasserman,广义密度聚类,Ann.Statist。,38(2010),第2678-2722页·Zbl 1200.62066号
[50] A.Rodriguez和A.Laio,通过快速搜索和发现密度峰值进行聚类,《科学》,344(2014),第1492-1496页。
[51] Sajama和A.Orlitsky,基于密度的距离度量的估计和计算,《ICML学报》,2005年,第760-767页。
[52] L.K.Saul和M.I.Jordan,基于模型插值的变分原理,《NIPS学报》,1997年,第267-273页。
[53] G.Schiebinger,M.J.Wainwright,B.Yu,《核化谱聚类的几何》,《统计年鉴》。,43(2015),第819-846页·Zbl 1312.62082号
[54] J.Shi和J.Malik,标准化切割和图像分割,IEEE Trans。模式分析。《机器智能》,22(2000),第888-905页。
[55] J.B.Tenenbaum、V.De Silva和J.C.Langford,《非线性降维的全球几何框架》,《科学》,290(2000),第2319-2323页。
[56] L.van der Maaten和G.Hinton,《使用t-SNE可视化数据》,《机器学习研究杂志》,9(2008),第2579-2605页·Zbl 1225.68219号
[57] D.Van Dijk、R.Sharma、J.Nainys、K.Yim、P.Kathail、A.J.Carr、C.Burdziak、K.R Moon、C.L.Chaffer、D.Pattabiraman、B.Bierie、L.Mazutis、G.Wolf、S.Krishnaswamy和D.Peer,《使用数据扩散从单细胞数据中恢复基因交互作用》,《细胞》,174(2018),第716-729页。
[58] P.Vincent和Y.Bengio,《密度敏感指标和内核》,雪鸟学习研讨会,2003年。
[59] U.Von Luxburg,光谱聚类教程,统计计算。,17(2007),第395-416页。
[60] R.Xu、S.Damelin、B.Nadler和D.C.Wunsch II,用特征过滤方法和扩散图聚类高维基因表达数据,人工智能医学,48(2010),第91-98页。
[61] L.Zelnik-Manor和P.Perona,自校正谱聚类,《NIPS学报》,第1601-1608页,2005年。
[62] S.Zhang和J.M.Murphy,高光谱图像聚类与空间规则超测量,遥感,13(2021),955。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。