文件Zbl 1493.62391-zbMATH打开

平衡几何和密度：高维数据的路径距离。（英语） Zbl 1493.62391号

SIAM J.数学。数据科学。 4，编号1，72-99（2022）.

总结：提出了功率加权最短路径距离（PWSPD）的新几何和计算分析。通过阐明这些指标在基础数据中平衡几何结构和密度的方式，我们阐明了它们的关键参数，并说明了它们如何为数据分析提供多个视角。与相关数据驱动度量进行了比较，说明了密度在基于核的无监督和半监督机器学习中的更广泛作用。在计算上，我们将完全加权图上的PWSPD与其加权最近邻图上的类似物联系起来，为它们的近似最优等价性提供了高概率保证。发展了与渗流理论的联系，以在有限样本设置中建立对PWSPD偏差和方差的估计。理论结果得到了示例性实验的支持，证明了PWSPD在广泛的数据设置中的通用性。在整篇论文中，我们的结果通常只需要从一个紧凑的低维流形中采样底层数据，并且最关键的取决于该流形的内在维数，而不是它的环境维数。

引用于2文件

MSC公司：

62H30型	分类和区分；聚类分析（统计方面）
68T09号	数据分析和大数据的计算方面

关键词：

路径距离;流形学习;群集;机器学习;高维统计;内核方法

软件：

t-SNE公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	E.Aamari、J.Kim、F.Chazal、B.Michel、A.Rinaldo和L.Wasserman，估计流形的范围，电子。《美国联邦法律大全》，13（12019），第1359-1399页·Zbl 1418.62100号
[2]	M.Alamgir和U.Von Luxburg，随机k近邻图中的最短路径距离，《ICML学报》，2012年，第1251-1258页。
[3]	K.S.Alexander，关于第一代渗流收敛速度的注记，Ann.Appl。概率。，第81-90页，1993年·Zbl 0771.60090号
[4]	H.Antil、T.Berry和J.Harlim，分数扩散图，应用。计算。哈蒙。分析。，54（2021年），第145-175页·Zbl 1469.60247号
[5]	E.Arias-Castro，当数据为混合维时基于成对距离的聚类，IEEE Trans。通知。《理论》，57（2011），第1692-1706页·Zbl 1366.62117号
[6]	A.Auffinger、M.Damron和J.Hanson，《首次穿越50年》，大学讲师。68，AMS，普罗维登斯，RI，2017年·Zbl 1452.60002号
[7]	M.Azizyan、A.Singh和L.Wasserman，《密度敏感半监督推理》，《统计年鉴》。，41（2013），第751-771页·Zbl 1267.62057号
[8]	M.Belkin和P.Niyogi，用于降维和数据表示的拉普拉斯本征映射，神经计算。，15（2003年），第1373-1396页·Zbl 1085.68119号
[9]	M.Belkin和P.Niyogi，拉普拉斯特征映射的收敛，《NIPS学报》，第129-136页，2007年。
[10]	R.E.Bellman，《自适应控制过程：导览》，普林斯顿大学出版社，新泽西州普林斯顿，2015年。
[11]	T.Berry和J.Harlim，可变带宽扩散内核，应用。计算。哈蒙。分析。，40（2016年），第68-96页·Zbl 1343.94020号
[12]	T.Berry和T.Sauer，局部核与数据的几何结构，应用。计算。哈蒙。分析。，40（2016年），第439-469页·Zbl 1376.94002号
[13]	A.S.Bijral、N.Ratliff和N.Srebro，《基于密度距离的半监督学习》，《UAI学报》，2011年，第43-50页。
[14]	J.-D.Boissonnat、A.Lieutier和M.Wintraecken，《可达性、度量畸变、测地凸性和切线空间的变化》，J.Appl。计算。白杨。，3（2019年），第29-58页·Zbl 1431.53043号
[15]	L.Boinsegna、G.Gobbo、F.Noeí和C.Clementi，通过变量优化扩散图研究分子动力学，化学理论计算杂志。，11（2015），第5947-5960页。
[16]	E.Borghini、X.Fernández、P.Groisman和G.Mindlin，通过基于密度的度量学习的内在持久同调，预印本\hrefhttps://arxiv.org/abs/2012.07621arXiv:2012.076212020年。
[17]	O.Bousquet、O.Chapelle和M.Hein，《基于度量的正则化》，《NIPS会议记录》，2003年，第1221-1228页。
[18]	H.Chang和D.-Y.Yeung，稳健的基于路径的光谱聚类，模式识别，41（2008），第191-203页·Zbl 1122.68525号
[19]	Y.Cheng，Mean shift，模式搜索和聚类，IEEE Trans。模式分析。《机器智能》，17（1995），第790-799页。
[20]	T.Chu、G.L.Miller和D.R.Sheehy，通过图上的Lipschitz嵌入和最短路径精确计算流形度量，《SODA学报》，2017年，第411-425页·Zbl 07304048号
[21]	R.R.Coifman和S.Lafon，扩散图，应用。计算。哈蒙。分析。，21（2006），第5-30页·Zbl 1095.68094号
[22]	R.R.Coifman、S.Lafon、A.B.Lee、M.Maggioni、B.Nadler、F.Warner和S.W.Zucker，《几何扩散作为调和分析和数据结构定义的工具：扩散图》，Proc。国家。阿卡德。科学。美国，102（2005），第7426-7431页·Zbl 1405.42043号
[23]	S.B.Damelin、F.J.Hickernell、D.L.Ragozin和X.Zeng，关于欧氏空间可测子集的能量、差异和群不变测度，J.Fourier Ana。申请。，16（2010年），第813-839页·Zbl 1292.49041号
[24]	M.Damron和X.Wang，欧几里德第一通过渗流中的熵减少，电子。J.概率。，21 (2016). ·Zbl 1354.60116号
[25]	L.P.Devroye和T.J.Wagner，最近邻密度估计的强一致一致性，Ann.Statist。，5（1977年），第536-540页·兹伯利0367.62061
[26]	D.L.Donoho和C.Grimes，Hessian特征映射：高维数据的局部线性嵌入技术，Proc。国家。阿卡德。科学。，100（2003年），第5591-5596页·Zbl 1130.62337号
[27]	M.Ester、H.-P.Kriegel、J.Sander和X.Xu，一种基于密度的算法，用于在有噪声的大型空间数据库中发现簇，《KDD学报》，1996年，第226-231页。
[28]	A.M.Farahmand、C.Szepesvaíri和J.-Y.Audibert，《显性适应维度估计》，载于《国际资本市场协会学报》，2007年，第265-272页。
[29]	H.费德勒，曲率测量，Trans。阿默尔。数学。《社会学杂志》，93（1959），第418-491页·Zbl 0089.38402号
[30]	B.Fischer、T.Zoõller和J.M.Buhmann，基于路径的成对数据聚类及其在纹理分割中的应用，在计算机视觉和模式识别中的能量最小化方法国际研讨会上，斯普林格，纽约，2001年，第235-250页·Zbl 1001.68765号
[31]	N.Garciía Trillos、D.Sanz-Alonso和R.Yang，噪声点云的局部正则化：改进的全球几何估计和数据分析，J.Mach。学习。研究，20（2019），第1-37页·Zbl 1434.68407号
[32]	P.Groisman、M.Jonckheere和F.Sapienza，非均质欧几里德第一通道渗透和远程学习，预印本\hrefhttps://arxiv.org/abs/1810.09398arXiv:1810.093982018年·Zbl 1491.60178号
[33]	L.Gyoïrfi、M.Kohler、A.Krzyzak和H.Walk，《非参数回归的无分布理论》，施普林格出版社，2006年·兹比尔1021.62024
[34]	M.Hein和M.Maier，流形去噪，《NIPS学报》，第19卷，第561-568页，2006年。
[35]	C·D·霍华德和C·M·纽曼，第一通过渗流的欧几里德模型，普罗巴伯。理论相关领域，108（1997），第153-170页·Zbl 0883.60091号
[36]	C·D·霍华德和C·M·纽曼，欧几里德第一次通过渗流的测地学和生成树，Ann.Probab。，29（2001），第577-623页·Zbl 1062.60099号
[37]	G.Hughes，《关于统计模式识别器的平均准确度》，IEEE Trans。通知。《理论》，14（1968），第55-63页。
[38]	S.J.Hwang、S.B.Damelin和A.Hero，《通过随机点的最短路径》，Ann.Appl。概率。，26（2016），第2791-2823页·Zbl 1353.60028号
[39]	D.B.Johnson，《稀疏网络中最短路径的高效算法》，J.ACM，24（1977），第1-13页·Zbl 0343.68028号
[40]	J.Kileel、A.Moscovich、N.Zelesko和A.Singer，《任意规范的流形学习》，预印本\hrefhttps://arxiv.org/abs/2012.14172arXiv:2012.141722020年·Zbl 1530.68214号
[41]	A.Little、M.Maggioni和J.M.Murphy，《基于路径的谱聚类：保证、对异常值的鲁棒性和快速算法》，J.Mach。学习。决议，21（2020），第1-66页·Zbl 1497.68430号
[42]	D.O.Loftsgaarden和C.P.Quesenberry，多元密度函数的非参数估计，《数学年鉴》。统计学。，36（1965），第1049-1051页·Zbl 0132.38905号
[43]	P.C.Mahalanobis，《关于统计学中的广义距离》，印度国家科学研究所，1936年·Zbl 0015.03302号
[44]	J.Malik、C.Shen、H.-T.Wu和N.Wu，《连接点：从局部协方差到经验内禀几何和局部线性嵌入》，Pure Appl。分析。，1（2019年），第515-542页·Zbl 1433.62142号
[45]	D.Mckenzie和S.Damelin，聚类欧氏数据的幂加权最短路径，发现。《数据科学》第1卷（2019年），第307-327页。
[46]	A.Moscovich、A.Jaffe和B.Nadler，未知流形上的Minimax最优半监督回归，《AISTATS学报》，2017，第933-942页。
[47]	A.Y.Ng、M.I.Jordan和Y.Weiss，《关于光谱聚类：分析和算法》，《NIPS学报》，第849-856页，2002年。
[48]	P.Niyogi、S.Smale和S.Weinberger，从随机样本中发现高置信度子流形的同源性，离散计算。地理。，39（2008），第419-441页·Zbl 1148.68048号
[49]	A.Rinaldo和L.Wasserman，广义密度聚类，Ann.Statist。，38（2010），第2678-2722页·Zbl 1200.62066号
[50]	A.Rodriguez和A.Laio，通过快速搜索和发现密度峰值进行聚类，《科学》，344（2014），第1492-1496页。
[51]	Sajama和A.Orlitsky，基于密度的距离度量的估计和计算，《ICML学报》，2005年，第760-767页。
[52]	L.K.Saul和M.I.Jordan，基于模型插值的变分原理，《NIPS学报》，1997年，第267-273页。
[53]	G.Schiebinger，M.J.Wainwright，B.Yu，《核化谱聚类的几何》，《统计年鉴》。，43（2015），第819-846页·Zbl 1312.62082号
[54]	J.Shi和J.Malik，标准化切割和图像分割，IEEE Trans。模式分析。《机器智能》，22（2000），第888-905页。
[55]	J.B.Tenenbaum、V.De Silva和J.C.Langford，《非线性降维的全球几何框架》，《科学》，290（2000），第2319-2323页。
[56]	L.van der Maaten和G.Hinton，《使用t-SNE可视化数据》，《机器学习研究杂志》，9（2008），第2579-2605页·Zbl 1225.68219号
[57]	D.Van Dijk、R.Sharma、J.Nainys、K.Yim、P.Kathail、A.J.Carr、C.Burdziak、K.R Moon、C.L.Chaffer、D.Pattabiraman、B.Bierie、L.Mazutis、G.Wolf、S.Krishnaswamy和D.Peer，《使用数据扩散从单细胞数据中恢复基因交互作用》，《细胞》，174（2018），第716-729页。
[58]	P.Vincent和Y.Bengio，《密度敏感指标和内核》，雪鸟学习研讨会，2003年。
[59]	U.Von Luxburg，光谱聚类教程，统计计算。，17（2007），第395-416页。
[60]	R.Xu、S.Damelin、B.Nadler和D.C.Wunsch II，用特征过滤方法和扩散图聚类高维基因表达数据，人工智能医学，48（2010），第91-98页。
[61]	L.Zelnik-Manor和P.Perona，自校正谱聚类，《NIPS学报》，第1601-1608页，2005年。
[62]	S.Zhang和J.M.Murphy，高光谱图像聚类与空间规则超测量，遥感，13（2021），955。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：书本；一：书籍文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

平衡几何和密度：高维数据的路径距离。 （英语） Zbl 1493.62391号

MSC公司：

关键词：

软件：

参考文献：

平衡几何和密度：高维数据的路径距离。（英语） Zbl 1493.62391号