×

噪声点云的局部正则化:改进的全局几何估计和数据分析。 (英语) Zbl 1434.68407号

摘要:一些数据分析技术利用数据点之间的相似关系来揭示底层数据生成机制的内在维度和几何结构。本文假设数据是由低维流形上特征向量的随机扰动构成。我们研究了两个问题:如何定义噪声数据点上的相似关系,以及在从底层流形提取全局几何信息时,相似性的选择会产生什么影响。我们提供了具体的数学证据,证明了使用噪声数据的局部正则化来定义相似性可以提高未扰动点之间隐藏欧氏距离的近似值。此外,用局部正则化相似函数构造的图形对象在恢复全局几何对象时满足更好的误差界。我们的理论得到了数值实验的支持,实验表明,局部正则化促进的几何理解的提高转化为模拟和实际数据中分类精度的提高。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62甲12 多元分析中的估计
62H30型 分类和区分;聚类分析(统计方面)
62兰特 大数据和数据科学的统计方面
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] E.Aamari和C.Levrard。流形、切空间和曲率估计的非渐近速率。《统计年鉴》,47(1):177-2041919·Zbl 1419.62130号
[2] E.Aamari、J.Kim、F Chazal、B Michel、A Rinaldo、L Wasserman等。估算流形的延伸。《电子统计杂志》,13(1):1359-13992019·Zbl 1418.62100号
[3] S.Agapiou、O.Papaspiliopoulos、D.Sanz-Alonso和A.M.Stuart。重要性抽样:内在维度和计算成本。统计科学,32(3):405-4312017·Zbl 1442.62026号
[4] M.Belkin和P.Niyogi。黎曼流形上的半监督学习。机器学习,56(1-3):209-2392004·Zbl 1089.68086号
[5] M.Belkin、P.Niyogi和V.Sindhwani。流形正则化:从标记和未标记示例学习的几何框架。机器学习研究杂志,2006年11月7日:2399-2434·Zbl 1222.68144号
[6] A.L.Bertozzi、X.Luo、A.M.Stuart和K.C.Zygalakis。基于图形的高维数据分类中的不确定性量化。SIAM/ASA《不确定性量化杂志》,6(2):568-5952018年·Zbl 1394.62083号
[7] T.B–uhler和M.Hein。基于图p-Laplacian的谱聚类。第26届国际机器学习年会论文集,第81-88页。ACM,2009年。
[8] D.Burago、S.Ivanov和Y.Kurylev。Laplace-Beltrami算子的图离散化。J.规范。理论,4:675-7142014·Zbl 1327.58029号
[9] Y.-C.Chen,C.R.Genovese,L.Wasserman,et al.模式聚类的综合方法.电子统计杂志,10(1):210-2412016·Zbl 1332.62200号
[10] R.R.Coifman和S.Lafon。扩散贴图。应用和计算谐波分析,21(1):5-302006·Zbl 1095.68094号
[11] 卡莫M.P。黎曼几何。数学:理论与应用。Birkh¨auser Boston,Inc.,马萨诸塞州波士顿,1992年。是0-8176-3490-8。doi:10.1007/9781-4757-2201-7。统一资源定位地址https://doi.org/10.1007/978-1-4757-2201-7。由弗朗西斯·弗拉赫蒂(Francis Flaherty)翻译自葡萄牙语第二版·Zbl 0752.53001号
[12] H.费德勒。曲率测量。美国数学学会学报,93(3):418-4911995·Zbl 0089.38402号
[13] K.Fukunaga和L.Hostetler。密度函数梯度的估计及其在模式识别中的应用。IEEE信息理论汇刊,21(1):32-401975·Zbl 0297.62025号
[14] N.Garcia Trillos和D.Sanz-Alonso。图贝叶斯反问题中后验函数的连续极限。SIAM数学分析期刊,50(4):4020-40402018·Zbl 1416.28003号
[15] N.Garc´a Trillos和D.Slep´cev。点云总变化的连续极限。理性力学与分析档案,220(1):193-2412016·Zbl 1336.68215号
[16] N.Garcia Trillos、Z.Kaplan、T.Samakhoana和D.Sanz-Alonso。关于基于图形的贝叶斯学习的一致性和采样算法的可扩展性。arXiv预印本arXiv:1710.077022017·Zbl 1498.68269号
[17] N.Garc´a Trillos、M.Gerlach、M.Hein和D.Slep´cev。经验图Laplacians的谱收敛性。Prepriner,2018年。
[18] C.Genovese、M.Perone-Pacifico、I.Verdinelli和L.Wasserman。Minimax流形估计。机器学习研究杂志,13(5月):1263-12912012·Zbl 1283.62112号
[19] A.Haddad、D.Kushnir和R.R.Coifman。通过参考集进行纹理分离。应用和计算谐波分析,36(2):335-3472014·Zbl 1357.94021号
[20] M.Hein和J.Audibert。《第22届机器学习国际会议论文集》,第289-296页。ACM,2005年。
[21] 海因先生和梅尔先生。流形去噪。神经信息处理系统进展19,第561-568页,美国马萨诸塞州剑桥,2007年9月。Max-PlanckGesellschaft,麻省理工学院出版社。
[22] Y.LeCun。手写数字的MNIST数据库。http://yann。勒贡。com/exdb/mnist/,1998年。
[23] E.H.Lieb、M.Loss等,数学研究生课程。《分析》,2001年第14期·Zbl 0966.26002号
[24] A.V.Little、L.Maggioni、M.和Rosasco。数据集的多尺度几何方法i:多尺度奇异值分解、噪声和曲率。应用和计算谐波分析,43(3):504-5672017·Zbl 06770640号
[25] F.M´emoli、Z.T Smith和Z.Wan。瓦瑟斯坦变换。CoRR,abs/1810.077932018年。统一资源定位地址http://arxiv.org/abs/1810.07793。
[26] A.Y.Ng、M.I.Jordan和Y.Weiss。关于谱聚类:分析和算法。神经信息处理系统进展,第849-8562002页。
[27] P.Niyogi、S.Smale和S.Weinberger。从随机样本中寻找高置信度子流形的同源性。离散与计算几何,39(1-3):419-4412008·Zbl 1148.68048号
[28] P.J.奥尔弗。偏微分方程导论。斯普林格·Zbl 1295.35001号
[29] I.松果。无穷维鞅分布不等式的一种方法。《巴拿赫空间中的概率》,8(不伦瑞克,ME,1991),《规划》第30卷。概率。,第128-134页。Birkh¨auser Boston,马萨诸塞州波士顿,1992年·Zbl 0793.60016号
[30] J.Shi和J.Malik。标准化切割和图像分割。部门文件(CIS),第107页,2000年。
[31] A.歌手。从图到流形拉普拉斯算子:收敛速度。应用和计算谐波分析,21(1):128-1342006·Zbl 1095.68102号
[32] D.A Spielman和S.-H.Teng。谱划分工作:平面图和有限元网格。线性代数及其应用,421(2-3):284-305,2007·Zbl 1122.05062号
[33] J.W.Tukey和P.A.Tukey。计算机图形和探索性数据分析:简介。约翰·杜基作品集:图形学:1965-1985,5:419,1988·Zbl 0880.62007号
[34] U.Von Luxburg。光谱聚类教程。统计与计算,17(4):395-4162007。
[35] U.Von Luxburg、M.Belkin和O.Bousquet。光谱聚类的一致性。《统计年鉴》,第555-586页,2008年·Zbl 1133.62045号
[36] W.Wang和M.A.Carreira Perpin´an。用于流形去噪的流形模糊均值漂移算法。2010年IEEE计算机学会计算机视觉和模式识别会议,第1759-1766页。IEEE,2010年。
[37] J.Weed和F.Bach。Wasserstein距离中经验测度的锐利渐近和有限样本收敛速度。arXiv预印本arXiv:1707.000872017·Zbl 1428.62099号
[38] L.Zelnik-Manor和P.Perona。自校正谱聚类。神经信息处理系统进展,第1601-1608页,2005年。
[39] D.Zhou和B.Sch–olkopf。离散空间上的正则化。InJoint模式识别研讨会,第361-368页。斯普林格,2005年。
[40] 十、。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。