×

数据集的多尺度几何方法。一: 多尺度奇异值分解、噪声和曲率。 (英语) Zbl 06770640号

摘要:大数据集通常被建模为(mathbb{R}^D\)中概率分布(mu\)的噪声样本,具有较大的(D\)。人们经常注意到,这些概率分布的支持(mathcal{M}\)似乎很接近于低维集,甚至可能是流形。我们将考虑由\(k\)维平面局部很好近似的集,其中\(k\ll D\),其中\(k\)维流形等距嵌入\(\mathbb{R}^D\)是一种特例。来自\(\mu\)的样本还被\(D\)维噪声破坏。来自多尺度几何测度理论和调和分析的某些工具似乎非常适合用于研究此类概率分布的样本,以获得有关它们的定量几何信息。在本文中,我们引入并研究了多尺度协方差矩阵,即与限制在半径为(r)的球上的分布相对应的协方差,其中心是固定的,中心是变化的,并且在相当一般的几何假设下,我们研究了它们的经验的、有噪声的对应项是如何表现的。我们证明,在这些协方差矩阵信息最丰富的尺度范围内,经验的、有噪声的协方差接近其预期的、无噪声的对应项。事实上,只要计算协方差矩阵的球中的样本数在\(\mathcal{M}\)的内在维数中是线性的,这就是正确的。作为应用,我们提出了一种估计(mathcal{M})的内在维数的算法。

MSC公司:

62H25个 因子分析和主成分;对应分析
60E05型 概率分布:一般理论

软件:

国际分帐
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Tenenbaum,J.B。;席尔瓦,V.D。;Langford,J.C.,《非线性降维的全球几何框架》,《科学》,29055002319-2323(2000)
[2] Roweis,S。;Saul,L.,通过局部线性嵌入降低非线性维数,《科学》,2902323-2326(2000)
[4] 多诺霍,D.L。;Grimes,C.,isomap何时恢复铰接图像族的自然参数化?(2002年8月),斯坦福大学统计系,技术代表2002-27
[5] 多诺霍,D.L。;Grimes,C.,Hessian特征映射:高维数据的新局部线性嵌入技术,(Proc.Nat.Acad.Sciences(2003)),5591-5596·Zbl 1130.62337号
[6] 张,Z。;Zha,H.,通过局部切线空间对齐的主流形和非线性降维,SIAM J.Sci。计算。,26, 313-338 (2002) ·Zbl 1077.65042号
[7] 科伊夫曼,R.R。;拉丰,S。;Lee,A.B。;Maggioni,M。;纳德勒,B。;华纳,F。;Zucker,S.W.,《几何扩散作为调和分析和数据结构定义的工具:扩散图》,Proc。国家。阿卡德。科学。,102, 21, 7426-7431 (2005) ·Zbl 1405.42043号
[8] Wakin,M.B。;多诺霍,D.L。;Choi,H.等人。;Baraniuk,R.G.,《不可微图像流形的多尺度结构》(SPIE Wavelets XI.SPIE Wavelets十一,圣地亚哥(2005))
[9] 多诺霍,D.L。;列维,O。;斯塔克,J.-L。;Martinez,V.J.,三维目录的多尺度几何分析(2002),斯坦福大学,技术代表。
[10] Costa,J。;Hero,A.,《学习高维数据集的内在维度和内在熵》(EUSIPCO Proc.of EUSIPCO.Proc.of Vienna(2004))
[11] 卡马斯塔,F。;Vinciarelli,A.,《数据的内在维数估计:基于Grassberger-Proaccia算法的方法》,神经过程。莱特。,14, 1, 27-34 (2001) ·Zbl 0981.68699号
[12] 卡马斯塔,F。;Vinciarelli,A.,《使用基于分形的方法估计数据的固有维数》,IEEE Trans。模式分析。马赫。智力。,24, 10, 1404-1410 (2002)
[13] 曹伟。;Haralick,R.,非线性流形维数聚类,(ICPR 1(2006)),920-924
[14] Rohrdanz,文学硕士。;郑伟。;Maggioni,M。;Clementi,C.,通过局部缩放扩散图确定反应坐标,J.Chem。物理。,134,第124116条pp.(2011)
[15] 郑伟。;Rohrdanz,文学硕士。;Maggioni,M。;Clementi,C.,通过局部缩放扩散图计算的聚合物反转率,J.Chem。物理。,134,第144108条pp.(2011)
[16] Allard,W.K。;陈,G。;Maggioni,M.,数据集的多尺度几何方法II:几何多分辨率分析,应用。计算。哈蒙。分析。,32、3、435-462(2012年),(提交日期:2011年5月)·Zbl 1242.42038号
[17] 医学硕士Iwen。;Maggioni,M.,通过随机线性投影逼近低维流形上的点,推断信息,2,1,1-31(2013)·Zbl 1354.94013号
[18] 陈,G。;艾文,M。;钦,S。;Maggioni,M.,《高维数据的快速多尺度框架:度量估计、异常检测和压缩度量》(Visual Communications and Image Processing.Visual Communication and Image Process,VCIP(2012),IEEE),1-6
[19] Maggioni,M.,几何测度估计,(Asilomar信号、系统和计算机会议(2013),IEEE),1363-1367
[20] 陈,G。;Little,A。;Maggioni,M。;Rosasco,L.,《小波与多尺度分析:理论与应用》(2011),Springer Verlag,2010年3月12日提交
[21] 陈,G。;Maggioni,M.,平面布置的多尺度几何和光谱分析(Proc.CVPR(2011))
[22] 张,T。;Szlam,A。;Wang,Y。;Lerman,G.,《通过局部最佳拟合平面进行混合线性建模》,J.Compute。视觉。,100, 3, 217-240 (2012) ·兹比尔1259.68207
[23] Lafon,S.,扩散图和几何谐波(2004),耶鲁大学博士论文
[24] 科伊夫曼,R。;Lafon,S.,扩散图,应用。计算。哈蒙。分析。,21, 1, 5-30 (2006) ·兹比尔1095.68094
[25] 克罗斯基,M。;Maggioni,M.,Atlas:学习流形附近高维随机系统的几何方法,多尺度模型。模拟。(2016),出炉
[26] 马尔登,M。;麦凯,R。;Huke,J。;Broomhead,D.,时间序列中的拓朴学,物理学。D、 65,1-16(1993)·Zbl 0778.58045号
[27] 布鲁姆黑德(D.Broomhead)。;英迪克,R。;A.纽厄尔。;Rand,D.,大维动力系统的局部自适应Galerkin基,非线性,4159-197(1991)·Zbl 0729.58034号
[28] Farmer,J。;Sidorowich,J.,预测混沌时间序列,物理学。修订稿。,59, 8, 845-848 (1987)
[29] Jones,P.W.,《旅行推销员问题与调和分析》,Publ。Mat.,35,1,259-267(1991),数学分析会议(El Escorial,1989)·Zbl 0785.42007号
[31] David,G.,《曲线和曲面上的小波和奇异积分》(1991),Springer-Verlag
[32] Little,A。;Jung,Y.-M。;Maggioni,M.,《数据集内在维度的多尺度估计》(Proc.A.A.A.I.(2009))
[33] Little,A。;Lee,J。;Jung,Y.-M。;Maggioni,M.,多尺度高维含噪低维流形样本的固有维数估计SVD公司,(Proc.S.S.P.(2009))
[34] 陈,G。;Little,A。;Maggioni,M.,《高维数据的多分辨率几何分析》(Proc.FFT(2011))
[36] Jones,P.W.,可纠正集和旅行推销员问题,发明。数学。,102, 1, 1-15 (1990) ·Zbl 0731.30018号
[38] 大卫·G。;Semmes,S.,《一致可纠正集的分析与研究》,数学。调查专题。,第38卷(1993),美国数学学会:美国数学学会普罗维登斯,RI·兹比尔0832.42008
[39] Schul,R.,《分析家的旅行推销员定理》。一项调查·Zbl 1187.49039号
[40] Rudelson,M.,《各向同性位置的随机向量》,J.Funct。分析。,164, 1, 60-67 (1999) ·Zbl 0929.46021号
[42] Fukunaga,K。;Olsen,D.,《求数据固有维数的算法》,IEEE Trans。计算。,20, 2, 165-171 (1976)
[43] 布鲁斯克,J。;Sommer,G.,《具有最优拓扑保持映射的内在维数估计》,IEEE Trans。计算。,20, 5, 572-575 (1998)
[44] Hundley,D。;Kirby,M.,《拓扑维数估计》(Barbara,D.;Kamath,C.,Proc.Third SIAM Int.Conf.Data Mining(2003)),194-202年
[45] Kirby,M.,《几何数据分析:降维实证方法和模式研究》(2000年),John Wiley&Sons,Inc.:John Willey&Sons公司,美国纽约州纽约市
[48] Haro,G。;Randall,G。;Sapiro,G.,分层学习的泊松混合模型翻译,国际计算机杂志。视觉。,80, 3, 358-374 (2008) ·Zbl 1477.68265号
[49] 卡特,K。;Hero,A.,局部内禀维数估计的邻域平滑方差减少,(IEEE声学、语音和信号处理国际会议。IEEE声学,语音和信号加工国际会议,ICASSP 2008(2008)),3917-3920
[50] 卡特,K。;英雄A.O。;Raich,R.,内在维度估计的去偏倚,(IEEE/SP第十四届统计信号处理研讨会,IEEE/SP统计信号处理第十四届研讨会,SSP’07(2007)),601-605
[51] Costa,J。;Hero,A.,流形学习中维数和熵估计的测地熵图,IEEE Trans。信号处理。,52, 8, 2210-2221 (2004) ·Zbl 1369.68278号
[52] Raginsky,M。;Lazebnik,S.,使用高速矢量量化估计固有维数(Proc.NIPS(2005)),1105-1112
[53] Takens,F.,《关于吸引子维数的数值确定》,(动力学系统和分岔,动力学系统和分支,格罗宁根,1984年)。动力系统与分岔。动力学系统与分岔,格罗宁根,1984,数学课堂讲稿。,第1125卷(1985),《施普林格:柏林施普林格》,99-106·Zbl 0561.58027号
[54] 海因,M。;Audibert,Y.,欧几里德空间中子流形的内在维数估计,(de Raedt,L.;Wrobel,S.,ICML Bonn(2005)),289-296
[55] 博罗夫科娃,S。;伯顿,R。;Dehling,H.,相关维数的Takens估计量的一致性,Ann.Appl。概率。,9, 2, 376-390 (1999) ·Zbl 0928.62072号
[56] 格拉斯伯格,P。;Procaccia,I.,《测量奇怪吸引子的奇异性》,《物理学》。D、 9、1-2、189-208(1983)·Zbl 0593.58024号
[58] Broomhead,R.J.D.S。;King,G.P.,时间序列数据的拓扑维和局部坐标,J.Phys。A: 数学。Gen.,20,L563-L569(1987)·Zbl 0644.58030号
[59] Broomhead,A.N.D.S。;Indik,R。;Rand,D.,大维动力系统的局部自适应Galerkin基,非线性,4159-197(1991)·Zbl 0729.58034号
[60] Lee,J.,黎曼流形:曲率导论(1997),施普林格·Zbl 0905.53001号
[61] Har-Peled,S。;Mendel,M.,《低维度量中网络的快速构建及其应用》,SIAM J.Compute。,35, 5, 1148-1184 (2006) ·Zbl 1100.68014号
[62] Beygelzimer,A。;卡卡德,S。;Langford,J.,《最近邻居的覆盖树》,(第23届机器学习国际会议论文集。第23届国际机器学习会议论文集,ICML’06(2006),ACM:美国纽约州纽约市ACM),97-104
[63] Rokhlin,V。;Szlam,A。;Tygert,M.,《主成分分析的随机算法》,SIAM J.Matrix Ana。申请。,31, 3, 1100-1124 (2009) ·Zbl 1198.65035号
[64] Haro,G。;Randall,G。;Sapiro,G.,《分层学习的转换泊松混合模型》,国际计算机杂志。视觉。,80, 3, 358-374 (2008) ·Zbl 1477.68265号
[65] Levina,E。;Bickel,P.J.,内在维度的最大似然估计,(Saul,L.K.;Weiss,Y.;Bottou,L.,Adv.Neural Inf.Process.Syst.,第17卷(2005),麻省理工学院出版社:麻省理工学院出版社,马萨诸塞州剑桥),777-784
[66] Costa,J。;Hero,A.,流形学习中维数和熵估计的测地熵图,IEEE Trans。信号处理。,52, 8, 2210-2221 (2004) ·Zbl 1369.68278号
[67] 卡特,K。;Hero,A.,局部内在维数估计的邻域平滑方差减少,(IEEE声学、语音和信号处理国际会议。IEEE声学,语音和信号加工国际会议,ICASSP 2008(2008)),3917-3920
[70] Kegl,B.,使用包装数的内禀维数估计,((2002)),681-688
[71] 范,M。;乔·H。;Zhang,B.,通过切球对流形的内在维数估计,模式识别。,42, 5, 780-787 (2009) ·Zbl 1162.68405号
[72] 约翰逊,W。;林登斯特劳斯,J.,《利普希茨映射到希尔伯特空间的扩展》,康特姆。数学。,26, 189-206 (1984) ·Zbl 0539.46017号
[74] 琼斯,P。;Maggioni,M。;Schul,R.,拉普拉斯和热核特征函数流形参数化,Proc。国家。阿卡德。科学。,105, 6, 1803-1808 (2008) ·Zbl 1215.58012号
[75] 琼斯,P。;Maggioni,M。;Schul,R.,《通过拉普拉斯算子的热核和特征函数实现通用局部流形参数化》,Ann.Acad。科学芬恩。,35, 1-44 (2010)
[76] 辛格,A。;Erban,R。;Kevrekidis,I.G。;Coifman,R.R.,用各向异性扩散图检测随机动力系统中的本征慢变量,Proc。国家。阿卡德。科学。,106, 38, 16090-16095 (2009)
[78] 曼德尔布罗特,B.B。;Hudson,R.L.,《市场的(错误)行为》(The(Mis)Behavior of Markets)(2004),《基础图书:纽约基础图书》,风险、破产和回报的分形观点·Zbl 1140.91004号
[79] Jones,P.W.,可纠正集和旅行推销员问题,发明。数学。,102, 1-15 (1990) ·Zbl 0731.30018号
[80] 北弗尔马。;克波图夫,S。;Dasgupta,S.,哪些空间分区树适应内在维度?,(《第二十五届人工智能不确定性会议论文集》,第二十五届人造智能不确定性大会论文集,UAI'09(2009),AUAI出版社:美国弗吉尼亚州阿灵顿AUAI出版公司),565-574
[81] Johnstone,I.M.,《关于主成分分析中最大特征值的分布》,Ann.Statist。,29, 2, 295-327 (2001) ·Zbl 1016.62078号
[82] Baik,J。;Silverstein,J.W.,尖峰总体模型大样本协方差矩阵的特征值,《多元分析杂志》。,97, 6, 1382-1408 (2006) ·Zbl 1220.15011号
[83] Silverstein,J.,《关于大维信息无噪声型矩阵特征值的经验分布》,《多元分析》。,98778-694(2007年)·Zbl 1115.60035号
[84] Koltchinskii,V.I.,《多元数据的经验几何:反褶积方法》,《统计年鉴》。,28, 2, 591-629 (2000) ·Zbl 1105.62345号
[85] Paul,D.,大维尖峰协方差模型样本特征结构的渐近性,统计量。Sinica,17,1617-1642(2007)·Zbl 1134.62029号
[86] Nadler,B.,《主成分分析的有限样本近似结果:矩阵摄动法》,Ann.Statist。,362791-2817(2008年)·Zbl 1168.62058号
[88] Chernoff,H.,基于观察值总和的假设检验的渐近效率度量,《统计年鉴》。,23, 4, 493-507 (1952) ·Zbl 0048.11804号
[89] Niyogi,P。;斯梅尔,S。;Weinberger,S.,从随机样本中寻找高置信度子流形的同源性,离散计算。地理。,39, 419-441 (2008) ·Zbl 1148.68048号
[90] Barvinok,A.,《测量浓度》(2005年)
[91] Wielandt,H.,《矩阵分析理论的主题》(1967年),威斯康星大学出版社:威斯康星州大学出版社麦迪逊
[92] Pinelis,I.,无限维鞅分布不等式的一种方法,(Banach空间中的概率,8,第八届国际会议论文集(1992)),128-134·Zbl 0793.60016号
[93] Pinelis,I.,Banach空间鞅分布的最佳界,Ann.Probab。,22, 4, 1679-1706 (1994) ·兹比尔083660015
[94] Buldygin,V。;Kozachenko,Y.,《随机变量和随机过程的度量表征》(2000),美国数学学会·Zbl 0998.60503号
[95] Rudelson,M。;Vershynin,R.,随机矩形矩阵的最小奇异值,Comm.Pure Appl。数学。,1707-1739 (2009) ·兹比尔1183.15031
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。