×

随机近邻图、巨型组件和数据科学应用。 (英语) 兹比尔1446.60013

总结:如果我们在([0,1]^d)中均匀地选取(n)个随机点,并将每个点连接到它的(c_d\log{n})最近邻居,其中(d\geq2)是维数,而(c_d)是取决于维数的常数,那么众所周知,图是以高概率连接的。我们证明了将每个点连接到在其最近邻中随机选择的(c{d,1}\log\log n)点就足够了,以确保具有高概率的大小为(n-o(n))的巨大分量。这种构造产生了一个更稀疏的随机图,它具有\(\sim n\log\log n \)而不是\(\sima n\log n)边,这些边具有可比较的连通性。这个结果对于构建亲和矩阵的数据科学中的问题具有非平凡的意义:人们通常可以从最近的邻域中选择随机点,而不是将每个点连接到它的最近邻域,并且只连接到那些不牺牲结果质量的点。这种方法可以简化和加速计算;我们用大规模数据集的谱聚类实验结果来说明这一点。

MSC公司:

60D05型 几何概率与随机几何
60K35型 相互作用的随机过程;统计力学类型模型;渗流理论
05C40号 连通性
05C80号 随机图(图形理论方面)
62兰特 大数据和数据科学的统计方面
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Balister,P.和Bollobás,B.(2013年)。k-最近邻图中的渗流。在《设计和图形的最新成果:向露西娅·金弗里多致敬》(Quaderni di Matematica 28)中,Buratti,M.等人,第83-100页。阿拉克内。
[2] Balister,P.、Bollobás,B.、Sarkar,A.和Walters,M.(2005年)。随机k近邻图的连通性。高级申请。探针37(1),1-24·Zbl 1079.05086号
[3] Balister,P.、Bollobás,B.、Sarkar,A.和Walters,M.(2009年)。k近邻模型的临界常数。高级申请。探针41(1),1-12·兹比尔1160.05333
[4] Balister,P.、Bollobás,B.、Sarkar,A.和Walters,M.(2009年)。高连通随机几何图。离散应用程序。数学157(2),309-320·Zbl 1156.05054号
[5] Beardwood,J.、Halton,J.H.和Hammersley,J.M.(1959年)。通过多个点的最短路径。程序。剑桥菲洛斯。Soc.55299-327·Zbl 0118.35601号
[6] Belkin,M.和Niyogi,P.(2003年)。用于降维和数据表示的拉普拉斯特征映射。神经计算.151373-1396·Zbl 1085.68119号
[7] Broutin N.、Devroye L.、Fraiman N.和Lugosi G.(2014年)。蓝牙图形的连接阈值。随机结构。算法44(1),45-66·Zbl 1280.05069号
[8] Coifman,R.和Lafon,S.(2006年)。扩散贴图。申请。计算。哈蒙。分析21(1),5-30·兹比尔1095.68094
[9] Erdős,P.and Rényi,A.(1959)。关于随机图I.Publ。数学。德布勒森6,290-297·Zbl 0092.15705号
[10] Falgas-Ravry,V.和Walters,M.(2012年)。k近邻随机几何图模型的清晰度。高级申请。探针44(3),617-634·Zbl 1278.60142号
[11] 很少,L.(1955)。通过n个点的最短路径和最短道路。Mathematika2141-144·Zbl 0067.12604号
[12] Hein,M.、Audibert,J.-Y.和Von Luxburg,U.(2005年)。从图到流形:图Laplacians的弱和强点态一致性。《学习理论》(讲义《计算机科学》3559),第470-485页。柏林施普林格·Zbl 1095.68097号
[13] 霍夫丁,W.(1963)。有界随机变量和的概率不等式。J.Amer。统计师。协会58(301),13-30·Zbl 0127.10602号
[14] Jones,P.W.、Osipov,A.和Rokhlin,V.(2011年)。随机近似最近邻算法。程序。美国国家科学院。科学。108 (38), 15679-15686.
[15] Kolmogorov,A.N.和Barzdin,Y.(1993)。关于三维空间中网络的实现。在A.N.Kolmogorov的精选著作(数学及其应用(苏联系列)27)中,编辑A.N.Shiryayev,第194-202页。多德雷赫特·施普林格·Zbl 0785.01030号
[16] Kusner,M.J.、Tyree,S.、Weinberger,K.和Agrawal,K.(2014)。随机邻域压缩。第31届国际机器学习大会(《机器学习研究院刊》32),第622-630页。PMLR公司。
[17] Lewis,D.、Yang,Y.、Rosen,T.和Li,F.(2004)。RCV1:文本分类研究的新基准集合。J.机器学习研究5,361-397。
[18] Li,H.、Linderman,G.C.、Szlam,A.、Stanton,K.P.、Kluger,Y.和Tygert,M.(2017)。算法971:用于主成分分析的随机算法的实现。ACM事务处理。数学。软件43(3),28·Zbl 1391.65085号
[19] Linderman,G.C.和Steinerberger,S.(2019年)。用t-SNE聚类,可以证明。SIAM J.数学数据科学1,313-332·Zbl 1499.60259号
[20] Loosli,G.、Canu,S.和Bottou,L.(2007年)。使用选择性采样训练不变支持向量机。《大型内核机》,L.Bottou等人编,第301-320页。麻省理工学院出版社·Zbl 1222.68251号
[21] Maier,M.、Von Luxburg,U.和Hein,M.(2009)。图构造对基于图的聚类度量的影响。《神经信息处理系统进展》21(2008),第1025-1032页。
[22] Maier,M.、Von Luxburg,U.和Hein,M.(2013)。图聚类方法的结果如何取决于图的构造。ESAIM探头。统计17,370-418·Zbl 1284.62382号
[23] Margulis,G.(1973)。集中器的明确结构。Problemy Peredachi Informatsii 9(4),71-80。英文版:Problems Inform。传输10,325-332(1975)。
[24] Mauldin,R.D.(编辑)(2015年)。《苏格兰书:苏格兰咖啡馆的数学》,附《新苏格兰书》第二版精选问题。Birkhäuser/施普林格,Cham·Zbl 1331.01039号
[25] Munkres,J.(1957)。分配和运输问题的算法。《社会工业杂志》。申请。数学5(1),32-38·Zbl 0083.15302号
[26] Penrose,M.(2003)。随机几何图(牛津概率研究5)。牛津大学出版社,牛津·Zbl 1029.60007号
[27] Penrose,M.和Pisztora,A.(1996年)。离散和连续渗流的大偏差。高级申请。问题28(1),29-52·Zbl 0853.60085号
[28] Penrose,M.和Yukich,J.(2003)。几何概率中的弱大数定律。附录申请。探针13(1),277-303·Zbl 1029.60008号
[29] Pinsker,M.S.(1973)。关于集中器的复杂性。第七届国际电信大会(斯德哥尔摩,1973年),第318号论文。
[30] Rokhlin,V.、Szlam,A.和Tygert,M.(2009年)。主成分分析的随机算法。SIAM J.矩阵分析。申请31(3),1100-1124·Zbl 1198.65035号
[31] Shaham,U.、Stanton,K.、Li,H.、Basri,R.、Nadler,B.和Kluger,Y.(2018年)。SpectralNet:使用深度神经网络进行光谱聚类。在2018年国际学习代表大会上。
[32] Singer,A.(2006年)。从图到流形Laplacian:收敛速度。申请。计算。哈蒙。分析21(1),128-134·Zbl 1095.68102号
[33] 斯蒂尔,J.M.(1980)。通过d-cube中伪随机点的最短路径。程序。阿默尔。数学。社会学80(1),130-134·Zbl 0465.10044号
[34] 斯蒂尔,J.M.(1981)。几何概率中的次可加欧几里德泛函和非线性增长。《年鉴》第9卷第3期,第365-376页·兹比尔0461.60029
[35] Steele,J.M.(1997)。概率论与组合优化(CBMS-NSF应用数学区域会议系列69)。费城SIAM。
[36] Steinerberger,S.(2010年)。基于差异的几何旅行商问题的一个新下界。操作。研究稿38(4),318-319·Zbl 1193.90181号
[37] Steinerberger,S.(2015)。旅行推销员常数的新界限。高级申请。探针47,27-36·Zbl 1309.60005号
[38] Teng,S.-H.和Yao,F.(2007年)。k近邻聚类和渗流理论。《算法》49(3),192-211·Zbl 1131.60089号
[39] Walters,M.(2011)。随机几何图。调查组合392365-402·Zbl 1244.05206号
[40] Walters,M.(2012)。k近邻图中的小组件。离散应用程序。数学160(13-14),2037-2047·Zbl 1246.05143号
[41] Van Der Maaten,L.(2014)。使用基于树的算法加速t-SNE。《机器学习研究杂志》15(1),3221-3245·兹比尔1319.62134
[42] Van Der Maaten,L.和Hinton,G.(2008年)。使用t-SNE可视化数据。机器学习研究9,2579-2605·Zbl 1225.68219号
[43] Von Luxburg,U.(2007年)。光谱聚类教程。统计。计算17(4),395-416。
[44] Xie,J.、Girshick,R.和Farhadi,A.(2016)。用于聚类分析的无监督深度嵌入。第33届机器学习国际会议(机器学习研究论文集48),第478-487页。JMLR公司。
[45] Xue,F.和Kumar,P.R.(2004年)。无线网络连接所需的邻居数量。无线网络10,169-181。
[46] Yukich,J.(1998)。经典欧几里德优化问题的概率论(数学讲义1675)。柏林施普林格·Zbl 0902.60001号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。