×

统计嵌入:超出主成分。 (英语) Zbl 07792874号

摘要:最近在嵌入非常高维和非线性的数据结构方面进行了激烈的活动,其中大部分在数据科学和机器学习文献中。我们分四个部分调查这项活动。在第一部分中,我们介绍了非线性方法,如主曲线、多维缩放、局部线性方法、ISOMAP、基于图的方法和扩散映射、基于核的方法和随机投影。第二部分涉及拓扑嵌入方法,特别是将拓扑属性映射到持久性图和Mapper算法。另一种增长迅速的数据集是非常高维的网络数据。第三部分考虑的任务是如何将这些数据嵌入中等维的向量空间中,使数据符合传统技术,如聚类和分类技术。可以说,这是算法机器学习方法和统计建模(由所谓的随机块模型表示)之间对比最大的部分。在本文中,我们讨论了这两种方法的利弊。调查的最后一部分涉及嵌入到\(\mathbb{R}^2\)中,即可视化。在第一、二和三部分方法的基础上,提出了三种方法:(t)-SNE、UMAP和LargeVis。在两个模拟数据集上对这些方法进行了说明和比较;其中一个由三组有噪声的毛茛类曲线组成,另一个由随机块模型生成的具有两种类型节点的日益复杂的网络组成。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] AIZERMAN,M.A.、BRAVERMAN E.M.和ROZONOER,L.I.(1956年)。模式识别学习中势函数方法的理论基础。自动。遥控器25 821-137·Zbl 0151.24701号
[2] ARMILLOTTA,M.、FOKIANOS,K.和KRIKIDIS,I.(2022年)。广义线性模型网络自回归。网络科学112-125。网络科学国际会议。
[3] BAGLAMA,J.和REICHEL,L.(2005)。增强隐式重新启动Lanczos双对角化方法。SIAM J.科学。计算。27 19-42. 数字对象标识符:10.1137/04060593X谷歌学者:查找链接数学科学网:MR2201173·Zbl 1087.65039号 ·数字对象标识码:10.1137/04060593X
[4] BELKIN,M.和NIYOGI,P.(2002年)。用于嵌入和聚类的拉普拉斯特征映射和光谱技术。《信息处理系统进展》(T.K.Leen、T.G.Dietterich和V.Treps编辑)。麻省理工学院出版社,马萨诸塞州剑桥。
[5] Belkin,M.和Niyogi,P.(2003年)。用于降维和数据表示的拉普拉斯特征映射。神经计算。15 1373-1396. ·Zbl 1085.68119号
[6] BIAN,R.、KOH,Y.S.、DOBBIE,G.和DIVOLI,A.(2019年)。动态异构网络中的网络嵌入和变更建模。第42届国际ACM SIGIR信息检索研究与开发会议论文集861-864。
[7] BICKEL,P.和CHEN,A.(2009年)。网络模型和Newman-Girvan及其他模块的非参数视图。程序。国家。阿卡德。科学。106 21068-21073. ·Zbl 1359.62411号
[8] Bickel,P.J.和Sarkar,P.(2016)。网络中自动社区检测的假设测试。J.R.Stat.Soc.系列。B.统计方法。78 253-273. 数字对象标识符:10.1111/rssb.12117谷歌学者:查找链接数学科学网:MR3453655·Zbl 1411.62162号 ·doi:10.1111/rssb.12117
[9] BICKEL,P.、CHOI,D.、CHANG,X.和ZHANG,H.(2013)。随机块模型最大似然的渐近正态性及其变分逼近。安。统计师。41 1922-1943. 数字对象标识符:10.1214/13-AOS1124谷歌学者:查找链接MathSciNet:MR3127853·Zbl 1292.62042号 ·doi:10.1214/13-AOS1124
[10] 布隆德尔·V.D.、古伊勒姆·J.-L.、兰比奥特·R.和列斐夫雷·E.(2008)。大型网络中社区的快速发展。《统计力学杂志》。理论实验2008 P10008·Zbl 1459.91130号
[11] BOSER,B.E.,GUYON,I.M.和VAPNIK,V.N.(1992年)。一种最优边缘分类器的训练算法。在宾夕法尼亚州匹兹堡ACM第五届COLT年度研讨会上。
[12] BUKKRI,A.、ANDOR,N.和DARCY,I.K.(2021年)。拓扑数据分析在肿瘤学中的应用。前面。Artif公司。智力。机器。学习。Artif公司。智力。4 1-14.
[13] CANNINGS,T.I.和SAMWORTH,R.J.(2017)。随机投影集合分类。J.R.Stat.Soc.系列。B.统计方法。79 959-1035. 数字对象标识符:10.1111/rssb.12228谷歌学者:查找链接数学科学网:MR3689307·Zbl 1373.62301号 ·doi:10.1111/rssb.12228
[14] CARLSSON,G.(2009年)。拓扑和数据。牛市。阿默尔。数学。Soc公司(N.S公司.) 46 255-308. 数字对象标识符:10.1090/S0273-0979-09-01249-X谷歌学者:查找链接数学科学网:MR2476414·Zbl 1172.62002号 ·doi:10.1090/S0273-0979-09-01249-X
[15] CARRIÉRE,M.、MICHEL,B.和OUDOT,S.(2018)。Mapper的统计分析和参数选择。J.马赫。学习。决议19第12号论文,39页MathSciNet:MR3862419·Zbl 1444.62172号
[16] CARRI RE,M.和RABADáN,R.(2020年)。单细胞Hi-C接触图的拓扑数据分析。拓扑数据分析——2018年阿贝尔研讨会。阿贝尔交响乐团。15 147-162. 查姆施普林格。数字对象标识符:10.1007/978-3-030-43408-3_6谷歌学者:查找链接数学科学网:MR4338672·Zbl 1448.62213号 ·doi:10.1007/978-3-030-43408-36
[17] CHAZAL,F.和MICHEL,B.(2017)。拓扑数据分析简介:数据科学家的基本和实用方面。预印本。可从arXiv:1710.04019v1获得。
[18] CHAZAL,F.和MICHEL,B.(2021)。拓扑数据分析简介:数据科学家的基本和实用方面。前面。Artif公司。智力。机器。学习。Artif公司。智力。4 1-28.
[19] CHEN,Y.C.,GENOVESE,C.R.和WASSERMAN,L.(2015)。密度脊的渐近理论。安。统计师。43 1896-1928. 数字对象标识符:10.1214/15-AOS1329谷歌学者:查找链接数学科学网:MR3375871·Zbl 1327.62303号 ·doi:10.1214/15-AOS1329
[20] CHEN,Y.C.、HO,S.、FREEMEN,P.E.、GENOVESE,C.R.和WASSERMAN,L.(2015a)。通过密度脊线重建宇宙网:方法和算法。周一。不是。R.阿斯顿。社会地位454 1140-1156。
[21] CHEN,Y.C.、HO,S.、TENNETI,A.、MANDELBAUM,R.、CROFT,R.,DIMATTEO,T.、FREEMAN,P.E.、GENOVESE,C.R.和WASSERMAN,L.(2015b)。使用密度脊研究流体动力学模拟中的银河丝排列。周一。不是。R.阿斯顿。Soc.454 3341-3350。
[22] 克莱斯肯斯,G.、克鲁克斯,C.和凡·克尔克霍芬,J.(2008)。支持向量机中变量选择的信息准则。J.马赫。学习。第9号决议541-558。数字对象标识符:10.2139/ssrn.1094652谷歌学者:查找链接数学科学网:MR2417246 zbMATH:1225.68166·Zbl 1225.68166号 ·doi:10.2139/ssrn.1094652
[23] COIFMAN,R.R.和LAFON,S.(2006)。扩散贴图。申请。计算。哈蒙。分析。21 5-30. 数字对象标识符:10.1016/j.aca.2006.04.006谷歌学者:查找链接MathSciNet:MR22238665·Zbl 1095.68094号 ·doi:10.1016/j.acha.2006.04.006
[24] CORMEN,T.H.、LEISERSON,C.E.、RIVEST,R.L.和STEIN,C.(2022)。算法导论,第三版,麻省理工学院出版社,马萨诸塞州剑桥。数学科学网:MR2572804·Zbl 1503.68002号
[25] CRANE,H.和DEMPSEY,W.(2015)。统计网络建模框架。预印本。可从arXiv:1509.08185获取。
[26] Crawford,L.、Monod,A.、Chen,A.X.、Mukherjee,S.和Rabadán,R.(2020年)。预测胶质母细胞瘤的临床结局:拓扑和功能数据分析的应用。J.艾默。统计师。协会115 1139-1150。数字对象标识符:10.1080/016214592019.1671198谷歌学者:查找链接MathSciNet:MR4143455·Zbl 1441.62316号 ·doi:10.1080/01621459.2019.1671198
[27] CUI,P.、WANG,X.、PEI,J.和ZHU,W.(2019年)。网络嵌入综述。IEEE传输。知识。数据工程31 833-852。
[28] DE SILVA,V.和TENENBAUM,J.(2002)。非线性降维中的全局与局部方法。高级神经信息处理。系统。15
[29] DECELLE,A.、KRZAKALA,F.、MOORE,C.和ZDEBOROVá,L.(2011)。模块化网络随机块模型的渐近分析及其算法应用。物理学。版本E 84 066106。
[30] DEVROYE,L.和WISE,G.L.(1980)。通过支持度的非参数估计检测异常行为。SIAM J.应用。数学。38 480-488. 数字对象标识符:10.1137/0138038谷歌学者:查找链接数学科学网:MR0579432·Zbl 0479.62028号 ·数字对象标识代码:10.1137/0138038
[31] DONG,Y.、CHAWLA,N.V.和SWAMI,A.(2017)。Metapath2vec:异构网络的可扩展表示学习。17岁儿童,2017年,加拿大新南威尔士州哈利法克斯。
[32] DONG,W.、MOSES,C.和LI,K.(2018)。通用相似度量的有效最近邻图构造。第20届万维网国际会议论文集577-586,纽约。
[33] DU,L.,WANG,Y.,SONG,G.,LU,Z.和WANG,J.(2018)。动态网络嵌入:基于Skip-Gram的网络嵌入的扩展方法。第27届国际人工智能联合会议论文集(人工智能-18).
[34] DUCHAMP,T.和STUETZLE,W.(1996年)。平面上主曲线的极值性质。安。统计师。24 1511-1520. 数字对象标识符:10.1214/aos/1032298280谷歌学者:查找链接数学科学网:MR1416645·Zbl 0867.62025号 ·doi:10.1214/aos/1032298280
[35] EDELSBRUNNER,H.、LETCHER,D.和ZOMORODIAN,A.(2002)。拓扑持久性和简化。离散计算。地理。28 511-533. 数字对象标识符:10.1007/s00454-002-2885-2谷歌学者:查找链接数学科学网:MR1949898·Zbl 1011.68152号 ·doi:10.1007/s00454-002-2885-2
[36] GENOVESE,C.R.、PERONE-PACIFICO,M.、VERDINELLI,I.和WASSERMAN,L.(2012)。Hausdorff损失下的流形估计和奇异反褶积。安。统计师。40 941-963. 数字对象标识符:10.1214/12-AOS994谷歌学者:查找链接数学科学网:MR2985939·Zbl 1274.62237号 ·doi:10.1214/12-AOS994
[37] GENOVESE,C.R.、PERONE-PACIFICO,M.、VERDINELLI,I.和WASSERMAN,L.(2014)。非参数岭估计。安。统计师。42 1511-1545. 数字对象标识符:10.1214/14-AOS1218谷歌学者:查找链接数学科学网:MR3262459·Zbl 1310.62045号 ·doi:10.1214/14-AOS1218
[38] GHOJOGH,B.、GHODSI,A.、KARRAY,F.和CROWLEY,M.(2021)。Johnson-Lindenstraus引理,线性和非线性随机投影,随机傅里叶特征和随机厨房水槽:教程和调查。预打印。可从arXiv:2108.04172v1获得。
[39] GHRIST,R.(2018)。同调代数和数据。在数据数学中。IAS/公园城市数学。序列号。25 273-325. 阿默尔。数学。Soc.,Providence,RI.数学科学网:MR3839171·Zbl 1448.68007号
[40] Girvan,M.和Newman,M.E.J.(2002)。社会和生物网络中的社区结构。程序。国家。阿卡德。科学。美国99 7821-7826。数字对象标识符:10.1073/pnas.122653799谷歌学者:查找链接数学科学网:MR1908073·兹比尔1032.91716 ·doi:10.1073/pnas.122653799
[41] GREENE,D.和CUNNINGHAM,P.(2011)。跟踪动态社交网络中社区的演变。爱尔兰都柏林,Report Idiro Technologies。
[42] GRETTON,A.(2019年)。RKHS简介,以及一些简单的内核算法。课堂讲稿。
[43] GROVER,A.和LESKOVEC,J.(2016)。node2vec:网络的可扩展特性学习。第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集855-864。
[44] Haghverdi,L.、Buettner,F.和Theis,F.J.(2015)。用于分化数据的高维单细胞分析的扩散图。生物信息学31 2989-2998. 数字对象标识符:10.1093/bioinformatics/btv325谷歌学者:查找链接·doi:10.1093/bioinformatics/btv325
[45] HASTIE,T.(1984)。主要曲线和曲面。斯坦福大学统计系计算统计实验室技术报告11。数学科学网:MR2634007
[46] HASTIE,T.和STUETZLE,W.(1989年)。主曲线。J.艾默。统计师。协会84 502-516。数学科学网:MR1010339·Zbl 0679.62048号
[47] HASTIE,T.、TIBSHIRANI,R.和FRIEDMAN,J.(2019年)。《统计学习的要素:数据挖掘、推断和预测》,第二版,《统计学中的斯普林格系列》。纽约州施普林格。数字对象标识符:10.1007/978-0-387-84858-7谷歌学者:查找链接数学科学网:MR2722294·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[48] HINTON,G.E.和ROWEIS,S.T.(2002年)。随机邻域嵌入。高级神经信息处理。系统。15 833-840.
[49] HINTON,G.E.和SALAKHUTDINOV,R.R.(2006)。利用神经网络降低数据的维数。科学类313 504-507. 数字对象标识符:10.1126/science.1127647谷歌学者:查找链接数学科学网:MR2242509·Zbl 1226.68083号 ·doi:10.1126/science.1127647
[50] Hoff,P.D.、Raftery,A.E.和Handcock,M.S.(2002年)。社会网络分析的潜在空间方法。J.艾默。统计师。协会97 1090-1098。数字对象标识符:10.1198/016214502388618906谷歌学者:查找链接数学科学网:MR1951262·Zbl 1041.62098号 ·doi:10.1198/016214502388618906
[51] Holland,P.W.、Laskey,K.B.和Leinhardt,S.(1983年)。随机块模型:第一步。Soc.网络。5 109-137. 数字对象标识符:10.1016/0378-8733(83)90021-7谷歌学者:查找链接数学科学网:MR0718088·doi:10.1016/0378-8733(83)90021-7
[52] H.酒店(1933)。将复杂的统计变量分析为主成分。J.教育。精神病。24 417-441.
[53] Hotelling,H.(1936)。两组变量之间的关系。生物特征28 321-377. ·Zbl 0015.40705号
[54] HYV A RINEN,A.和OJA,E.(2000年)。独立成分分析:算法和应用。神经网络。13 411-430.
[55] Johnson,W.B.和Lindenstrauss,J.(1984)。Lipschitz映射到Hilbert空间的扩张。《现代分析与概率会议》(康涅狄格州纽黑文,1982年)。康斯坦普。数学。26 189-206. 阿默尔。数学。Soc.,Providence,RI.数字对象标识符:10.1090/conm/026/737400谷歌学者:查找链接数学科学网:MR0737400·Zbl 0539.46017号 ·doi:10.1090/conm/026/737400
[56] JOLLIFFE,I.T.(2002)。主成分分析,第二版,《统计学中的斯普林格系列》。纽约斯普林格。数学科学网:MR2036084·Zbl 1011.62064号
[57] Josse,J.和Husson,F.(2012年)。使用交叉验证近似值选择主成分分析中的成分数量。计算。统计师。数据分析。56 1869-1879. 数字对象标识符:10.1016/j.csda.2011.11.012谷歌学者:查找链接数学科学网:MR2892383·Zbl 1243.62082号 ·doi:10.1016/j.csda.2011.11.012
[58] KARRER,B.和NEWMAN,M.E.J.(2011)。网络中的随机块模型和社区结构。物理学。修订版E(3)83 016107,10页。数字对象标识符:10.1103/PhysRevE.83.016107谷歌学者:查找链接MathSciNet:MR2788206·doi:10.1103/PhysRevE.83.016107
[59] KAZEMI,S.M.、GOEL,R.、JAIN,K.、KOBYZEV,I.、SETHI,A.、FORSYTH,P.和POUPART,P.(2020年)。动态图的表示学习:综述。J.马赫。学习。决议21第70号论文,73页MathSciNet:MR4095349·Zbl 1498.68243号
[60] KIM,J.、RINALDO,A.和WASSERMAN,L.(2019)。估计流形维数的最小最大速率。J.计算。地理。10 42-95. 数字对象标识符:10.20382/jocg.v10i1a3谷歌学者:查找链接数学科学网:MR3918925·Zbl 1417.68141号 ·doi:10.0382/jog.v10i1a3
[61] KOBOUROV,S.(2012年)。Spring嵌入器和强制有向图绘制算法。预印本。可在arXiv:1201.3011购买。
[62] KOHONEN,T.(1982)。拓扑正确特征图的自组织形成。生物网络。43 59-69. ·Zbl 0466.9202号
[63] KONISHI,S.和KITAGAWA,G.(2008)。信息标准和统计建模。统计学中的斯普林格系列。纽约州施普林格。数字对象标识符:10.1007/978-0-387-71887-3谷歌学者:查找链接数学科学网:MR2367855·Zbl 1172.62003年 ·数字对象标识代码:10.1007/978-0-387-71887-3
[64] KOSSINETS,G.和WATTS,D.J.(2006年)。对不断发展的社交网络进行实证分析。科学类311 88-90. 数字对象标识符:10.1126/science.116869谷歌学者:查找链接数学科学网:MR2192483·兹比尔1226.91055 ·doi:10.1126/科学.1116869
[65] LEE,C.和WILKINSON,D.J.(2019年)。图聚类的随机块模型及其扩展综述。应用。Netw公司。科学。4 122.
[66] Lei,J.和Rinaldo,A.(2015)。随机块模型中谱聚类的一致性。安。统计师。43 215-237. 数字对象标识符:10.1214/14-AOS1274谷歌学者:查找链接数学科学网:MR3285605·兹比尔1308.62041 ·doi:10.1214/14-AOS1274
[67] LEVINA,E.和BICKEL,P.(2004)。内禀维数的最大似然估计。《神经信息处理系统进展》(L.Saul、Y.Weiss和L.Bottou编辑)17。麻省理工学院出版社,马萨诸塞州剑桥。
[68] LI,P.,HASTIE,T.J.和CHURCH,K.W.(2007)。(mathit)中降维的非线性估计和尾界{l} _1个\)使用柯西随机投影。J.马赫。学习。第8号决议2497-2532。数字对象标识符:10.1007/978-3-540-72927-3_37谷歌学者:查找链接数学科学网:MR2353840·兹比尔1203.68160 ·doi:10.1007/978-3-540-72927-3_37
[69] LIM,B.和ZOHREN,S.(2021)。时间序列预测与深度学习:一项调查。菲洛斯。事务处理。R.Soc.伦敦。A 379论文编号20200209,14页数字对象标识符:10.1098/rsta.2020.0209谷歌学者:查找链接数学科学网:MR4236146·doi:10.1098/rsta.2020.0209
[70] LITTLE,A.V.、MAGGIONI,M.和ROSASCO,L.(2011年)。估计内在尺寸的多尺度几何方法。程序中。桑普塔4:2。
[71] LUDKIN,M.、ECKLEY,I.和NEAL,P.(2018年)。动态随机块模型:参数估计和社区结构变化检测。统计计算。28 1201-1213. 数字对象标识符:10.1007/s11222-017-9788-9谷歌学者:查找链接数学科学网:MR3850391·Zbl 1430.62137号 ·doi:10.1007/s11222-017-9788-9
[72] LUNDE,B.奥兰多。S.、KLEPPE、T.S.和SKAUG,H.J.(2020年)。自动梯度树增强的信息准则。预印本。可在arXiv:2008.05296获取。
[73] MARKOV,A.(1958年)。同胚问题的不可解性。多克。阿卡德。诺克SSSR 121 218-220。数学科学网:MR0097793·Zbl 0092.00702号
[74] MCINNES,L.、HEALY,J.和MELVILLE,J.(2018)。UMAP:用于降维的统一流形近似。预印。arXiv:1802.03426v2提供。
[75] MIKOLOV,T.、SUTSKEVER,I.、CHEN,K.、CORRADO,G.和DEAN,J.(2013)。单词和短语的分布式表示及其可组合性。神经信息处理系统进展26:美国内华达州塔霍湖第27届神经信息处理体系年会论文集。
[76] NEWMAN,M.E.J.(2006)。网络中的模块化和社区结构。程序。国家。阿卡德。科学。103 8577-8582.
[77] NEWMAN,M.(2020年)。网络第二版,牛津大学出版社,牛津。数字对象标识符:10.1093/oso/9780198805090.001.0001谷歌学者:查找链接数学科学网:MR3838417·Zbl 1391.94006号 ·doi:10.1093/oso/9780198805090.001.0001
[78] NEWMAN,M.E.J.和GIRVAN,M.(2004年)。寻找和评估社区网络。物理学。版次:E 69 026113。
[79] NEWMAN,M.E.J.和REINERT,G.(2016)。估算网络中的社区数量。修订稿。137 078301.
[80] NIYOGI,P.、SMALE,S.和WEINBERGER,S.(2008年)。从随机样本中寻找高置信度子流形的同源性。离散计算。地理。39 419-441. 数字对象标识符:10.1007/s00454-008-9053-2谷歌学者:查找链接数学科学网:MR2383768·Zbl 1148.68048号 ·doi:10.1007/s00454-008-9053-2
[81] Otneim,H.、Jullum,M.和TjØtheim,D.(2020年)。将本地Fisher和朴素贝叶斯配对:改进两个标准判别式。《计量经济学杂志》216 284-304。数字对象标识符:10.1016/j.jeconom.2020.01.019谷歌学者:查找链接数学科学网:MR4077395·Zbl 1456.62062号 ·doi:10.1016/j.jeconom.2020.01.019
[82] OZERTEM,U.和ERDOGMUS,D.(2011年)。局部定义的主曲线和曲面。J.马赫。学习。第12号决议1249-1286。数学科学网:MR2804600·Zbl 1280.62071号
[83] PEARSON,K.(1901年)。在与空间中的点系统最接近的直线和平面上。菲洛斯。杂志2 559-572。
[84] 佩西托,T.P.(2021)。描述性与推理性社区检测:陷阱、神话和半真半假。预印本。可在arXiv:2112.0183v1。
[85] PEIXOTO,T.P.(2019年)。贝叶斯随机块建模。网络集群和块建模进展289-332。
[86] PEROZZI,B.、AL-RFOU,R.和SKIENA,S.(2014)。Deepwalk:社交表征的在线学习。第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集701-710。
[87] 乔·W和波隆尼克·W(2021)。具有收敛保证的岭估计算法。预印本。可在arXiv:2014.12314v1上获得。
[88] 邱杰、董毅、马宏、李杰、王凯和唐杰(2018)。网络嵌入作为矩阵分解:统一DeepWalk、LINE、PTE和node2vec。在WSDM会议记录中。新托克ACM。
[89] 邱杰、董毅、马宏、李杰、王凯和唐杰(2019)。NetSMF:作为稀疏矩阵分解的大规模网络嵌入。《2019年万维网会议论文集》,5月13日至17日,美国加利福尼亚州旧金山。
[90] RAVISSHANKER,N.和CHEN,R.(2019年)。时间序列的拓扑数据分析(TDA)。预印本。可在arXiv:1909.10604v1购买。
[91] Rohe,K.、Chatterjee,S.和Yu,B.(2011年)。谱聚类和高维随机块模型。安。统计师。39 1878-1915. 数字对象标识符:10.1214/11-AOS887谷歌学者:查找链接数学科学网:MR2893856·Zbl 1227.62042号 ·doi:10.1214/11-AOS887
[92] ROHE,K.,QIN,T.和YU,B.(2016)。共聚类有向图以发现不对称性和方向性社区。程序。国家。阿卡德。科学。美国113 12679-12684。数字对象标识符:10.1073/pnas.1525793113谷歌学者:查找链接MathSciNet:MR3576189·Zbl 1406.91306号 ·doi:10.1073/pnas.1525793113
[93] Roweis,S.T.和Saul,L.K.(2000)。局部线性嵌入的非线性降维。科学类290 2323-2326.
[94] SALINAS,D.、FLUNKERT,V.、GASTHAUS,J.和JANUSCHOWSKI,T.(2020年)。DeepAR:具有自回归递归网络的概率预测。国际期刊预测。36 1181-1191.
[95] SAMMON,J.W.(1969年)。用于数据结构分析的非线性映射。IEEE传输。计算。18 403-409.
[96] SCHLKOPF,B.、SMOLA,A.和MüLLER,K.-L.(2005)。核心主成分。计算机课堂讲稿。科学。1327 583-588.
[97] SHAHRIARI,B.、SWERSKY,K.、WANG,Z.、ADAMS,R.P.和DE FREITAS,N.(2015)。让人类脱离循环:贝叶斯优化综述。程序。IEEE 104 148-175。
[98] SINGH,G.、MEMOLI,F.和CARLSSON,G.(2007)。用于分析高维数据集和3D对象识别的拓扑方法。欧洲图形学点基图形研讨会(M.Botsch和R.Pajarola,eds.)。欧洲制图协会。
[99] SUN,Y.、NORICK,B.、HAN,J.、YAN,X.、YU,P.和YU,X.(2012)。在异构信息网络中集成元路径选择和用户引导的对象聚类。2012年KDD:第18届ACM SIGKDD知识发现和数据挖掘国际会议论文集1348-1356。
[100] TANG,J.、QU,M.和MEI,Q.(2015)。PTE:通过大规模异构文本网络嵌入预测文本。预打印。可从arXiv:1508.00200v1获取。
[101] TANG,J.、QU,M.、WANG,M.和ZHANG,M.,YAN,J.和MEI,Q.(2015)。LINE:大规模信息网络嵌入。第24届万维网国际会议论文集1067-1077。
[102] 唐J.、刘J.、张M.和梅Q.(2016)。可视化大规模和高维数据。第25届万维网国际会议论文集287-297。
[103] Tenenbaum,J.B.、de Silva,V.和Langford,J.C.(2000)。非线性降维的全局几何框架。科学类290 2319-2323.
[104] TJæSTHEIM,D.、JULLUM,M.和LæLAND,A.(2023年)。时间序列和动态网络嵌入的一些最新趋势。J.时间序列。分析。出现。数字对象标识符:10.1111/jtsa.12677谷歌学者:查找链接·Zbl 07731500号 ·doi:10.1111/jtsa.12677
[105] TJØSTHEIM,D.、JULLUM,M.和L \216»LAND,A.(2023年)。补充“统计嵌入:超越主要成分”。https://doi.org/10.1214/22-STS881SUPP网站
[106] TJæSTHEIM,D.、OTNEIM,H.和STæVE,B.(2022a)。统计相关性:超越皮尔逊(ρ)。统计师。科学。37 90-109. 数字对象标识符:10.1214/21-sts823谷歌学者:查找链接数学科学网:MR4371097·Zbl 07474199号 ·doi:10.1214/21-sts823
[107] TJØSTHEIM,D.、OTNEIM,H.和STVE,B.(2022b)。使用局部高斯近似的统计建模。爱思唯尔/学术出版社,伦敦。数学科学网:MR4382419·Zbl 1504.62011年
[108] 托格森(1952年)。多维标度:I.理论和方法。心理测量学17 401-419. 数字对象标识符:10.1007/BF02288916谷歌学者:查找链接数学科学网:MR0054219·Zbl 0049.37603号 ·doi:10.1007/BF02288916
[109] TUTTE,W.T.(1963年)。如何绘制图形。程序。伦敦。数学。Soc.(3)13 743-767。数字对象标识符:10.1112/plms/s3-13.1.743谷歌学者:查找链接数学科学网:MR0158387 zbMATH:0115.40805·Zbl 0115.40805号 ·doi:10.1112/plms/s3-13.1.743
[110] VAN DER MAATEN,L.(2014)。使用基于树的算法加速t-SNE。J.马赫。学习。第15号决议3221-3245。数学科学网:MR3277169 zbMATH:1319.62134·Zbl 1319.62134号
[111] 范德马滕,L.和辛顿,G.(2008)。使用t-SNE可视化数据。J.马赫。学习。第9号决议2579-2605。兹马特:1225.68219·Zbl 1225.68219号
[112] VAN DER MAATEN,L.、POSTMA,E.和VAN DER-HERIK,J.(2009)。维度缩减:比较综述。蒂尔堡创意计算中心,TiCC TR 2009.005。
[113] von Luxburg,U.(2007年)。光谱聚类教程。统计计算。17 395-416. 数字对象标识符:10.1007/s11222-007-9033-z谷歌学者:查找链接数学科学网:MR2409803·数字对象标识代码:10.1007/s11222-007-9033-z
[114] Wang,Y.X.R.和Bickel,P.J.(2017)。随机块模型的基于似然的模型选择。安。统计师。45 500-528. 数字对象标识符:10.1214/16-AOS1457谷歌学者:查找链接数学科学网:MR3650391·Zbl 1371.62017年 ·doi:10.1214/16-AOS1457
[115] WASSERMAN,L.(2018)。拓扑数据分析。每年。Rev.Stat.应用。5 501-535. 数字对象标识符:10.1146/annurev-statistics-031017-100045谷歌学者:查找链接数学科学网:MR3774757·doi:10.1146/annurev-statistics-031017-100045
[116] WEI,Y.-C.和CHENG,C.-K.(1989)。通过比率切割分区实现高效的分层设计。1989年IEEE计算机辅助设计国际会议。技术论文摘要298-301。电气与电子工程师协会。
[117] 谢赫、李杰和薛赫(2018)。基于随机投影的降维技术综述。预打印。可从arXiv:1706.04371v4获取。
[118] YOUNG,G.和HOUSEHOLDER,A.S.(1938年)。根据相互距离讨论一组点。心理测量学3 19-22.
[119] YOUNG,T.、HAZARIKA,D.、PORIA,S.和CAMBRIA,E.(2018年)。基于深度学习的自然语言处理的最新趋势。IEEE计算。智力。杂志13 55-75。
[120] ZHANG,J.和CHEN,Y.(2020)。异构网络中基于模块的社区检测。统计师。Sinica中国30 601-629。数学科学网:MR4213981·Zbl 1439.62157号
[121] 郑琦(2016)。异构社交网络的频谱技术。加拿大安大略省女王大学博士论文。
[122] ZHOU,C.、LIU,Y.、刘,X.和GAO,J.(2017)。非对称邻近的可缩放图形嵌入。第31届AAAI人工智能大会论文集。
[123] ZHU,X.和PAN,R.(2020年)。分组网络向量自回归。统计师。中国30 1437-1462。数字对象标识符:10.5705/ss.202017.0533谷歌学者:查找链接数学科学网:MR4257540·Zbl 1453.62654号 ·doi:10.5705/ss.202017.0533
[124] Zhu,X.,Pan,R.,Li,G.,Liu,Y.和Wang,H.(2017)。网络向量自回归。安。统计师。45 1096-1123. 数字对象标识符:10.1214/16-AOS1476谷歌学者:查找链接数学科学网:MR3662449·兹比尔1381.62256 ·doi:10.1214/16-AOS1476
[125] ZOMORODIAN,A.和CARLSSON,G.(2005)。计算持久同源性。离散计算。地理。33 249-274. 数字对象标识符:10.1007/s00454-004-1146-y谷歌学者:查找链接数学科学网:MR2121296·Zbl 1069.55003号 ·doi:10.1007/s00454-004-1146-y
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。