×

通过森林表示挖掘图中的拓扑结构。 (英语) Zbl 1530.68222号

摘要:我们考虑在度量图和非度量图中推断简化拓扑子结构(我们称之为主干)的问题。直观地说,这些是具有“很少”节点、多分支和循环的子图,它们很好地模拟了原始图的拓扑。我们提出了一个多步骤的程序来推断这些主干。首先,我们通过边界系数(BC)对原始图中每个顶点的局部(几何)信息进行编码,以识别图中的“核心”节点。接下来,我们构造一个图的森林表示,称为(f)-pine,它将图的每个节点连接到一个局部“核心”节点。然后,通过CLOF(Constrained Leaves Optimal subForest)从(f)-pine中推断出最终主干,CLOF是我们介绍的一个新的图优化问题。在理论层面上,我们证明了CLOF对于一般图是NP-hard。然而,我们证明了CLOF可以有效地求解森林图,这是一个令人惊讶的事实,因为CLOF在树图上诱导了一个非平凡的单调子模集函数最大化问题。这个结果是我们通过森林表示挖掘图中主干的方法的基础。我们定性和定量地确认了我们的方法的适用性、有效性和可扩展性,以发现各种图形结构数据中的主干,例如社交网络、散布在地球上的地震位置以及高维细胞轨迹数据。

MSC公司:

68T05型 人工智能中的学习和自适应系统
55N31号 持久同源性及其应用,拓扑数据分析
68兰特 计算机科学中的图论(包括图形绘制)

软件:

弹弓;时差
PDF格式BibTeX公司 XML格式引用
全文: 链接

参考文献:

[1] Mridul Aanjaneya、Frederic Chazal、Daniel Chen、Marc GLisse、Leonidas Guibas和Dmitriy Morozov。从噪声数据中重构度量图。国际计算几何与应用杂志,22(04):305-3252012。
[2] Waleed Abu-Ain、Siti Norul Huda Sheikh Abdullah、Bilal Bataineh、Tarik Abu-Ain.和Khairuddin Omar。二值图像的骨架化算法。Procedia Technology,11:704-7092013年。ISSN 2212-0173。第四届电气工程和信息学国际会议,ICEEI 2013。
[3] Charu C.Aggarwal、Alexander Hinneburg和Daniel A.Keim。关于高维空间中距离度量的惊人行为。Jan Van den Bussche和Victor Vianu,编辑,《数据库理论-ICDT 2001》,第420-434页,柏林,海德堡,2001年。施普林格-柏林-海德堡,ISBN 978-3-540-44503-6·Zbl 1047.68038号
[4] Leman Akoglu、Jilles Vreeken、Hanghang Tong、Duen Hong Chau、Nikolaj Tatti和Christos Faloutsos。挖掘大型图中标记节点的连接路径。2013年SIAM国际数据挖掘会议记录,SDM 2013,第37-45页。暹罗社会,2013年。国际标准图书编号9781611972627。
[5] Y.P.Aneja和K.P.K.Nair。网络中树状设施的位置。信息:信息系统和运筹学,30(4):319-3241992·Zbl 0779.90051号
[6] 帕斯奎尔·阿维拉(Pasquale Avella)、毛里齐奥·博恰(Maurizio Boccia)、安东尼奥·斯福尔扎(Antonio Sforza)和伊戈尔·瓦西尔·埃夫(Igor Vasil'Ev)。中径问题的分支与切割算法。计算优化与应用,32(3):215-2302005年12月。ISSN 1573-2894·Zbl 1125.90040号
[7] 巴思·埃利米先生。大型复杂网络中的中间中心性。欧洲物理杂志B,38(2):163-1682004年3月。编号1434-6036。
[8] Punam Bedi和Chhavi Sharma。社交网络中的社区检测。WIRE数据挖掘和知识发现,6(3):115-1352016。
[9] 罗布勒希特·坎努特(Robrecht Cannoodt)、沃特·塞林斯(Wouter Saelens)和伊万·塞伊斯(Yvan Saeys)。单细胞转录组学轨迹推断的计算方法。欧洲免疫学杂志,46(11):2496-25062016年11月。ISSN 00142980。
[10] 冈纳·卡尔松(Gunnar Carlsson)。拓扑和数据。美国数学学会公报,46(2):255-3082009年1月。ISSN 0273-0979·Zbl 1172.62002号
[11] 冈纳·卡尔松(Gunnar Carlsson)。点云数据的拓扑模式识别。数字学报,23:289-3682014·Zbl 1398.68615号
[12] 尼古拉斯·卡瓦纳(Nicholas J.Cavanna)、马哈穆德雷扎·贾汉塞尔(Mahmoodreza Jahanseir)和唐纳德·希伊(Donald R.Sheehy)。稀疏过滤的几何透视图。加拿大计算几何会议论文集,2015年。
[13] 伯纳德·夏泽尔。一种具有逆卡克曼型复杂度的最小生成树算法。美国医学会杂志(JACM),47(6):1028-10472000·Zbl 1094.68606号
[14] Haochen Chen、Bryan Perozzi、Yifan Hu和Steven Skiena。竖琴:网络的层次表示学习。2018年第三十二届AAAI人工智能会议。
[15] Ena Choi、Nicholas A.Bond、Michael A.Strauss、Alison L.Coil、Marc Davis和Christopher N.A.Willmer。追踪z~0.8星系分布的丝状结构。皇家天文学会月刊,406(1):320-3282010年7月。ISSN 00358711。
[16] T.G.Crainic和G.Laporte。车队管理和物流。运输研究中心。美国施普林格出版社,1998年。国际标准图书编号9780792381617。
[17] A.Davie和AJ Stothers。改进了矩阵乘法复杂性的界限。《爱丁堡皇家学会会刊:数学A部分》,14304,2013·Zbl 1276.65024号
[18] Leen De Baets、Sofie Van Gassen、Tom Dhane和Yvan Saeys。使用图挖掘进行无监督轨迹推断。生物信息学和生物统计学计算智能方法国际会议,第84-97页。斯普林格,2015年。
[19] 布列塔尼·特雷斯·法西(Brittany Terese Fasy)和贝王(Bei Wang)。探索拓扑数据分析中的持久局部同源性。2016年IEEE声学、语音和信号处理国际会议(ICASSP),第6430-6434页,2016年。
[20] Brittany Terese Fasy、Jisu Kim、Fabrizio Lecci和Cl´ement Maria。R包TDA.arXiv预印本arXiv:1411.18302014。
[21] F.Fouss、A.Pilotte、J.Renders和M.Saerens。随机遍历计算图中节点之间的相似度,并应用于协作推荐。IEEE知识与数据工程汇刊,19(3):355-3692007年3月。编号2326-3865。
[22] 托马斯·乔安·弗鲁希特曼(Thomas MJ Fruchterman)和爱德华·莱因戈尔德(Edward M Reingold)。通过强制定向放置绘制图形。软件:实践与经验,21(11):1129-11641991。
[23] 迈克尔·加里(Michael R.Garey)和大卫·约翰逊(David S.Johnson)。计算机与难处理性;NP-完备性理论指南。W.H.Freeman&Co.,美国,1990年。ISBN 0716710455。
[24] 凯瑟琳·加赛德(Kathryn Garside)、罗宾·亨德森(Robin Henderson)、伊琳娜·马卡伦科(Irina Makarenko)和克里斯蒂娜·马索勒(Cristina Masoller)。糖尿病视网膜病变高分辨率图像的拓扑数据分析。公共科学图书馆,14(5):e02174132019。
[25] 罗伯特·格里斯。条形码:数据的持久拓扑。美国数学学会公报(新系列),45(107):61-752008·Zbl 1391.55005号
[26] 亚历山大·戈尔班(Alexander N Gorban)和安德烈·齐诺维耶夫(Andrei Y Zinovyev)。主图和流形。机器学习应用和趋势研究手册:算法、方法和技术,第28-59页。IGI Global,2010年。
[27] Per Hage和Frank Harary。网络的偏心性和中心性。社会网络,17(1):57-631995。
[28] 约翰·哈蒂根(John A Hartigan)。聚类算法。约翰·威利父子公司,1975年·Zbl 0372.62040号
[29] 特雷弗·哈斯蒂(Trevor Hastie)和沃纳·斯图茨勒(Werner Stuetzle)。主曲线。《美国统计协会杂志》,84(406):502-5161989年·Zbl 0679.62048号
[30] 艾伦·哈彻。代数拓扑。剑桥大学出版社,2002年。ISBN 0521795400·Zbl 1044.55001号
[31] 何松涛(Songtao He)、法文·巴斯塔尼(Favyen Bastani)、索菲亚内修道院院长(Sofiane Abbar)、穆罕默德·阿利扎德(Mohammad Alizadeh)、哈里·巴拉克里什南(Hari Balakrishnan)、桑杰·查拉(Sanjay Chawla)和萨。Roadrunner:提高从gps轨迹推断路网的精度。2018年第26届ACM SIGSPATIAL国际地理信息系统进展会议记录,第3-12页。
[32] Christoph Hofer、Roland Kwitt、Marc Niethammer和Andreas Uhl。使用拓扑签名进行深入学习。《第31届神经信息处理系统国际会议论文集》,NIPS'17,第1633-1643页,美国,2017年。Curran Associates Inc.ISBN 978-1-5108-6096-4。
[33] 胡颖鹏、张凯西、杨靖和吴杨辉。分层设施选址问题在地下物流系统优化中的应用:中国的案例研究。工程数学问题,2018:1-10,2018年9月。
[34] Dakai Jin、Krishna S.Iyer、Cheng Chen、Eric A.Hoffman和Punam K.Saha。一种使用最小代价路径的树状对象的鲁棒高效曲线骨架化算法。模式识别字母,76:32-402016。ISSN 0167-8655。骨架化及其应用专题。
[35] 萨拉·卡利·斯尼克、维塔莉·库林和达沃林·勒斯尼克。高维同源持久骨架。《应用数学进展》,102:113-1422019年。ISSN 01968858·Zbl 1423.55008号
[36] Tae Kim、Timothy Lowe、James Ward和Richard Francis。网络的最小长度覆盖子图。运筹学年鉴,18:245-2591989年12月·Zbl 0707.90059号
[37] 托马斯·基普夫(Thomas N Kipf)和马克斯·威林(Max Welling)。图卷积网络半监督分类。arXiv预印本arXiv:1609.029072016a。
[38] 托马斯·基普夫(Thomas N Kipf)和马克斯·威林(Max Welling)。变分图自动编码器。arXiv预打印arXiv:1611.07308,2016b。
[39] 道格拉斯·克莱恩。图中的中心度。数学化学杂志,47:1209-12232010年5月·Zbl 1408.05051号
[40] 安德烈亚斯·克劳斯和丹尼尔·戈洛文。子模块函数最大化。可牵引性,3:71-1042011年1月。
[41] Andrea S.Lapaugh和Ronald L.Rivest。子图同胚问题。计算机与系统科学杂志,20(2):133-1492980。ISSN 0022-0000·Zbl 0429.68060号
[42] Patrick Medina和R Doerge。复杂高维数据拓扑数据分析的统计方法。2015年农业应用统计年会。
[43] Juan Mesa和T.Brian Boffey。审查网络中广泛的设施位置。《欧洲运筹学杂志》,95:592-603,1996年12月·Zbl 0926.90057号
[44] Shubhadip Mitra、Priya Saraf和Arnab Bhattacharya。提示:挖掘top-k位置以最小化轨迹感知服务的用户不便。2019年IEEE知识与数据工程汇刊。
[45] HDK Mooesignhe和Pang Ning Tan。使用随机行走进行异常检测。2006年第18届IEEE人工智能工具国际会议(ICTAI'06),第532-539页。IEEE,2006年。
[46] 迈克尔·摩尔(Michael Moor)、马克斯·霍恩(Max Horn)、巴斯蒂安·里克(Bastian Rieck)和卡斯滕·博格沃德(Karsten Borgwardt)。拓扑自动编码器arXiv预打印arXiv:1906.007222019。
[47] 莫妮卡·尼古拉(Monica Nicolau)、阿诺德·莱文(Arnold J.Levine)和冈纳·卡尔森(Gunnar Carlsson)。基于拓扑的数据分析确定了一组具有独特突变特征和良好生存率的乳腺癌。《美国国家科学院院刊》,108(17):7265-7270,2011年4月。ISSN 0027-8424。
[48] 尼娜·奥特(Nina Otter)、梅森·A·波特(Mason A.Porter)、乌里克·蒂尔曼(Ulrike Tillmann)、彼得·格林罗德(Peter Grindrod)和希瑟·A·哈灵顿(Heather A.Harrington)。计算持久同源性的路线图。EPJ数据科学,6(1):2017年8月17日。ISSN 2193-1127。
[49] 史蒂夫·奥多特(Steve Y Oudot)。持久性理论:从颤动表示到数据分析,第209卷。美国数学学会普罗维登斯,2015年·Zbl 1335.55001号
[50] 彭思欧和托马斯·莫顿。调度中的过滤波束搜索。国际生产研究杂志,26(1):35-621988。
[51] 米洛的拉多瓦诺维奇、亚历山德罗斯·纳诺普洛斯和米尔贾娜·伊万诺维奇。高维数据中最近的邻居:中心的出现和影响。《第26届国际机器学习年会论文集》,ICML'09,第865-872页,美国纽约州纽约市,2009年。ACM公司。是978-1-60558-516-1。
[52] 迈克尔·B·里奇。具有循环的网络上路径或树的最佳位置。网络,20(4):391-4071990·Zbl 0715.90071号
[53] B.瑞克和H.莱特。用于评估降维方案的持久同源性。计算机图形论坛,34(3):431-440,2015年。
[54] 巴斯蒂安·里克和海克·莱特。降维质量措施的一致性分析。哈米什·卡尔(Hamish Carr)、克里斯托夫·加思(Christoph Garth)和蒂诺·温考夫(Tino Weinkauf)主编,《数据分析和可视化中的拓扑方法IV》,第103-117页,查姆出版社,2017年。施普林格国际出版公司。国际标准图书编号978-3-319-44684-4。
[55] 巴斯蒂安·里克(Bastian Rieck)、克里斯蒂安·博克(Christian Bock)和卡斯滕·博格沃德(Karsten Borgwardt)。图分类的一个持久的weisfeiler-lehman过程。2019年国际机器学习会议,第5448-5458页。
[56] 阿巴斯·海德尔·里兹维(Abbas Haider Rizvi)、巴勃罗·齐亚马拉(Pablo G.C´amara)、埃琳娜·坎德罗(Elena K.Kandror)、汤姆·罗伯茨(Tom Roberts)、伊拉·希伦(Ira Schieren)、汤姆·马尼蒂斯(Tom Maniatis)和。单细胞拓扑rna-seq分析揭示了对细胞分化和发育的见解。InNature生物技术,2017年。
[57] Afshin Sadeghi和Holger Fr–ohlich。最优子网络识别的斯坦纳树方法:一项实证研究。BMC生物信息学,14:1442013年4月。
[58] 沃特·萨伦斯(Wouter Saelens)、罗伯雷希特·坎努特(Robrecht Cannoodt)、海伦娜·托多罗夫(Helena Todorov)和伊万·塞伊斯(Yvan Saeys)。单细胞轨迹推断方法的比较。《自然生物技术》,37:12019年4月。
[59] 文·席尔瓦(Vin Silva)和冈纳·卡尔松(Gunnar Carlsson)。使用见证复合体进行拓扑估计。程序。交响乐。基于点的图形,2004年6月。
[60] Nikhil Singh、Heather D.Couture、J.S.Marron、Charles Perou和Marc Niethammer。组织学图像的拓扑描述符。吴国荣、张道强和周陆平主编,《医学成像中的机器学习》,第231-239页,Cham,2014年。施普林格国际出版公司。国际标准图书编号978-3-319-10581-9。
[61] Kelly Street、Davide Risso、Russell Fletcher、Diya Das、John Ngai、Nir Yosef、Elizabeth Purdom和Sandrine Dudoit。Slingshot:单细胞转录组学的细胞谱系和假时间推断。BMC基因组学,2018年12月19日。
[62] Yngve Sundblad。阿克曼函数。理论、计算和公式操作研究。BIT数值数学,11(1):107-1192971年3月。ISSN 1572-9125·Zbl 0221.68033号
[63] 唐健、曲萌、王明哲、张明、闫军和梅巧珠。线路:大规模信息网络嵌入。《第24届万维网国际会议论文集》,WWW’15,第1067-1077页,瑞士日内瓦共和国和州,2015年。国际万维网会议指导委员会。国际标准图书编号978-1-4503-3469-3。
[64] Joshua B.Tenenbaum、Vin de Silva和John C.Langford。非线性降维的全局几何框架。科学,290(5500):2319-23232000。ISSN 00368075。
[65] 柳海友原和玉石友野。最长路径问题的有效算法。Rudolf Fleischer和Gerhard Trippen,《算法与计算》编辑,第871-883页,柏林,海德堡,2005年。施普林格-柏林-海德堡,ISBN 978-3-540-30551-4。
[66] 罗宾·范戴勒(Robin Vandaele)、蒂杰尔·德比(Tijl De Bie)和伊万·塞伊斯(Yvan Saeys)。局部拓扑数据分析,以揭示接近图形结构拓扑的数据的全局结构。Michele Berlingerio、Francesco Bonchi、Thomas G¨artner、Neil Hurley和Georgiana Ifrim,数据库中的机器学习和知识发现编辑,第19-36页,Cham,2019a。施普林格国际出版公司。
[67] Robin Vandaele、Yvan Saeys和Tijl De Bie。边界系数:在加权图中可视化和发现结构的顶点度量。第十五届国际图形挖掘与学习研讨会(MLG)论文集,2019b。
[68] Ulrike Von Luxburg和Morteza Alamgir。基于未加权k近邻图的密度估计:路线图。在C.J.C.Burges、L.Bottou、M.Welling、Z.Ghahramani和K.Q.Weinberger编辑的《神经信息处理系统进展》26,第225-233页。Curran Associates,Inc.,2013年。
[69] Bei Wang、Brian Summa、Valerio Pascucci和Mikael Vejdemo-Johansson。高维数据中的分支和循环特征。IEEE可视化和计算机图形汇刊,17:1902-1911,2011年。
[70] 王素怡、李旭、密特拉和王玉树。使用离散莫尔斯理论对神经元进行拓扑骨架化和树化。arXiv预印本arXiv:1805.049972018。
[71] Yu Wang、Eshwar Ghumare、Rik Vandenberghe和Patrick Dupont。比较加权无向图的聚类系数和局部效率的不同推广。神经计算,29(2):313-3312017·Zbl 1414.05136号
[72] 拉里·沃瑟曼(Larry Wasserman)。拓扑数据分析。《统计及其应用年鉴》,2018年第5(1)期。
[73] Duncan J.Watts和Steven H.Strogatz。“小世界”网络的集体动态。《自然》,393(6684):440-4421998年6月。ISSN 0028-0836·Zbl 1368.05139号
[74] W.W.扎卡里。小群体冲突和分裂的信息流模型。《人类学研究杂志》,33:452-4731977年。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。