×

扩散状态距离:多时间分析、快速算法和生物网络应用。 (英语) Zbl 1470.60231号

摘要:数据相关度量是学习高维数据底层结构的强大工具。本文进一步开发和分析了一个数据相关度量,称为扩散状态距离,它使用数据驱动的扩散过程来比较点。与相关扩散方法不同,DSD包含跨时间尺度的信息,这允许以无参数的方式推断内在数据结构。本文基于底层扩散过程中介观平衡的多时间出现,发展了DSD理论。提出并分析了DSD去噪和降维的新算法。这些方法基于潜在扩散过程的加权谱分解,在合成数据集和真实生物网络上的实验表明了所提算法在速度和准确性方面的有效性。总之,为了说明DSD对于显示多尺度结构的数据集的显著优势,与相关方法进行了比较。

MSC公司:

60J70型 布朗运动和扩散理论的应用(种群遗传学、吸收问题等)
第92页第42页 系统生物学、网络
62H30型 分类和区分;聚类分析(统计方面)
62M15型 随机过程和谱分析的推断
65C20个 概率模型,概率统计中的通用数值方法
68T09号 数据分析和大数据的计算方面
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] E.Abbe,社区检测和随机区块模型:最近的发展,J.Mach。学习。第18号决议(2017年),第6446-6531页·Zbl 1403.62110号
[2] S.Alagagan、H.Shin、F.Frohlich和H.Wu,有效消除颅内脑电图中电刺激伪影的扩散几何方法,《神经工程学杂志》,16(2019),036010。
[3] M.Belkin和P.Niyogi,用于降维和数据表示的拉普拉斯特征映射,神经计算。,15(2003年),第1373-1396页·Zbl 1085.68119号
[4] G.F.Berriz、J.E.Beaver、C.Cenik、M.Tasan和F.P.Roth,《下一代功能趋势分析软件》,生物信息学,25(2009),第3043-3044页。
[5] A.Beveridge,离散格林函数的命中时间公式,组合概率论。计算。,25(2016),第362-379页·Zbl 1372.05206号
[6] E.Boehnlein、P.Chin、A.Sinha和L.Lu,使用图上的格林函数和热核计算扩散状态距离,《网络图算法和模型国际研讨会论文集》,纽约斯普林格,2014年,第79-95页·Zbl 1342.05147号
[7] K.Borgwardt和H.-P.Kriegel,图上最短路径核,《ICDM学报》,2005年。
[8] S.Botelho-Andrade、P.Casazza、D.Cheng和R.Tran,范数不等式的精确常数,数学。不平等。申请。,22(2019),第59-64页·Zbl 1418.42045号
[9] J.Brannick,Y.Chen,J.Kraus,and L.Zikatanov,基于图中匹配的图Laplacian的代数多层预条件,SIAM J.Numer。分析。,51(2013),第1805-1827页·Zbl 1281.65152号
[10] M.Cao、C.Pietras、X.Feng、K.Doroschak、T.Schaffner、J.Park、H.Zhang、L.Cowen和B.Hescott,《基于扩散的蛋白质功能网络预测的新方向:充满信心地整合途径》,生物信息学,30(2014),第i219-227页。
[11] M.Cao、H.Zhang、J.Park、N.Daniels、M.Crovella、L.Cowen和B.Hescott,《蛋白质功能预测的距离:蛋白质相互作用网络的新距离度量》,PloS One,8(2013),e76339。
[12] S.Choobdar、M.E.Ahsen、J.Crawford、M.Tomasoni、T.Fang、D.Lamparter、J.Lin、B.Hescott、X.Hu、J.Mercer、T.Natoli、R.Narayan、A.Subramanian、J.D.Zhang、G.Stolovitzky、Z.Kutalik、K.Lage、D.K.Slonim、J.Saez-Rodriguez、L.J.Cowen、S.Bergmann和D.Marbach,《复杂疾病网络模块识别评估》,Nat。方法,16(2019),第843-852页。
[13] F.Chung,谱图理论,CBMS Reg.Conf.Ser。数学。92,美国数学学会,普罗维登斯,RI,1997年·Zbl 0867.05046号
[14] R.Coifman、I.Kevrekidis、S.Lafon、M.Maggioni和B.Nadler,《扩散图、还原坐标和随机系统的低维表示》,多尺度模型。模拟。,7(2008),第842-864页·Zbl 1175.60058号
[15] R.Coifman和S.Lafon,扩散图,应用。计算。哈蒙。分析。,21(2006),第5-30页·Zbl 1095.68094号
[16] R.Coifman、S.Lafon、A.Lee、M.Maggioni、B.Nadler、F.Warner和S.Zucker,《几何扩散作为调和分析和数据结构定义的工具:扩散图》,Proc。国家。阿卡德。科学。美国,102(2005),第7426-7431页·Zbl 1405.42043号
[17] G.O.Consortium,《基因本体论资源:20年且仍在发展壮大》,《核酸研究》,47(2019),第D330-D338页。
[18] L.Cowen、T.Ideker、B.Raphael和R.Sharan,《网络传播:遗传关联的通用放大器》,《自然评论遗传学》。,18(2017),第551-562页。
[19] W.Czaja、B.Manning、L.McLean和J.Murphy,航空γ射线测量和遥感数据的融合,以加深对放射性事件后放射性核素命运的理解:来自福岛Dai-Ichi响应的示例,J.Radioanal。编号。化学。,307(2016),第2397-2401页。
[20] K.Devkota、J.Murphy和L.Cowen,GLIDE:结合局部方法和扩散状态嵌入来预测生物网络中缺失的相互作用,《生物信息学》,36(2020),第i464-i473页。
[21] D.Donoho和C.Grimes,Hessian特征映射:高维数据的局部线性嵌入技术,Proc。国家。阿卡德。科学。美国,100(2003),第5591-5596页·Zbl 1130.62337号
[22] 福塞特,ROC分析简介,模式识别。莱特。,27(2006),第861-874页。
[23] B.Fischer和J.Buhmann,平滑曲线分组和纹理分割的基于路径的聚类,IEEE Trans。模式分析。机器。智力。,25(2003年),第513-518页。
[24] J.Friedman、T.Hastie和R.Tibshirani,《统计学习的要素》,第1卷,Springer Ser。统计学。,施普林格,纽约,2001年·Zbl 0973.62007号
[25] N.Garcia Trillos、M.Gerlach、M.Hein和D.Slepčev,随机几何图上的图Laplacian向Laplace-Beltrami算子的谱收敛的误差估计,Found。计算。数学。,(2019年),第1-61页·Zbl 1447.62141号
[26] B.Hristov和M.Singh,《突变特征的网络覆盖揭示癌症基因》,《细胞系统》,5(2017),第221-229页。
[27] X.Hu、J.Lin和L.Zikatanov,基于路径覆盖的自适应多重网格方法,SIAM J.Sci。计算。,41(2019年),第S220-S241页·Zbl 1428.65106号
[28] O.Katz、R.Talmon、Y.-L.L和H.-T.Wu,用于多模式数据融合的交替扩散图,Inform。《融合》,第45期(2019年),第346-360页。
[29] D.Klein和M.Randic∧,阻力距离,J.Math。化学。,12(1993年),第81-95页。
[30] R.Lederman和R.Talmon,使用交替扩散学习公共潜在变量的几何,应用。计算。哈蒙。分析。,44(2018),第509-536页·Zbl 1394.94297号
[31] R.Lederman、R.Talmon、H.Wu、Y.Lo和R.Coifman,《普通流形学习的交替扩散及其在睡眠阶段评估中的应用》,《ICASSP会议录》,2015年,第5758-5762页。
[32] R.Lehoucq、D.Sorensen和C.Yang,《ARPACK用户指南:用隐式重启Arnoldi方法解决大规模特征值问题》,《软件环境》。工具6,SIAM,费城,1998年·Zbl 0901.65021号
[33] D.Levin、Y.Peres和E.Wilmer,《马尔可夫链和混合时间》,美国数学学会,普罗维登斯,RI,2009年·Zbl 1160.60001号
[34] R.Li、M.Frasch和H.Wu,通过基于扩散的通道选择从双通道母体腹部ECG中高效分离胎儿-母体ECG信号,Frontiers Physiol。,8 (2017).
[35] T.Li、R.Wernersson、R.Hansen、H.Horn、J.Mercer、G.Slodkowicz、C.Workman、O.Rigina、K.Rapacki、H.St\aerfeldt、S.Brunak、T.Jensen和K.Lage,A评分的人类蛋白质相互作用网络,以催化基因组解释,《自然方法》,14(2017),61。
[36] D.Liben-Nowell和J.Kleinberg,《社交网络的链接预测问题》,J.Amer。社会信息科学。技术。,58(2007),第1019-1031页。
[37] J.Lin、L.Cowen、B.Hescott和X.Hu,通过代数多重网格和随机投影计算图上的扩散状态距离,Numer。线性代数应用。,25(2018),e2156·Zbl 1513.65077号
[38] A.Little,M.Maggioni和J.Murphy,《基于路径的谱聚类:保证、对异常值的鲁棒性和快速算法》,J.Mach。学习。决议,21(2020),第1-66页·Zbl 1497.68430号
[39] O.Livne和A.Brandt,《精益代数多重网格(LAMG):快速图形拉普拉斯线性求解器》,SIAM J.Sci。计算。,34(2012),第B499-B522页·Zbl 1253.65045号
[40] V.Lyzinski、M.Tang、A.Athreya、Y.Park和C.Priebe,分层随机块模型中的社区检测和分类,IEEE Trans。网络科学。Eng.,4(2017),第13-26页。
[41] M.Maggioni和J.Murphy,通过无监督非线性扩散学习,J.Mach。学习。决议,20(2019),第1-56页·Zbl 1440.68233号
[42] C.Meyer,《随机互补、解耦马尔可夫链和几乎可约系统理论》,SIAM Rev.,31(1989),第240-272页·兹伯利0685.65129
[43] J.Murphy和M.Maggioni,高光谱图像扩散几何的迭代主动学习,《WHISPERS学报》,2018年,第1-5页。
[44] J.Murphy和M.Maggioni,带非线性扩散的高光谱图像的无监督聚类和主动学习,IEEE Trans。地质科学。《遥感》,57(2019),第1829-1845页。
[45] J.Murphy和M.Maggioni,高光谱图像聚类的光谱-空间扩散几何,IEEE Geosci。遥感快报。,17(2020年),第1243-1247页。
[46] B.Nadler和M.Galun,光谱聚类的基本限制,《NIPS学报》,2007年,第1017-1024页。
[47] B.Nadler、S.Lafon、R.Coifman和I.Kevrekidis,动力学系统的扩散图、光谱聚类和反应坐标,Appl。计算。哈蒙。分析。,21(2006),第113-127页·Zbl 1103.60069号
[48] M.Newman,《网络》,牛津大学出版社,牛津,2018年·Zbl 1391.94006号
[49] A.Ng、M.Jordan和Y.Weiss,《关于谱聚类:分析和算法》,《NIPS学报》,2002年,第849-856页。
[50] T.Peixoto,大型网络中的分层块结构和高分辨率模型选择,Phys。版本X,4(2014),011047。
[51] M.Rohrdanz、W.Zheng、M.Maggioni和C.Clementi,通过局部缩放扩散图确定反应坐标,J.Chem。物理。,134(2011),03B624。
[52] S.Roweis和L.Saul,通过局部线性嵌入减少非线性维数,《科学》,290(2000),第2323-2326页。
[53] J.Shi和J.Malik,标准化切割和图像分割,IEEE Trans。模式分析。机器。智力。,22(2000),第888-905页。
[54] T.Shnitzer、M.Ben-Chen、L.Guibas、R.Talmon和H.-T.Wu,用复合扩散算子恢复多模数据中的隐藏成分,SIAM J.Math。数据科学。,1(2019年),第588-616页·Zbl 1499.62463号
[55] A.Singer、R.Erban、I.Kevrekidis和R.Coifman,通过各向异性扩散映射检测随机动力系统中的固有慢变量,Proc。国家。阿卡德。科学。美国,106(2009),第16090-16095页。
[56] D.Szklarczyk、A.Franceschini、S.Wyder、K.Forslund、D.Heller、J.Huerta-Cepas、M.Simonovic、A.Roth、A.Santos、K.P.Tsafou、M.Kuhn、P.Bork、L.J.Jensen和C.von Mering,《字符串v(10):蛋白质相互作用网络,在生命树上集成》,《核酸研究》,43(2014),第D447-D452页。
[57] D.Szklarczyk、A.Gable、D.Lyon、A.Junge、S.Wyder、J.Huerta-Cepas、M.Simonovic、N.Doncheva、J.Morris、P.Bork、L.Jensen和C.Mering,String v(11):覆盖范围增加的蛋白质-蛋白质关联网络,支持全基因组实验数据集中的功能发现,《核酸研究》,47(2019),第D607-D613页。
[58] J.Tenenbaum、V.D.Silva和J.Langford,《非线性降维的全球几何框架》,《科学》,290(2000),第2319-2323页。
[59] U.Von Luxburg、A.Radl和M.Hein,大型随机邻域图中的碰撞和通勤时间,J.Mach。学习。Res.,15(2014),第1751-1798页·Zbl 1319.05118号
[60] H.Wu、R.Talmon和Y.Lo,《利用现代信号处理技术评估睡眠阶段》,IEEE Trans。生物识别。工程,62(2014),第1159-1168页。
[61] J.Xu和L.Zikatanov,代数多重网格方法,《数值学报》。,26(2017),第591-721页·Zbl 1378.65182号
[62] G.Yu、G.Fu、J.Wang和H.Zhu,通过多个网络的语义集成预测蛋白质功能,IEEE/ACM Trans。计算。生物信息学。,13(2015),第220-232页。
[63] L.Zelnik-Manor和P.Perona,自校正谱聚类,《NIPS学报》,2005年,第1601-1608页。
[64] W.Zheng、M.Rohrdanz、M.Maggioni和C.Clementi,通过局部缩放扩散图计算的聚合物反转率,J.Chem。物理。,134 (2011), 144109.
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。