×

地标扩散图(L-dMaps):加速流形学习的样本外扩展。 (英语) Zbl 1489.68228号

摘要:扩散映射是一种基于数据扩散过程调和分析的非线性流形学习技术。具有计算复杂性的样本外扩展\(\ mathcal{O}(N)\),其中\(N\)是构成流形的点的数量,阻碍了需要快速嵌入高维数据流的在线学习应用程序的应用程序。我们提出了地标扩散映射(L-dMaps),以将复杂性降低到(mathcal{O}(M)),其中(M\ll-N)是使用剪枝生成树或k-medoid选择的地标点的数目。L-dMaps在样本外扩展中提供了\(N/M)\)加速,使扩散映射能够应用于高容量和/或高速流数据。我们在三个数据集上说明了我们的方法:瑞士卷,C({24})H({50})聚合物链的分子模拟,以及丙氨酸二肽的生物分子模拟。我们证明,对于误差小于4%的分子系统,在样本外扩展中的加速比可达50倍相对于整个数据集上的计算,在流形重建保真度方面。

MSC公司:

68T05型 人工智能中的学习和自适应系统
05元50分 图和线性代数(矩阵、特征值等)
42B35型 调和分析中的函数空间
60J60型 扩散过程
62兰特 歧管统计
第68季度25 算法和问题复杂性分析
92-10 生物相关问题的数学建模或模拟
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Cho,M。;Lee,J。;Lee,K.M.,图匹配的重加权随机行走,(第11届欧洲计算机视觉会议(2010)),492-505
[2] 萨瓦尔,B。;Karypis,G。;Konstan,J。;Riedl,J.,《维度缩减在推荐系统中的应用——案例研究》,(《ACM WebKDD 2000电子商务Web挖掘研讨会论文集》,美国马萨诸塞州波士顿,2000年)
[3] Patcha,A。;Park,J.-M.,《异常检测技术概述:现有解决方案和最新技术趋势》,《计算机》。净值。,51, 3448-3470 (2007)
[4] Das,P。;莫尔,M。;Stamati,H。;卡夫拉基,L.E。;Clementi,C.,《非线性降维蛋白质折叠反应的低维自由能景观》,Proc。国家。阿卡德。科学。美国,103,9885-9890(2006)
[5] Transtrum,M.K。;马赫塔,B.B。;Brown,K.S。;丹尼尔斯,不列颠哥伦比亚省。;Myers,C.R。;Sethna,J.P.,《透视:物理学、生物学及其他领域的草率和涌现理论》,J.Chem。物理。,143,第010901条pp.(2015)
[6] 马赫塔,B.B。;Chachra,R。;Transtrum,M.K。;Sethna,J.P.,《参数空间压缩是新兴理论和预测模型的基础》,《科学》,342604-607(2013)
[7] Ferguson,A.L。;Panagiotopoulos,A.Z。;Debenedetti,P.G。;Kevrekidis,I.G.,使用扩散图系统地确定链动力学的序参数,Proc。国家。阿卡德。科学。美国,10713597-13602(2010)
[8] Zwanzig,R.,《非平衡统计力学》(2001),牛津大学出版社:牛津大学出版社,纽约·Zbl 1267.82001年
[9] 科伊夫曼,R.R。;Kevrekidis,I.G。;拉丰,S。;马格吉奥尼,M。;Nadler,B.,《扩散图、约简坐标和随机系统的低维表示》,多尺度模型。同时。,7, 842-864 (2008) ·兹比尔1175.60058
[10] 佩尼亚,D。;Poncela,P.,《多元时间序列的降维》(Balakrishnan,N.;Sarabia,J.M.;Castillo,E.,《分布理论、顺序统计和推断的进展》(2006),Birkhä用户波士顿:Birkhá用户波士顿,马萨诸塞州),433-458·Zbl 05196687号
[11] Ferguson,A.L。;张,S。;我·迪基。;Panagiotopoulos,A.Z。;Debenedetti,P.G。;Link,A.J.,《微管蛋白J25中自发套索形成的实验和计算研究》,《生物物理学》。J.,99,3056-3065(2010)
[12] 林登,G。;B.史密斯。;York,J.,Amazon.com建议:逐项协作过滤,IEEE Int.Comput。,7, 76-80 (2003)
[13] Jolliffe,I.T.,主成分分析,(主成分分析(2002),Springer:Springer New York)·Zbl 1011.62064号
[14] 博格,I。;Groenen,P.J.,《现代多维尺度:理论与应用》(2005),Springer:Springer New York·Zbl 1085.62079号
[15] 宾厄姆,E。;Mannila,H.,《降维中的随机投影:图像和文本数据的应用》
[16] Tenenbaum,J.B。;德席尔瓦,V。;Langford,J.C.,《非线性降维的全球几何框架》,《科学》,290,2319-2323(2000)
[17] Roweis,S.T。;Saul,L.K.,局部线性嵌入的非线性降维,《科学》,290,2323-2326(2000)
[18] 科伊夫曼,R.R。;Lafon,S.,扩散图,应用。计算。哈蒙。分析。,21, 5-30 (2006) ·Zbl 1095.68094号
[19] 科伊夫曼,R.R。;拉丰,S。;Lee,A.B。;Maggioni,M。;纳德勒,B。;华纳,F。;Zucker,S.W.,《几何扩散作为调和分析和数据结构定义的工具:扩散图》,Proc。国家。阿卡德。科学。美国,102,7426-7431(2005)·Zbl 1405.42043号
[20] 纳德勒,B。;拉丰,S。;科伊夫曼,R.R。;Kevrekidis,I.G.,扩散图,福克-普朗克算子的光谱聚类和本征函数,高级神经信息过程。系统。,18, 955-962 (2006)
[21] Ferguson,A.L。;Panagiotopoulos,A.Z。;Kevrekidis,I.G。;Debenedetti,P.G.,《分子模拟中的非线性降维:扩散图方法》,《化学》。物理学。莱特。,509, 1-11 (2011)
[22] Mansbach,R.A。;Ferguson,A.L.,《单分子自由能表面的机器学习以及化学和环境对结构和动力学的影响》,J.Chem。物理。,142,第105101条pp.(2015)
[23] Long,A.W。;张杰。;Granick,S。;Ferguson,A.L.,《粒子跟踪数据的机器学习装配图》,《软物质》,第11期,第8141-8153页(2015年)
[24] 科伊夫曼,R。;Shkolnisky,Y。;Sigworth,F。;Singer,A.,Graph Laplacian tomography from unknown random projections,IEEE Trans。图像处理。,17, 1891-1899 (2008) ·Zbl 1372.94055号
[25] Gepshtein,S。;Keller,Y.,《扩散图和光谱松弛的图像补全》,IEEE Trans。图像处理。,22, 2983-2994 (2013) ·Zbl 1373.94137号
[26] 胡,J。;Ferguson,A.L.,使用扩散图的全局图匹配,Intell。数据分析。,20, 637-654 (2016)
[27] 潘,V.Y。;Chen,Z.Q.,矩阵特征问题的复杂性,(第三十一届ACM计算理论年会论文集。第三十一届美国ACM计算机理论年会文献集,纽约,纽约,美国(1999)),507-516·Zbl 1346.68103号
[28] 贝尔金,M。;Niyogi,P.,用于降维和数据表示的拉普拉斯特征映射,神经计算。,15, 1373-1396 (2003) ·Zbl 1085.68119号
[29] Kao,M.-Y.,《算法百科全书》(2008),施普林格科学与商业媒体·Zbl 1149.68078号
[30] Golub,G。;Van Loan,C.,《矩阵计算》,约翰·霍普金斯数学研究所。科学。(2013),约翰·霍普金斯大学出版社·Zbl 1268.65037号
[31] Bechtold,T。;Rudnyi,E.B。;Korvink,J.G.,《电热微机电系统的快速模拟:高效动态紧凑模型》(2006),施普林格出版社:施普林格出版社,德国海德堡
[32] Larsen,R.M.,Lanczos双对角化与部分重新正交化(1998),DAIMI PB-357技术报告
[33] Y.本吉奥。;佩门特,J.-F。;文森特,P。;俄勒冈州德拉鲁。;Le Roux,N。;Ouimet,M.,LLE、Isomap、MDS、特征映射和光谱聚类的样本外扩展,高级神经网络信息过程。系统。,16, 177-184 (2004)
[34] 艾森巴德,Y。;Bermanis,A。;Averbuch,A.,基于PCA的样本外扩展,用于降维(2015)
[35] 拉宾,N。;Coifman,R.R.,《使用扩散图和拉普拉斯金字塔表示和学习异构数据集》(2012年SIAM国际数据挖掘会议论文集(2012)),189-199
[36] Fowlkes,C。;Belongie,S。;Chung,F。;Malik,J.,《使用Nystrom方法的光谱分组》,IEEE Trans。模式分析。马赫。智力。,26, 214-225 (2004)
[37] 拉丰,S。;Keller,Y。;Coifman,R.R.,《扩散图数据融合和多用户数据匹配》,IEEE Trans。模式分析。马赫。智力。,28, 1784-1797 (2006)
[38] Baker,C.T.H.,《积分方程的数值处理》,第13卷(1977年),克拉伦登出版社:牛津克拉伦登出版公司·Zbl 0373.65060号
[39] Eskin,E。;阿诺德,A。;普雷罗,M。;波特诺伊,L。;Stolfo,S.,《非监督异常检测的几何框架》,(数据挖掘在计算机安全中的应用,第6卷(2002),Springer),77-101
[40] 马奥尼,A。;布罗斯,J。;Johnson,D.,《简化配置空间中的可变形机器人运动规划》(2010年IEEE机器人与自动化国际会议(2010)),5133-5138
[41] Chen,Y.F。;Liu,S.-Y。;刘,M。;Miller,J。;How,J.P.,《带扩散图的运动规划》(2016 IEEE/RSJ智能机器人和系统国际会议(2016))
[42] Voter,A.F.,《罕见事件动力学的并行复制方法》,Phys。B版,57,第13985条pp.(1998)
[43] 艾伦·R·J。;Valeriani,C。;ten Wolde,P.R.,《罕见事件模拟的正向通量采样》,J.Phys。康登斯。Matter,21,第463102条pp.(2009)
[44] 埃斯科贝多,F.A。;博雷罗,E.E。;Araque,J.C.,过渡路径采样和正向通量采样。《生物系统应用》,J.Phys。康登斯。Matter,21,第333101条,第(2009)页
[45] 德席尔瓦,V。;Tenenbaum,J.B.,非线性降维中的全局与局部方法,高级神经信息处理。系统。,15, 721-728 (2003)
[46] 席尔瓦,J。;马尔克斯,J。;Lemos,J.,为稀疏流形学习选择里程碑点,高级神经信息处理。系统。,18, 1241-1248 (2006)
[47] Singer,A.,从局部距离对全球定位的评论,Proc。国家。阿卡德。科学。美国,105,9507-9511(2008)·Zbl 1205.86043号
[48] Lei,Y.-K。;Xu,Y。;张世伟。;王,S.-L。;丁,Z.-G.,基于最小集覆盖的快速ISOMAP,(黄,D.-S.;张,X.;雷耶斯·加西亚,C.a.;张,L.,《高级智能计算理论与应用》,《人工智能方面》(2010),斯普林格·柏林-海德堡:斯普林格尔·柏林-海德堡-柏林,海德堡),173-179·Zbl 1194.68042号
[49] Shi,H。;尹,B。;鲍,Y。;Lei,Y.-K.,L-ISOMAP的一种新的里程碑点选择方法,(2016年IEEE第十二届控制与自动化国际会议(ICCA)(2016)),621-625
[50] Wang,J。;Ferguson,A.L.,从单变量时间序列非线性重建单分子自由能表面,物理学。E版,93,第032412条pp.(2016)
[51] 郑伟。;Rohrdanz,文学硕士。;Clementi,C.,利用扩散映射定向分子动力学快速探索构型空间,J.Phys。化学。B、 11712769-12776(2013)
[52] 普雷托,J。;Clementi,C.,《通过扩散图定向分子动力学快速恢复自由能景观》,Phys。化学。化学。物理。,16, 19181-19191 (2014)
[53] Chiavazzo,E。;科维诺,R。;科伊夫曼,R.R。;齿轮,C.W。;Georgiou,A.S。;悍马,G。;Kevrekidis,I.G.,未知有效自由能源景观的内在地图动力学探索,Proc。国家。阿卡德。科学。,114,E5494-E5503(2017)
[54] 纳德勒,B。;拉丰,S。;科伊夫曼,R.R。;Kevrekidis,I.G.,扩散图,动力学系统的光谱聚类和反应坐标,应用。计算。哈蒙。分析。,21, 113-127 (2006) ·兹比尔1103.60069
[55] 桑迪,B.E。;Haataja,M。;Kevrekidis,I.G.,在存在流动杂质的情况下,对驱动界面的动力学进行粗颗粒化:通过扩散图进行有效描述,Phys。E版,80,第031102条,pp.(2009)
[56] Ferguson,A.L。;Panagiotopoulos,A.Z。;Debenedetti,P.G。;Kevrekidis,I.G.,《将扩散图与伞式取样相结合:丙氨酸二肽的应用》,J.Chem。物理。,134,第135103条pp.(2011)
[57] Cormen,T.H.,《算法导论》(2009),麻省理工学院出版社:马萨诸塞州剑桥·Zbl 1187.68679号
[58] Prim,R.C.,最短连接网络和一些推广,贝尔系统。《技术期刊》,36,1389-1401(1957)
[59] Von Luxburg,U.,《光谱聚类教程》,统计计算。,17, 395-416 (2007)
[60] 弗雷,B.J。;Dueck,D.,通过在数据点之间传递消息进行聚类,《科学》,315972-976(2007)·Zbl 1226.94027号
[61] Day,W.H。;Edelsbrunner,H.,凝聚层次聚类方法的高效算法,J.分类,1,7-24(1984)·Zbl 0563.62034号
[62] 帕克,H.-S。;Jun,C.-H.,一种简单快速的k-类聚类算法,专家系统。申请。,36, 3336-3341 (2009)
[63] 亚瑟·D·。;Vassilvitskii,S.,k-means++:仔细播种的优势,(第18届ACM-SIAM离散算法年会论文集(2007)),1027-1035·Zbl 1302.68273号
[64] Deif,A.S.,矩阵特征值和特征向量的严格扰动界,J.Compute。申请。数学。,57, 403-412 (1995) ·Zbl 0823.15017号
[65] 悍马,G。;Kevrekidis,I.G.,《肽片段的粗略分子动力学:自由能、动力学和长期动力学计算》,《化学杂志》。物理。,118, 10762-10773 (2003)
[66] 乔德拉,J.D。;Swope,W.C。;Pitera,J.W。;Dill,K.A.,来自短时分子动力学模拟的长时间蛋白质折叠动力学,多尺度模型。同时。,5, 1214-1226 (2006) ·Zbl 1133.92011年
[67] 马,A。;Dinner,A.R.,《识别复杂系统中反应坐标的自动方法》,J.Phys。化学。B、 1096769-6779(2005)
[68] 斯塔马蒂,H。;克莱门蒂,C。;Kavraki,L.E.,《非线性降维在表征小肽构象景观中的应用》,《蛋白质,结构》。功能。生物信息。,78, 223-235 (2010)
[69] 米切尔森,S。;van Erp,T.S。;库兹纳,C。;Ceulemans,A。;de Groot,B.L.,《主成分空间中的分子动力学》,J.Phys。化学。B、 1168350-8354(2012)
[70] 乔德拉,J.D。;Singhal,N。;潘德,V.S。;Dill,K.A。;Swope,W.C.,《为构建大分子构象动力学的马尔可夫模型而自动发现亚稳态》,J.Chem。物理。,126,第155101条pp.(2007)
[71] Van Der Spoel,D。;Lindahl,E。;赫斯,B。;格伦霍夫,G。;马克·A·E。;Berendsen,H.J.C.,《GROMACS:快速、灵活和免费》,J.Compute。化学。,26, 1701-1718 (2005)
[72] 马丁·M·G。;Siepmann,J.I.,相平衡的可转移势。正构烷烃的统一原子描述,J.Phys。化学。B、 102、2569-2577(1998)
[73] Berendsen,H.J。;Postma,J.P。;范甘斯特伦,W.F。;Hermans,J.,水与蛋白质水合作用的相互作用模型,(分子间作用力(1981),Springer),331-342
[74] Jorgensen,W.L。;Chandrasekhar,J。;Madura,J.D。;Impey,R.W。;Klein,M.L.,《模拟液态水的简单势函数比较》,J.Chem。物理。,79, 926-935 (1983)
[75] 卡明斯基,G.A。;弗里斯纳,R.A。;蒂拉多·里夫斯,J。;Jorgensen,W.L.,《通过与肽的精确量子化学计算进行比较来评估蛋白质的OPLS-AA力场和重新参数化》,J.Phys。化学。B、 105、6474-6487(2001)
[76] Jorgensen,W.L。;Tirado-Rives,J.,《OPLS(液体模拟优化电位)蛋白质的潜在功能,环肽和crambin晶体的能量最小化》,J.Amer。化学。Soc.,1101657-1666(1988年)
[77] Muja,M。;Lowe,D.G.,高维数据的可扩展最近邻算法,IEEE Trans。模式分析。马赫。智力。,362227-240(2014年)
[78] McQueen,J。;梅拉,M。;范德普拉斯,J。;Zhang,Megaman:Python中的可扩展流形学习,J.Mach。学习。决议,17,1-5(2016)·Zbl 1393.68155号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。