×

兹马思-数学第一资源

Landmark扩散图(L-dMaps):样本扩展外的加速流形学习。(英语) Zbl 07072969
摘要:扩散图是一种非线性流形学习技术,基于数据上扩散过程的调和分析。具有计算复杂度的样本外扩展\(\mathcal{O}(N)\),其中\(N\)是构成流形的点的数量,这些应用到需要快速嵌入高维数据流的在线学习应用程序。我们提出了landmark扩散映射(L-dMaps),将复杂度降低到\(\mathcal{O}(M)),其中\(M\ll N\)是使用剪枝生成树或k-medods选择的地标点的数目。L-dMaps在样本外扩展中提供\(N/M)\)加速,使扩散映射能够应用于大容量和/或高速流数据。我们在三个数据集上说明了我们的方法:瑞士卷,C \({24})H \({50})聚合物链的分子模拟和丙氨酸二肽的生物分子模拟。我们证明,对于误差小于4%的分子系统,样品外扩展的速度提高了50倍在里面流形重建保真度相对于整个数据集的计算。

理学硕士:
68-XX号 计算机科学
92-XX号 生物学和其他自然科学
PDF格式 BibTeX公司 XML 引用
参考文献:
[1] 周,M。;李,J。;Lee,K.M.,图匹配的重加权随机游动,(第11届欧洲计算机视觉会议,(2010)),492-505
[2] 萨瓦尔,B。;核型,G。;康斯坦,J。;Riedl,J.,降维在推荐系统中的应用——一个案例研究,(ACM WebKDD 2000电子商务Web挖掘研讨会论文集,美国马萨诸塞州波士顿市(2000))
[3] 帕卡,A。;Park,J.-M.,异常检测技术概述:现有解决方案和最新技术趋势,计算机。网络,513448-3470,(2007年)
[4] 达斯,P。;摩尔。;斯塔马蒂,H。;卡夫拉基,洛杉矶。;克莱门蒂,C.,非线性降维法蛋白质折叠反应的低维自由能景观。自然。阿卡德。科学。美国,1039885-9890,(2006)
[5] Transtrum,M.K。;马赫塔,B.B。;布朗,K.S。;丹尼尔斯,不列颠哥伦比亚省。;迈尔斯,C.R。;《透视:物理学、生物学及其他领域中的草率和涌现理论》,化学杂志。Phys.,143,第010901条,(2015年)
[6] 马赫塔,B.B。;查希拉,R。;Transtrum,M.K。;Sethna,J.P.,参数空间压缩是涌现理论和预测模型的基础,科学,342,604-607,(2013)
[7] 弗格森,A.L。;帕纳吉奥托普洛斯。;德贝内迪,P.G。;Kevrekidis,I.G.,用扩散图系统地确定链动力学的序参量,过程。自然。阿卡德。科学。美国,10713597-13602,(2010)
[8] Zwanzig,R.,非平衡统计力学,(2001),牛津大学出版社:牛津大学出版社纽约·Zbl 1267.82001号
[9] 科夫曼R.R。;凯夫雷基迪斯,I.G。;拉丰,S。;马吉奥尼,M。;扩散图,约化坐标,随机系统的低维表示,多尺度模型。模拟,7842-864,(2008年)·Zbl 1175.60058
[10] 培尼亚,D。;Poncela,P.,《多元时间序列中的降维》,(Balakrishnan,N.;Sarabia,J.M.;Castillo,E.,《分布理论、顺序统计和推理的进展》(2006年),Birkhäuser Boston:Birkhäuser Boston,MA),433-458·Zbl 05196687
[11] 弗格森,A.L。;张,S。;迪基,我。;帕纳吉奥托普洛斯。;德贝内迪,P.G。;林克,A.J.,微蛋白J25中自发套索形成的实验和计算研究,生物物理。J、 ,993056-3065,(2010年)
[12] 林登,G。;史密斯,B。;York,J.,Amazon.com推荐:项到项协作过滤,IEEE国际计算,第7,76-80页,(2003)
[13] Jolliffe,I.T.,主成分分析,(主成分分析,(2002),斯普林格:斯普林格纽约)·Zbl 1011.62064
[14] 博格,I。;Groenen,P.J.,现代多维标度:理论与应用,(2005),Springer:Springer New York·Zbl 1085.62079
[15] 宾厄姆E。;Manila,H.,《维数缩减中的随机投影:在图像和文本数据中的应用》,《第七届ACM SIKDD知识发现和数据挖掘国际会议论文集》,纽约,(2001年),第245-250页
[16] 特南鲍姆,J.B。;德席尔瓦,V。;Langford,J.C.,非线性降维的全球几何框架,科学,2902319-2323,(2000)
[17] Roweis,S.T。;索尔,L.K.,《局部线性嵌入的非线性降维》,科学,2902323-2326,(2000)
[18] 科夫曼R.R。;Lafon,S.,扩散图,应用。计算机。哈蒙。2006年5月21日·Zbl 1095.68094
[19] 科夫曼R.R。;拉丰,S。;李,A.B。;马吉奥尼,M。;纳德勒,B。;沃纳,F。;Zucker,S.W.,几何扩散作为调和分析和数据结构定义的工具:扩散图,过程。自然。阿卡德。科学。美国,1027426-7431,(2005年)·Zbl 1405.42043
[20] 纳德勒,B。;拉丰,S。;科夫曼R.R。;扩散函数和扩散算子,电子计算机程序。系统,18955-962,(2006年)
[21] 弗格森,A.L。;帕纳吉奥托普洛斯。;凯夫雷基迪斯,I.G。;Debenedetti,P.G.,分子模拟中的非线性降维:扩散映射方法,化学。物理。Lett.,509,1-11,(2011年)
[22] 曼斯巴赫,R.A。;Ferguson,A.L.,单分子自由能表面的机器学习和化学和环境对结构和动力学的影响,化学杂志。Phys.,142,第105101条,(2015年)
[23] 朗,A.W。;张杰。;格兰尼克,S。;Ferguson,A.L.,《从粒子跟踪数据中机器学习装配环境》,软物质,118141-8153,(2015)
[24] 科夫曼,R。;Shkolnisky,Y。;西格沃思,F。;辛格,A.,《未知随机投影的拉普拉斯层析成像图》,IEEE Trans。图像处理,1891-1899年(2008年)·Zbl 1372.94055
[25] Gepshtein,S。;Keller,Y.,《扩散图和光谱松弛法的图像完成》,IEEE Trans。图像处理,22,2983-2994,(2013)·Zbl 1373.94137
[26] 胡,J。;Ferguson,A.L.,《使用扩散图的全局图匹配》,Intell。数据分析,20637-654,(2016年)
[27] 潘,维尤。;陈志强,矩阵本征问题的复杂性(第三十一届计算理论学术研讨会论文集,美国纽约市第三十一届计算理论学术研讨会论文集),第507-516页·Zbl 1346.68103
[28] 贝尔金,M。;Niyogi,P.,用于降维和数据表示的拉普拉斯特征映射,神经计算,151373-1396,(2003)·邮编:1085.68119
[29] 高文英,算法百科全书(2008),施普林格科学与商业媒体·Zbl 1149.68078
[30] 哥鲁布,G。;范洛恩,C.,矩阵计算,约翰霍普金斯研究所。数学。《科学》(2013),约翰霍普金斯大学出版社·Zbl 1268.65037
[31] 贝克托尔德,T。;鲁德尼,E.B。;Korvink,J.G.,《电热MEMS快速模拟:高效动态紧凑模型》(2006),Springer Verlag:德国海德堡柏林Springer Verlag
[32] Larsen,R.M.,Lanczos双对角化和部分再正交化,(1998),DAIMI PB-357技术报告
[33] 本吉奥,Y。;佩恩特,J.-F。;文森特,P。;德拉利奥,O。;北卡罗来纳州勒鲁。;Ouimet,M.,LLE、Isomap、MDS、特征映射和谱聚类的样本外扩展,高级神经信息处理。系统,16177-184,(2004年)
[34] 艾森巴德,Y。;伯曼尼斯,A。;Averbuch,A.,基于PCA的降维样本外扩展(2015)
[35] 拉宾,N。;Coifman,R.R.,《使用扩散图和拉普拉斯金字塔的异构数据集表示和学习》,《2012年暹罗国际数据挖掘会议论文集》(2012年)),189-199
[36] 福克斯,C。;贝隆吉,S。;钟,F。;Malik,J.,《使用Nystrom方法进行光谱分组》,IEEE Trans。肛门模式。机器。国际,26,214-225,(2004年)
[37] 拉丰,S。;凯勒,凯利。;柯夫曼,R.R.,《数据融合和扩散映射多用户数据匹配》,IEEE Trans。肛门模式。机器。国际,281784-1797,(2006)
[38] Baker,C.T.H.,《积分方程的数值处理》,第13卷,(1977年),克拉伦登出版社:牛津大学出版社·Zbl 0373.65060
[39] 埃斯金,E。;阿诺德,A。;普雷罗,M。;波特诺伊,L。;Stolfo,S.,无监督异常检测的几何框架,(数据挖掘在计算机安全中的应用,第6卷,(2002),Springer),77-101
[40] 马奥尼,A。;布罗斯,J。;Johnson,D.,可变形机器人在降维配置空间中的运动规划,(2010 IEEE国际机器人与自动化会议,(2010)),5133-5138
[41] 陈永福。;刘秀英。;刘,M。;米勒,J。;How,J.P.,运动规划与扩散图(2016年IEEE/RSJ智能机器人与系统国际会议(2016年))
[42] 选民,A.F.,罕见事件动态的并行复制方法,物理。版次。B、 57,第R13985条,(1998年)
[43] 艾伦,R.J。;缬草属。;ten Wolde,P.R.,稀有事件模拟的正向通量采样,J.Phys。冷凝水。Matter,21,第463102条,(2009年)
[44] Escobedo,F.A。;博雷罗,东欧。;Araque,J.C.,过渡路径采样和正向通量采样。应用于生物系统,J.Phys。冷凝水。Matter,21,第333101条,(2009年)
[45] 德席尔瓦,V。;Tenenbaum,J.B.,非线性降维中的全局与局部方法,高级神经网络信息处理。系统,15721-728,(2003年)
[第四十六条] 席尔瓦,J。;马奎斯,J。;Lemos,J.,为稀疏流形学习选择地标点,高级神经信息处理。系统,18,1241-1248,(2006年)
[47] 辛格,A.,《从局部距离看全球定位》,Proc。自然。阿卡德。科学。美国,1059507-9511,(2008)·Zbl 1205.86043
[48] 雷,Y.-K。;徐,Y。;张世伟。;王,S.-L。;Ding,Z.-G.,基于最小集覆盖的快速等值线图,(Huang,D.-S;Zhang,X.;Reyes García,C.a.;Zhang,L.,高级智能计算理论与应用。人工智能方面,(2010),斯普林格柏林海德堡:斯普林格柏林海德堡柏林,海德堡),173-179
[49] 施,H。;尹,B。;包,Y。;Lei,Y.-K.,L-ISOMAP的新地标点选择方法,(2016年第12届IEEE控制与自动化国际会议(ICCA),(2016年)),621-625
[50] 王,J。;Ferguson,A.L.,单变量时间序列单分子自由能面的非线性重建,物理。版次。E、 93,第032412条,(2016年)
[51] 郑伟。;罗丹兹,文学硕士。;克莱门蒂,C.,《用扩散图指导分子动力学快速探索构型空间》,J.Phys。化学。B、 11712769-12776,(2013年)
[52] 普雷托,J。;克莱门蒂,C.,通过扩散图导向的分子动力学快速恢复自由能景观,物理。化学。化学。物理学,19181-19191,(2014年)
[53] 基瓦佐,E。;科维诺,R。;科夫曼R.R。;齿轮,C.W。;乔治奥,A.S。;悍马,G。;Kevrekidis,I.G.,未知有效自由能景观的内在地图动力学探索,Proc。自然。阿卡德。科学,114,E5494-E5503,(2017年)
[54] 纳德勒,B。;拉丰,S。;科夫曼R.R。;《动力系统的扩散图、光谱聚类和反应坐标》,应用。计算机。哈蒙。《分析》,21,113-127,(2006年)·Zbl 1103.60069号
[55] 桑迪,不列颠哥伦比亚省。;哈塔贾,M。;Kevrekidis,I.G.,移动杂质存在下驱动界面动力学的粗粒化:通过扩散图的有效描述,Phys。版次。E、 80,第031102条,(2009年)
[56] 弗格森,A.L。;帕纳尤洛斯,托波阿斯。;德贝内迪,P.G。;整合扩散图与伞式取样:应用于丙氨酸二肽,化学杂志。Phys.,134,第135103条,(2011年)
[57] Cormen,T.H.,算法导论,(2009),麻省理工学院出版社:麻省理工学院剑桥出版社
[58] 《最短连接网络与一些推广》,贝尔系统。《技术杂志》,361389-1401,(1957年)
[59] Von Luxburg,U.,光谱聚类教程,Stat.Comput.,17395-416,(2007)
[60] 弗雷,B.J。;Dueck,D.,通过在数据点之间传递消息进行聚类,科学,315972-976,(2007)·Zbl 1226.94027
[61] 天,W.H。;Edelsbrunner,H.,凝聚层次聚类方法的有效算法,J.分类,1,7-24,(1984)·京保0563.62034
[62] 帕克·H·S。;Jun,C.-H.,一种简单而快速的k-medods聚类算法,专家系统。申请书,363336-3341,(2009年)
[63] 亚瑟,D。;Vassilvitskii,S.,k-means++:谨慎播种的优势,(第18届ACM-SIAM离散算法研讨会论文集,(2007)),1027-1035·Zbl 1302.68273
[64] 戴夫,A.S.,矩阵特征值和特征向量的严格摄动界,J。计算。申请。数学,57403-412,(1995年)·京保0823.15017
〔65〕 悍马,G。;Kevrekidis,I.G.,肽片段的粗分子动力学:自由能、动力学和长期动力学计算,化学杂志。物理学,11810762-10773,(2003)
[66] 乔德拉,J.D。;斯沃普公司。;皮特拉,J.W。;Dill,K.A.,来自短期分子动力学模拟的长时间蛋白质折叠动力学,多尺度模型。模拟,1214-1226,(2006年)·Zbl 1133.92011
[67] 文学硕士。;Dinner,A.R.,复杂系统中识别反应坐标的自动方法,J.Phys。化学。B、 1096769-6779,(2005年)
[68] 斯塔马蒂,H。;克莱门蒂,C。;Kavraki,L.E.,应用非线性降维来表征小肽、蛋白质、结构的构象景观。功能。生物信息,78223-235,(2010)
〔69〕 米歇尔森斯。;范Erp,T.S。;库兹纳,C。;塞勒曼斯,A。;德格罗特,B.L.,主成分空间中的分子动力学,物理学杂志。化学。B、 1168350-8354,(2012年)
[70] 乔德拉,J.D。;新罕布什尔州。;潘德,旁白。;迪尔,K.A。;斯沃普,W.C.,大分子构象动力学马尔可夫模型构建的亚稳态自动发现,化学杂志。Phys.,126,第155101条,(2007年)
[71] 范德斯波尔博士。;林达尔,E。;赫斯,B。;格伦霍夫,G。;马克,A.E。;Berendsen,H.J.C.,GROMACS:快速、灵活和免费,J.Comput。《化学》,261701-1718,(2005年)
[72] 马丁,M.G。;Siepmann,J.I.,相平衡的可转移势。1正构烷烃的联合原子描述,物理学报。化学。B、 1022569-2577,(1998年)
[73] 伯伦森,H.J。;邮递员,J.P。;范甘斯特伦,W.F。;Hermans,J.,与蛋白质水合作用有关的水相互作用模型,(分子间力,(1981),Springer),331-342
[74] 约根森,W.L。;钱德拉塞卡,J。;马杜拉,J.D。;英佩,R.W。;Klein,M.L.,模拟液态水的简单势函数比较,化学杂志。物理学,79926-935,(1983年)
[75] 卡明斯基。;弗里斯纳,R.A。;提拉多河,J。;Jorgensen,W.L.,通过与肽精确量子化学计算的比较来评估和重新参数化蛋白质的OPLS-AA力场,J.Phys。化学。B、 1056474-6487,(2001年)
[76] 约根森,W.L。;Tirado Rives,J.,OPLS[液体模拟的优化电位]蛋白质的势函数,环肽晶体的能量最小化,crambin,J.Amer。化学。第1101657-1666页,(1988年)
[77] 穆贾,M。;Lowe,D.G.,高维数据的可伸缩最近邻算法,IEEE Trans。肛门模式。机器。国际,362227-2240,(2014年)
[78] 麦奎因,J。;梅拉,M。;范德普拉斯,J。;《可伸缩的人》,《巨蟒学》杂志。学习。第17、1-5页(2016年)·Zbl 1393.68155
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。