×

稀疏LCS公共子串对齐。 (英语) Zbl 1178.68186号

摘要:“通用基板对齐”问题定义如下。输入由一组字符串\(S_{1},S_{2}\dots,Sc\)和目标字符串\(T\)组成,其中每个字符串中至少出现一次公共子字符串。其目的是计算所有字符串(Si)与(T)的相似性,而无需反复计算公共子字符串的部分。本文考虑LCS(最长公共子序列)相似度量的公共子串对齐问题。我们的算法通过利用LCS问题固有的稀疏性来提高效率。设\(Y)是公共子串,\(n)是比较序列的大小,\(L_Y)是(T)和(Y)的LCS的长度,表示为\(|LCS[T,Y]|\),\(L)是\(max\{|LCS[P,Si]|\}\)。我们的算法包括对每个公共子串执行一次的“O(nL_y)”时间编码阶段和对每个源字符串中公共子串的每个外观执行一次“O(L)”时间对齐阶段。额外的运行时间仅取决于字符串中不在任何公共子字符串中的部分的长度。

理学硕士:

68页第10页 搜索和排序
68周05 非数值算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Apostolico,A.,《字符串编辑和最长公共子序列》(Rozenberg,G.;Salomaa,A.,线性建模:背景和应用,形式语言手册,2(1997),Springer Verlag:Springer Verlag Berlin),第8章,第361-398页
[2] Apostolico,A。;Guerra,C.,《重访最长公共子序列问题》,《算法》,2315-336(1987)·Zbl 0636.68083号
[3] Aggarwal,A。;Klawe,M。;莫兰,S。;肖尔,P。;Wilber,R.,矩阵搜索算法的几何应用,算法,2195-208(1987)·Zbl 0642.68078号
[4] Benson,G.,寻找最佳非重叠对齐分数的高效空间算法,Theoret。计算。科学。,145, 1-2, 357-369 (1995) ·Zbl 0873.68041号
[5] Buechner,A.G.公司。;Mulvenna,M.,通过在线分析网络使用挖掘发现互联网营销情报,SIGMOD记录,27,4,54-61(1998)
[6] 陈,M.S。;Park,J.S。;Yu,P.S.,web环境中路径遍历模式的数据挖掘,(第16届分布式计算系统国际会议(1996)),385-392
[7] 克罗西莫尔,M。;朗道,G.M。;Ziv-Ukelson,M.,《无限制成本矩阵的亚二次序列比对算法》(第13届ACM-SIAM离散算法年会(2002)),679-688·Zbl 1064.92017年
[8] 艾普斯坦,D。;加利尔,Z。;Giancarlo,R。;Italiano,G.F.,《稀疏动态编程》。I.线性成本函数,J.ACM,39,519-545(1992)·兹比尔0807.90120
[9] Eppstein,D.,混合凸成本和凹成本的序列比较,J.算法,11,85-101(1990)·Zbl 0709.68015号
[10] 艾普斯坦,D。;加利尔,Z。;Giancarlo,R.,《加速动态编程》,(第29届IEEE计算机科学基础研讨会(1988)),296-488
[11] Farrell,R。;费尔威瑟,P。;Breimer,E.,《应用感知附件的基于任务的体系结构》,(Proc.2000 Intelligent User Interfaces国际会议(2000),ACM出版社:纽约ACM出版社),82-85
[12] 加利尔,Z。;Giancarlo,R.,《利用分子生物学的应用加速动态编程》,Theoret。计算。科学。,64, 107-118 (1989) ·Zbl 0673.90090号
[13] 加利尔,Z。;Park,K.,凹一维动态规划的线性时间算法,Inform。过程。莱特。,33, 309-311 (1990) ·Zbl 0694.68032号
[14] Gelfand,M.S。;米罗诺夫,A.A。;Pevzner,P.A.,通过剪接序列比对进行基因识别,Proc。国家。阿卡德。科学。美国,93,9061-9066(1996)
[15] Giancarlo,R.,《动态编程:特殊情况》,(Apostolico,A.;Galil,Z.,模式匹配算法(1997),牛津大学出版社,201-232·Zbl 0874.68006号
[16] Gusfield,D.,《字符串、树和序列的算法》(1997),剑桥大学出版社·Zbl 0934.68103号
[17] Hirschberg,D.S.,《最长公共子序列问题的算法》,J.ACM,24,4,664-675(1977)·兹比尔0402.68041
[18] 亨特,J.W。;Szymanski,T.G.,《计算最长公共子序列的快速算法》,通信ACM,20,5,350-353(1977)·Zbl 0354.68078号
[19] Kannan,S.K。;Myers,E.W.,《定位最大对齐分数非重叠区域的算法》,SIAM J.Compute。,25, 3, 648-662 (1996) ·Zbl 0855.68021号
[20] Klawe,M。;Kleitman,D.,广义矩阵搜索的几乎线性算法,SIAM J.离散数学。,3, 81-97 (1990) ·Zbl 0689.68062号
[21] 朗道,G.M。;Ziv-Ukelson,M.,《共享子串对齐问题》,(第11届ACM-SIAM离散算法年会(2000)),804-814·兹比尔0957.68035
[22] 朗道,G.M。;Ziv-Ukelson,M.,《关于常见子串对齐问题》,J.Algorithms,41,2,338-359(2001)·Zbl 1017.68039号
[23] Lee,J。;波德拉塞克,M。;Schonberg,E。;Hoch,R.,在线商店点击流数据的可视化和分析,以了解网络营销,J.数据挖掘知识发现,5,1/2,59-84(2001)·Zbl 1006.68631号
[24] 米罗诺夫,A.A。;Roytberg,医学硕士。;佩夫兹纳,P.A。;Gelfand,M.S.,通过剪接比对预测性能保证基因,基因组学,51,332-339(1998)
[25] 米格尔,A.J。;Markham,A.F。;Robinson,P.A.,Alu序列,FEBS Lett。,417, 1-5 (1997)
[26] Monge,G.,Déblai et Remblai,巴黎科学学院(1781)
[27] E.W.Myers,《增量对齐算法及其应用》,技术代表86-22,亚利桑那大学计算机科学系,1986年;E.W.Myers,《增量对齐算法及其应用》,技术代表86-22,亚利桑那大学计算机科学系,1986年
[28] 罗梅罗,D。;Martinez-Salazar,J。;Ortiz,E.,《细菌染色体和质粒中的重复序列:测序基因组一瞥》,《微生物研究》。,150, 735-743 (1999)
[29] Schmidt,J.P.,加权网格图中的所有最高得分路径及其在寻找字符串中所有近似重复的应用,SIAM J.Compute。,27, 4, 972-992 (1998) ·Zbl 0907.68076号
[30] Snapp,S.R。;布伦塔诺,J。;迪亚斯,G.V。;Goan,T.L。;Grance,T。;Heberlein,L.T。;Ho,C。;莱维特,K.N。;Mukerjee,B。;Mansur,D.L。;Pon,K.L。;Smaha,S.E.,分布式入侵检测系统,(COMPCON Spring 91-第36届IEEE国际计算机会议(1991)),170-176
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。