×

加权LCS的多目标优化算法。 (英语) Zbl 1350.68300号

摘要:计算一组给定分子序列的相似性度量是生物信息学研究中的一项重要任务。加权序列已经成为一个有趣的研究领域,因为它们可以为分子结构提供更新和更精确的编码范式。最长公共子序列(LCS)是一种广泛研究的技术,用于计算以字符串表示的序列的相似性,并已在许多应用中得到应用。目前的趋势是将这些算法推广到加权序列上。问题的最终变体称为加权LCS。本文研究了求两个加权序列的加权LCS的问题。特别地,提出了一种新的方法来处理受一个或两个α参数约束的有界分子字母表的加权LCS。基于主匹配点范式,我们使用多目标优化方法对问题进行建模。因此,我们提出了一种新颖、高效和精确的算法,该算法不仅能找到加权LCS,还能找到所有可能解的集合。我们使用模拟数据和实际数据进行了实验分析,以比较该方法的性能。实验表明,该算法在两个基准的小实例中都具有良好的性能。此外,它还可以用于许多需要计算短序列片段之间相似性的生物信息学应用。

MSC公司:

68瓦32 字符串上的算法
90C29型 多目标规划
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Amir,A。;哥特瑟夫,Z。;Shalom,B.,加权LCS,J.离散算法,8273-281(2010)·Zbl 1197.68086号
[2] Amir,A。;哈特曼,T。;卡帕,O。;沙洛姆,B.R。;Tsur,D.,广义LCS,(字符串处理和信息检索(2007),Springer),50-61
[3] Amir,A。;伊利奥普洛斯,C。;卡帕,O。;Porat,E.,加权序列中的近似匹配,LNCS:组合模式匹配。,4009, 365-376 (2006) ·Zbl 1196.68340号
[4] Apostolico,A。;朗道,G.M。;Skiena,S.,《运行长度编码字符串的匹配》,J.Complexity,15,1,4-16(1999)·Zbl 0921.68041号
[5] 巴顿,C。;伊利奥普洛斯,C.S。;Pissis,S.P.,加权序列中所有串联重复的优化计算,分子生物学算法。,9, 1, 21 (2014)
[6] Becerra,D。;Mendivelso,J。;Pinzon,Y.J.,《加权最长公共子序列问题的多目标方法》(Stringology(2012)),64-74
[7] Benson,G。;利维,A。;Shalom,B.R.,《k长度子串中最长的公共子序列》,(LNCS:相似性搜索和应用(2013),Springer),257-265
[8] 博尼佐尼,P。;Vedova,G。;唐迪,R。;费丁,G。;Rizzi,R。;Vialette,S.,示例最长公共子序列,IEEE/ACM Trans。计算。生物信息学。,4, 535-543 (2007)
[9] 陈Y.C。;Chao,K.-M.,关于广义约束最长公共子序列问题,J.Comb。最佳。,21, 3, 383-392 (2011) ·Zbl 1319.68263号
[10] Christodulakis,M。;Iliopoulos,C.S.,加权DNA序列的最新进展,(计算分子生物学算法(2011),威利),143
[11] Cygan,M。;库比卡,M。;Radoszewski,J。;赖特,W。;Walen,T.,加权LCS问题的多项式时间近似算法,(Giancarlo,R.;Manzini,G.,组合模式匹配。组合模式匹配,计算机科学讲义,第6661卷(2011年),Springer:Springer Berlin,Heidelberg),455-466·Zbl 1339.68314号
[12] 哥特瑟夫,Z。;Hermelin,D。;朗道,G.M。;Lewenstein,M.,受限LCS,(字符串处理和信息检索(2010),Springer),250-257
[13] Gusfield,D.,《字符串、树和序列的算法:计算机科学和计算生物学》(1997),剑桥大学出版社·Zbl 0934.68103号
[14] 徐伟。;Du,M.,LCS问题的新算法,J.Compute。系统科学。,19, 133-152 (1984) ·Zbl 0587.68045号
[15] 亨特,J。;Szymanski,T.,计算最长公共子序列的快速算法,Commun。美国医学会,20,5,350-353(1977)·Zbl 0354.68078号
[16] 伊利奥普洛斯,C。;马克里斯,C。;Panagis,Y。;Perdikuri,K。;Theodoridis,E。;Tsakalidis,A.,处理分子加权序列的高效算法,探索。新战线。理论。通知。,155, 265-278 (2004) ·Zbl 1088.68551号
[17] 伊利奥普洛斯,C。;马克里斯,C。;帕纳吉斯,Y。;Perdikuri,K。;Theodoridis,E。;Tsakalidis,A.,《加权后缀树:处理分子加权序列及其应用的有效数据结构》,基金会。通知。,71, 2, 259-277 (2006) ·Zbl 1095.68029号
[18] 朗道,G.M。;利维,A。;Newman,I.,通过嵌入到局部非重复字符串中的LCS近似,(组合模式匹配(2009),Springer),92-105·Zbl 1247.68337号
[19] 朗道,G.M。;迈尔斯,E。;Ziv-Ukelson,M.,lcs连续后缀对齐的两种算法,J.Compute。系统科学。,73, 7, 1095-1117 (2007) ·Zbl 1165.90668号
[20] 朗道,G.M。;Ziv Ukelson,M.,关于常见子串对齐问题,J.算法,41,2338-359(2001)·Zbl 1017.68039号
[21] Lander,E.,《人类基因组的初始测序和分析》,《自然》,409860-921(2001)
[22] Maier,D.,《关于子序列和超序列的一些问题的复杂性》,J.ACM,25,2,322-336(1978)·Zbl 0371.68018号
[23] 马克里斯,C。;Theodoridis,E.,(计算分子生物学的字符串数据结构。计算分子生物学中的字符串数据架构,计算分子生物学算法:技术、方法和应用,第1卷(2011年),威利),3-27·Zbl 1210.00039号
[24] Namiki,Y。;石田,T。;Akiyama,Y.,使用最长公共子序列滤波加速序列聚类,BMC Bioninform。,14,补遗8,S7(2013)
[25] Perdikuri,K。;Tsakalidis,A.,《从生物序列中提取母题:趋势和对其他科学领域的贡献》(第三次信息技术和应用国际会议,ICITA 2005年,第1卷(2005年)),453-458
[26] 邱,P。;蔡晓云。;Wang,L。;Greene,J.R。;Malcolm,B.,丙型肝炎病毒全基因组位置重量矩阵和稳健引物设计,BMC Microbiol。,2, 1, 29 (2002)
[27] Saetrom,O。;斯诺夫,O。;Saetrom,P.,《加权序列模体作为微RNA靶预测算法的改进种子步骤》,RNA,11,7,995(2005)
[28] Tsai,Y.-T.,约束最长公共子序列问题,Inform。过程。莱特。,88, 4, 173-176 (2003) ·Zbl 1175.90407号
[29] 张,H。;郭,Q。;Iliopoulos,C.S.,《在蛋白质加权序列中定位串联重复序列》,BMC生物信息。,增补件8第14页,S2(2013)
[30] 张,H。;郭,Q。;Iliopoulos,C.S.,加权序列中基序发现问题的算法框架,(LNCS:Agorithms and Complexity(2010),Springer),335-346·Zbl 1284.68712号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。