×

序列比对的参数优化。 (英语) 兹比尔0802.92016

摘要:对于给定的权重集,两个DNA或氨基酸序列之间的最优比对或加权最小编辑距离是通过经典的动态规划技术计算的,在分子生物学中得到了广泛的应用。然而,在DNA和氨基酸序列中,对于如何对匹配、错配、插入/删除(indels或spaces)和间隙进行加权,存在着相当大的分歧。参数序列比对是将两个序列之间的最优值比对计算为匹配、不匹配、空间和间隙的可变权重函数的问题。目标是将参数空间划分为多个区域(这些区域必须是凸的),使得在每个区域中,一个排列是最优的,并且使得区域对于该性质是最大的。
在本文中,我们主要关注该凸分解的结构,其次是计算该分解的复杂性。最显著的结果如下:对于只计算匹配、不匹配和空格的特殊情况,以及在整个对齐过程中计算空格的情况,我们表明分解非常简单:所有区域都是无限的;最多有(n^{2/3})个区域;约束区域的线的形式都是\(\beta=c+(c+0.5)\alpha\);整个分解可以在\(O(knm)\)时间内找到,其中\(k\)是区域的实际数量,\(n<m\)是两个字符串的长度。这些结果是在实现参数序列分析的大型软件包时发现的,反过来也导致了这些任务的更快算法。

MSC公司:

92D20型 蛋白质序列,DNA序列
90 C90 数学规划的应用
92-08 生物学问题的计算方法
90C60型 数学规划问题的抽象计算复杂性
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] P.Argos和M.Vingron,蛋白质氨基酸序列的敏感性比较,《酶学方法》,第183卷(R.Doolittle编辑),学术出版社,加利福尼亚州圣地亚哥,第352-365页。
[2] R.F.Doolittle,《Urfs和Orfs:如何分析衍生氨基酸序列的入门》,大学科学图书,1986年。
[3] R.F.Doolittle(编辑),《酶学方法》,第183卷,学术出版社,加利福尼亚州圣地亚哥。
[4] M.Eisner和D.Severance,大型共享数据库中高效记录分段的数学技术。J.助理计算。机器。,23 (1976), 619–635. ·Zbl 0333.68020号
[5] W.M.Fitch和T.F.Smith,《最佳序列比对》。程序。美国国家科学院。科学。美国,80(1983),1382-1386·doi:10.1073/pnas.80.5.1382
[6] O.Gotoh,允许长间隙的最佳序列对齐,Bull。数学。《生物学》,52(3)(1990),359-373·Zbl 0698.92015号
[7] M.Gribskov和J.Devereux,《序列分析入门》,Stokton出版社,1991年。
[8] D.Gusfield,参数组合计算和程序模块分配问题,J.Assoc.Compute。机械。,30 (1983), 551–563. ·Zbl 0628.68035号
[9] D.Gusfield、K.Balasubramanian、J.Bronder、D.Mayfield、D.Naor和P.Stelling,PARAL:一个高效的程序,用于在准备过程中使用可变匹配、不匹配、空间和间隙权重对字符串进行最佳对齐。
[10] D.Gusfield、K.Balasubramanian和D.Naor,序列比对的参数优化,第三届ACM-SIAM离散算法年度研讨会论文集,1992年,第432–439页·Zbl 0813.92020号
[11] N.Megiddo,有理目标函数组合优化,数学。操作。第4号决议(1979年),414-424·Zbl 0425.90076号 ·doi:10.1287/摩尔.4.4.414
[12] W.R.Pearson和D.J.Lipman,生物序列比较的改进工具,Proc。美国国家科学院。科学。美国,85(1988),2444–2448·doi:10.1073/pnas.85.8.2444
[13] D.Sankoff和J.Kruskal(编辑),《时间扭曲、字符串编辑和大分子:序列比较的理论和实践》,Addison-Wesley,Reading,MA,1983年·兹伯利0512.68048
[14] G.D.Schuler、S.F.Altschul和D.J.Lipman,多重比对构建和分析的工作台,《蛋白质:结构-功能和遗传学》,9(3),180–190,出版社。
[15] R.Schwarz和M.Dayhoff,用于检测远距离关系的矩阵,载于蛋白质序列地图集,国家生物医学研究基金会,华盛顿特区,1979年,第353-358页。
[16] T.F.Smith和M.S.Waterman,常见分子子序列的识别,《分子生物学杂志》。,147 (1981), 195–197. ·doi:10.1016/0022-2836(81)90087-5
[17] H.Stone,分布式系统中的临界负载系数。IEEE传输。软件工程,4(3)(1978),254–258·Zbl 05341415号 ·doi:10.1109/TSE.1978.231502
[18] G.von Heijne,《分子生物学中的序列分析》,学术出版社,纽约,1987年。
[19] M.S.Waterman,序列比对,摘自DNA序列的数学方法(M.S Waterman编辑),CRC出版社,佛罗里达州博卡拉顿,1989年,第53-92页。
[20] M.S.Waterman、M.Eggert和E.Lander,参数序列比较,Proc。美国国家科学院。科学。美国,89(1992),6090–6093·doi:10.1073/pnas.89.13.6090
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。