×

多序列比对的时间扭曲方法。 (英语) Zbl 1371.92047号

摘要:我们提出了一种多序列比对(MSA)方法,该方法来源于动态时间扭曲观点和最近在功能数据分析背景下开发的曲线同步技术。从所有序列的成对对齐(视为特定空间中的路径)开始,我们构建了一个中间路径,它表示我们正在寻找的MSA。我们建立了一个概念证明,即我们的方法可能是一个有趣的成分,可以包含在完善的MSA技术中。我们提供了一个简单的合成实验以及对基准数据集的研究,并与两个广泛使用的MSA软件进行了比较。

MSC公司:

92C40型 生物化学、分子生物学
62页第10页 统计学在生物学和医学科学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Arribas-Gil,A.(2010):“从生物多重比对中对多个隐藏i.i.d.模型进行参数估计”,《统计应用》。遗传学。分子生物学。,9, 10.; Arribas-Gil,A.,《生物多重比对中多个隐藏i.i.d.模型的参数估计》,Stat.Appl。遗传学。分子生物学,9,10(2010)·Zbl 1304.92081号
[2] Arribas-Gil,A.和H.-G.Müller(2014):“事件数据的成对动态时间扭曲”,计算。统计数据分析。,69, 255-268.; Arribas-Gil,A。;Müller,H.-G.,事件数据的成对动态时间扭曲,计算。统计数据分析,69,255-268(2014)·Zbl 1471.62017年
[3] Arribas-Gil,A.、E.Gassiat和C.Matias(2006):“双隐马尔可夫模型中的参数估计”,Scand。《美国法律总汇》第33651-671页。;阿里巴斯·吉尔,A。;Gassiat,E。;Matias,C.,成对隐马尔可夫模型中的参数估计,Scand。《统计杂志》,33,651-671(2006)·Zbl 1164.62370号
[4] Arribas-Gil,A.、D.Metzler和J.-L.Plouhinec(2009):“序列进化模型的统计一致性允许序列中的速率异质性”,IEEE/ACM Trans。计算。生物信息学。,6, 281-295.; Arribas-Gil,A。;梅茨勒,D。;Plouhinec,J.-L.,《利用序列演化模型进行统计比对,允许序列中的速率异质性》,IEEE/ACM Trans。计算。生物信息学,6281-295(2009)
[5] Do,C.、M.Mahabhashyam、M.Brudno和S.Batzoglou(2005):“ProbCons:基于概率一致性的多序列比对”,《基因组研究》,第15期,第330-340页。;多,C。;Mahabhashyam,M。;布鲁德诺,M。;Batzoglou,S.,ProbCons:基于概率一致性的多序列比对,《基因组研究》,第15期,第330-340页(2005年)
[6] Durbin,R.、S.Eddy、A.Krogh和G.Mitchison(1998):生物序列分析:蛋白质和核酸的概率模型,剑桥大学出版社,剑桥。;杜宾,R。;Eddy,S。;Krogh,A。;Mitchison,G.,《生物序列分析:蛋白质和核酸的概率模型》(1998年)·Zbl 0929.92010号
[7] Edgar,R.C.(2004):“肌肉:高精度和高通量的多序列比对”,《核酸研究》,32,1792。;Edgar,R.C.,《肌肉:高精度和高通量的多序列比对》,《核酸研究》,32,1792(2004)
[8] Edgar,R.C.和S.Batzoglou(2006):“多序列比对”,当前。操作。结构。生物学,16,368-373。;埃德加,R.C。;Batzoglou,S.,多序列比对,当前。操作。结构。《生物》,16,368-373(2006)
[9] Floyd,R.W.和R.L.Rivest(1975):“算法489:寻找n个元素中第i个最小值的算法SELECT”,Commun。ACM,第18、173页。;弗洛伊德·R·W。;Rivest,R.L.,算法489:用于查找n个元素中第i个最小元素的算法SELECT[M1],Commun。ACM,18,173(1975)·Zbl 0296.68049号
[10] Gotoh,O.(1996):“通过参考结构比对评估的迭代精细化,显著提高了多重蛋白质序列比对的准确性”,J.Mol.Biol。,264823-838。;Gotoh,O.,通过参考结构比对评估的迭代精细化对多个蛋白质序列比对的准确性的显著提高,J.Mol.Biol,264823-838(1996)
[11] Katoh,K.和D.M.Standley(2013):“MAFFT多序列比对软件版本7:性能和可用性的改进”,《分子生物学》。演变。,30, 772.; Katoh,K。;Standley,D.M.,MAFFT多序列比对软件第7版:性能和可用性的改进,Mol.Biol。Evol,30772(2013)
[12] Keogh,E.和C.A.Ratanamahatana(2005):“动态时间扭曲的精确索引”,Knowl。信息系统。,7, 358-386.; 基奥,E。;Ratanamahatana,C.A.,《动态时间扭曲的精确索引》,Knowl。信息系统,7358-386(2005)
[13] Kruskal,J.B.(1983):“序列比较概述:时间扭曲、字符串编辑和大分子”,SIAM Rev.,25201-237。;Kruskal,J.B.,《序列比较概述:时间扭曲、字符串编辑和大分子》,SIAM Rev,25201-237(1983)·兹比尔0512.68048
[14] Kumar,S.和A.Filipski(2007):“多序列比对:寻找同源DNA位置”,《基因组研究》,17,127-135。;库马尔,S。;Filipski,A.,《多序列比对:寻找同源DNA位置》,《基因组研究》,17,127-135(2007)
[15] Lipman,D.J.、S.F.Altschul和J.D.Kececioglu(1989):“多序列比对工具”,Proc。国家。阿卡德。科学。美国国家科学院院刊,86,4412-4415。;Lipman,D.J。;Altschul,S.F。;Kececioglu,J.D.,《多序列比对工具》,Proc。国家。阿卡德。科学。美国国家科学院院刊,86,4412-4415(1989)
[16] Liu,X.和H.-G.Müller(2004):“时间扭曲随机曲线的函数凸平均和同步”,《美国统计协会杂志》,99,687-699。;刘,X。;Müller,H.-G.,时间扭曲随机曲线的函数凸平均和同步,美国统计协会,99,687-699(2004)·Zbl 1117.62392号
[17] Needleman,S.和C.Wunsch(1970):“适用于搜索两种蛋白质氨基酸序列相似性的通用方法”,《分子生物学杂志》。,48, 443-453.; Needleman,S。;Wunsch,C.,《适用于搜索两种蛋白质氨基酸序列相似性的通用方法》,J.Mol.Biol,48,443-453(1970)
[18] Notredame,C.(2007):“多序列比对算法的最新进展”,PLOS计算。生物,3,1-4。;Notredame,C.,多序列比对算法的最新进展,PLOS计算。生物,3,1-4(2007)
[19] Notredame,C.、D.G.Higgins和J.Heringa(2000):“T-coffee:快速准确多序列比对的新方法”,《分子生物学杂志》。,302, 205-217.; Notredame,C。;希金斯,D.G。;Heringa,J.,T-offee:一种快速准确的多序列比对的新方法,J.Mol.Biol,302205-217(2000)
[20] Pages,H.、P.Aboyoun、R.Gentleman和S.DebRoy(2016):“生物字符串:代表生物序列的字符串对象和匹配算法”,R包版本2.28.0。;Pages,H。;Aboyoun,P。;R先生。;DebRoy,S.,《生物字符串:表示生物序列的字符串对象和匹配算法》,R软件包版本2.28.0(2016)
[21] Pais,F.S.-M.,P.d.C.Ruy,G.Oliveira和R.S.Coimbra(2014):“评估多序列比对程序的效率”,《分子生物学算法》。,9, 4.; 派斯,F.S.-M。;Ruy,P.d.C。;奥利维拉,G。;Coimbra,R.S.,《评估多序列比对程序的效率》,《算法分子生物学》,9,4(2014)
[22] Pei,J.和N.V.Grishin(2006):“哺乳动物:通过使用具有局部结构信息的隐马尔可夫模型改进多序列比对”,《核酸研究》,第34期,第4364-4374页。;裴,J。;Grishin,N.V.,MUMMALS:使用带有局部结构信息的隐马尔可夫模型改进多序列比对,《核酸研究》,34,4364-4374(2006)
[23] Smith,T.F.、M.S.Waterman和W.M.Fitch(1982):“比较生物序列指标”,《分子进化杂志》。,18, 423-423.; 史密斯,T.F。;Waterman,M.S。;Fitch,W.M.,《比较生物序列度量》,J.Mol.Evol.,第18期,第423-423页(1982年)
[24] Tang,R.和H.-G.Müller(2008):“功能数据的成对曲线同步”,《生物统计学》,95,875。;唐·R。;Müller,H.-G.,功能数据的成对曲线同步,生物统计学,95875(2008)·Zbl 1437.62625号
[25] Thompson,J.、D.G.Higgins和T.J.Gibson(1994):“聚类W:通过序列加权、位置特异性间隙惩罚和权重矩阵选择提高渐进式多序列比对的敏感性”,《核酸研究》,22,4673-4680。;汤普森,J。;希金斯,D.G。;Gibson,T.J.,CLUSTAL W:通过序列加权、特定位置间隙惩罚和权重矩阵选择提高渐进式多序列比对的敏感性,《核酸研究》,22,4673-4680(1994)
[26] Thompson,J.D.,F.Plewniak和O.Poch(1999):“多序列比对程序的综合比较”,《核酸研究》,27,2682。;汤普森,J.D。;Plewniak,F。;Poch,O.,《多序列比对程序的综合比较》,《核酸研究》,27,2682(1999)
[27] Thompson,J.D.、P.Koehl、R.Ripp和O.Poch(2005):“Balibase 3.0:多序列比对基准的最新发展”,《蛋白质结构》。功能。生物信息。,61, 127-136.; 汤普森,J.D。;Koehl,P。;里普,R。;Poch,O.,Balibase 3.0:多序列比对基准的最新发展,蛋白质结构。功能。《生物信息》,61,127-136(2005)
[28] Thorne,J.、H.Kishino和J.Felsenstein(1991):“DNA序列最大似然比对的进化模型”,《分子进化杂志》。,33, 114-124.; Thorne,J。;基希诺,H。;Felsenstein,J.,DNA序列最大似然比对的进化模型,J.Mol.Evol.,33,114-124(1991)
[29] Wallace,I.M.、G.Blackshields和D.G.Higgins(2005):“多序列比对”,当前。操作。结构。《生物学》,第15期,第261-266页。;I.M.华莱士。;Blackshields,G。;希金斯,D.G.,《多序列比对》,当前。操作。结构。《生物》,第15期,第261-266页(2005年)
[30] Yang,Z.(2006):计算分子进化,牛津生态学与进化系列,牛津大学出版社,牛津。;Yang,Z.,计算分子进化,牛津生态学与进化系列(2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。