×

GAME:一种使用最大精确匹配过滤的简单高效的全基因组比对方法。 (英语) Zbl 1102.92015年

摘要:我们提出了一种使用最大精确匹配(MEM)的简单有效的全基因组比对方法。使用MEM锚的主要问题是,当使用较短的MEM锚检测更多同源区域时,非同源区域中的点击数呈指数级增加。为了解决这个问题,我们开发了一个快速准确的锚过滤方案,该方案基于简单匹配扩展,具有最小百分比身份和扩展长度标准。由于其简单性和准确性,一对基因组中的所有MEM锚都可以被彻底测试和过滤。此外,通过引入翻译技术,我们的基因组比对算法的比对质量和速度得到了进一步提高。因此,我们的基因组比对算法GAME(genome alignment by Match Extension)与现有算法相比具有竞争力,可以比对大型全基因组,例如拟南芥,而无需典型的大内存和并行处理器。这是通过比较BLAST、BLASTZ、PatternHunter、MUMmer和我们的算法在对齐所有45对10个微生物基因组方面的性能的实验来证明的。我们算法的可扩展性在另一个实验中显示,该实验比较了拟南芥中所有五对染色体。

MSC公司:

92C40型 生物化学、分子生物学
92-08 生物问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Altschul,S.F。;Warren Gish,W.M。;Meyers,E.W。;Lipman,D.J.,基本局部对齐搜索工具,J.Mol.Biol。,215, 3, 403-410 (1990)
[2] 巴佐格鲁,S。;帕切特。;梅西洛夫,J.P。;伯杰,B。;Lander,E.S.,《人类和小鼠基因结构:比较分析及其在外显子预测中的应用》,《基因组研究》,10,7,950-958(2000)
[3] 布雷,N。;杜布恰克,I。;Pachter,L.,AVID:全球比对计划,基因组研究,13,1,97-102(2003)
[4] Brudno,M.,Do,C.B.,Cooper,G.M.,Kim,M.F.,Davydov,E.,2003年。Green,E.D.,Sidow,A.,Batzoglou,S.(编辑),NISC比较测序项目。LAGAN和Multi-LAGAN:基因组DNA大规模多重比对的有效工具,基因组研究13(4),721-731。;Brudno,M.,Do,C.B.,Cooper,G.M.,Kim,M.F.,Davydov,E.,2003年。Green,E.D.,Sidow,A.,Batzoglou,S.(编辑),NISC比较测序项目。LAGAN和Multi-LAGAN:基因组DNA大规模多重比对的有效工具,基因组研究13(4),721-731。
[5] 布鲁德诺,M。;Morgenstern,B.,《大基因组序列的快速和敏感比对》,(《第一届IEEE计算机学会生物信息学会议论文集》。《第一届美国IEEE计算机协会生物信息学大会论文集》,加利福尼亚州帕洛阿尔托(2002)),138-147
[6] Buhler,J.,通过位置敏感散列进行高效大规模序列比较,生物信息学,17,5,419-428(2001)
[7] Buhler,J。;Keich,U。;Sun,Y.,《为基因组DNA中的相似性搜索设计种子》,(第七届国际计算分子生物学年会(RECOMB)会议记录(2003)),67-75
[8] 道宾,V。;M.古伊。;Perriere,G.,《细菌系统发育的系统发育学方法:共享共同历史的基因核心的证据》,《基因组研究》,12,7,1080-1090(2002)
[9] Delcher,A.L。;Kasif,S。;弗莱什曼,R.D。;彼得森,J。;白色,O。;Salzberg,S.L.,全基因组比对,Nucl。《酸类研究》,27,11,2369-2376(1999)
[10] 游戏网站,2004年。http://www.bio.informatics.indiana.edu/projects网站/; 游戏网站,2004年。http://www.bio.informatics.indiana.edu/projects网站/
[11] Höhl,M。;Kurtz,S。;Ohlebusch,E.,高效多基因组比对,生物信息学,18,S312-S320(2002)
[12] 北加勒堡。;伯尼,E。;Durbin,R.,77个同源小鼠和人类基因对的非编码区的比较分析,《基因组研究》,9,9,815-824(1999)
[13] Kärkkäinen,J。;Sanders,P.,简单线性工作后缀数组构造,(Goos,G.;Hartmanis,J.;van Leeuwen,J.,《第30届国际自动化、语言和编程学术讨论会论文集》,计算机科学讲义第2719期(2003),Springer-Verlag:Springer-Verlag Berlin,Eindhoven,荷兰),943-955·Zbl 1039.68042号
[14] 凯利斯,M。;帕特森,N。;恩德里齐,M。;比伦,B。;Lander,E.,《酵母物种的测序和比较以识别基因和调节元件》,《自然》,423241-254(2003)
[15] Kent,W.J.,BLAT-类BLAST比对工具,《基因组研究》,12,4,656-664(2002)
[16] 肯特·W·J。;Zahler,A.M.,《大规模中的保守性、调节性、联会性和内含子》C.布里格萨-秀丽线虫基因组比对,基因组研究,10,8,1115-1125(2000)
[17] Kim,S。;Kim,Y.,快速多字符串模式匹配算法,(第17届AoM/IAoM国际计算机科学会议论文集(1999)),44-49
[18] 新泽西州Larsson,K.Sadakane,1999年。更快的后缀排序。LU-CS-TR:99-214报告,隆德大学。;新泽西州Larsson,K.Sadakane,1999年。更快的后缀排序。报告LU-CS-TR:99-214,隆德大学·Zbl 1144.68022号
[19] 马,B。;Tromp,J。;Li,M.,PatternHunter:更快更敏感的同源搜索,生物信息学,18,3,440-445(2002)
[20] 美国曼伯。;Myers,G.,《后缀数组:在线字符串搜索的新方法》,SIAM J.Compute。,22, 5, 935-948 (1993) ·Zbl 0784.68027号
[21] Miller,W.,《基因组DNA序列的比较:已解决和未解决的问题》,生物信息学,17,5,391-397(2001)
[22] Morgenstern,B。;Frech,K。;连衣裙,A。;Werner,T.,DIALIGN:通过多序列比对发现局部相似性,生物信息学,14,3,290-294(1998)
[23] Needleman,S.B。;Wunsch,C.D.,《适用于搜索两种蛋白质氨基酸序列相似性的通用方法》,《分子生物学杂志》。,48, 443-453 (1970)
[24] 宁,Z。;考克斯·A·J。;Mullikin,J.C.,SSAHA:大型DNA数据库的快速搜索方法,《基因组研究》,11,10,1725-1729(2001)
[25] 皮尔逊,W.R。;Lipman,D.J.,《生物序列比较的改进工具》,Proc。国家。阿卡德。科学。美国,85,8,2444-2448(1988)
[26] 佩夫兹纳,P。;Tesler,G.,人类和小鼠基因组序列揭示了哺乳动物进化中广泛的断点重复使用,Proc。国家。阿卡德。科学。美国,100,13,7672-7677(2003)
[27] 施瓦茨,S。;肯特·W·J。;史密特,A。;张,Z。;Baertsch,R。;R.C.哈迪逊。;Haussler,D。;Miller,W.,《人类与小鼠与BLASTZ的比对》,《基因组研究》,13,1,103-107(2003)
[28] 施瓦茨,S。;张,Z。;弗雷泽,K.A。;史密特,A。;里默,C。;Bouck,J。;Gibbs,R。;哈迪逊,R。;Miller,W.,PipMaker–一个用于比对两个基因组DNA序列的网络服务器,基因组研究,10,4,577-586(2000)
[29] Simillion,C。;Vandepole,K。;Van Montagu,M.C.E。;扎博,M。;Van de Peer,Y.,隐藏的重复过去拟南芥,程序。国家。阿卡德。科学。美国,99,21,13627-13632(2002)
[30] 史密斯,T.F。;Waterman,M.S.,《常见分子序列的鉴定》,《分子生物学杂志》。,147, 195-197 (1981)
[31] 孙,Y。;Buhler,J.,为DNA相似性搜索设计多个同时种子,(第八届国际计算分子生物学年会(RECOMB)(2004)会议记录),76-84
[32] 塔图索夫,R。;Fedorova,N。;J·杰克逊。;雅各布斯。;基里尤廷,B。;Koonin,E。;Krylov,D。;Mazumder,R。;Mekhedov,S。;Nikolskaya,A。;Rao,B.S。;斯米尔诺夫,S。;斯维尔德洛夫,A。;Vasudevan,S。;Wolf,Y。;尹,J。;Natale,D.,COG数据库:更新版本包括真核生物,BMC Bioinformat。,4, 1, 41 (2003)
[33] 张,Z。;施瓦茨,S。;瓦格纳,L。;Miller,W.,《对齐DNA序列的贪婪算法》,J.Compute。生物学,7,1-2203-214(2000)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。