×

一种新的分布式无对齐方法,用于比较整个蛋白质组。 (英语) 兹比尔1380.68470

综述:近年来,系统发育推断已从对单个或少数蛋白质的分析转向对整个蛋白质组的分析。然而,在使用完整蛋白质组时,即使使用相对快速的两两序列比较算法,为大量物种重建进化树也会带来巨大的计算挑战。我们提出了一种分布式方法,该方法依赖于基于有界汉明距离内最大共享子串的距离度量的计算。我们为实现这种方法而构建的分布式系统非常灵活,因为它支持各种设计选择。它基于Spark框架,涵盖了我们的方法所需的所有步骤,从一组FASTA序列的初始索引开始,直到生成一份报告,详细说明这些序列之间的距离,并根据用户定义的度量进行排序。在这里,我们将其应用于比较选定生物体的所有蛋白质,将其划分为组,并在每组中分别进行比较。这些组包括:功能特征蛋白质、核糖体蛋白质和未标记蛋白质。我们计算组内的平均距离,并评估它们的关系和捕捉生物体进化亲近度的能力。我们使用运行Spark的Hadoop计算集群对选定的物种进行了实验。结果表明,实现该方法的系统具有可扩展性和准确性。

MSC公司:

68瓦32 字符串上的算法
92D15型 与进化有关的问题
92D20型 蛋白质序列,DNA序列
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Woese,C。;Fox,G.,《原核生物域的系统发育结构:初级王国》,Proc。国家。阿卡德。科学。美国,107,5088-5090(1977)
[2] Wolf,Y。;罗戈津,I。;北格里申。;Koonin,E.,《基因组树和生命树》,《遗传学趋势》。,18, 472-479 (2002)
[3] 乌里茨基,I。;Burstein,D。;Tuller,T。;Chor,B.,《系统发育重建的平均共同子串方法》,J.Compute。生物学,13,336-350(2006)
[4] S·6月。;格雷戈里,E。;郭宏,A。;宋厚,K.,通过特征频率剖面进行原核生物全蛋白质组系统发育:一种具有最佳特征分辨率的无比对方法,Proc。国家。阿卡德。科学。美国,74133-138(2010)
[5] 佐藤,S。;Mimuro,M。;Tanaka,A.,《基于全基因组序列平均相似性构建光合原核生物系统发育树》,《公共科学图书馆·综合》,8,7,文章e70290 pp.(2013)
[6] Henz,S。;Huson,D。;A.奥什。;Nieselt-Struwe,K。;Schuster,S.,全基因组原核系统发育,生物信息学,21,10,2329-2335(2005)
[7] 齐,J。;王,B。;Hao,B.,《无序列比对的全蛋白质组原核生物系统发育:k-string合成方法》,J.Mol.Evol。,58, 1-11 (2004)
[8] Apostolico,A。;格拉,C。;Pizzi,C.,无对齐序列相似性与有界hamming距离,(2014年数据压缩会议(2014)),183-192
[9] 莱梅斯特,C.-A。;Morgenstern,B.,kmacs:无比对序列比较的k失配平均共同子串方法,生物信息学,2000-2008年30月(2014年)
[10] Apostolico,A。;格拉,C。;朗道,G。;Pizzi,C.,基于有界hamming距离的序列相似性度量,Theoret。计算。科学。,638, 76-90 (2016) ·Zbl 1344.68306号
[11] Pizzi,C.,Missmax:通过过滤和启发式与失配进行无对齐序列比较,《分子生物学算法》。,11,第6条pp.(2016)
[12] Thankachan,S。;Chockalingam,S.P。;刘,Y。;Apostolico,A。;Aluru,S.,Alfred:一种实用的路线自由距离计算方法,J.Comput。生物学,23452-460(2016)
[13] 克拉克·G。;Beiko,R。;拉根,M。;Charlebis,R.,《利用过滤器消除系统发育不一致序列和基于平均归一化blastp得分的距离矩阵推断基因组树》,《细菌学杂志》。,184, 2072-2080 (2002)
[14] 塞加塔,N。;伯尼根,D。;摩根,X。;Huttenhower,C.,Phylophlan是一种改进微生物系统发育和分类位置的新方法,Nat.Commun。,42304年(2013年)
[15] Wolf,Y。;罗戈津,I。;北格里申。;塔图索夫,R。;Koonin,E.,使用五种不同方法构建的基因组树表明了新的主要细菌分支,BMC Evol。生物学,1,1-8(2001)
[16] 新泽西州于丁。;Puigba,P。;Koonin,E。;Wolf,Y.,《原核核糖体蛋白质的系统发育学》,PLoS ONE,7,5,文章e36972 pp.(2012)
[17] Degnan,J。;DeGiorgio,M。;布莱恩特,D。;Rosenberg,N.,从基因树推断物种树的一致性方法的特性,系统。《生物学》,58,1,35-54(2009)
[18] Pizzi,C.,k-文本中所有单词在摊销线性时间内的差异匹配,Theoret。计算。科学。,410, 8, 983-987 (2009) ·Zbl 1162.68040号
[19] Apostolico,A。;Pizzi,C.,失配模式的单调评分,(生物信息学中的算法:第四届国际研讨会,论文集。生物信息学算法:第4届国际研讨会论文集,2004年WABI,挪威卑尔根,2004年9月17日至21日。生物信息学中的算法:第四届国际研讨会,论文集。生物信息学中的算法:第四届国际研讨会,会议记录,WABI 2004,挪威卑尔根,2004年9月17日至21日,生物信息学讲义,第3240卷(2004),Springer),87-98
[20] Flouri,T。;E.贾昆塔。;Kobert,K。;Ukkonen,E.,具有k个不匹配的最长公共子串,Inform。过程。莱特。,115,6-8,643-647(2015)·Zbl 1328.68326号
[21] Starikovskaya,T.,具有大约k个失配的最长公共子串,(第27届组合模式匹配年度研讨会,第27届联合模式匹配年度会议,CPM 2016。第27届组合模式匹配年度研讨会。第27届组合模式匹配年度研讨会,CPM 2016,LIPIcs。莱布尼茨国际程序。通知。,第54卷(2016年),《达格斯图尔-莱布尼茨-泽特鲁姆信息学:达格斯图-莱布尼茨-泽特鲁姆信息学》,德国),21:1-21:11·Zbl 1380.68482号
[22] Thankachan,S。;阿波斯托利科,A。;Aluru,S.,k-失配平均公共子串问题的可证明有效算法,J.Compute。生物学,23472-482(2016)
[23] Pizzi,C.,《无比对生物序列与失配比较的过滤方法》,(生物信息学中的算法:第15届国际研讨会,论文集。生物信息学算法:第十五届国际研讨会论文集,2015年WABI,美国佐治亚州亚特兰大,2015年9月10日至12日。生物信息学中的算法:第15届国际研讨会,论文集。生物信息学中的算法:第15届国际研讨会,会议记录,WABI 2015,美国佐治亚州亚特兰大,2015年9月10日至12日,生物信息学讲义,第9289卷(2015),施普林格:施普林格柏林,海德堡),231-242·Zbl 1343.68014号
[24] 赵,G。;Ling,C。;Sun,D.,SparkSW:大规模生物序列比对的可扩展分布式计算系统,(第15届IEEE/ACM集群、云和网格计算国际研讨会。第15届EEE/ACM集群、云与网格计算国际会议,CCGrid,2015(2015),IEEE),845-852
[25] Cattaneo,G。;Ferraro Petrillo,美国。;Giancarlo,R。;Roscigno,G.,《利用Hadoop有效扩展无比对生物序列比较算法的适用性》,J.Supercomput。,73, 4, 1467-1483 (2017)
[26] Xu,X。;季,Z。;Zhang,Cloudphylo:一种快速且可扩展的系统发育重建工具,生物信息学,33,3,438(2017)
[27] 左,G。;Hao,B.,Cvtree3基于全基因组和无比对的原核系统发育和分类网络服务器,基因组蛋白质组学生物信息。,13, 321-331 (2015)
[28] Pedersen,E。;Bongo,L.,《大规模生物元数据库管理》,《未来基因》。计算。系统。,67, 481-489 (2017)
[29] Cattaneo,G。;Giancarlo,R。;Piotto,S。;Ferraro Petrillo,美国。;Roscigno,G。;Di Biasi,L.,计算生物学中的Mapreduce——概要,(《人工生命、进化计算和系统化学的进展:第11届意大利研讨会》。修订论文集。《人工生命,进化计算和体系化学的进展》:第11期意大利研讨会。修订论文选集,2016年WIVACE,意大利费西亚诺,2016年10月4日至6日。人工生命、进化计算和系统化学进展:第11届意大利研讨会。修订论文集。人工生命、进化计算和系统化学进展:第11届意大利研讨会。修订后的论文选集,WIVACE 2016,意大利菲西亚诺,2016年10月4日至6日,计算机与信息科学通信,第708卷(2017),施普林格国际出版),53-64
[30] Bank,G.S.D.,NCBI-genbank平面文件版本217.0,2017年6月10日访问
[31] Zaharia,M。;乔杜里,M。;富兰克林,M。;申克,S。;Stoica,I.,Spark:带工作集的集群计算(第二届USENIX云计算热点会议论文集(2010)),10-10
[32] ISO_ANSI,数据库语言SQL ISO/IEC 9075:I9921992。;ISO_ANSI,数据库语言SQL ISO/IEC 9075:19921992。
[33] Apache软件基金会,Hadoop,可从以下网站获得:
[34] Ferraro Petrillo,美国。;Roscigno,G.公司。;Cattaneo,G。;Giancarlo,R.,《Fastdoop:用于输入mapreduce Hadoop生物信息学应用的fasta和fastq文件的通用高效库》,生物信息学,33,10,1575-1577(2017)
[35] PHYLIP,系统发育推断包,http://evolution.genetics.washington.edu/phylip.html; PHYLIP,系统发育推断包,http://evolution.genetics.washington.edu/phylip.html
[36] O.Lecompte。;里普,R。;蒂埃里,J.-C。;莫拉斯,D。;Poch,O.,《完整基因组中核糖体蛋白质的比较分析:域尺度上还原进化的实例》,《核酸研究》,第30期,第5382-5390页(2002年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。