核酸研究。2010年7月1日;38(Web服务器问题):W221–W227。
SoRT公司2:通过反转、广义转座和易位对基因组进行排序和重建系统发育树的工具
,1 ,2 ,1和2,三,*
Yen-Lin Huang(黄彦琳)
1国立清华大学计算机科学系,2生物信息学和系统生物学研究所三中华人民共和国台湾新竹300国立交通大学生物科学与技术系。
陈成黄
1国立清华大学计算机科学系,2生物信息学和系统生物学研究所三国立交通大学生物科学与技术系,台湾新竹300。
川仪汤
1国立清华大学计算机科学系,2生物信息学和系统生物学研究所三中华人民共和国台湾新竹300国立交通大学生物科学与技术系。
金龙路
1国立清华大学计算机科学系,2生物信息学和系统生物学研究所三中华人民共和国台湾新竹300国立交通大学生物科学与技术系。
1国立清华大学计算机科学系,2生物信息学和系统生物学研究所三中华人民共和国台湾新竹300国立交通大学生物科学与技术系。
2010年2月10日收到;2010年5月20日修订;2010年5月24日接受。
摘要
SoRT公司2是一个web服务器,允许用户执行涉及反转、广义转座和易位(包括融合和裂变)的基因组重排分析,并根据成对基因组重排距离推断正在考虑的基因组的系统发育树。它以两个或多个类似FASTA格式的线性/环状多染色体基因(或同步区)序列作为输入。当输入是两个基因组时,SoRT2将快速计算它们的重排距离,以及通过突出显示每个重排操作中涉及的基因来确定相应的最佳方案。在多基因组的情况下,SoRT2还将使用基于距离的方法,如邻居连接(NJ)、算术平均未加权对群方法(UPGMA)和Fitch–Margoliash(FM)方法,基于这些基因组的成对重排距离矩阵构建这些基因组的系统发育树。此外,如果选择了计算折弯支持值的功能,SoRT2将进一步进行折刀分析,以评估构建的NJ、UPGMA和FM树的统计可靠性。SoRT公司2可在线访问http://bioalgorithm.life.nctu.edu.tw/SORT2(生物算法)/.
简介
在进化过程中,基因组中的基因顺序通常不会得到很好的保存,因为它会受到基因组重排的影响,如反转、转座、融合、分裂和易位。分析一组物种基因组的基因顺序差异的研究已被越来越多地认为是重建系统发育树的有力工具,因为它们帮助生物学家更好地了解了几组基因组的进化,例如动物线粒体(1),植物叶绿体(2)、细菌(三)和哺乳动物(4). 这些研究中考虑的组合问题(通常称为“基因组重排问题”)可以公式化如下。给定一组基因组的基因(或合子块)顺序,每个基因组由一个有符号排列和一组可能的重排表示,该问题的目的是找到最短的重排序列(或根据重排发生的概率加权重排时的一系列最小权重)需要将这些基因组相互转换(或分类)(5). 最佳重排序列的长度(或重量)称为“基因组重排距离”。基因组重排距离可以用来衡量物种之间的进化距离。与基于序列的方法相比,局部突变(即核苷酸/氨基酸的替换、插入和缺失)积累得相当快,基因组重排是全球性的(或大规模的)且相对罕见的突变,因此,据信,它们的距离允许更多不同物种的进化重建。
迄今为止,文献中研究的基因组重排可分为两类:(i)“染色体内”重排,如反转、转座子和块交换(此处也称为“广义转座子”),以及(ii)“染色体间”重排,如融合、分裂和易位(5). ‘反转(Reversals),在生物学中也称为“反转”(inversations),反转染色体上的一段片段,并交换其链(6,7). ‘转位将染色体上的一个片段移动到另一个位置,或者等价地交换染色体上两个相邻且不重叠的片段(8,9). ‘块内互换是一种广义的换位,它交换染色体上两个不重叠但不一定相邻的片段(10,11). ‘易位基因将包含该染色体端粒的染色体末端片段与另一染色体的末端片段交换(12,13). ‘融合“将两条染色体连接成一条较大的染色体,”分裂“将一条染色体分裂成两条较小的染色体(14,15). 基本上,融合和分裂都可以被视为易位的特殊情况,它们要么作用于两条染色体,其中一条是空的(即分裂),要么导致两条染色体(其中一条为空的)(即融合)。目前,涉及上述一个或多个重排操作的现有web服务器包括GRIMM(16),经理(4)、罗宾(17),弹簧(18),DCJ公司(19)和webMGR(20).
最近,Yancopoulos等。(21)介绍并研究了所谓的“双截并接”(double cut and join,DCJ)操作,该操作将染色体分为两部分,并以新的方式重新连接四个截端,以此作为建模上述所有重排操作的基础。在这个公式中,反转和易位(包括聚变和裂变)都可以通过DCJ操作来建模,而块交换(包括换位)可以通过两个连续的DCJ操作来建模,一个用于从染色体生成一个小的圆形染色体,另一个用于在同一染色体上的新位置重新合并该圆形染色体。此外,Yancopoulos等。(21)设计了一个
(δn个)用重量比1:2:1的反转、块内改变和易位(包括融合和裂变)对线性多染色体基因组进行排序的时间算法,其中n个是要考虑的基因数量,δ是所需DCJ操作的数量。稍后,贝杰隆等。(19)重新考虑了DCJ模型,允许DCJ操作产生的小环状染色体不必立即被后续DCJ操作重新合并。从那时起,这种重新形成的DCJ操作受到了越来越多的关注,因为它不仅可以为基因组重排提供一个统一的模型,而且还可以得到一个相对简单的距离公式,可以用更简单的算法计算(22,23). 然而,据我们所知,到目前为止,还没有基于Yancopoulos提出的算法实现任何软件工具等。(21).
最近,我们提出了两种基于代数置换群的新算法(24)通过反转、广义转座和易位(包括融合和裂变)分别对线性和环状多染色体基因组进行优化排序
(δn个)时间,其中δ是重排操作的最小次数,通常比n个。我们已经将这两个算法实现到一个名为SoRT的新型web服务器中2(“通过反转、广义易位和易位对基因组进行排序并重建系统发育树”的缩写)这允许用户通过计算任意一对输入基因组之间的基因组重排距离并显示相应的重排操作的最佳方案来执行基因组重排分析。对于更实际的应用,我们还实现了以下三种相关算法并将其并入SoRT2web服务器:(i)仅按反转排序(6),(ii)仅按块内部更改排序(17)和(iii)通过反转和块内改变进行排序(18,24). 此外,我们还配备了SoRT2考虑到基于成对基因组重排距离推断多基因组系统发育树的能力,以及使用刀切重采样方法评估树枝统计可靠性的能力(25). 为了简单起见,当我们在文章的其余部分中提到“基因”时,它也意味着“同步区”或“标记”,它代表了所有待考虑基因组共享的保守序列区域。
方法
如前所述,SoRT的程序2为了使用反转将一个多染色体基因组(可以是线性或圆形)排序为另一个,基于我们最近提出的使用代数中置换群的算法实现了广义转位和易位(包括融合和裂变(24),其中广义转置加权2,其他加权1。有关详细信息,我们请读者参阅我们的论文(24). 注意,SoRT返回的成对基因组重排距离2与DCJ模型测量的结果相同,两者实际上都可以在线性时间内快速计算。通常,在许多进化场景中,转位的观察频率远低于反转和转位(21,26). 布兰切特等。(26)对真实的生物数据进行了实验,得出结论,最可能的权重为1(反转)和2(换位)。此外,埃里克森(27)他的同事通过模拟发现,反转和换位的最佳权重分别为1和2。另一方面,如果反转和换位之间的权重比为1:1,那么换位通常比反转更受欢迎,因为反转(或换位)最多可以删除两个断点,而换位最多可以删除三个断点(以及广义换位四个断点)(5). 根据上述结果和讨论,将至少两倍的权重分配给广义转座子似乎具有生物学意义。然而,如果广义换位至少是反转权重的三倍,那么对于只包含反转和换位的问题,总是有一个最优的解决方案,因为广义换位(block-interchange)可以由三个反转来模拟。例如,三个连续的基因(x个,年,z(z))可以转化为(z(z),年,x个)通过区块互换或三次反转(x个, −z(z), −年), (z(z), −x个, −年)和(z(z),年,x个). 因此,应该合理地为广义换位分配等于2的权重,而为其他换位指定等于1的权重。
在本研究中,我们实现了以下三种相关算法,并将其纳入SoRT2web服务器的更实际应用:(i)卡普兰提出的算法等。(6)(ii)我们的ROBIN算法(17)仅用于按块内更改排序,以及(iii)我们的SPRING的重新设计算法(18)用于基于置换组的反转和块内改变排序(24). 此外,我们还配备了SoRT2利用基于距离的建树方法,如邻接法(NJ)、算术平均无权对群法(UPGMA)和Fitch-Margoliash法(FM),可以根据多个基因组的成对基因组重排距离推断出多基因组的系统发育树。最后,我们还采用了jackknife重采样方法(25),如下所述,以进一步计算NJ、UPGMA和FM树中分支(或内部节点)的统计可靠性。我们随机删除50%的输入基因集,同时保留剩余基因的相对顺序,并计算每对基因组之间的基因组重排距离。此过程将按照用户指定的次数重复。假设用户指定的复制数是100。然后,我们在PHYLIP包中应用NEIGHBOR/FITCH程序(28)对100个成对基因组重排距离矩阵进行计算,得到100棵折刀树。最后,我们将PHYLIP包中的CONSENSE程序应用于这100棵折刀树,以获得多数规则共识树,其中每个内部节点的数字表示该节点定义的分支出现在100棵折刀树中的次数百分比。
工具实施和使用
SoRT的核心程序2是用C编写的,其web界面是用PHP编写的。它目前安装在IBM PC上,在Linux系统下具有2.8 GHz处理器和3 GB RAM,可以在http://bioalgorithm.life.nctu.edu.tw/SORT2(生物算法)/SoRT公司2提供用户界面(a) 这是直观且易于操作的。它以一种类似FASTA的格式(参见a) ,遵循GRIMM中使用的语法(16)代表由以下部分组成的基因组n个传播的基因米染色体,以一个以直角括号('>')开头的单行描述开始,然后是1、2、…的有符号排列,…,n个具有米−1个分隔符“$”插入染色体之间(或在每条染色体的末端带有“$”)。当输入是两个基因组时,SoRT2将通过突出显示每个重排操作中涉及的基因来计算基因组重排距离以及相应的最佳方案(b) 。在多基因组的情况下,SoRT2将输出成对基因组重排距离矩阵(c) ,其中每个条目表示其对应的两个基因组之间的基因组重排距离,其超链接相应地指向使用重排的最佳场景。基于此成对重排距离矩阵,SoRT2将使用NJ、UPGMA或FM方法进一步构建输入多个基因组的系统发育树(d) ●●●●。此外,如果选择了计算折弯支持值的功能,SoRT2还将根据用户指定的复制数进行折刀分析,以评估NJ、UPGMA和FM树中分支的统计可靠性。SoRT公司2还提供了一个超链接,用户可以通过该超链接进一步查看共识树以及共识树中包含或不包含的分支的更详细的折刀支持值。我们向用户推荐SoRT的帮助页面2详细用法的分步指南。
(一)SoRT的用户界面2. (b条)显示最佳重排场景,其中重排涉及的基因被突出显示。(c(c))应用SoRT时获得的成对重排距离矩阵2到六个哺乳动物基因组,共有1360个synteny块。(d日)SoRT生成的六种哺乳动物基因组的系统发育树2在其分支上有折刀支持值。
实验结果
下面,我们测试了我们的SoRT2在一些模拟数据集上,以及分别来自线粒体、哺乳动物和细菌基因组的基因序列的三个生物数据集上显示其重建系统发育树的能力,并将其与另一个类似工具GRIMM进行了比较(16). 请注意,GRIMM使用了另一个工具,称为MGR(4),以推断其系统发育树,其中MGR根据涉及反转、融合、分裂和易位的基因组重排距离,使用启发式最大简约方法而不是基于距离的方法构建系统发育树(4). 为了公平比较,我们还使用NJ方法基于GRIMM计算的成对重排距离重建了系统发育树,并用GRIMM-NJ表示了这种GRIMM,以区别于使用MGR重建系统发育树的原始GRIMM。所有这些测试数据集及其详细的实验结果都可以在SoRT的帮助页面上找到2.
模拟数据集的性能
首先,我们生成了一个随机根二叉树米多染色体基因组(或物种),其中米以4为步长从10变为46,并分配一个随机数x个到每个边缘,其中x个是介于1和5之间的整数。然后,我们通过执行以下操作,从根开始进化随机生成的树,其中包含200个基因的单染色体基因组x个随机重排事件到每个边缘,直到我们在树的叶子上获得所有物种基因组的基因顺序。由于在实际生物数据中,转位通常比反转和易位发生的频率低,我们在模拟中使用了三种不同的比率来随机生成反转、转位和易位:(1)1:0:1,(2)2:1:2和(3)1:1:1。最后,对于物种数量和重排比率的每一个选择,我们重复实验100次,并比较了SoRT2GRIMM-NJ使用其平均树相似性。基于每个分支(边)将树叶子上的物种集划分为两组的特性,树重建方法的树相似性计算如下:一组连接到分支的一端,另一组连接至另一端。我们首先在PHYLIP包中使用了TREEDIST程序(28)计算对称差d日,在随机生成的树和方法生成的树之间,其中,“对称差异”定义为两棵树之间未共享的分区数(即第一棵树中不存在于第二棵树中的分区数加上第二棵树中不存在的分区数)。接下来,我们使用一个简单的公式将此对称差异转换为树相似性度量
,其中2米−6是两棵二叉树之间的最大对称差(28). 在我们的SoRT实验中计算的平均树相似性2和GRIMM-NJ如所示在没有换位的模拟模型中(随机选择的重排比率为1:0:1),我们的SoRT实现的平均树相似性2几乎与GRIMM-NJ的相同,如所示a、 它们的总体平均树相似度均为99.2%。然而,在具有换位的模型中,我们的SoRT2通常性能优于GRIMM-NJ,如所示b和c、 其中SoRT的总体平均树相似性2对于比例为2:1:2的模拟数据集,GRIMM-NJ分别为99.4%和99.2%,对于比例为1:1:1的数据集,分别为99.4和99.1%。
SoRT的精确度比较2和GRIMM-NJ基于三种不同的逆转、转位和易位比率重建系统发育树:(一) 1:0:1, (b条)2:1:2和(c(c))1:1:1,其中纵轴表示平均树木相似性(%),横轴表示物种数量。
显示SoRT的平均CPU时间2和GRIMM用于计算成对基因组重排距离矩阵,当将其应用于根据上述模拟方法随机生成的模拟数据集时,分别使用10个具有100、200、500、1000、1500和2000个基因的多染色体物种。每选择一个基因数,实验重复100次。如中所示GRIMM和SoRT2对于不超过500个基因的多染色体物种,可以在一秒钟内完成工作。对于具有1500–2000个基因的物种,GRIMM显然比我们的SoRT更快2,但我们的SoRT2仍然只需要几秒钟就可以完成它的工作。
表1。
GRIMM和SoRT的平均CPU时间2计算10个基因数从100到2000不等的多染色体物种的成对基因组重排距离矩阵
基因数量 | 格栅 | SoRT公司2(S) |
---|
100 | 0.19 | 0.31 |
200 | 0.19 | 0.46 |
500 | 0.21 | 0.90 |
1000 | 0.24 | 1.68 |
1500 | 0.28 | 2.54 |
2000 | 0.31 | 3.46 |
11只后生动物mtDNA
在这个实验中,我们应用了我们的SoRT2Blanchette研究的11个后生动物线粒体DNA(mtDNAs)的基因序列数据集中包含36个基因等。(1),其中11种后生动物是人类(缩写为HU),海燕(海星,缩写为SS),紫斑圆线虫(海胆,SU),果蝇(昆虫,DR),卤虫(甲壳类,AF),蓝斑白化病(蜗牛,AC),树丛蜗牛(蜗牛,中国),卡萨琳娜·突尼斯(KT,chiton),陆生蚯蚓(蚯蚓,LU),猪蛔虫(AS)和卷尾蛇(OV)。尽管后生动物系统发育的许多争论树已经被提出a被广泛接受(1)因此,可以作为比较本研究中使用的不同工具准确性的参考树。根据我们的实验结果,SoRT获得的NJ树2(b) 与GRIMM-NJ的相同(c) 在拓扑学中,除了三个软体动物物种KT、AC和CN外,同一类群中的物种被放在一起作为姐妹分类群。这种不一致也发生在MGR产生的系统发育树中(d) 但这两种软体动物AC和CN分别位于后口目(HU、SS和SU)的分支中。
(一)参考文献引用了11个后生动物基因目的参考树(1)其中,11种后生动物生物分为六大类:脊索动物(含HU)、棘皮动物(含SS和SU)、节肢动物(含DR和AF)、软体动物(含KT、AC和CN)、环节动物(含LU)和线虫(含OV和AS)。(b条)SoRT生产的NJ树2使用对100个重复的折刀分析,其中内部节点上的数字表示支持值。(c(c))基于GRIMM计算的成对重排距离的NJ树。(d日)MGR重建系统发育树。
六种哺乳动物基因组
赵与布尔克(29)创建了一个包含六种哺乳动物基因组(人类、黑猩猩、恒河猴、小鼠、大鼠和狗)的1360个共有基因块的数据集,以研究如何在固定的系统发育树上恢复它们的祖先重排事件,如a、 其中,该数据集中的1360个synteny块覆盖了91.1%的人类基因组。在这个实验中,我们应用了我们的SoRT2,以及GRIMM-NJ。因此,我们的SoRT获得了NJ树2(b) 以及GRIMM-NJ树(c) ,与中的相同在拓扑结构中,几乎所有分支上的折刀支持值都为100%。实际上,我们也在这个哺乳动物数据集上测试了MGR,不幸的是,MGR无法在合理的时间内分析这个数据集,因此我们在这个实验中没有它的系统发育树。
(一)参考文献引用了六个哺乳动物基因组的参考树(29)其边缘未按比例绘制。(b条)SoRT创建的NJ树2使用对100个重复的折刀分析,其中内部节点上的数字是支持值。(c(c))基于GRIMM返回的成对重排距离的NJ树。
总结
SoRT公司2是一个基于网络的工具,用于分析基因组重排,包括反转、广义转位和易位(包括融合和裂变)。它允许用户快速计算输入基因组之间的成对重排距离,并探索相应的所需重排的最佳方案。此外,SoRT2允许用户根据成对基因组重排距离快速推断输入多个基因组的系统发育树,并进一步评估树分支的统计可靠性。值得一提的是,涉及反转、广义换位和换位的最优重排距离的计算,以及树的统计评估,在其他现有的网络服务器中是不可用的。特别是,如参考文献所述(30)作用于染色体的广义转座(block-interchange)可以被视为片段切除、循环化、线性化和再融合的过程,这正发生在高等动物的免疫应答结构中,尽管目前的生物学文献尚未讨论广义转座的存在及其生物学意义。因此,我们认为SoRT2可以为基因组重排研究提供有趣的见解,特别是涉及广义转座和系统发育重建的研究。
基金
中华民国国家科学委员会(NSC97-2221-E-009-081-MY3 to C.L.L.);NSC97-2221-E-007-080-MY3、NSC97-2-221-E-07-081-MY3和NSC98-2627-B-007-011 C.Y.T.)。开放获取费用资助:中华人民共和国国家科学委员会。
利益冲突声明。未声明。
参考文献
1Blanchette M,Kunisawa T,Sankoff D.动物线粒体系统发育中的基因顺序断点证据。《分子进化杂志》。1999;49:193–203.[公共医学][谷歌学者] 2Cosner ME,Jansen RK,Moret BME,Raubeson LA,Wang L,Warnow T,Wyman S.风铃草科叶绿体基因序列数据的系统发育方法的经验比较。收录人:Sankoff D,Nadeau JH,编辑。比较基因组学。伦敦:Kluwer学术出版社;2000年,第99–121页。[谷歌学者] 三。Belda E,Moya A,Silva FJ。γ-变形杆菌基因组重排距离和基因序列系统发育。分子生物学。进化。2005;22:1456–1467.[公共医学][谷歌学者] 4Bourque G,Pevzner PA。基因组尺度进化:重建祖先物种的基因顺序。基因组研究。2002;12:26–36. [PMC免费文章][公共医学][谷歌学者] 5Fertin G、Labarre A、Rusu I、Tannier E、Vialette S。基因组重排组合学。剑桥:麻省理工学院出版社;2009[谷歌学者] 6Kaplan H,Shamir R,Tarjan RE。通过反转对有符号置换进行排序的更快、更简单的算法。SIAM J.公司。1999;29:880–892. [谷歌学者] 7Hannenhalli S,Pevzner PA。将卷心菜转化为萝卜:通过反转排序有符号排列的多项式算法。美国医学杂志。1999;46:1–27. [谷歌学者] 8Bafna V,Pevzner PA。按转位排序。SIAM J.光盘。数学。1998;11:221–240. [谷歌学者] 9Elias I,Hartman T.通过转置排序的1.375近似算法。IEEE/ACM传输。公司。生物。生物信息学。2006;三:369–379.[公共医学][谷歌学者] 10Christie DA。按块内改变排序排列。通知。程序。莱特。1996;60:165–169. [谷歌学者] 11Lin YC,Lu CL,Chang H-Y,Tang CY。一种高效的块内变化排序算法及其在弧菌物种进化中的应用。J.公司。生物。2005;12:102–112.[公共医学][谷歌学者] 12用于计算基因组间易位距离的Hannenhalli S.多项式时间算法。光盘。申请。数学。1996;71:137–151. [谷歌学者] 13Bergeron A,Mixstaki J,Stoye J.关于易位排序。J.公司。生物。2006;13:567–578.[公共医学][谷歌学者] 14Lu CL,Huang Y-L,Wang TC,Chiu H-T。通过融合、分裂和阻断相互作用分析环状基因组重排。BMC生物信息学。2006;7:295. [PMC免费文章][公共医学][谷歌学者] 15Feijáo P,Meidanis J.SCJ:一种断点距离的变体,排序、基因组中位数和基因组减半问题很容易解决。莱克特。生物信息学注释。2009;5724:85–96. [谷歌学者] 16Tesler G.GRIMM:基因组重排网络服务器。生物信息学。2002;18:492–493.[公共医学][谷歌学者] 17Lu CL,Wang TC,Lin YC,Tang CY.ROBIN:一种用于区块互变异基因组重排的工具。生物信息学。2005;21:2780–2782.[公共医学][谷歌学者] 18Lin YC,Lu CL,Liu Y-C,Tang CY。SPRING:一种使用逆转和阻断交换分析基因组重排的工具。核酸研究。2006;34:W696–W699。 [PMC免费文章][公共医学][谷歌学者] 19Bergeron A、Mixstaki J、Stoye J。基因组重排的统一观点。莱克特。注释:生物信息学。2006;4175:163–173. [谷歌学者] 20.Lin CH,Zhao H,Lowcay SH,Shahab A,Bourque G.webMGR:多基因组重排问题的在线工具。生物信息学。2010;26:408–410.[公共医学][谷歌学者] 21Yancopoulos S,Attie O,Friedberg R.通过易位、反转和嵌段交换对基因组排列进行有效排序。生物信息学。2005;21:3340–3346.[公共医学][谷歌学者] 22Lin Y,Moret BME。在DCJ模型下估计真实进化距离。生物信息学。2008;24:i114–i122。 [PMC免费文章][公共医学][谷歌学者] 23Bergeron A,Mixstaki J,Stoye J.一种新的线性时间算法,通过双截和连接距离计算基因组距离。西奥。公司。科学。2009;410:5300–5316. [谷歌学者] 24黄Y-L,卢CL。按反转排序,广义转位和使用置换群的易位。J.公司。生物。2010;17:685–705.[公共医学][谷歌学者] 25Farris JS、Albert VA、KällersjöM、Lipscomb D、Kluge AG。简朴的刀削优于邻里加入。分支系统学。1996;12:99–124.[公共医学][谷歌学者] 26Blanchette M,Kunisawa T,Sankoff D.参数化基因组重排。基因。1996;172:GC11–GC17。[公共医学][谷歌学者] 27Eriksen N.(1+ε)-通过反转和转置进行排序的近似值。西奥。公司。科学。2002;289:517–529. [谷歌学者] 28Felsenstein J.PHYLIP:系统发育推断包(3.2版)分支系统学。1989;5:164–166. [谷歌学者] 29赵H,Bourque G.哺乳动物系统发育中基因组重排的恢复。基因组研究。2009;19:934–942. [PMC免费文章][公共医学][谷歌学者] 30.Adam Z,Sankoff D.MGR与DCJ的ABC。进化。生物信息学。2008;4:69–74. [PMC免费文章][公共医学][谷歌学者]