跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
核酸研究。2006年7月1日;34(Web服务器问题):W696–W699。
2006年7月14日在线发布。 数字对象标识:10.1093/nar/gkl169
预防性维修识别码:项目经理1538842
PMID:16845100

SPRING:一种利用逆转和阻断相互作用分析基因组重排的工具

摘要

弹簧(http://algorithm.cs.nthu.edu.tw/tools/SPRING/)是一种使用反转和/或块内改变分析两个染色体基因组之间基因组重排的工具。SPRING将两条或更多条染色体作为其输入,然后计算任意两条输入染色体之间的最小反转和/或块交换序列,以将一条染色体转化为另一条染色体。SPRING的输入可以是细菌大小序列或基因/标志序列。如果输入是一组染色体序列,则SPRING将自动搜索相同的标志,这些标志是所有输入序列共享的同源/保守区域。特别是,SPRING还计算任意两条染色体对之间的断点距离,可用于与重排距离进行比较,以确定它们是否相关。此外,SPRING还显示了基于重排和断点距离矩阵重建的系统发育树。

引言

随着基因组数据(DNA、RNA和蛋白质序列)数量的增加,基因组重排的研究因其在测量两个物种之间进化差异方面的应用而受到计算生物学和生物信息学的广泛关注。在本研究中,所考虑的染色体通常由有序整数和有符号整数的排列表示,每个整数代表染色体中的一个相同基因,其符号(例如+或-)表示转录方向。这里,我们可以互换使用置换和染色体。给定代表两条线性/环状染色体的两个排列,基因组重排研究是计算重排距离它被定义为将一条染色体转换为另一条染色体所需的最少重排操作次数。影响置换的常用重排操作包括反转(也称为反转)(1),换位(4,5)、块内改变(即广义换位)(6,7)甚至它们的组合(8,9).反转通过将连续整数块反转为相反顺序并更改每个整数的符号来执行置换,以及换位通过交换两个连续整数的相邻块来执行操作。从概念上讲,块内交互更改是换位的推广,允许交换的块在置换中不一定相邻。

目前,许多现有的工具都专注于推断最优的反转序列(10,11)或一系列最佳的块内交互更改(12)将一条染色体转化为另一条染色体。在本文中,我们开发了一个名为SPRING的web服务器(英文缩写为Sorting Permutation by Reversals and block-INterchanGes),用于计算重排距离以及使用反转和/或块内改变表示线性/圆形染色体的两个置换之间的最佳方案。

如果同时考虑反转和块内改变,SPRING采用不等权重策略,将权重1用于反转,将权重2用于块内改变。这主要是由于以下原因。首先,与块内交换相比,反转被认为是更频繁的重排操作。第二,影响染色体的反转最多删除两个断点,而块内改变最多删除四个断点断点表示两个相邻基因(1,2)不连续出现的染色体(1,2)或(−2, −1)在另一条染色体上。第三,目前,只有当反转权重为1且块内改变权重为2时,才可以在多项式时间内计算包含反转和块内改变的重排距离(请参考方法进行进一步讨论)。

此外,SPRING计算两个排列之间的断点距离,可用于与重排距离进行比较,以查看它们是否相关,其中断点距离是两个排列之间的断点数。

通过整合两个现有的程序,分别称为Mauve(13)和PHYLIP(14)SPRING不仅接受基因顺序数据,还接受序列数据作为输入,并可以输出基于计算的断点和重排距离推断的进化树。特别地,如果输入是序列数据,SPRING可以自动搜索相同的标志物,称为LCB(局部共线块),它们是所有输入序列共享的同源/保守区域。基本上,LCB是一组多MUM的共线集合(这些MUM精确匹配由所有染色体共享的子序列,这些子序列被认为在每个染色体中只出现一次,并且由不匹配的核苷酸在两侧绑定)。实际上,它可能对应于所有基因组共享的序列同源区域,并且不包含任何基因组重排。

方法

在SPRING中,我们实现了卡普兰开发的算法. (2)和林. (7)分别通过反转和块内改变计算两条线性/圆形染色体之间的重排距离。此外,当分别考虑权重为1和2的反转和块内改变时,我们在SPRING中采用了一种新的算法来计算两条线性/圆形染色体之间的重排距离及其最佳方案,可以使用Yancopoulos提出的算法进行此计算. (15)基于断点图的方法。其算法步骤如下。首先,将两条染色体的输入表示为断点图。其次,搜索所有所谓的定向灰色边(即连接两条黑色边的左/右端的灰色边),每个边实际上对应一个反转,并对每个定向灰色边应用剪切和正确连接操作(即以适当的方式剪切和重新连接每个定向灰色边缘相邻的两条黑色边缘)。请注意,在此步骤之后,所有剩余的灰色边都是无方向的[即灰色边将一条黑色边的左(分别,右)端连接到另一条黑色边缘的右(分别,左)端]。最后,切割并正确地重新连接每个无方向灰色边缘的两个黑色边缘,然后对灰色边缘应用另一个切割并正确连接,连接临时圆形中间层(简称CI),这是一个由一个黑色边缘和一个灰色边缘组成的循环。然后,这两个连续的cut-and-proper-join对应于一个block-interchange。

而不是使用Yancopoulos提出的算法. (15),我们在SPRING中采用了以下方法来解决相同的问题,通过这种方法,我们可以确保在所有可能的优化方案中,我们的最佳方案中使用的块内改变的数量是最小的。首先,我们将两条染色体的输入表示为断点图。其次,我们识别所有所谓的定向分量(即至少有一个顶点对应于定向边的分量),并使用Kaplan提出的算法. (2)找到每个定向组件的最佳反转。最后,我们应用了Lin提出的算法. (7)到其余的每个组件(无方向),以找到其最佳的块内交互。在我们的方法中,我们可以表明最优场景中的块内改变的数量是最小的,这从生物学角度来看似乎是合理的,因为块内改变作为基本进化操作不太受欢迎。我们还表明,使用权重1进行反转,使用权重大于或等于3进行块内交互,将使SPRING只返回反转,而不会返回任何内容,这意味着在这种情况下,用户可以利用SPRING计算重排距离,只选择反转作为重排操作。

SPRING的实施和使用

SPRING的核心算法是用C编写的,web界面是用PHP编写的。目前,SPRING(参见图1安装在IBM PC上,Linux系统下具有2.8 GHz处理器和3 GB RAM。

保存图片、插图等的外部文件。对象名为gkl169f1.jpg

SPRING的web界面。

输入

用户可以输入或粘贴两个或多个线性/环状基因组序列或基因/地标序列作为SPRING的输入。如果输入是一组染色体序列,SPRING将自动将所有LCB(即同源/保守区域)识别为地标。通常,每个识别的LCB都与一个权重相关联,该权重可以作为一个置信度度量,即它是一个真正的同源区域,而不是一个随机匹配,其中重量LCB的长度定义为该LCB中多个MUM的长度之和。在SPRING中,最小LCB重量是用户可定义的参数,其默认值设置为最小多MUM长度的三倍。用户可以通过选择较高的最小重量来识别真正参与基因组重排的较大LCB,而通过选择较低的最小重量,他们可以用一定的特异性换取敏感性,以识别可能参与基因组重排列的较小LCB。

在运行SPRING之前,用户还需要选择使用的重排操作,可以是反转、块交换或两者兼有,输入染色体类型可以是线性或圆形,并确定是否显示最佳重排场景。特别是,对于输入基因(或识别的标志)数量较大的情况,显示重排的最佳方案有点耗时。在这些情况下,建议用户以批处理方式运行SPRING,这也适用于大规模序列的情况,而不是立即运行(默认)。在批处理方式中,当用户提交的作业完成时,将通过电子邮件通知用户输出。

输出

如果输入是一组染色体序列,则SPRING将首先输出所有输入序列共享的已识别的公共LCB的顺序,然后输出重排距离矩阵(其中每个条目表示一对两条输入染色体之间的重排距离)以及断点距离矩阵。断点距离可用于与重排距离进行比较,以查看它们是否相关。此外,SPRING显示了两个系统发育树,分别基于重排和断点距离矩阵,使用PHYLIP包中的邻接方法程序重建。

在每个确定的LCB订单中,用户只需单击相关链接即可查看其详细信息,例如位置(由左端和右端坐标表示)、每个LCB的长度和重量以及所有LCB的总体覆盖范围。应注意,如果识别的LCB的左右坐标均为负值,则该LCB是给定序列相反链上的反转区域,其相应整数的符号为“−”。

如果用户选择在运行SPRING之前显示最佳场景,则只需单击与计算的距离矩阵中的每个条目关联的链接,即可查看任意两个输入序列对之间的最佳场景。在显示最佳场景时,反转操作用绿色标记,而块内转换操作用红色和蓝色标记。

另一方面,如果输入是一组基因/地标顺序,则SPRING只输出断点和重排距离矩阵及其进化树,以及任意两个基因/地界顺序对之间的最优场景。

实验结果

为了验证SPRING,我们用两组染色体序列和一组基因序列对其进行了测试,以检测输入物种的进化关系。所有测试都是使用带有默认参数的SPRING运行的,其详细输入数据和实验结果可以在SPRING的帮助页面中访问和参考。

11株γ-蛋白菌的染色体序列

最近,通过比较染色体上减少的一组基因的顺序,在γ-蛋白杆菌完整基因组中研究了通过逆转进行的基因组重排(16). 为了我们的目的,我们选择了11个γ-蛋白菌的完整序列,并尝试使用SPRING来推断它们的系统发育树,同时考虑反转和块内相互变化。因此,总共有58个已识别的LCB,分别基于断点和重排距离矩阵构建的系统发育树的拓扑结构非常相似。事实上,我们计算出断点和重排距离矩阵之间的相关系数为0.996,表明这两个距离之间具有很高的相关性。

三个人的染色体序列弧菌属病原体

创伤弧菌是通过伤口或被污染的海鲜获得的严重人类感染的病原体,与其他人类具有相同的形态学和生物化学特征弧菌病原体,包括霍乱弧菌副溶血性弧菌目前,这三种基因的基因组弧菌属每个物种都由两条环状染色体组成,已经测序,据报道致伤弧菌更接近副溶血性弧菌比到霍乱弧菌从进化的角度来看(7,12,17). 在这个实验中,我们通过将SPRING应用于它们的完整序列,以逐个染色体的方式重新确定了它们的进化关系。所采用的重排操作既包括反向操作,也包括闭塞互换操作。因此,致伤弧菌更接近副溶血性弧菌比到霍乱弧菌在根据断点/重排距离矩阵重建的系统发育树中,这与以前的结果一致。

29株γ-蛋白菌的基因顺序

在这个实验中,我们从Belda提供的在线补充材料中选择了29个γ-蛋白菌. (16),并运行SPRING,根据基因顺序使用反转和块内改变推断其进化树。因此,通过断点距离推断的树拓扑与通过重排距离推断的非常相似,但有以下两个不同之处。两者都是福氏志贺氏菌花椰菜应变接近大肠杆菌在基于重排的拓扑中。断点与重排距离矩阵的相关系数为0.997。值得一提的是,在Belda推断的基于重排的拓扑结构中. (16)只使用反转oneidensis志贺氏菌三个菌株都不在了假单胞菌属物种,这与我们基于重排的拓扑结构相反,因为我们同时考虑了反转和块内改变。

鸣谢

这项工作在NSC94-2213-E-009-141的资助下得到了中华民国国家科学委员会的部分支持。本文的开放获取出版费用由中华民国国家科学委员会根据NSC94-2627-B-007-002拨款提供。

利益冲突声明。未声明。

参考文献

1Hannenhalli S.,Pevzner P.A.《将卷心菜转化为萝卜:通过反转排序有符号排列的多项式算法》。美国医学杂志。1999;46:1–27. [谷歌学者]
2Kaplan H.,Shamir R.,Tarjan R.E.通过反转对有符号排列进行排序的一种更快、更简单的算法。SIAM J.计算。1999;29:880–892. [谷歌学者]
三。Bader D.A.、Moret B.M.W.、Yan M.一种用于计算符号置换之间倒置距离的线性时间算法,并进行了实验研究。J.计算。生物。2001;8:483–491.[公共医学][谷歌学者]
4Bafna V.,Pevzner P.A.按换位排序。SIAM J.疾病。数学。1998;11:221–240. [谷歌学者]
5Elias I.,Hartman T.使用转置排序的1.375近似算法。第五届生物信息学算法研讨会论文集(WABI'05),LNCS 3692;2005年,第204-215页。[谷歌学者]
6Christie D.A.按块内更改排序。信息处理。莱特。1996;60:165–169. [谷歌学者]
7Lin Y.C.,Lu C.L.,Chang H.Y.,Tang C.Y.一种按块交换排序的有效算法及其在进化中的应用弧菌属物种。J.计算。生物。2005;12:102–112.[公共医学][谷歌学者]
8Lin G.H.,Xue G.通过反转和转座标记基因组重排:模型和近似。理论。计算。科学。2001;259:513–531. [谷歌学者]
9Eriksen E.(1+)-通过反转和换位排序的近似。理论。计算。科学。2002;289:517–529. [谷歌学者]
10Tesler G.GRIMM:基因组重排网络服务器。生物信息学。2002;18:492–493.[公共医学][谷歌学者]
11Darling A.E.、Mau B.、Blattner F.R.、Perna N.T.GRIL:基因组重排和反转定位。生物信息学。2004;20:122–124.[公共医学][谷歌学者]
12卢C.L.,王铁川,林玉川,唐春云.罗宾:一种用于基因块相互改变重排的工具。生物信息学。2005;21:2780–2782.[公共医学][谷歌学者]
13Darling A.E.、Mau B.、Blattner F.R.、Perna N.T.Mauve:保守基因组序列与重排的多重比对。基因组研究。2004;14:1394–1403. [PMC免费文章][公共医学][谷歌学者]
14华盛顿大学基因组科学系;2005.PHYLIP(系统发育推断包)3.6版。由作者分发。[谷歌学者]
15Yancopoulos S.,Attie O.,Friedberg R.通过易位、反转和块交换对基因组排列进行有效排序。生物信息学。2005;21:3340–3346.[公共医学][谷歌学者]
16Belda E.、Moya A.、Silva F.J.γ-蛋白菌基因组重排距离和基因序列系统发育。分子生物学。进化。2005;22:1456–1467.[公共医学][谷歌学者]
17Chen C.Y.,Wu K.M.,Chang Y.C.,Chang C.H.的比较基因组分析创伤弧菌,一种海洋病原体。基因组研究。2003;13:2577–2587. [PMC免费文章][公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社