跳到主要内容

使用用户定义的定位点进行多序列对齐

摘要

背景

用于多重比对的自动化软件工具通常无法产生具有生物学意义的结果。在这种情况下,专家知识可以帮助提高路线的质量。

结果

在这里,我们描述了一个半自动的校准程序的版本DIALIGN公司可以考虑预定义的约束。用户可以指定假定同源的序列部分,因此应该相互对齐。我们的软件程序可以将这些站点用作锚定点根据这些约束创建多重对齐。这样,我们的比对方法可以产生比全自动程序产生的比对更有生物学意义的比对。为了演示我们的方法是如何工作的,我们将我们的方法应用于霍克斯基因簇和一组DNA结合蛋白。作为一个副产品,我们获得了有关贪婪的我们的程序用于多重对齐和关于底层目标函数的算法。这些信息将有助于DIALIGN的进一步发展。所述对准方法已集成到TRACKER软件系统中。

背景

多序列比对是生物序列数据分析的重要前提,在过去的二十年中,已经开发了大量的多序列比对程序。例如,多重DNA或蛋白质比对的标准方法是,集群W[1],DIALIGN公司[2]和T-咖啡[]; 有关这些工具和其他已建立方法的概述,请参见[4]. 最近,开发了一些新的对准方法,例如波阿[5],肌肉[6]或PROBCONS公司[7]. 这些程序在对准质量和计算成本方面通常优于以前开发的方法。使用各种真实和模拟基准数据集对多对齐工具的性能进行了广泛研究[810]。

上述所有对齐方法都是完全正确的自动化也就是说,它们按照一组固定的算法规则构造对齐。大多数方法使用定义明确的目标函数将数值质量分数分配给输入序列集的每个可能的输出对齐,并尝试根据该目标函数找到最优或近最优对齐。在此过程中,可以调整许多程序参数,如间隙惩罚。虽然这些参数的总体影响非常明显,但通常没有直接的影响调整计划结果的方式。

在需要处理大量数据或没有其他专家信息的情况下,自动校准方法显然是必要和有用的。然而,如果研究人员熟悉正在研究的特定序列家族,他或她可能已经知道序列的某些部分,这些部分在功能上、结构上或系统发育上相关,因此应该相互对齐。在自动化程序的情况下失败为了正确对齐这些区域,最好有一种对齐方法,该方法将接受用户定义的同源信息,然后自动对齐序列的其余部分,并尊重这些用户特定的信息约束

交互式程序澳门特别行政区[11]可用于带有用户定义约束的半自动对齐;类似的程序欧文[1213]接受两两对齐的定位点。Myers也提出了接受预定义约束的多重对齐方法. [14]和Sammeth. [15]. 多对齐程序DIALIGN[1617]有一个选项,可用于计算用户特定约束下的路线。最初,引入此程序功能是为了减少大型基因组序列的比对搜索空间和程序运行时间[1819]; 另请参见[20]. 哥廷根生物信息学计算服务器(GOBICS),我们提供了一个用户友好的web界面,其中可以使用定位点来指导多重对齐过程[21]. 在此,我们使用前面介绍的集合理论对齐概念详细描述了我们的锚定对齐方法。我们将我们的方法应用于霍克斯基因簇。对于这些序列,默认版本的DIALIGN会产生严重的排列错误,其中整个基因的排列不正确,但如果将已知的基因边界用作锚定点,则可以获得有意义的排列。

此外,我们的锚定过程可以用于获取信息,以便进一步开发对齐算法。为了提高自动比对方法的性能,重要的是要知道在这些方法无法产生生物学上合理的比对的情况下到底出了什么问题。原则上,校准程序失败有两个可能的原因。潜在的目标函数将高数值分数分配给生物学上无意义的比对是“错误的”。但也有可能目标函数是“正确的”,即生物学上正确的比对具有数值上最优的分数,以及使用的启发式优化算法无法返回数学上最优或接近最优的对齐。如果自动生成的比对在生物学上不正确,我们实现的锚定方法可以帮助找出比对程序的哪个组件应该负责。

我们的研究结果之一是,锚定点不仅可以改善生物学的输出对齐的质量,但在某些情况下可能导致对齐明显更高数字的分数。这表明,DIALIGN中使用的启发式优化程序可能会产生远低于相应数据集最佳值的输出对齐。后一个结果对我们的对齐方法的进一步发展有着重要的影响:对于DIALIGN算法中出现的优化问题,开发更有效的算法似乎是值得的。在其他情况下,生物正确比对的数值分数低于我们程序的非锚定版本返回的生物错误比对的分数。这里,改进的优化功能不会导致生物学上更有意义的比对。因此,为我们的对齐方法开发改进的目标函数也是很有希望的。

串联复制的对齐

在许多情况下,自动校准程序会产生生物学上不正确的校准。一个明显的挑战是遥远地相关的输入序列,其中一级序列的同源性可能被虚假的随机相似性所掩盖。校准计划面临的另一个臭名昭著的挑战是复制在输入序列中。在这里,串联复制特别难以对齐,请参见例如[22]. 已经开发了专门的软件工具来处理序列重复引起的问题[23]. 对于基于分段的对齐程序DIALIGN,情况如下。如以前的出版物所述,该程序从成对局部序列相似性构造成对和多重比对,即所谓的碎片对齐或碎片[1716]. 片段被定义为来自两个输入序列的一对等长片段。基于统计考虑,程序分配体重分数并尝试找到一个总得分最高的一致片段集合。对于成对对齐可以识别得分最高的碎片[24]. 对于多序列集,执行所有可能的成对比对,并集成这些成对比对中包含的片段贪婪地形成多重对齐。

如图所示1,串联复制可能会为上述对齐方法带来各种问题。在下文中,我们将讨论两个简单的示例,其中重复可能会混淆基于分段的对齐算法。让我们考虑在一个或多个输入序列中重复的图案S公司1,...,S公司 k个 为了简单起见,我们假设序列在主题之外没有任何显著的相似性。此外,我们假设所有母题实例之间的相似程度大致相当。如果要对齐两个序列,并且在二者都序列,即如果有实例主题的顺序S公司1和实例序列中的相同主题S公司2如图所示1(A)在这种情况下,我们的对齐方法将正确对齐因为,对于成对对齐,我们的算法返回一个碎片数量最多全部的分数。

图1
图1

基于分段对齐方法(DIALIGN)中的串联重复可能导致对齐错误。我们假设一个模体的不同实例包含在输入序列集中,并且不同实例之间的相似程度大致相等。为了简单起见,我们还假设序列在保守基序之外没有任何相似性。连接序列的线表示DIALIGN在各自的成对比对程序中识别的片段。(A类)如果串联重复发生在两个序列中,则会找到正确的对齐方式,因为算法确定了局部线形的最大值全部的分数。(B类)如果一个图案在一个序列中重复,但只有一个实例M(M)2包含在第二个序列中,可能会发生以下情况M(M)2在第一个序列中被分割并与不同的母题实例对齐。(C类)如果图案在第一个序列中重复,但序列2和序列3中仅包含一个图案实例,一致性可能会发生冲突。在这种情况下,在相应的成对比对中识别的局部相似性不能被集成到一个单独的输出比对中。为了选择这些成对相似性的一致子集,DIALIGN使用贪婪的启发式。根据主题实例之间的相似程度,贪婪的方法可能会导致严重的对齐错误(D类).

注意严格贪婪算法可能会被这种情况混淆,

在图中1如果主题的这两个实例之间的相似性恰好略强于,以及其中分别是。然而,DIALIGN只对倍数精确解不可行的对齐,但对于成对对齐,程序返回一个最优的与潜在目标函数对齐。因此,在上述假设下,即使表现出更强的相似性比到

如果串联复制,问题就开始了

发生在S公司1但只有一个图案,M(M)2,存在于S公司2。在这里,可能会发生M(M)2与的开头对齐和结束M(M)2对齐到的末尾如图所示1(B).DIALIGN特别容易受到此类错误的影响,因为它不使用间隙惩罚。对于多重对齐,这种情况甚至更成问题。例如,考虑三个序列S公司1S公司1S公司在图中1(C),其中有两个实例主题发生在S公司1虽然S公司2S公司每个都只包含一个图案实例M(M)2M(M)分别是。在上述假设下,a生物学上这些序列的有意义的对齐必然会对齐S公司2S公司这两个主题都将与或至–取决于S公司2S公司分别是。请注意,这样的对齐也会收到较高的数字的得分,因为这将涉及保守基序的成对排列。然而,由于每个序列对都是独立进行两两比对的,因此序列中的第一个基序可能会出现S公司1与对齐M(M)2但第二个例子,,与对齐M(M)在各自的成对排列中,如图所示1(C)因此M(M)2M(M)不一致的前两个成对对齐。根据图案之间的相似程度M(M)在贪婪算法中可能会被拒绝,因此这些图案可能不会在最终的多重对齐中对齐。很容易看出,由此产生的多重比对不仅在生物学上有问题,而且在数值上也会得到较低的分数,因为它只涉及主题的成对排列。

使用用户定义的定位点进行多重对齐

为了克服上述困难,并处理导致校准程序出现问题的其他情况,我们实施了半自动锚定的对齐方法。这里,用户可以指定任意数量的锚固点以指导对准程序。每个锚定点由两个输入序列的一对等长段组成。因此,锚点由五个坐标表示:序列涉及起始位置在这些序列中长度锚定节段。作为第六个参数,我们的方法需要一个分数这决定了优先级锚定点的位置。后一个参数是必需的,因为它通常没有意义使用全部的用户提出的锚。选择的锚定点可能是不一致的它们不能包含在一个单一的多输出对齐中,请参见[16]我们的一致性概念。因此,算法可能需要选择合适的子集建议的锚点。

我们的软件为使用定位点提供了两种略有不同的选项。有一个坚强的锚定选项,其中指定的锚定位置必须相互对齐,提供一致性。然后,基于由这些预先对准的位置给出的一致性约束来对准序列的剩余部分。此选项可用于强制对序列中可获得其他专家信息的部分进行正确对齐。例如,我们计划通过使用一级和二级结构信息来对齐RNA序列。这里,局部保守的二级结构可以用作“强”锚定点,以确保这些结构正确对齐,即使它们在一级结构层面上没有相似之处。

此外,我们还有一个虚弱的锚定选项,其中一致锚定点仅用于约束输出对齐,但不一定相互对齐。更准确地说,如果一个位置x个按顺序S公司 锚定的有一个位置按顺序S公司 j个 通过其中一个锚点,这意味着只有位置自S公司 j个 可以与对齐x个.是否x个将实际出现在输出对齐的同一列中取决于位置周围序列之间的局部相似程度x个。如果无法检测到具有统计意义的相似性,x个可能保持不对齐。此外,锚固x个表示位置严格向左(或严格向右)x个在里面S公司 只能与严格向左(或严格向右)的位置对齐在里面S公司 j个 –反之亦然。显然,这些关系是传递的,所以如果位置x个用位置固定11在另一个位置的左边2按照相同的顺序,以及2然后,与一个位置对齐z(z),然后定位到的左侧x个只能与的左侧位置对齐z(z)等。如果使用定位点来减少程序运行时间,则“弱”选项可能有用。

在算法上,DIALIGN处理强或弱锚定点的方式与碎片(=段对)。通过及物性,集合Anc公司的定位点定义了拟偏序关系 Anc公司 在片场上X(X)输入序列的所有位置–与对齐方式完全相同阿里诱导拟偏序关系≤ 阿里 X(X)如中所述[1625]. 形式上,我们考虑对齐阿里以及一组锚点Anc公司作为等价关系在集合上定义X(X)输入序列的所有位置。接下来,我们考虑偏序关系≤onX(X)这是由序列中位置的“自然”顺序给出的。从理论上讲,≤是直接和线性的在单个序列上定义的顺序关系。偏序关系≤ Anc公司 则定义为传递闭包活接头的直径≤ Anc公司换句话说,我们有x个 Anc公司 当且仅当存在链x0, ...,x个 k个 的位置x个0=x个x个 k个 =这样,对于每一个 {1,...,k个},位置x个-1用锚定x个 x个-1x个 属于同一序列,并且x个-1位于的左侧x个 按顺序排列。

在我们的集合理论环境中X(X)如果联合的正向闭包的所有限制≤ 到个体序列巧合具有各自的“自然”线性顺序。使用虚弱的我们的锚定对准方法版本,我们正在寻找对准阿里wich的最高得分是这样的阿里 Anc公司是一致的。使用坚强的选项,我们正在寻找最大得分对齐阿里这是的超集Anc公司。对于这两个程序选项,我们的优化问题是找到对齐阿里得分最高–在集合理论结合的附加约束下阿里 Anc公司是一致的。在弱锚定方法中,输出对齐是阿里使用强选项时,程序返回联合的传递闭包阿里 Anc公司

只有当集合Anc公司锚定点本身是一致的。由于用户定义的一组锚定点不可能是一致的,因此我们锚定过程的第一步是选择一个一致的子集用户建议的锚定点。为此,该程序使用与多重对齐优化过程中相同的贪婪方法。也就是说,每个锚点都与一些用户定义的分数相关联,程序接受输入的锚点,以分数递减的顺序排列,前提是它们与之前接受的锚点一致。

贪婪地选择定位点使用户能够优先顺序根据任意用户定义标准的潜在锚定点。例如,可以使用基因组序列中的已知基因边界来定义锚定点,就像我们在霍克斯基因示例如下所述。此外,可能需要使用自动地制作局部定线作为锚点,以加快定线程序,如[18]. 请注意,只要基因之间的相对顺序保持不变,基因边界集就必然是一致的。然而,自动创建的锚点很可能是不一致的与那些“生物定义的”锚或相互不一致。由于从专家知识中得出的锚点应该比某些软件程序识别的锚点更可靠,因此首先接受已知基因边界作为锚点,然后在与已知基因边界一致的条件下使用自动创建的局部比对是有意义的。因此,在这种情况下,可以使用局部对齐分数作为自动地创建了锚定点,而可以将任意定义的更高分数分配给生物学上验证基因边界。

应用于霍克斯基因簇

如上所述,串联复制为自动对齐算法带来了一个难题。因此,这种同源基因簇特别难以对齐。作为一个现实例子,我们在这里考虑霍克斯脊椎动物的基因簇。霍克斯调节大多数双侧壁动物前/后模式的同源域转录因子的基因编码[2627]. 这组基因,以及所谓的ParaHox公司基因,在后生动物历史早期起源于单一祖先“UrHox基因“[28]. 它们的早期进化主要由一系列串联复制所控制。因此,大多数双壳类动物至少有八种不同的类型(节肢动物,脊索动物有13或14种),通常被称为寄生虫类。这些霍克斯基因通常被组织成紧密相连的簇,这样5′端的基因(第9-13组)决定动物后部的特征,而3′端的遗传基因(第1-3组)决定前部的模式。

与所有已知的无脊椎动物相比,到目前为止所调查的所有脊椎动物谱系都显示了多种霍克斯在早期脊椎动物进化和后来的放线鱼(鳍鳐)谱系中,可能通过基因组复制产生的集群[2933]. 这些重复事件之后,不同谱系中的重复基因大量丢失[34]获取硬骨鱼类状况的最新综述。个人霍克斯颚体簇的长度约为100000nt,除了一组同源基因外,还共享大量保守的非编码DNA[35]主要由转录因子结合位点组成。然而,最近,其中一些“系统发育足迹”被鉴定为微RNA[36]。

2显示七个中的四个霍克斯河豚群红色Takifugu尽管事实上霍克斯一个寄生虫群中的基因彼此之间的相似性明显高于其他寄生虫群的成员,有几个特征使得这个数据集特别困难,并且容易误导自动比对过程:霍克斯paralogy组和埃夫克斯该基因存在于所有四个序列中。(2) 两个基因,霍克斯C8a霍克斯A2a仅以单个序列存在。(3) 这些簇具有不同大小和数量的基因(33481 nt到125385 nt,4到10个基因)。

图2
图2

河豚红色Takifugu有七个霍克斯我们在计算示例中使用了四个簇。这个埃夫克斯基因,另一个家庭域转录因子通常与霍克斯基因,可以被视为霍克斯集群。显示了寄生虫群。填充框表示完好无损霍克斯基因,打开的方框表示霍克斯A7a假基因[45]。

图3
图3

上DIALIGN运行的结果霍克斯图2中的序列没有锚定。该图表示按比例排列的序列和基因位置。所有错误对齐的片段(定义为基因的一部分与来自不同寄生虫群的基因部分对齐)都由序列之间的线表示。

我们观察到,如果不锚定DIALIGN,许多霍克斯本例中的基因通过匹配来自一个基因块的基因霍克斯带有a部分的基因霍克斯来自不同寄生虫群的基因。因此,应该对齐的基因,例如HoxA1Oa公司HoxDIOa公司,不相互对齐。

锚定对齐可能会使包含对齐序列位置的列数从3870增加到4960,即增加了约28%,见表2同时,CPU时间几乎减少了3倍。

我们不仅调查了生物学的锚固和非锚固线形的质量数字的分数。请注意,在DIALIGN中,对齐的分数定义为其组成片段的权重分数之和[17]. 对于一些序列集,我们发现锚定比对的分数高于非锚定比对,而对于其他序列,非锚定的分数超过锚定比对。例如,使用图中所示的序列集2,生物学上更有意义的锚定线形的线形得分>13%在下面非锚固线形(见表1). 相比之下,另一个序列设置了五个霍克斯A三种硬骨鱼类的簇序列(TrAa、TnAa、DrAb、TrAb、TnAb)(红色塔基福古,Tr;金娃娃,Tn;达尼奥雷里奥,Dr)得出的锚定对齐分数约为15%在上面非锚定分数。

表1图2的府谷示例中不同锚的效果。我们考虑基因间区域(即。,外部编码区和内含子)。第2列给出了DIALIGN为其添加了至少一个未在原始TRACKER足迹中表示的额外序列的序列位置数。第3列列出了足迹中未被跟踪器检测到但被锚定DIALIGN对齐的核苷酸总数。
表2河豚中片段比对产生的对齐序列位置霍克斯集群示例。为了比较这些比对,我们分别计算了两个、三个或四个残基对齐的列数。这里,我们只计算了DIALIGN输出中的大写残基,因为小写残基不被认为与DIALIGN对齐。当使用更多锚时,对齐两个或三个残基的列数增加,而对齐所有序列的列数减少。这是因为在我们的示例中没有单个霍克斯该基因包含在所有四个输入序列中,见图2。因此,这些序列的生物学正确比对不应包含四个残基的色谱柱。CPU时间是在带有两个Intel Xeon 2.4GHz处理器和1 GB RAM的PC上测量的。

锚定蛋白比对

BAliBASE是一个基准数据库,用于评估多蛋白比对软件程序的性能[37]. 该数据库由大量具有已知3D结构的蛋白质家族组成。这些结构用于定义所谓的堆芯块已知的“生物正确”排列。有两种评分系统用于评估BAliBASE蛋白家族多重比对的准确性。BAliBASE一对一总结score测量核心区块内正确对齐的氨基酸残基对的百分比。相比之下列得分测量核心块中正确对齐的列的百分比,请参阅[3810]了解更多详细信息。这些BAliBASE评分函数不能与不同对齐算法使用的目标函数混淆。

因此,可以通过正确对齐这些核心块的能力来评估对齐程序。BAliBASE涵盖了各种对齐情况,例如具有全局相似性的蛋白质家族或具有较大内部或末端插入或缺失的蛋白质家族。然而,值得一提的是,BAliBASE标准版本中的大多数序列是真实世界的序列,但被数据库作者人工截断,他们只是简单地删除了序列的非同源C末端或N末端部分。只有最新版本的BAliBASE提供了原始全长序列集以及之前截断的数据。因此,大多数基于BAliBASE的研究都有强烈的偏向全球的对齐程序,如CLUSTAL W[1]; 这些程序在BAliBASE数据上的表现要比在真实的全长蛋白质序列上的表现好得多。基于地方的另一方面,序列相似性是系统的低估由BAliBASE编制。尽管存在这种系统性错误,但在BAliBASE上的测试运行可以大致了解多对齐程序在不同情况下的性能。

DIALIGN在BAliBASE中包含大量插入和删除的数据集上表现良好。另一方面,在那些同源性延伸到整个序列长度但在原始序列级别相似性较低的数据集上,全局对齐方法的性能往往优于全局对齐方法。对于该程序的进一步发展和改进,找出DIALIGN的哪些成分是导致该程序在这种if序列族上的低劣性的原因是至关重要的。一种可能性是,BAliBASE上具有生物学意义的比对将具有较高的数值分数,但DIALIGN使用的贪婪启发式效率低下,返回的低分数比对无法正确对齐核心块。在这种情况下,可以使用更有效的优化策略来提高DIALIGN在BAliBASE上的性能。另一方面,DIALIGN中使用的评分函数可能会将最高分数分配给生物学上错误的比对。在这种情况下,改进的优化算法不会导致输出比对生物质量的任何改善,有必要改进程序使用的目标函数。

为了找出DIALIGN的哪一部分对BAliBASE数据的不满意性能负有责任,我们将我们的程序应用于BAliBACE()使用程序的非锚定默认版本和(b条)使用堆芯块作为锚点,以便执行生物上正确的序列比对。然后,我们比较了锚定路线和非锚定默认路线的数字DIALIGN分数。表中总结了这些程序运行的结果。(生物学上正确的)锚定线形的数值线形得分结果是轻微的在下面非锚定默认路线的分数。

表3 BAliBASE五个参考测试集的锚固和非锚固对准DIALIGN对准分数。我们使用所谓的堆芯块在BAliBASE中,从而加强输入序列的生物正确对齐。第一行和第二行中的数字表示各自参考集中所有蛋白质家族的DIALIGN比对分数之和。第四行包含锚固的序列集数量改进对齐分数以及此参考集中序列集的总数。我们的测试运行表明,在这些测试数据中,具有生物学意义的比对的DIALIGN得分并不高于程序默认版本生成的比对。

例如,图4显示了由BAliBASE参考集的非锚定默认DIALIGN版本计算的路线lr69号公路该序列集由四种DNA结合蛋白组成,并且是一个具有挑战性的比对实例,因为在初级序列水平上只有微弱的相似性。这些蛋白质包含三种堆芯块基于三维结构信息,已知可靠的多对齐。如图所示4,由于序列相似性水平低,大多数核心块被DIALIGN错位。使用BAliBASE多对齐记分系统,DIALIGN生成的默认对齐具有双方总分只有33%,即核心区中33%的氨基酸对正确对齐。这个列得分0%,即没有一列正确对齐的核心块。

图4
图4

一组具有已知3D结构的蛋白质序列的锚定和非锚定对齐(来自BAliBASE的数据集lr69[38])。三个堆芯块以红色、蓝色和绿色显示已知的“正确”对齐。(A)DIALIGN使用默认选项计算的路线。大多数芯块未对齐。(B)DIALIGN计算的对准锚固选项。第三块的第一个位置被用作定位点,即程序被强迫以正确对齐此列。给定此定位点定义的约束,DIALIGN将自动对齐其余序列。虽然只有一根柱子用于锚固,但树块几乎完全对齐。

我们研究了在这个测试示例中,为了实现三个核心块的正确对齐,需要多少个锚定点。事实证明,使用一列核心块作为锚定点就足够了,即第三个图案的第一列。从技术上讲,这可以通过使用三个长度各为一的锚定点来实现:将序列1中该核心块的第一个位置与序列2中的相应位置连接起来的锚定点,将序列1与序列3连接起来的另一个锚定点,以及将序列1和序列4连接起来的第三个锚定点。虽然我们的锚定点仅对单个列强制正确对齐,但核心块的大多数部分都已正确对齐,如图所示4结果比对的BAliBASE汇总得分为91%,而列得分为90%,因为核心块的20列中有18列正确对齐。与BAliBASE的一般情况一样DIALIGN得分(生物学意义上的)锚定比对的得分低于(生物学错误的)默认比对的得分。锚固线形的DIALIGN得分为9.82,而非锚固线形为11.99,因此此处锚固线形的得分比非锚固线形的分数低18%左右。

锚定比对用于系统发育足迹

非编码序列中的进化保守区域是发现基因调控区的潜在丰富来源。当功能元件受到稳定选择时,相邻的非功能DNA进化得更快。因此,通过比较基因组学,可以在整体相似性较低的同源非编码序列中检测到保护区,即所谓的系统发育足迹[39]. 包括DIALIGN在内的对齐算法被提倡用于此任务。然而,如前一节中的示例所示,在应用于大基因组区域和同源基因簇时,锚定比对成为必要。虽然穿插重复通常使用例如。重复遮罩它们需要在系统发育足迹的背景下加以考虑:如果一个序列基序被保存了数亿年,那么它很可能已经成为一个调控区域,即使它是(类似)一些正在考虑的生物体中的重复序列[40]。

系统发育足迹程序跟踪器[41]是专门为在大基因簇中搜索保守的非编码序列而设计的。它基于与基于分段的对齐算法类似的原理。TRACKER程序使用BLASTZ计算所有输入序列的成对局部对齐[42]具有非精简设置。BLASTZ允许长基因组序列与大量中性进化区域对齐。一个后处理步骤旨在删除因其序列复杂性低和保守性低而被识别的简单重复序列。然后将两两对齐的结果列表组合成部分重叠区域的簇。在这里,该方法与DIALIGN存在相同的问题,但以不同的方式解决:TRACKER没有生成单个局部最优对齐,而是列出了所有最大兼容的成对对齐集。对于图的情况1(C)例如,我们获得了M(M)2M(M)M(M)2M(M)由于此步骤是基于序列间隔的重叠而执行的,根本没有明确考虑序列信息,因此只要冲突的两两对齐数量保持较小,TRACKER就非常快。在最后一步中,DIALIGN用于显式计算属于单个簇的子序列的多序列比对。

对于初始的成对局部比对步骤,搜索空间仅限于同源基因间区域、平行链和连锁点击。因此,TRACKER有效地计算了锚定在BLASTZ片段基因上的比对。

我们已经注意到[43]一般来说,DIALIGN比TRACKER更敏感。这是因为与BLASTZ返回的较大连续碎片相比,使用DIALIGN检测到较小且不太重要的碎片。BLASTZ和锚定型DIALIGN的结合似乎是一种非常有希望的系统发育足迹方法。它利用了BLASTZ的比对特异性和DIALIGN的敏感性。锚定适当基因(具有最大权重)和BLASTZ点击(具有较小权重,例如与–log成比例)的组合E类值)将DIALIGN对齐的CPU要求降低了一个数量级以上。虽然这仍然比TRACKER慢得多(20分钟vs.40秒),但在河豚的例子中,它将方法的灵敏度提高了约30-40%,表1正在进行的工作旨在改进当地多重线形的重要性措施。关于基于锚定片段的比对与系统发育足迹的更彻底的讨论将在其他地方发表。

结论

自动校准程序基于简单的算法规则。对于给定的一组输入序列,他们试图找到与一些潜在目标函数意义上的最大得分对齐。因此,序列比对中的两个基本问题是()定义一个有意义的目标函数(b条)设计一种有效的优化算法,该算法可以找到与所选目标函数相关的最优或至少接近最优的对齐。大多数多对齐程序正在使用启发式的优化算法,即它们通常无法找到相对于目标函数的数学最优对齐。应指定序列比对的目标函数数字上的高分达到生物学上有意义的对齐。然而,显然不可能找到普遍地适用的目标函数,在所有可能的情况下为生物学上正确的比对提供最高的数值分数。这就是校准程序可能无法产生生物学上合理的输出校准的主要原因。事实上,无法定义通用目标函数是对全部的自动对齐算法。

通常,用户已经熟悉了他或她想要对齐的序列族,因此可以获得一些关于现有序列同源性的知识。此类专家知识可用于指导其他自动校准程序。为了便于将专家知识用于序列比对,我们提出了一种锚定定线其中可以使用已知的同源性来限制对准搜索空间。在自动程序无法生成有意义的对齐的情况下,这可以明显提高生成的输出对齐的质量。此外,可以使用对齐锚来减少程序运行时间。对于霍克斯我们分析的基因簇,DIALIGN的非锚定版本产生了严重的错位。我们使用已知的基因边界作为锚定点,以确保这些基因之间的正确对齐。

自动校准程序可能无法产生生物正确校准的原因有两个()所选的目标函数可能与生物学不一致,也就是说,它可能会将数学上的高分分配给生物学上错误的比对。在这种情况下,即使是高效的优化算法也会导致无意义的对齐。(b条)数学上的最优比对具有生物学意义,但使用的启发式优化程序无法找到得分最高的比对。对于对齐算法的进一步发展,关键是找出这些原因中的哪一个是现有软件程序产生的不对齐的原因。如果()对于校准计划,通常应努力改进其潜在的目标功能。如果(b条)在这种情况下,可以通过使用更有效的优化算法来提高输出比对的生物质量。对于DIALIGN,不知道生成的比对与数值最优比对有多接近——事实上,可以构造示例序列,其中DIALIGN的贪婪启发式生成的比对得分与可能的最佳比对得分相比任意低。

在河豚的例子中,图2,的数字的(锚定的)正确对齐的对齐分数比非锚定对齐的分数低13%。图中的所有序列2仅包含13个霍克斯寄生虫群,不同的序列包含不同的基因。对于这样一个极端的数据集,任何合理的目标函数都不太可能为生物学上正确的比对分配最佳分数。这里的问题是序列相似性不再与生物同源性一致。在这种情况下产生良好线形的唯一方法是强制执行将某些已知同源性相互对齐的程序。通过我们的锚定方法,我们可以做到这一点,例如使用已知的基因边界作为锚定点

对于BAliBASE基准数据库,(生物学意义上的)锚定比对的总分数也低于(生物学错误的)非锚定默认比对的分数。

这意味着,改进的优化算法不会导致这些序列的生物改良比对。然而,在这种情况下,序列相似性和同源性之间存在一些对应关系,因此应该希望通过设计更好的目标函数来提高DIALIGN在这些数据上的性能。BAliBASE中的一个有趣示例如图所示4在这里,我们程序的非锚定默认版本产生了一个完全不对齐。然而,这足以强制一个单一的列使用相应的锚定点对整个序列进行有意义的对齐,其中不仅一个锚定列,而且三个核心块中的大多数都正确对齐。这表明芯块的正确对齐对应于局部最大值在路线景观中。

相反,硬骨鱼HoxA公司集群示例锚固线形的数值得分约为15%在上面非锚固路线的得分。这表明DIALIGN使用的贪婪优化算法可以导致得分远低于最佳对齐的结果。在这种情况下,改进的优化算法不仅可能导致数学上的更高核比对,还可能导致更接近生物正确比对的比对。我们将使用我们的锚定对齐方法系统地研究基于分段的多序列对齐方法的目标函数和优化算法的效率。

计划可用性

该程序可在线下载,并可在哥廷根生物信息学计算服务器(GOBICS)下载源代码[44]。

工具书类

  1. Thompson JD、Higgins DG、Gibson TJ:CLUSTAL W:通过序列加权、特定位置间隙惩罚和权重矩阵选择提高渐进式多序列比对的敏感性。核酸研究。1994, 22: 4673-4680.

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  2. Morgenstern B:DIALIGN:BiBiServ的多重DNA和蛋白质序列比对。核酸研究。2004年第32期:W33-W36。10.1093/nar/gnh029年10月10日

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  3. Notredame C,Higgins D,Heringa J:T-Coffee:一种新的多序列比对算法。分子生物学杂志。2000, 302: 205-217. 2006年10月10日/jmbi.000.4042

    第条 公共医学 中国科学院 谷歌学者 

  4. 名称C:多序列比对的最新进展:一项调查。药物基因组学。2002, 3: 131-144. 10.1517/14622416.3.1.131

    第条 公共医学 中国科学院 谷歌学者 

  5. Lee C,Grasso C,Sharlow MF:使用偏序图的多序列比对。生物信息学。2002, 18 (3): 452-464. 10.1093/生物信息学/18.3.452

    第条 公共医学 中国科学院 谷歌学者 

  6. Edgar R:肌肉:具有高得分准确性和高通量的多序列比对。Nuc Acids Res.2004,32:1792-1797。10.1093/nar/gkh340。

    第条 中国科学院 谷歌学者 

  7. Do CB、Mahabhashyam MS、Brudno M、Batzoglou S:ProbCons:基于概率一致性的多序列比对。基因组研究。2005, 15: 330-340. 10.1101/克2821705

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  8. Lassmann T,Sonnhammer EL:多重校准计划的质量评估。FEBS信函。2002, 529: 126-130. 10.1016/S0014-5793(02)03189-7

    第条 公共医学 中国科学院 谷歌学者 

  9. Pollard DA、Bergman CM、Stoye J、Celniker SE、Eisen MB:功能性非编码DNA比对的基准工具。BMC生物信息学。2004, 5: 6-http://www.biomedcentral.com/1471-2105/5/6.10.1186/1471-2105-5-6

    第条 公共医学 公共医学中心 谷歌学者 

  10. Thompson JD、Plewniak F、Poch O:蛋白质序列比对程序的综合比较。核酸研究。1999, 27: 2682-2690. 10.1093/nar/27.13.2682

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  11. Schuler GD、Altschul SF、Lipman DJ:多重线形构造和分析的工作台。蛋白质:结构、功能和遗传学。1991, 9: 180-190. 10.1002/port.340090304。

    第条 中国科学院 谷歌学者 

  12. Roytberg M、Ogurtsov A、Shabalina S、Kondrashov A:基因组共线区域对齐的层次方法。生物信息学。2002, 18: 1673-1680. 10.1093/生物信息学/18.12.1673

    第条 公共医学 中国科学院 谷歌学者 

  13. Ogurtsov A、Roytberg M、Shabalina S、Kondrashov A:欧文:基因组的长共线区域对齐。生物信息学。2002年,18:1703-1704。10.1093/生物信息学/18.12.1703

    第条 公共医学 中国科学院 谷歌学者 

  14. Myers G,Selznick S,Zhang Z,Miller W:带约束的渐进多重对齐。计算生物学杂志。1996, 3:

    谷歌学者 

  15. Sammeth M、Morgenstern B、Stoye J:基于分段约束的分治对齐。生物信息学,ECCB特刊。2003年,19:iil89-iil95。

    谷歌学者 

  16. Morgenstern B,Dress A,Werner T:基于片段间比较的多重DNA和蛋白质序列比对。美国国家科学院院刊,1996,93:12098-12103。10.1073/pnas.93.22.12098

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  17. Morgenstern B:DIALIGN 2:改进多序列比对的分段到分段方法。生物信息学。1999, 15: 211-218. 10.1093/生物信息学/15.3.211

    第条 公共医学 中国科学院 谷歌学者 

  18. Brudno M、Chapman M、Göttgens B、Batzoglou S、Morgenstern B:大基因组序列的快速、灵敏多重比对。BMC生物信息学。2003, 4: 66. 10.1186/1471-2105-4-66

    第条 公共医学 公共医学中心 谷歌学者 

  19. Morgenstern B、Rinner O、Abdedaim S、Haase D、Mayer K、Dress A、Mewes HW:通过基因组序列比对发现外显子。生物信息学。2002, 18: 777-787. 10.1093/生物信息学/18.6.777

    第条 公共医学 中国科学院 谷歌学者 

  20. Huang W,Umbach DM,Li L:发散序列的精确锚定对准。生物信息学。2006, 22: 29-34. 10.1093/生物信息学/bti772

    第条 公共医学 中国科学院 谷歌学者 

  21. Morgenstern B、Werner N、Prohaska SJ、Schneider RSI、Subramanian AR、Stadler PF、Weyer-Menkhoff J:GOBICS中用户定义约束的多序列比对。生物信息学。2005, 21: 1271-1273. 10.1093/生物信息学/bti142

    第条 公共医学 中国科学院 谷歌学者 

  22. Benson G:串联重复序列比对。《复合生物学杂志》。1997, 4: 351-367.

    第条 中国科学院 谷歌学者 

  23. Heringa J:内部重复的检测:它们有多常见?。当前操作结构生物。1998, 8: 338-345. 10.1016/S0959-440X(98)80068-7。

    第条 中国科学院 谷歌学者 

  24. Morgenstern B:一种简单且节省空间的片段捕获算法,用于DNA和蛋白质序列的比对。应用数学快报。2002, 15: 11-16. 10.1016/S0893-9659(01)00085-4。

    第条 谷歌学者 

  25. Abdeda-im S,Morgenstern B:通过使用“贪婪的生物序列比对库”(GABIOS-LIB)加速DIALIGN多重比对程序。计算机科学课堂讲稿。2001年,2066:1-11。

    第条 谷歌学者 

  26. Duboule D,DolléP:小鼠HOX基因家族的结构和功能组织类似于果蝇同源基因。EMBO期刊8:

  27. McGinnis W,Krumlauf R:同源框基因和轴向模式。单元格。1992, 68: 283-302. 10.1016/0092-8674(92)90471-N

    第条 公共医学 中国科学院 谷歌学者 

  28. Ferrier DEK,荷兰普华永道:霍克斯基因簇。Nat Rev基因。2001, 2: 33-38. 10.1038/35047605

    第条 公共医学 中国科学院 谷歌学者 

  29. Holland PWH、Garcia-Fernández J、Williams NA、Sidow A:基因复制和脊椎动物发育的起源。发展。1994, 125-133. 供应商

  30. Garcia-Fernández J,Holland PW:文昌鱼Hox基因簇的原型组织。自然。1994, 370: 563-566. 10.1038/370563a0

    第条 公共医学 谷歌学者 

  31. Amores A、Force A、Yan YL、Joly L、Amemiya C、Fritz A、Ho RK、Langeland J、Prince V、Wang YL、Westerfield M、Ekker M、Postlethwait JH:斑马鱼霍克斯集群和脊椎动物基因组进化。科学。1998, 282: 1711-1714. 10.1126/科学282.5394.1711

    第条 公共医学 中国科学院 谷歌学者 

  32. Hoegg S,Meyer A:Hox聚类作为脊椎动物基因组进化的模型。趋势Genet。2005, 21 (8): 421-424.http://www.hubmed.org/display.cgi?uids=159675372016年10月10日/j.tig.2005.06.004

    第条 公共医学 中国科学院 谷歌学者 

  33. Crow KD、Stadler PF、Lynch VJ、Amemiya CT、Wagner GP:鱼类特有的Hox集群复制与硬骨鱼类的起源一致。分子生物学进化。2006, 23: 121-136. 10.1093/molbev/msj020

    第条 公共医学 中国科学院 谷歌学者 

  34. Prohaska SJ,Stadler PF:复制霍克斯硬骨鱼类的基因簇。Theor Biosci公司。2004, 123: 89-110. 2016年10月10日/j.thbio.2004.03.004。

    第条 中国科学院 谷歌学者 

  35. Chiu CH、Amemiya C、Dewar K、Kim CB、Ruddle FH、Wagner GP:三种主要颚毛类谱系中HoxA簇的分子进化。美国国家科学院院刊,2002年,99:5492-5497。10.1073/pnas.052709899

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  36. Yekta S、Shih Ih、Bartel DP:MircoRNA-定向切割第页,共页mRNA。科学。2004, 304: 594-596. 10.1126/科学.1097434

    第条 公共医学 中国科学院 谷歌学者 

  37. Thompson JD、Koehl P、Ripp R、Poch O:BAliBASE 3.0:多序列比对基准的最新发展。蛋白质:结构、功能和生物信息学。2005, 61: 127-136. 10.1002/port.20527。

    第条 中国科学院 谷歌学者 

  38. Thompson JD,Plewniak F,Poch O:BAliBASE:用于评估多序列比对程序的基准比对数据库。生物信息学。1999, 15: 87-88. 10.1093/生物信息学/15.1.87

    第条 公共医学 中国科学院 谷歌学者 

  39. Tagle D、Koop B、Goodman M、Slightom J、Hess D、Jones R:原猴灵长类(Galago crassicatus)的胚胎ε和γ-珠蛋白基因:核苷酸和氨基酸序列、发育调控和系统发育足迹。分子生物学杂志。1888, 203: 439-455. 10.1016/0022-2836(88)90011-3.

    第条 谷歌学者 

  40. Vansant G,Reynolds WF:主要Alu亚家族的一致序列包含功能性维甲酸反应元件。美国国家科学院院刊1995,92:8229-8233。http://www.hubmed.org/display.cgi?uids=766727310.1073/pnas.92.18.8229

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  41. Prohaska S、Fried C、Flamm C、Wagner GP、Stadler PF:调查大基因簇中的系统发育足迹:Hox簇复制的应用。分子进化生理学。2004, 31: 581-604. 2016年10月10日/j.ympev.2003.08.009。

    第条 中国科学院 谷歌学者 

  42. Schwartz S、Kent WJ、Smit A、Zhang Z、R Baertsch RH、Haussler D、Miller W:与BLASTZ的人-鼠对齐。基因组研究。2003, 13: 103-107. 10.1101/gr.809403

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

  43. Prohaska SJ,Fried C,Flamm C,Stadler PF:大基因簇中的系统发育足迹模式。莱比锡大学生物信息学组技术代表,2003年。扩展摘要:德国生物信息学会议记录。编辑:Mewes H-W,Heun V,Frishman D,Kramer S.2003,II:145-147。贝尔维尔·弗拉格·迈克尔·法林(belleville Verlag Michael Farin),慕尼黑,http://www.bioinf.uni-leipzig.de/Publications/POSTERS/P-005abs.pdf

    谷歌学者 

  44. 哥廷根生物信息学计算服务器。http://gobics.de/

  45. Chiu CH、Dewar K、Wagner GP、Takahashi K、Ruddle F、Ledje C、Bartsch P、Scemama JL、Stellwag E、Fried C、Prohaska SJ、Stadler PF、Amemiya CT:比希尔霍克斯A聚类序列揭示了鳍鳍鱼类基因组进化的惊人趋势。《基因组研究》2004,14:11-17。10.1101/gr.1712904

    第条 公共医学 中国科学院 公共医学中心 谷歌学者 

下载参考资料

致谢

我们要感谢Jan Weyer Menkhoff、Isabelle Schneider、Rasmus Steinkamp和Amarendran Subramanian在软件开发和评估方面的支持,以及Peter Meinike对手稿的批判性阅读。这项工作得到了DFG向BM授予MO 1048/1-1、BMBF向BM提供01AK803G(Medigrid)以及DFG生物信息学倡议BIZ-6/1-2向SJP和PFS提供的支持。

作者信息

作者和附属机构

作者

通讯作者

与的通信伯克哈德·摩根斯顿

其他信息

竞争性利益

提交人声明他们没有相互竞争的利益。

作者提交的原始图像文件

权利和权限

本文由BioMed Central Ltd.授权发布。这是一篇根据知识共享署名许可条款发布的开放存取文章(http://creativecommons.org/licenses/by/2.0)它允许在任何介质中不受限制地使用、分发和复制原始作品,前提是正确引用了原始作品。

转载和许可

关于本文

引用这篇文章

Morgenstern,B.,Prohaska,S.J.,Pöhler,D。等。使用用户定义的定位点进行多序列对齐。分子生物学算法 1, 6 (2006). https://doi.org/10.1186/1748-7188-1-6

下载引文

  • 收到:

  • 认可的:

  • 出版:

  • 内政部:https://doi.org/10.1186/1748-7188-1-6

关键词