摘要

DIALIGN是一种广泛使用的用于多重DNA和蛋白质序列比对的软件工具。该程序结合了局部和全局对齐功能,因此可以应用于无法通过更传统的方法正确对齐的序列数据。DIALIGN可通过Bielefeld生物信息服务器(BiBiServ)在线获取。该程序的可下载版本提供了几个新的程序功能。为了比较不同对准程序的输出,我们开发了AltAVisT程序。我们的软件位于http://bibiserv.TechFak.Uni-Bielefeld.DE/拨号/.

收到日期:2004年2月13日;修订并接受2004年3月10日

多序列比对在DNA和蛋白质序列分析的各个方面都具有重要意义。它被用作蛋白质结构预测和分类、系统发育重建、蛋白质结构域分析和基因组序列中功能位点识别的第一步和关键步骤,仅提及几个重要应用。因此,多比对方法的开发和改进对于分子生物学和基因组学的所有分支都至关重要,参见(1)了解现有多种对齐方法的概述。一个广泛使用的DNA和蛋白质多重比对软件工具是DIALIGN(2,)。该程序在各个方面与更传统的多对齐算法不同。这些传统方法通常分为以下两类全球性的地方的方法。这不适用于远相关序列,其中多个保守域可能被序列的非相关部分分隔。在这种情况下,无论是纯粹的全局方法还是纯粹的局部方法都不能产生有意义的对齐。

DIALIGN方法

与标准方法相比,DIALIGN结合了全局和局部对齐功能。它从局部组合成对和多重对齐碎片对齐碎片更准确地说,路线由等长线段对组成,具有一些统计显著的相似性。注意,用户无法直接看到这些段对;程序内部使用它们从给定的输入数据集构造对齐。间隙不会受到惩罚,程序也不会尝试对齐与其他输入序列没有明显相似性的序列部分。因此,对于仅具有局部同源性的序列集,比对仅限于那些同源性,并且程序忽略序列的非相关部分。在这种情况下,DIALIGN返回地方的对齐。然而,对于全局相关的序列,程序会找到覆盖整个序列长度的片段对(片段),因此它会返回一个完整的全球性的对齐。为序列族创建全局和局部对齐的混合,其中局部相似岛由无关序列分隔。在这里,程序将这些相似性对齐,而不对齐非相关序列部分。因此,DIALIGN比传统对齐方法更加通用;它可以应用于使用标准方法无法正确对齐的大范围序列数据。

在过去几年中,进行了几项独立的研究,以比较和评估多蛋白比对软件的性能。汤普森.使用了基准路线的BAliBASE数据库(4)以评估常用的软件工具。BAliBASE主要包含全球相关蛋白。在这项研究中,DIALIGN被发现是对插入和删除较大序列的最佳程序,而CLUSTAL W等标准程序(5)在全球相关蛋白家族中表现优异(6)。最近的一个项目比较证实了这些发现(7)。这项研究还包括新开发的T-COFFEE项目(7)发现其在BAliBASE的所有五个序列类别中均优于。与DIALIGN一样,T-COFFEE结合了全局和局部对齐功能。迄今为止,Lassmann和Sonnhammer对蛋白质多排列程序进行了最全面的评估(8)。这些作者不仅使用了全局相关序列,还使用了人工序列,其中保守模体由非相关随机序列分离,对应于蛋白质的结构域组织。他们得出结论,目前有三种方法对多蛋白比对最有效,即DIALIGN、T-COFFEE和POA(9); 他们的论文总结道:“总的来说,DIALIGN在低序列同源性的病例中最准确,而T-COFFEE在高序列同源性病例中获胜。快速POA算法几乎同样准确(8).

BiBiServ拨号

从一开始,DIALIGN就发展成为非商业研究小组之间的非正式合作。来自不同研究所的研究人员以各种方式为该项目的发展做出了贡献(10——14)并探索了基于分段对齐问题的新算法解决方案(15,16)。为了推进该程序的进一步开发,并使其不受科学界限制地可用,未来的版本将根据GNU通用公共许可证作为开放源代码发布。

大部分项目开发工作都是在德国比勒费尔德大学进行的。因此,DIALIGN主页位于Bielefeld生物信息服务器(BiBiServ),在那里可以获得最新的程序版本,可以作为UNIX/LINUX平台的可执行文件,也可以根据要求作为源代码。为了方便非计算机专家使用DIALIGN,我们在BiBiServ上设置了WWW服务器。服务器接受多达100个DNA或蛋白质序列的多个序列集。输入序列以FASTA格式输入,可以通过窗口输入,也可以通过上传单个多序列文件输入。将创建一个网页,其中包含三种不同格式(DIALIGN、FASTA和MSF)的输出对齐链接。对于较大的数据集,可以将此页面标记为书签,以便在程序运行终止后检索结果。有一个阈值参数可用于控制组装对齐的片段(片段对)的最小相似性分数。对于DNA序列,片段对的相似性可以在核苷酸水平-通过比较核苷酸-by-核苷酸或蛋白质水平首先根据遗传密码翻译它们,然后比较隐含的肽段。

新程序功能

可下载程序提供了几个新选项,用于修改对齐策略和替代输出格式。

  • 该程序最重要的附加功能是可以使用对齐(13)。这意味着用户可以指定任意序列位置和将这些位置相互对齐的程序。然后将这些局部路线用作锚点对随后的自动对准过程施加一定的约束。锚定选项可以应用于专家知识以提高对准质量。或者,可以使用锚点来减少路线搜索空间和运行时间。在这种情况下,可以使用CHAOS等快速局部对齐搜索工具创建定位点(14)。DIALIGN检查预定义锚点列表的一致性,并在必要时拒绝不一致的锚点。

  • 相反,用户可以指定要排除不实施替代路线。在已知标准程序输出在生物学上是错误的,但另一种正确对齐方式不明显的情况下,此选项很有用。

  • 一些新的比对特征可用于基因组序列的比对。这些选项主要涉及基因组序列之间不同水平的序列相似性;详细信息请参阅(13).

  • 可以使用各种启发式方法来加速程序。例如,可以减少片段对(片段)的最大长度,并且可以对片段的初始相似性值施加阈值,以减少考虑对齐的片段总数。

  • 除了默认的DIALIGN输出格式外,对齐可以FASTA、CLUSTAL或MSF格式返回。

  • 考虑对齐的所有片段的列表可以在单独的输出文件中返回。或者,可以生成包含在各自最佳成对比对或最终多重比对中的片段列表。

  • 氨基酸取代频率可以根据考虑比对的片段计算。此选项已用于计算速率矩阵由Devauchelle提议. (17).

使用AltAVist进行校准比较

原始DIALIGN算法的另一个扩展是可以比较DIALIGN创建的路线与替代程序创建的路线。在所有可能的条件下,没有自动校准程序可以产生具有生物学意义的校准。因此,通常在序列集上运行多个软件程序,并比较不同的输出比对。不同工具一致的对齐区域通常被认为比不一致的区域更可靠。AltAVisT(备选路线可视化工具)程序(18)比较相同序列集的两个不同多重比对。它搜索这两条路线所在的区域重合并返回这些区域的图形表示,如所示图1。如果上传了多序列集,AltAVisT将同时运行DIALIGN和CLUSTAL W(5)并比较两个结果对齐。或者,可以上传和比较同一基础序列集的两个预先计算的多对齐。AltAVisT也可通过BiBiServ获得(http://bibiserv.TechFak.Uni-Bielefeld.DE/altavist网站/).

AltAVisT的多重比对。DIALIGN对齐与相同输入数据集的CLUSTAL W对齐进行比较。两条路线重合的区域以蓝色打印。不同对准方法的(局部)一致性通常表示对准可靠性。
图1。

AltAVisT的多重比对。DIALIGN对齐与相同输入数据集的CLUSTAL W对齐进行比较。两条路线重合的区域以蓝色打印。不同对准方法的(局部)一致性通常表示对准可靠性。

程序限制

近年来,大基因组序列比对已成为基因组序列分析的有力工具(19——21)。在各种研究项目中,发现DIALIGN对此很有用。然而,该程序的标准版本太慢,无法对齐数百千碱基或更多的序列。因此,我们将DIALIGN与Michael Brudno的快速局部对齐工具CHAOS相结合,以加快对齐过程(14)。一篇配套论文介绍了一个基于CHAOS和DIALIGN的基因组序列比对专用WWW服务器(22).

本文的在线版本是在开放存取模式下发布的。用户有权使用、复制、传播或展示本文的开放存取版本,但前提是:原创作者的身份是正确且完全的;《华尔街日报》和牛津大学出版社被认为是原始出版地,并提供了正确的引用细节;如果一篇文章随后不是全部复制或传播,而是部分复制或作为衍生作品传播,则必须明确指出。

我要感谢萨伊德·阿卜杜达伊姆和安德烈亚斯·德雷什对DIALIGN算法的各种贡献,伊莎贝拉·施奈德对编程的帮助,萨钦·戈尔对AltAVisT的工作,迈克尔·布鲁德诺对许多有用的讨论,亚历山大·斯齐尔巴、亨宁·默施和扬·克鲁格对BiBiServ和彼得·梅尼克的帮助,伊莎贝拉·施奈德、扬·韦耶·曼霍夫和马里奥·斯坦克批判地阅读了手稿。两位不知名的审稿人对原稿发表了有益的评论。

参考文献

1

诺特雷达姆,C(

2002
)多序列比对的最新进展:综述。
药物基因组学
,
,
131
–144.

2

Morgenstern,B.,Dress,A.和Werner,T(

1996
)基于片段间比较的多重DNA和蛋白质序列比对。
程序。美国国家科学院。科学。美国
,
93
,
12098
–12103.

三。

B.摩根斯顿(

1999
)DIALIGN 2:改进多序列比对的分段到分段方法。
生物信息学
,
15
,
211
–218.

4

J.D.汤普森、F.普列尼亚克和O.波奇(

1999
)BAliBASE:用于评估多序列比对程序的基准比对数据库。
生物信息学
,
15
,
87
–88.

5

汤普森,J.D.,希金斯,D.G.和吉布森,T.J(

1994
)集群W:通过序列加权、特定位置间隙惩罚和权重矩阵选择提高渐进式多序列比对的敏感性。
核酸研究。
,
22
,
4673
–4680.

6

Thompson,J.D.、Plewniak,F.和Poch,O(

1999
)蛋白质序列比对程序的综合比较。
核酸研究。
,
27
,
2682
–2690.

7

Notredame,C.、Higgins,D.和Heringa,J(

2000
)T-COFFEE:一种用于多序列比对的新算法。
分子生物学杂志。
,
302
,
205
–217.

8

Lassmann,T.和Sonnhammer,E.L(

2002
)多重校准计划的质量评估。
FEBS信函。
,
529
,
126
–130.

9

Lee,C.,Grasso,C.和Sharlow,M.F(

2002
)使用偏序图的多序列比对。
生物信息学
,
18
,
452
–464.

10

Abdedaim,S(

1997
)传递闭包和贪婪对齐的增量计算。第八届组合模式匹配年会论文集,计算机科学课堂讲稿第1264卷,斯普林格·弗拉格,海德堡,第167-179页。

11

Morgenstern,B.、Hahn,K.、Atchley,W.R.和Dress,A.W.M(

1998
)成对和多序列比对的分段分数。在格拉斯哥,J.,Littlejohn,T.,Major,F.,Lathrop,R.,Sankoff,D.和Sensen,C.(编辑),第六届分子生物学智能系统国际会议论文集,AAAI出版社,加利福尼亚州门罗帕克,第115-121页。

12

Abdedaim,S.和Morgenstern,B(

2001
)使用“生物序列贪婪比对库”(GABIOS-LIB)加速DIALIGN多重比对程序。
计算机课堂讲稿。科学。
,
2066
,
1
–11.

13

Morgenstern,B.,Rinner,O.,Abdedaim,S.,Haase,D.,Mayer,K.,Dress,A.和Mewes,H.-W(

2002
)通过基因组序列比对发现外显子。
生物信息学
,
18
,
777
–787.

14

Brudno,M.、Chapman,M.,Gottgens,B.、Batzoglou,S.和Morgenstern,B(

2003
)快速、敏感的大基因组序列多重比对。
BMC生物信息学
,
4
,
66
.

15

伦霍夫(Lenhof,H.-P.)、摩根斯顿(Morgenstern,B.)和雷内特(Reinert,K(

1999
)分段到分段多序列比对问题的精确解。
生物信息学
,
15
,
203
–210.

16

Sammeth,M.、Morgenstern,B.和Stoye,J(

2003
)使用基于分段的约束进行分而治之的对齐。
生物信息学
,
19
,
ii189个
–ii195。

17

Devauchelle C.、Grossmann A.、Henaut A.、Holschneider M.、Monnerot M.、Risler J.和Torresani B(

2001
)用于分析蛋白质序列大家族的速率矩阵。
J.计算。生物。
,
8
,
381
–399.

18

Morgenstern,B.、Goel,S.、Sczyrba,A.和Dress,A(

2003
)AltAVisT:用于比较备选多序列比对的WWW服务器。
生物信息学
,
19
,
425
–426。

19

W·米勒(

2001
)基因组DNA序列的比较:已解决和未解决的问题。
生物信息学
,
17
,
391
–397.

20

Chain,P.、Kurtz,S.、Ohlebusch,E.和Slezak,T(

2003
)以应用为中心的比较基因组学工具综述:功能、局限性和未来挑战。
简介。生物信息。
,
4
,
105
–123.

21

Pollard,D.A.,Bergman,C.M.,Stoye,J.,Celniker,S.E.和Eisen,M.B(

2004
)功能性非编码DNA比对的基准工具。
BMC生物信息学
,
5
,
6
.

22

Brudno,M.、Steinkamp,R.和Morgenstern,B(

2004
)CHAOS/DIALIGN WWW服务器用于基因组序列的多重比对。
核酸研究。
,
32
,
第41周
–W44。

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。