transAlign: using amino acids to facilitate the multiple alignment of protein-coding DNA sequences

Olaf RP Bininda-Emonds

doi:10.1186/1471-2105-6-156

BMC生物信息学。2005; 6: 156.

2005年6月22日在线发布。数字对象标识：10.1186/1471-2105-6-156

预防性维修识别码：项目经理1175081

PMID：15969769

反式比对：使用氨基酸促进蛋白质编码DNA序列的多重比对

审核人Olaf RP Bininda-Emonds公司¹

作者信息文章注释版权和许可信息 PMC免责声明

摘要

背景

同源DNA序列的比对对于比较基因组学和系统发育分析至关重要。然而，多重比对是一个计算困难的问题。对于蛋白质编码的DNA序列，对齐DNA序列指定的氨基酸序列而不是DNA序列本身在速度和准确性方面更为有利。许多使用“翻译比对”概念的实现都是不完整的，因为它们需要用户手动翻译DNA序列并执行氨基酸比对。因此，它们不太适合大型和/或大量DNA数据集的大规模自动比对。

结果

transAlign是一个开源Perl脚本，它通过蛋白质编码的DNA序列的氨基酸翻译来对其进行比对，以利用氨基酸比对的优越多重比对能力和速度。它的操作是将每个DNA序列翻译成相应的氨基酸序列，将整个基质传递给ClustalW进行比对，然后将所得的氨基酸比对反翻译以获得比对的DNA序列。在翻译步骤中，transAlign根据所需的遗传密码确定每个DNA序列的最佳方向和读取帧。它还可以检查DNA序列中的明显帧移位，并可以通过三种方式之一处理帧移位序列（删除、作为氨基酸对齐或作为DNA进行剖面对齐）。从哺乳动物的六个蛋白编码基因衍生出的一组比较基准表明，在transAlign中实施的策略总是可以提高蛋白质编码DNA序列比对的速度，通常还可以提高比对的表面准确性。

结论

transAlign代表了翻译对齐概念的少数几个完整和跨平台实现之一。执行翻译比对产生的优势和程序中可用的用户定义选项套件都意味着transAlign非常适合大规模自动比对非常大和/或非常多的蛋白质编码DNA数据集。然而，该程序提供的良好性能也可以转化为任何一组蛋白质编码序列的对齐。transAlign（包括源代码）可从以下网站免费获得：http://www.tierzucht.tum.de/Bininda-Emonds网站/（在“程序”下）。

背景

同源DNA序列的比对对于比较基因组学和系统发育分析至关重要[1]. 可以说，最准确的多重对准工具仍然是人眼。然而，序列数据量的增加和使用这些数据的项目范围的扩大意味着，在某些情况下，通常需要自动校准程序来实现最终校准。

对于蛋白质编码的DNA序列，从DNA序列指定的氨基酸残基获得的比对通常优于从DNA直接获得的比对，原因如下（另请参阅[2])。首先，氨基酸残基的对齐保留了编码序列的密码子结构，从而避免了在对齐过程中引入任何帧移位。其次，由于氨基酸在进化上比DNA更保守，也可能是因为氨基酸字母表比DNA字母表更大，因此在更长的时间内不太可能饱和于会聚取代，因此往往更容易在距离较远的生物体之间对齐氨基酸序列。第三，与核苷酸数据不同，氨基酸数据（例如BLOSUM）的过渡矩阵[三]，戈内特[4]，或PAM[5])是经验性推导出来的，因此可能更“生物学上真实”。核苷酸进化的许多不同可能模型（参见[6])事实上，不同的基因根据不同的模型进化，使得获得等效的全局核苷酸转移矩阵的可能性很小。最后，因为翻译的氨基酸序列是原始DNA序列的三分之一长，所以比对过程会更快。纯粹基于序列长度的差异，考虑到Smith-Waterman[7]许多多重对齐程序运行的基础序列的成对对齐算法哦(n个²)，其中n个=序列长度（即与序列长度的乘积成比例）。然而，其他考虑因素，包括DNA与氨基酸数据的不同评分程序的速度，或系统的内存使用和一般实现，也将是最终相对速度增加的重要决定因素。

氨基酸残基比对的一个限制是，遗传密码的冗余性，即多达六组核苷酸三联体可以指定相同的氨基酸，这意味着不依赖相应的DNA序列就不可能反向翻译氨基酸序列。有许多程序可以反向翻译对齐的氨基酸序列，例如独立版本的RevTrans[2]和mrtrans[8]–但大多数都需要对齐序列和相应的未对齐DNA序列作为输入。因此，研究人员必须为每个序列确定合适的翻译框架，并事先进行氨基酸比对，这不利于大量DNA序列的自动比对。

RevTrans的服务器版本[9]更进一步，可以选择DNA序列作为输入，虚拟地将其转换为各自的氨基酸序列，并使用DIALIGN2对齐后者[10]，然后反向翻译以实现DNA对齐。总之，该策略利用氨基酸数据产生的优越且快速的比对，同时保留DNA序列的更多信息内容以供未来分析。DIALIGN2中也直接内置了类似的功能。然而，RevTrans服务器仅限于75个DNA序列，并且不进行任何预处理。因此，不太适合于大量序列的自动比对。RevTrans和DIALIGN2也仅使用BLOSUM转换矩阵。LAGAN和Multi-LAGAN[11]也提供了“翻译比对”的可能性（通过翻译锚定选项），但这两个程序都更倾向于长基因组序列的比对。

基于这些解决方案，transAlign（用于反式lated公司排列ments）提供与RevTrans服务器相同的基本功能，但对输入序列的数量没有限制（超出用户计算机的内存），并且氨基酸转换矩阵的选择范围更广。更重要的是，transAlign还提供了一组用户定义的选项（如下所述），用于操作原始序列数据或对齐的序列。这些选项中最重要的是与DNA序列有关，这些DNA序列不能转化为“干净”的氨基酸序列，因此可能对氨基酸比对产生负面影响。再加上它是一个独立的程序，这些功能使transAlign既适用于单个数据集，也适用于自动对齐直接从任何序列数据库下载的大量序列的管道的一部分。

实施

transAlign可以自动读取四种格式中的任意一种DNA序列：fasta、nexus[12]，经典[13]或“扩展”[14]PHYLIP和Se-Al[15]. 它还可以用这些相同的格式中的任何一种写入最终对齐。（可以通过其他程序（如readSeq）完成与其他格式的转换[16]或sreformat，HMMER包的一部分[17].) 还实现了DNA序列的一些基本过滤，包括去除间隙（所有间隙或仅序列两侧的间隙）和删除含有超过用户定义的不明确核苷酸百分比（即Ns）的序列。

DNA序列初始处理后，transAlign将根据NCBI列出的任何遗传代码确定每个序列的最佳翻译[18]. Se-Al格式的数据也可能为每个序列指定不同的遗传代码。尽可能地，transAlign翻译包含不明确核苷酸的密码子（但没有明确的间隙）。最佳翻译被认为是产生除末端密码子外最少的终止密码子。默认情况下，只检查输入方向的三个读取帧；然而，也可以检查补足、反向和反向补足方向。对于同样最优的方向，transAlign倾向于对原始DNA序列干扰最小的方向：按照顺序，1）方向作为输入，然后是该方向上的第二和第三个读取帧，然后是2）互补、3）反向和4）反向互补方向中的每一个读取帧。

transAlign然后将转换后的序列传递给ClustalW[19,20]用于对齐（根据任何BLOSUM、GONNET或PAM蛋白质权重矩阵），并将得到的对齐残基序列反向转换为对齐的DNA序列。之所以选择ClustalW，是因为它可能是最知名、使用最广泛的多重对齐程序。它还提供了最大的氨基酸转换矩阵选择（BLOSUM、GONNET和PAM）和进行剖面对齐的能力（见下文）。然而，对transAlign代码稍作修改就可以使用任何合适的多序列比对程序，该程序接受蛋白质序列数据作为输入（例如，DIALIGN2，尤其是其Clustal-like输出）。无论使用何种校准程序，预计与校准序列相比，速度和准确性都会提高，因为DNA仍然会发生，因为将蛋白质编码的DNA序列校准为氨基酸具有许多优势（见上文）。

还提供了一个选项，用于自动删除由ClustalW执行的初始成对对齐确定的任何不正确对齐序列。此功能主要用于从对齐管道中删除有问题的序列，在这些管道中很难（手动）改进全局对齐。对于每个序列，根据经多次比较修正的单尾双样本t检验，将其两两比对得分的平均值与所有剩余序列之间的平均值进行比较。因此，该程序在识别孤立的有问题的序列方面最为有效，这些序列可能源于包含潜在的paralog或简单地识别错误的序列。这类序列的家族（例如，如果数据集包含来自基因家族的每个Paralog的大量副本）不太可能被检测到。

由于ClustalW忽略了不明确的氨基酸和终止密码子（在氨基酸转换矩阵中都不存在），因此transAlign最初将它们转换为间隙以允许反向翻译。除非不明确的残基或终止密码子与比对程序推断的间隙相邻，否则该程序是没有问题的，在该间隙处，它可以放置在间隙的开始或结束处。对于由不完整密码子引起的不明确残基，transAlign根据缺失核苷酸与缺口的一致性来确定两个位置中更优化的一个。然而，在遵循任何自动校准程序的手动检查过程中，仍应检查所有此类情况，并在必要时对其进行个别纠正。

显然，transAlign的使用仅限于编码DNA序列，不应用于非编码DNA，无论是18S rDNA等基因(=MTRNR2号; [21]); 基因的侧翼UTR、调节区或内含子区；或微卫星序列。该程序还受到帧移位的不利影响（例如，排序错误）。因此，transAlign将最低限度地为每个序列发出警告，该序列在最佳方向上包含超过用户指定的终止密码子阈值（不包括终端密码子）。该阈值可以是终止密码子的绝对数量（默认值），也可以是遇到第一个终止密码子后剩余序列中的终止密码子百分比。虽然该过程通常是稳健的，但由于在少数剩余驻留者中出现错误终止密码子的概率降低，因此检测在给定序列两端附近发生的帧移位的可能性较小。

在transAlign中实现了任何帧移位序列的三个全局解决方案：1）删除，2）使用翻译后的序列进行对齐，而不考虑（相关错误），或3）作为DNA的后续配置文件对齐到非帧移位序列对齐集（默认）。后一种选择是三种选择中最慢的，但允许所有序列尽可能稳健地对齐。此外，即使是部分剖面比对也总是比将所有序列作为DNA比对快（图（图1），1)，而不考虑对齐较短氨基酸序列所固有的实际加速。然而，随着数据集中帧移位序列的比例增加，性能将迅速下降。例如，假设与DNA相比，氨基酸比对的速度提高了9倍（如前所述，这是仅基于长度考虑的预期值），如果移码序列占所有序列的25%，则总节省时间只有2倍左右（见图图1）。1). 最后，为了便于对数据集进行手动检查，transAlign还将尝试根据氨基酸对齐序列和DNA剖面对齐序列之间的间隙比较来推断移码指数的假定位置。

在单独的窗口中打开

图1

执行平移对准的理论速度增益。该图显示，通过氨基酸翻译将数据集中任何给定比例的蛋白质编码DNA序列与随后与之进行轮廓对齐的剩余DNA序列对齐，始终具有性能优势。如图所示的曲线基于这样的假设，即翻译后的比对平均比相应的DNA比对快9倍；其他值会产生几乎相同的不同比例曲线。

如上所述，transAlign将以任何或所有fasta、nexus、（经典或扩展）PHYLIP或Se-Al格式输出对齐的DNA序列。默认情况下，序列根据名称按字母顺序输出。然而，也可以输出它们，以匹配它们在原始输入文件中的顺序，或者它们是从ClustalW对齐中输出的。后一个选项在识别相似序列的“系列”或那些轮廓对齐的序列以便于手动校正全局对齐时特别有用。

transAlign是用Perl编写的，是开源的。它可以在任何带有Perl解释器的操作系统上运行，并且是命令行驱动的。然而，它还具有用户交互模式，提示用户设置所有相关变量。它要求ClustalW的远程可调用版本存在于全局路径或特定于用户的路径中。然而，对代码稍加修改，就可以使用任何合适的多重对齐程序。

结果和讨论

为了测试蛋白质编码DNA序列翻译比对提供的潜在性能优势，分别使用ClustalW（默认参数）或使用transAlign（指定遗传代码，否则为默认参数）通过氨基酸翻译对六个哺乳动物编码基因进行比对。所有校准都使用运行OS 10.3.5的800-MHz双处理器Macintosh G4上的ClustalW v1.83。根据同一数据集的手动校准来判断各个校准的质量，在写入transAlign之前，每个校准都是为了其他目的而完成的。因此，手动校准代表合理、独立的参考点。通过计算测试比对中同一序列与手动产生的序列之间的汉明距离的相反值（即，匹配核苷酸得分+1；失配得分+0）来量化质量。然后对每个数据集的这些值进行平均，以基本上揭示平均有多少核苷酸被正确排列。

基准数据（表（表1）1)表明，与同一数据集的DNA比对相比，transAlign确实提供了通常质量更高的比对，但始终可以显著节省时间。特别是，加速比通常为7倍或更高，在未进行轮廓对齐的三种情况下，加速比大约为9倍。唯一的例外是RBP3型，其中许多被鉴定为可能发生帧移位的序列（数据集中484个序列中的61个）需要进行广泛的DNA剖面比对。即使如此，该数据集的总加速比仍大于3倍，符合基于帧移位序列比例的理论预期（见图图1）。1). 在所有情况下，准确度要么与DNA比对相当，要么显著高于DNA比对。对于MTCYB公司在所检查的最大数据集中，比对分数的改善是显著的（~2x），与DNA序列数据的两周多时间相比，翻译比对只需要1.6天。

表1

翻译对齐的比较性能的基准数据。六个哺乳动物蛋白编码基因以DNA的形式（使用ClustalW；默认参数）或以氨基酸的翻译形式（使用transAlign；指定遗传代码，否则为默认参数）进行比对。所有分析均在运行OS 10.3.5的800-MHz双处理器Macintosh G4上使用ClustalW v1.83。对齐分数是相对于手动对齐的数据集中的相应序列获得的，与汉明距离相反（即，匹配基本分数+1，不匹配分数+0）。计算每个序列的比对得分，然后对每个数据集中的所有序列进行平均。基因符号遵循HUGO基因命名委员会（HGNC；[21]）。

					氨基酸比对

			DNA比对		时间（秒）

数据集	序列号	未对齐序列长度	校准时间（秒）	平均校准分数	氨基酸比对	DNA剖面比对	transAlign处理	总计	平均校准分数
BDNF公司	100	256-768	475	579.28	52	14	0	66	774.61
MTCYB公司	2484	388-1200	1216963	437.54	127309	13823	34	141166	860.75
RAG1号机组	128	543-3141	2804	2346.46	307	不适用	三	310	2345.13
RAG2系列	196	326-1584	6492	1583.85	733	不适用	三	736	1583.95
RBP3型	484	627-1292年	45122	598.26	4004	10636	9	14649	579.71
大众汽车（VWF）	182	711-1310	8384	862.06	921	不适用	4	925	1002.16

在单独的窗口中打开

应该记住，这些基准主要用于指出执行转换对齐所固有的性能优势。确实存在其他比ClustalW更快的多重调整程序。但是，同样的优势也适用于这些程序，这样可以在更短的时间内获得基准数据集的对齐。

结论

transAlign的基本原理——通过氨基酸翻译来校准蛋白质编码DNA——并不新颖，至少在mrtrans首次发布（大约1993年）以来就有人提出过这一原理。然而，与LAGAN、Multi-LAGA、DIALIGN2和RevTrans服务器一起，transAlign代表了该原理的少数完整实现之一，其余大多数方法都需要用户手动翻译DNA序列并执行氨基酸比对。然而，transAlign除了是跨平台的，还包括一套不同的用户定义选项，这些选项与DNA序列数据的处理、其作为氨基酸数据的对齐以及随后的反向翻译成对齐的DNA数据有关。特别是，transAlign独特地提供了不同的选项来处理不能转化为干净氨基酸序列的序列，因此可能会中断对齐过程。所有这些选项都意味着transAlign非常适合大规模自动对齐非常大和/或非常多的数据集。如基准研究所示，使用翻译比对提供的比对与DNA比对相比，至少具有可比性，而且质量通常有所提高，并且总是可以节省大量时间。

可用性和要求

项目名称：transAlign

项目主页：http://www.tierzucht.tum.de/Bininda-Emonds网站/（在“程序”下）

操作系统：基于Unix的系统，包括OS X和Linux；磁盘操作系统

编程语言：Perl；无需其他模块

其他要求：ClustalW或对源代码进行适当修改后，大多数其他多对齐程序

许可证：无；开放源代码

非学者使用的任何限制：无

致谢

我感谢Antonis Rokas，特别是Bernhard Haubold和Alexis Stamatakis的初步讨论和鼓励。一些匿名评论员也提供了有益的评论，改进了MS。Robin Beck生成了基准测试中使用的六个数据集，并帮助对其中几个数据集进行了手动校准。这些数据集在transAlign的下载页面上免费提供。这项工作是由NGFN资助的项目“哺乳动物基因组功能分析的生物信息学”（BFAM）的一部分。

工具书类

Haubold B，Wiehe T.比较基因组学：方法和应用。Naturwissenschaften公司。2004;91:405–421.[公共医学][谷歌学者]
Wernersson R，Pedersen AG。RevTrans：氨基酸序列编码DNA的多重比对。核酸研究。2003;31:3537–3539. doi:10.1093/nar/gkg609。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Henikoff S、Henikoft JG。蛋白质块的氨基酸替代矩阵。美国国家科学院程序。1992;89:10915–10919. [PMC免费文章][公共医学][谷歌学者]
Gonnet GH，Cohen MA，Benner SA。整个蛋白质序列数据库的穷尽匹配。科学。1992;256:1443–1445.[公共医学][谷歌学者]
Dayhoff MO、Schwartz RM、Orcutt BC。蛋白质进化变化的模型。收件人：Dayhoff MO，编辑。蛋白质序列结构图谱。第5卷。华盛顿特区：国家生物医学研究基金会；1978年，第345–352页。[谷歌学者]
克兰德尔KA波萨达D。选择最合适的核苷酸替代模型。系统生物学。2001;50:580–601. doi:10.1080/106351501750435121。[公共医学] [交叉参考][谷歌学者]
Smith TF，Waterman MS。常见分子子序列的识别。分子生物学杂志。1981;147:195–197. doi:10.1016/0022-2836（81）90087-5。[公共医学] [交叉参考][谷歌学者]
MRTRANS–基于蛋白质比对的CDNA比对http://www.rfcgr.mrc.ac.uk/Registered/Option/mrtrans.html
RevTrans服务器http://www.cbs.dtu.dk/services/RevTrans网站/
Morgenstern B.DIALIGN 2：改进多序列比对的分段到分段方法。生物信息学。1999;15:211–218. doi:10.1093/bioinformatics/15.3.211。[公共医学] [交叉参考][谷歌学者]
Brudno M、Do CB、Cooper GM、Kim MF、Davydov E、Green ED、Sidow A、Batzoglou S.LAGAN和Multi-LAGAN：基因组DNA大规模多重比对的有效工具。基因组研究。2003;13:721–731. doi:10.1101/gr.926603。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
麦迪逊DR、Swofford DL、麦迪逊WP。NEXUS：系统信息的可扩展文件格式。系统生物学。1997;46:590–621.[公共医学][谷歌学者]
费尔森斯坦J。PHYLIP（系统发育推断包），版本3.6。西雅图：华盛顿大学基因组科学系；2004[谷歌学者]
Guindon S，Gascuel O。一种简单、快速、准确的算法，用于通过最大似然估计大型系统发育。系统生物学。2003;52:696–704. doi:10.1080/10635150390235520。[公共医学] [交叉参考][谷歌学者]
Se-Al主页http://evolve.zoo.ox.ac.uk/software.html？name=Se-铝
Readseq主页http://iubio.bio.indiana.edu/soft/molbio/readseq/java/
HMMER：使用剖面隐马尔可夫模型进行序列分析http://hmmer.wustl.edu/
NCBI分类主页http://www.ncbi.nlm.nih.gov/Taxonomy/Utils/wprintgc.cgi
Thompson JD、Higgins DG、Gibson TJ。CLUSTAL W：通过序列加权、特定位置间隙惩罚和权重矩阵选择提高渐进式多序列比对的敏感性。核酸研究。1994;22:4673–4680. [PMC免费文章][公共医学][谷歌学者]
Chenna R、Sugawara H、Koike T、Lopez R、Gibson TJ、Higgins DG、Thompson JD。使用Clustal系列程序进行多序列比对。核酸研究。2003;31:3497–3500. doi:10.1093/nar/gkg500。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]
Wain HM、Lush M、Ducluzeau F、Povey S.Genew：人类基因命名数据库。核酸研究。2002;30:169–171. doi:10.1093/nar/30.1.169。 [PMC免费文章][公共医学] [交叉参考][谷歌学者]

文章来自BMC生物信息学由以下人员提供BMC公司