MAFFT: a novel method for rapid multiple sequence alignment based on fast Fourier transform

Kazutaka Katoh; Kazuharu Misawa; Kei-ichi Kuma; Takashi Miyata

doi:10.1093/nar/gkf436

核酸研究。2002年7月15日；30(14): 3059–3066.

数字对象标识：10.1093/nar/gkf436

预防性维修识别码：项目经理135756

PMID：12136088

MAFFT：一种基于快速傅里叶变换的快速多序列比对新方法

Kazutaka加藤,卡祖哈鲁·米萨瓦,¹ 库马（Kei-ichi Kuma）、和宫田隆^一

作者信息文章注释版权和许可信息 PMC免责声明

摘要

开发了一个多序列比对程序MAFFT。与现有方法相比，CPU时间大大缩短。MAFFT包括两种新颖的技术。（i）利用快速傅里叶变换（FFT）快速识别同源区域，将氨基酸序列转换为由每个氨基酸残基的体积值和极性值组成的序列。（ii）我们提出了一种简化的评分系统，该系统在减少CPU时间和提高比对准确性方面表现良好，即使对于具有大插入或扩展的序列以及相似长度的远相关序列也是如此。在MAFFT中实现了两种不同的启发式方法，渐进方法（FFT-NS-2）和迭代精化方法（FFT-NS-i）。通过计算机仿真和基准测试，将FFT-NS-2和FFT-NS-i的性能与其他方法进行了比较；与CLUSTALW相比，FFT-NS-2的CPU时间大大缩短，精确度相当。当输入序列的数量超过60个时，FFT-NS-i的速度是T-COFFEE的100倍以上，而不会牺牲准确性。

简介

从检测关键功能残基到推断蛋白质家族的进化历史，多序列比对是分子生物学分析各个方面的基本工具。然而，如果没有专家知识的手动检查，很难正确对齐远距离相关序列。关于序列比对的优化问题，人们做了很多努力。Needleman和Wunsch(1)提出了一种基于动态规划（DP）的序列比较算法，通过该算法可以获得两个序列之间的最优比对。该算法在多序列比对中的推广(2)不适用于由数十或数百个序列组成的实际对齐，因为它需要与N个^K（K），其中K（K）是每个序列的长度N个为了克服这一困难，各种启发式方法，包括渐进式方法(三)和迭代求精方法(4–6)到目前为止，已提出。它们主要基于连续二维DP的各种组合，其CPU时间与N个².

即使这些启发式方法成功地提供了最佳比对，仍然存在着最佳比对是否真的符合生物正确比对的问题。结果比对的准确性受计分系统的影响很大。汤普森等. (7)在他们的程序CLUSTALW中开发了一个复杂的评分系统，其中根据输入序列的特征，如序列发散、长度、局部水肿等，仔细调整间隙惩罚和其他参数。然而，现有的评分系统无法正确处理各种类型的问题的全局对齐，包括内部插入的大型终端扩展(8). 最近，CLUSTALW的精确度有了很大提高(7)1.8版，最流行的校准程序，具有出色的可移植性和可操作性，以及T-COFFEE(9)，它提供了迄今为止已知方法中最高精度的校准。

另一方面，自从Feng和Doolittle提出渐进式方法以来，很少有改进能够成功地减少CPU时间(三). 随着蛋白质和DNA序列数量的快速增加，适用于大规模问题的高速计算机程序变得越来越重要。为了提高DP的速度，在多序列比对过程中使用高度同源的片段是有效的(10). 有一些著名的同源搜索程序，如FASTA(11)和BLAST(12)，基于字符串匹配算法。

在本报告中，我们开发了一种新的基于快速傅里叶变换（FFT）的多序列比对方法，该方法允许快速检测同源片段。尽管FFT具有很高的效率，但实际上很少用于检测序列相似性(13,14). 我们还提出了一种改进的评分系统，即使对于插入或扩展较大的序列，以及长度相似的远距离相关序列，该系统也表现良好。通过计算机模拟和BAliBASE测试了该方法的效率（CPU时间和准确性(15)与几种现有方法进行比较的基准测试。这些测试表明，CPU时间大大缩短，而最终校准的精度与现有方法中最精确的方法相当。

方法

通过FFT进行组对组比对

氨基酸取代的频率在很大程度上取决于参与取代的氨基酸对之间的物理化学性质的差异，特别是体积和极性的差异(16). 物理化学性质相似的氨基酸之间的取代倾向于保持蛋白质的结构，这种中性取代在进化过程中积累在分子中(17). 因此，有理由认为氨基酸一分配给其分量为体积值的向量v（v）(一)和极性值第页(一)格兰瑟姆介绍(18). 我们使用这些值的规范化形式：

和

，其中overbar表示平均超过20个氨基酸，σ_v（v）和σ_第页分别表示体积和极性的标准偏差。氨基酸序列被转换为这种载体的序列。

计算两个氨基酸序列之间的相关性。我们定义相关性c（c）(k个)在这样的向量的两个序列之间

c（c）(k个) =c（c）_v（v）(k个) +c（c）_第页(k个),1

哪里c（c）_v（v）(k个)和c（c）_第页(k个)如下文所定义，是两个要对齐的氨基酸序列之间的体积分量和极性分量的相关性。相关性c（c）(k个)用位置滞后表示两个序列的相似程度k个地点。高价值c（c）(k个)表明序列可能有同源区域。

相关性c（c）_v（v）(k个)序列1和序列2之间的体积分量，位置滞后k个站点定义为

哪里

和

是n个层序1的第个位点，长度为N个序列2的长度为M（M）分别为。考虑到N个≃M（M）在许多情况下，方程式2拿O（运行）(N个²)操作。FFT将此计算的CPU时间减少到O（运行）(N个日志N个) (19). 如果V（V）₁(米)和V（V）₂(米)是的傅里叶变换

和

，即。

⇔V（V）₁(米)三

⇔V（V）₂(米),4

众所周知，相关性c（c）_v（v）(k个)表示为

c（c）_v（v）(k个) ⇔V（V）₁^*(米) ·V（V）₂(米),5

其中，ρ表示变换对，星号表示复数共轭。

相关性c（c）_第页(k个)两个序列之间的极性分量

以相同的方式计算。

寻找同源片段。如果比较的两个序列具有同源区域，则相关性c（c）(k个)有一些峰值对应于这些区域（图。（图1A）。1A） ●●●●。然而，通过FFT分析，我们只能知道位置滞后k个指两个序列中的同源区域，但不指该区域的位置。如图所示图1B，1B、为了确定每个序列中同源区域的位置，进行了窗口大小为30个位点的滑动窗口分析，其中计算了相关性中最高20个峰中每个峰的局部同源程度c（c）(k个). 我们将得分值超过给定阈值的30个站点（在我们的程序中，每个站点的得分为0.7，评分系统的详细信息见下文）确定为同源段。如果两个或多个连续的片段被鉴定为同源片段，则它们被组合成一个更大长度的片段。如果合并段的长度超过150个站点，则将该段分为多个段，每个段有150个站点。

在单独的窗口中打开

图1

(A类)FFT分析的结果。有两个峰对应于两个同源区块。(B类)进行了滑动窗分析，确定了同源块的位置。请注意，窗口大小为30（见文本），但为了简单起见，窗口大小在（B）中设置为4。

除法同调矩阵。为了获得两个序列之间的对齐，同源片段必须在两个序列中排列一致。矩阵S公司_ij公司(1 ≤我,j个≤n个,n个是同源片段的数量）以如下方式构建。如果我序列1上的第th个同源片段对应于j个序列2上的第个同源片段，S公司_ij公司具有上面计算的同源片段的得分值；否则S公司_ij公司设置为0。通过将标准DP程序应用于矩阵S公司_ij公司，我们得到了对应于同源片段的最优排列的最优路径。图图2A2A显示了一个存在五个同源片段的示例。序列1中的片段顺序与序列2中的不同。最佳路径取决于S公司₂₃和S公司₃₂; 如果S公司₂₃>S公司₃₂，带有粗体箭头的路径是最佳路径。

在单独的窗口中打开

图2

(A类)分段级DP示例；(B类)减少同源矩阵上DP的面积。

如图所示，在对应于同源段中心的边界处，将整体同源矩阵划分为若干子矩阵图2B。2B.因此，图中的阴影区域图2B2计算中不包括B。由于FFT可以检测到许多同源片段，因此减少了CPU时间。

扩展到组对组对齐。通过考虑方程式，上述程序可以很容易地扩展到组对组对齐2和6作为特殊情况，每组有一个序列。这些方程通过替换扩展到组对组对齐

具有

，它是属于组1的成员的体积分量的线性组合：

哪里w个_我是序列的加权因子我，其计算方式与CLUSTALW相同(7)对于渐进式方法，或以与Gotoh相同的方式(20)加权系统的迭代求精方法。类似地，极性分量计算为：

该方法通过将序列转换为四维向量序列来适用于核苷酸序列，四维向量的分量是每列a、T、G和C的频率，而不是体积和极性值。在这种情况下，两个核苷酸序列之间的相关性是：

c（c）(k个) =c（c）_A类(k个) +c（c）_T型(k个) +c（c）_G公司(k个) +c（c）_C(k个).

评分系统

相似矩阵。为了提高对齐效率，还修改了评分系统（相似矩阵和差距惩罚）。沃格特等. (21)建议Needleman–Wunsch（NW）算法对所有元素都为正值的全正矩阵表现良好。CLUSTALW公司(7)和其他方法默认使用这种全正矩阵。自Vogt以来等. (21)仅考察了每个蛋白质家族成员长度相似的情况，尚不清楚这种全阳性矩阵是否适用于各种比对问题，尤其是不同长度的比对问题。因此，与现有方法相反，我们采用了一个归一化相似矩阵

(一和b条是氨基酸），具有正值和负值：

哪里平均的1 = Σ_一（f）_一M（M）_aa公司,平均的2 = Σ_{a、 b条}（f）_一（f）_b条M（M）_ab公司,M（M）_ab公司是原始相似矩阵，（f）_一是氨基酸的出现频率一、和S公司^一是一个用作间隙扩展惩罚的参数。在这个相似矩阵下

，两个随机序列之间每个位点的得分为S公司^一，两个相同序列之间的每个位点得分为1.0+S公司^一.如果S公司^一比单位要小得多，差距的得分实际上相当于随机氨基酸序列。

我们程序的默认参数为：M（M）_ab公司是琼斯的200 PAM log-odds矩阵等. (22),（f）_一是氨基酸的出现频率一由Jones计算等. (22),S公司^操作（间隙打开惩罚，定义如下）为2.4S公司^一氨基酸序列为0.06。对于核酸序列，M（M）_ab公司是根据Kimura的双参数模型计算出的200 PAM对数矩阵(23)转换/颠换比率为2.0，（f）_一为0.25，S公司^操作为2.4且S公司^一为0.06。

差距惩罚。同调矩阵H（H）(我,j个)在两个氨基酸序列之间A类(我)和B类(j个)由相似矩阵构造为

，其中我和j个是序列中的位置。当两组序列对齐时，组1和组2之间的同源矩阵计算如下：

哪里A类(n、我)表示我第个站点n个第1组中的第个序列，B类(m、 j个)是j个第个站点米第2组中的第th序列，以及w个_n个是前面定义的权重因数，用于n个第个序列。

在NW算法（1）中，两组序列之间的最佳对齐计算如下：

哪里对(i、 j个)是从（1,1）到（1,1）的最优路径的累积分数(我,j个)、和G公司₁(我,x个)和G公司₂(j个,年)是下面定义的差距惩罚。

每组序列可能包含前面步骤中已经引入的间隙。如果在与现有间隙相同的位置新引入间隙，则不应对新间隙进行处罚，因为这些新间隙和现有间隙可能是由单个插入或删除事件造成的。Gotoh公司(6)和汤普森等. (7)根据现有差距的模式制定特定于职位的差距惩罚。我们在本报告中使用的方法比他们的方法简单：

G公司₁(i、 x个) =S公司^操作· {1 – [克₁^开始(x个) +克₁^结束(我)]/2},

哪里S公司^操作对应于间隙打开惩罚，克₁^开始(x个)是从x个第个站点，以及克₁^结束(我)是结束于我第个站点。那就是，

哪里z（z）_米(我)=1和一_米(我)=0，如果我层序的第个位点米是一个缺口；否则z（z）_米(我)=0和一_米(我) = 1;w个_米是序列的加权因子米.其他处罚G公司₂(j个,年)以相同的方式计算。因为这个公式比现有的公式简单(6,7)CPU时间大大减少，但最终校准的精度与现有评分系统相当（见结果）。

计算机程序

我们开发了一个程序包MAFFT，其中包含了上述新技术。FFT算法的源代码取自Press等. (19). 在MAFFT中，累进方法(三,7)（FFT-NS-1，FFT-NS-2）和迭代求精方法(4–6)（FFT-NS-i）的实现只需稍作修改，如下所述。

FFT-NS-1。使用上述FFT算法和归一化相似矩阵，输入序列按照导向树中序列的分支顺序逐步对齐。这种方法在下文中被称为FFT-NS-1。此方法需要基于全对比较的导向树，其CPU时间为O（运行）(K（K）²)，其中K（K）是序列数。距离矩阵的快速计算对于K（K）因此我们采用了琼斯的方法等. (22)经过两次修改；20种氨基酸分为六个物理化学基团(24)、和数字T型_ij公司序列共享的6元组我和顺序j个被计数。此值转换为距离D类_ij公司序列之间我和顺序j个作为

D类_ij公司= 1 – [T型_ij公司/最小值(T型_ii（ii）,T型_日本)].

使用UPGMA方法从该距离矩阵构造导向树(25).

FFT-NS-2。输入序列沿FFT-NS-1根据对齐推断的导向树重新对齐。预计在更可靠的导向树的基础上获得更可靠的定线(26). 此方法称为FFT-NS-2。

FFT-NS-i型。对FFT-NS-2获得的对准进行了进一步改进，将对准分为两组并重新对准(4–6). 我们使用了一种称为树相关限制分区的技术(27). 重复此过程，直到上述分数没有得到更好的分数对齐。此方法称为FFT-NS-i。

为了测试上述FFT算法或归一化相似矩阵的效果，我们将这三种方法与未使用这些新开发技术的几种方法进行了比较。

NW-NS-1/NW-NS-2。我们研究了一种使用标准NW算法而不是FFT算法的方法，该方法使用了上述规范化相似矩阵。该方法称为NW-NS-1或NW-NS-2。关于导向树，NW-NS-1和NW-NS-2分别与FFT-NS-1或FFT-NS-2相同。

西北-AP-2。为了测试上述归一化相似矩阵的效果，我们使用传统的全正相似矩阵检验了一种方法(21)，通过从所有元素中减去矩阵中最小的数字而得到正数。这相当于设置S公司_一在方程式中7对于我们使用的相似矩阵为0.82。该方法称为NW-AP-2。除相似矩阵外，NW-AP-2的程序与NW-NS-2的程序相同。

结果

计算机模拟

为了评估当前方法的性能，我们进行了计算机仿真，重点是CPU时间和精度。使用仿真程序ROSE生成的序列(28)比较了现有方法和两种现有方法CLUSTALW 1.82版和T-COFFEE在不同长度和不同序列数下的CPU时间。使用了两种类型的序列集；一个是由高度保守的序列组成，具有约35–85%的同源性（平均距离为100 PAM），另一个是一组具有约15–65%同源性的远距离相关序列（平均距离是250 PAM）。我们还估计了CPU时间的顺序[年属于O（运行）(X（X）^年)，其中X（X）是输入序列的长度或数量]。

图图3三显示了CPU时间对序列长度的依赖性。还显示了每种方法的回归系数。基于NW的标准方法CLUSTALW和NW-NS-2要求CPU时间与序列长度的平方成正比（两种方法的回归系数都接近2），与预期的序列相似程度无关。相反，基于FFT的方法FFT-NS-2和FFT-NS-i的CPU时间取决于输入序列的相似程度；对于高度保守的序列，FFT-NS-2和FFT-NS-i的CPU时间几乎与序列长度成正比（图中的回归系数接近1）。图3A），三A）而FFT-NS-2的CPU时间与NW-NS-2在距离相关序列中的CPU时间接近（图。（图3三B） ●●●●。

在单独的窗口中打开

图3

本文描述的三种方法（FFT-NS-2、FFT-NS-i和NW-NS-2）以及两种现有方法（CLUSTALW和T-COFFEE）的CPU时间与输入序列平均长度的关系图。输入序列之间的平均一致性百分比为～35–85%(A类)和～15–65%(B类). 序列数为40。每种方法都显示了通过幂回归分析计算得出的回归系数。对于所有情况，都使用了默认参数，但CLUSTALW除外，在这两种情况下，都检查了默认设置（CLW18d）和“快速树”选项（CLW28q）。所有计算都是在Linux操作系统（Intel Xeon 1.7 GHz，1 GB内存）上执行的。gcc 2.96版编译器与优化选项“-O3”一起使用。

图图4A4A和B显示CPU时间与数字的依赖关系(K（K）)输入序列的。T-COFFEE的时间消耗为O（运行）(K（K）^三)用于相对大量序列的对齐，如Notredame等. (9)估计。CLUSTALW（默认）需要通过标准NW算法进行全配对比较O（运行）(K（K）²)CPU时间。其他方法需要大约的CPU时间O（运行）(K（K）).

在单独的窗口中打开

图4

文本中描述的三种方法（FFT-NS-2和FFT-NS-i）以及两种现有方法（CLUSTALW和T-COFFEE）的CPU时间与输入序列数量的关系图。输入序列之间的平均一致性百分比为～35–85%(A类)和～15–65%(B类). 输入序列的平均长度为300。每种方法都显示了通过幂回归分析计算得出的回归系数。对于所有情况，都使用了默认参数，但CLUSTALW除外，在这两种情况下，都检查了默认设置（CLW18d）和“快速树”选项（CLW28q）。所有计算都是在Linux操作系统（Intel Xeon 1.7 GHz，1 GB内存）上执行的。gcc 2.96版编译器与优化选项“-O3”一起使用。

为了测试准确性，将五种新开发的方法FFT-NS-1、FFT-NS-2、NW-NS-1、NW-NS-2和FFT-NS-i应用于ROSE产生的不同同源水平的序列(28). 每种方法的准确度都是通过对对分数的总和来衡量的，其中重建比对与模拟（“正确”）比对进行比较，并从所有可能的比对中计算正确比对比对的比率(8). 模拟重复100次，并对每种方法取平均值（图。（图55).

在单独的窗口中打开

图5

总分图(8)与五种方法（FFT-NS-1、FFT-NS-2、FFT-NS-i、NW-NS-1和NW-NS-2）的输入序列平均距离相比。输入序列的数量为40个，序列长度平均为200个位点。垂直线表示分数的标准偏差。对于所有情况，都使用了默认参数。

基于FFT的方法（FFT-NS-1和FFT-NS-2）的准确度几乎等同于基于标准NS-的方法（NW-NS-1和NW-NS-2）。这一结果表明，FFT算法并没有牺牲精度。正如预期的那样，FFT-NS-2的性能优于FFT-NS-1。对于远距离相关序列，FFT-NS-i在准确性上优于FFT-NS-1和FFT-NS-2。

使用BAliBASE的基准

汤普森等. (8)使用BAliBASE基准校准数据库发布了广泛分布的校准程序的系统比较(15)，基于三维结构叠加的“正确”路线数据库。BAliBASE数据库分为五种不同类型的引用。第一类是由相似长度的等距离进化成员组成的。在第二类中，每个序列最多包含三个孤儿序列和一组近亲。第三类包含多达四个远距离相关的组，而第四类和第五类分别涉及长末端和内部插入。这些参考文献在下文中称为1-5类。

我们将方法NW-AP-2、NW-NS-2、FFT-NS-2和FFT-NS-i中描述的四种方法应用于该数据库，以与五种现有方法DIALIGN的效率进行比较(29,30)、PIMA(31)，集群(7)版本1.82，PRRP(32)和T-咖啡(9). 平均得分总和（见上文）和列得分[正确对齐列的比率(8)]计算每个类别的平均值。Wilcoxon配对签名秩检验和t吨-进行了测试，以测试每种方法的准确性差异的显著性。这些测试给出对-值，这是观察到的差异可能是偶然造成的概率。

表表11显示了此基准测试的结果以及执行此测试的每个方法的CPU时间。与上述模拟不同，FFT-NS-2（基于FFT的方法）所需的CPU时间几乎相当于NW-NS-2。这是因为FFT算法对于像这些测试这样的远距离相关序列是无效的。NW-NS-2比CLUSTALW占用的CPU时间更少，可能是因为前者的计算过程简单。FFT-NS-i比T-COFFEE占用更少的CPU时间。

表1。

BAliBASE基准测试中各种对齐方法的平均分数和列分数之和

方法	CPU时间（s）	类别。1	类别。2	类别。三	类别。4	类别。5	平均值1	平均值2
渐进式方法
太平洋投资管理局	1116	0.825/0.737	0.751/0.127	0.525/0.262	0.700/0.480	0.788/0.555	0.772/0.558	0.718/0.432
CLW18d型	2202	0.871/0.792	0.856/0.329	0.754/0.490	0.745/0.417	0.852/0.617	0.844/0.639	0.816/0.529
CLW18q系列	1657	0.871/0.790	0.859/0.334	0.763/0.473	0.728/0.402	0.887/0.709	0.847/0.644	0.824/0.542
西北-AP-2	250	0.842/0.746	0.833/0.268	0.770/0.443	0.703/0.311	0.851/0.667	0.821/0.593	0.800/0.487
NW-NS-2型	243	0.849/0.761	0.844/0.334	0.779/0.486	0.797/0.532	0.951/0.826	0.845/0.652	0.844/0.588
FFT-NS-2型	227	0.849/0.761	0.844/0.334	0.779/0.486	0.797/0.532	0.951/0.826	0.845/0.652	0.844/0.588
迭代精化方法与T-COFFEE
直径2-1	18132	0.792/0.681	0.814/0.219	0.673/0.327	0.818/0.615	0.938/0.840	0.801/0.584	0.807/0.536
PRRP公司	9782	0.871/0.793	0.860/0.354	0.823/0.569	0.663/0.275	0.885/0.742	0.845/0.646	0.820/0.547
T-咖啡	12065	0.876/0.797	0.856/0.343	0.777/0.497	0.811/0.555	0.961/0.901	0.865/0.683	0.856/0.619
FFT-NS-i型	1466	0.864/0.787	0.853/0.363	0.789/0.518	0.799/0.534	0.956/0.835	0.857/0.675	0.852/0.607
路线数量		82	23	12	15	12	144	–

在单独的窗口中打开

类别（类别）1-5对应于文本中描述的五种不同的路线类别。每列中显示了两种类型的平均得分，并用斜线分隔（平均得分总和/列得分平均值）。Average1给出了所有144条路线的平均得分。由于从12到82不等的不同类别的比对次数不同，因此在Notredame之后，为每个方法计算另一种类型的平均得分（Average2），即五个类别的平均得分等. (9). 对于每种方法，还显示了计算所有144条对齐的总CPU时间。对于所有情况，都使用了默认参数，但CLUSTALW除外，在这两种情况下，都检查了默认设置（由CLW18d指示）和“快速树”选项（CLW18q）。所有计算都是在Sun Ultra/2工作站上执行的（UltraSPARC 168 MHz，128 MB内存，Solaris 2.6）。gcc 2.8.1版编译器与优化选项“-O3”一起使用，但DIALIGN除外，该编译器使用了作者预先编译的版本。

NW-AP-2既不包含上述改进的评分系统，也不包含FFT算法，其精确度与CLUSTALW的前一版本（1.7）相当（未显示数据）。使用改进的评分系统，如方程式所示7NW-NS-2和FFT-NS-2的性能明显优于NW-AP-2。T-COFFEE的平均准确度最高，但FFT-NS-i的准确度与T-COFFEE相当。对-Wilcoxon匹配配对符号秩检验的值为0.13（配对总和得分）和0.43（列得分），以及对-值依据t吨-总分为0.10，列分为0.23。因此，差异并不显著。

LSU rRNA和RNA聚合酶序列的应用

BAliBASE倾向于由少量短序列组成的排列；每次比对的序列数为9.2，序列长度平均为251.1。为了说明我们的方法在实际序列分析中的威力，我们选择了两个相对较大的数据集示例：LSU rRNA的核苷酸序列和RNA聚合酶最大亚单位的氨基酸序列。

LSU rRNA。核糖体数据库项目（RDP-II）(33)包含72个来自细菌、古生菌和真核生物的LSU rRNA序列。此路线被用作参考路线。我们还使用了59个序列的另一个参考比对，其中片段序列被从完整的72个序列集中排除（参考比对可在http://www.biophys.kyoto-u.ac.jp/加藤/align/example/lsu). CPU时间和对销和列得分的总和(8)使用这两个数据集（表（表2）。2). 基于FFT的方法（FFT-NS-2和FFT-NS-i）对于此类相对较大的数据集非常有效。

表2。

几种使用LSU rRNA序列的方法的比较

方法	CPU时间（s）	平均得分总和	列得分
72个序列×1305–5183个位点
CLW18d型	1998	0.692	–
CLW18q系列	600.2	0.597	–
西北-AP-2	197	0.796	–
西北-NS-2	205.2	0.770	–
FFT-NS-2型	73.39	0.769	–
FFT-NS-i型	251.8	0.781	–
59个序列×2810–5183个位点
T-咖啡	35 860	0.806	0.559
CLW18d型	1523	0.754	0.411
CLW18q系列	395.6	0.643	0.315
西北-AP-2	153.7	0.823	0.482
西北-NS-2	159.8	0.793	0.463
FFT-NS-2型	51.09	0.794	0.468
FFT-NS-i型	181.7	0.817	0.552

在单独的窗口中打开

CPU时间以及对上和列得分的总和(8)显示了从RDP-II检索到的完整LSU数据集（72个序列）的每种方法的(33)，其中包括一些片段序列，以及由59个序列组成的子集，其中没有片段序列。对于完整的LSU数据集，由于片段序列，无法计算列分数，并且由于内存不足，T-COFFEE测试被中止。除CLUSTALW外，所有方法都使用了默认参数，其中检查了默认设置（CLW18d）和“快速树”选项（CLW18 q）。所有计算都是在Linux操作系统（Intel Xeon 2 GHz，4 GB内存）上执行的。gcc编译器（版本2.96）与优化选项“-O3”一起使用。

RNA聚合酶的最大亚单位。我们使用Iwabe的RNA聚合酶最大亚单位序列的参考比对等. (34)包括11个高度保守的区块。编译了两个数据集，一个（大）由76个序列组成，另一个（小）由24个序列组成。它们都包含来自细菌、古生菌和真核生物三大类（I、II和III）的氨基酸序列（参考比对可在http://www.biophys.kyoto-u.ac.jp/加藤/对齐/示例/rpol). 表表3三显示了通过六种方法（NW-AP-2、FFT-NS-2、NW-NS-2、FFT-NS-i、CLUSTALW 1.82版和T-COFFEE）正确检测到的序列保守块的CPU时间和数量。T-COFFEE、FFT-NS-2、FFT-NS-i和NW-NS-2成功检测到所有11个块，尽管不同方法的CPU时间不同。FFT-NS-2（基于FFT的方法）的CPU时间约为NW-NS-2（标准NW-based方法）的三分之一。

表3。

几种使用RNA聚合酶最大亚基序列的方法的比较

方法	CPU时间（s）	正确对齐的块数
76个层序×1182–2890个位点
CLW18d型	675.5	10
CLW18q系列	159.4	10
西北-AP-2	54.95	8
NW-NS-2型	59.30	11
FFT-NS-2型	18.15	11
FFT-NS-i型	173.1	11
24个序列×1206–2890个位点
T-咖啡	745.3	11
CLW18d型	100.1	9
CLW18q系列	50.78	9
西北-AP-2	20.79	10
西北-NS-2	22.77	11
FFT-NS-2型	7.150	11
FFT-NS-i型	46	11

在单独的窗口中打开

对于包含76个序列的大数据集和包含24个序列的小数据集，显示了每种方法的CPU时间和正确对齐的块数。在大数据集的情况下，由于内存不足，T-COFFEE测试被中止。对于所有情况，都使用了默认参数，但CLUSTALW除外，在这两种情况下，都检查了默认设置（CLW18d）和“快速树”选项（CLW28q）。所有计算都是在Linux操作系统（Intel Xeon 1.7 GHz，1 GB内存）上执行的。gcc编译器（版本2.96）与优化选项“-O3”一起使用。

讨论

人们认为合适的对齐算法取决于要对齐的序列的性质(8,35); NW算法为BAliBASE中的参考文献1、2和3生成准确可靠的比对，而Smith–Waterman（SW）算法(36)这是一种检测局部同源性的方法，对于类别4和5是成功的。根据输入序列的性质，正确选择这些不同的算法可能是不切实际的；实际序列数据包含各种类型的序列，即片段序列、融合蛋白、孤儿序列、某些成员的过表达等。

基于这些考虑，Notredame等. (9)在T-COFFEE中制定西北和西南对齐程序的组合。这种尝试在牺牲计算简单性的情况下，成功地提高了精确度。因此，该方法可能适用于短而小的数据集，如BAliBASE中的Karplus和Hu(37)指出。相比之下，本方法采用简单的NW算法（NW-NS-2）或基于FFT的更快速算法（FFT-NS-2和FFT-NS-i）。然而，BAliBASE基准测试表明，使用归一化相似矩阵的当前方法对类别4和类别5也表现良好。因此，FFT-NS-i的准确性与T-COFFEE的准确性相当。这一结果表明，在不使任何计算过程复杂化的情况下，可以显著提高比对的准确性，这与NW和SW算法的组合对于计算高质量比对是必要的传统观点相反(8,9,35). 通过对相似矩阵进行归一化，可以简单地提高精度。

这表明了汤普森参数选择的重要性等. (7,8)指出。然而，他们的战略与我们的战略有很大的不同。CLUSTALW中使用的评分系统复杂且耗时；评分系统中的许多参数根据输入序列动态变化。相比之下，目前的评分系统很简单；对于任何输入序列，相似矩阵都是固定的，而且DP算法中甚至没有明确包含扩展间隙惩罚。然而，NW-NS-2/FFT-NS-2的精确度与CLUSTALW相当。

在以上测试的所有情况下，与具有可比精度的现有方法相比，目前的方法占用的CPU时间通常更少。值得注意的是，CPU时间的顺序从O（运行）(N个²)至O（运行）(N个)对于高度保守的序列（图。（图3A），三A），其中N个是序列长度。这种快速多重比对方法适用于基因组序列的自动化高通量分析。同时，生物学家的专业知识仍然特别重要，因此需要一个用户友好的比对工作台，它可以方便地访问通过数据库搜索、比对分析和非同源方法获得的预测收集的各种信息(38). 这里介绍的方法作为这种集成对齐工作台的核心组件也很有用。

MAFFT程序包可在http://www.biophys.kyoto-u.ac.jp/加藤/程序/align/mafft它已经在Linux操作系统上进行了测试。由H.Suga、K.Katoh、Y.Yamawaki、K.Kuma、D.Hoshiyama、N.Iwabe和T.Miyata在X Window System上编写的图形用户界面也可以在http://www.biophys.kyoto-u.ac.jp/加藤/程序/align/xced.

致谢

我们感谢N.Iwabe博士、H.Suga博士和D.Hoshiyama博士的宝贵意见。这项工作得到了日本文部科学省的资助。

参考文献

1Needleman S.B.和Wunsch，C.D.（1970）适用于搜索两种蛋白质氨基酸序列相似性的通用方法。分子生物学杂志。,48, 443–453. [公共医学][谷歌学者]

2Sankoff D.和Cedergren，R.J.（1983）同时比较树相关的三个或多个序列。Sankoff，D.和Kruskal，J.B.（编辑），时间扭曲、字符串编辑和大分子：序列比较的理论与实践。Addison-Wesley，英国伦敦，第253-264页。

三。Feng D.F.和Doolittle，R.F.（1987）作为纠正系统发育树的先决条件的渐进序列比对。《分子进化杂志》。,25, 351–360. [公共医学][谷歌学者]

4Barton G.J.和Sternberg，M.J.（1987）蛋白质序列快速多重比对策略。三级结构比较的置信水平。分子生物学杂志。,198, 327–337. [公共医学][谷歌学者]

5Berger M.P.和Munson，P.J.（1991）一种用于排列多个蛋白质序列的新的随机迭代策略。计算。申请。Biosci公司。,7, 479–484. [公共医学][谷歌学者]

6Gotoh O.，（1993）序列组之间的最佳比对及其在多序列比对中的应用。计算。申请。Biosci公司。,9, 361–370. [公共医学][谷歌学者]

7Thompson J.D.、Higgins，D.G.和Gibson，T.J.（1994）《集群W：通过序列加权、特定位置间隙惩罚和权重矩阵选择提高渐进式多序列比对的敏感性》。核酸研究。,22, 4673–4680.[PMC免费文章][公共医学][谷歌学者]

8Thompson J.D.、Plewniak，F.和Poch，O.（1999）《多序列比对程序的综合比较》。核酸研究。,27, 2682–2690.[PMC免费文章][公共医学][谷歌学者]

9.Notredame C.、Higgins，D.G.和Heringa，J.（2000）《T-Coffee：快速准确多序列比对的新方法》。分子生物学杂志。,302, 205–217. [公共医学][谷歌学者]

10Delcher A.L.、Kasif，S.、Fleischmann，R.D.、Peterson，J.、White，O.和Salzberg，S.L.（1999）《全基因组比对》。核酸研究。,27, 2369–2376.[PMC免费文章][公共医学][谷歌学者]

11Pearson W.R.和Lipman，D.J.（1988）改进了生物序列比较工具。程序。美国国家科学院。科学。美国,85, 2444–2448.[PMC免费文章][公共医学][谷歌学者]

12Altschul S.F.、Madden，T.L.、Schaffer，A.A.、Zhang，J.、Zhan、Miller，W.和Lipman，D.J.（1997）Gapped BLAST和PSI-BLAST：新一代蛋白质数据库搜索程序。核酸研究。,25, 3389–3402.[PMC免费文章][公共医学][谷歌学者]

13Felsenstein J.、Sawyer，S.和Kochin，R.（1982）一种有效的核酸序列匹配方法。核酸研究。,10, 133–139.[PMC免费文章][公共医学][谷歌学者]

14Rajasekaran S.，Jin，X.和Spouge，J.L.（2002）使用快速傅里叶变换高效计算特定位置的匹配分数。J.计算。生物。,9, 23–33. [公共医学][谷歌学者]

15Thompson J.D.、Plewniak，F.和Poch，O.（1999）BAliBASE：用于评估多重校准计划的基准校准数据库。生物信息学,15, 87–88. [公共医学][谷歌学者]

16Miyata T.、Miyazawa，S.和Yasunaga，T.（1979）蛋白质进化中的两种氨基酸替代。《分子进化杂志》。,12, 219–236. [公共医学][谷歌学者]

17木村M.（1983）分子进化的中性理论。剑桥大学出版社，英国剑桥。

18Grantham R.，（1974）氨基酸差异公式有助于解释蛋白质进化。科学类,185, 862–864. [公共医学][谷歌学者]

19Press W.H.、Teukolsky，S.A.、Vetterling，W.T.和Flannery，B.P.（1995）C语言中的数字配方：科学计算的艺术，第2版。剑桥大学出版社，英国剑桥。

20Gotoh O.，（1995）用于对齐许多系统发育相关序列的加权系统和算法。计算。申请。Biosci公司。,11, 543–551. [公共医学][谷歌学者]

21Vogt G.、Etzold，T.和Argos，P.（1995）《蛋白质序列比对中氨基酸交换矩阵的评估：重新审视曙光区》。分子生物学杂志。,249, 816–831. [公共医学][谷歌学者]

22Jones D.T.、Taylor、W.R.和Thornton，J.M.（1992）从蛋白质序列快速生成突变数据矩阵。计算。申请。Biosci公司。,8, 275–282. [公共医学][谷歌学者]

23Kimura M.，（1980）通过核苷酸序列的比较研究来估计碱基取代进化率的一种简单方法。《分子进化杂志》。,16, 111–120. [公共医学][谷歌学者]

24Dayhoff M.O.，Schwartz，R.M.和Orcutt，B.C.（1978）蛋白质进化变化模型。Dayhoff，M.O.和Ech，R.V.（编辑），蛋白质序列和结构图谱。国家生物医学研究基金会，医学博士，第345-352页。

25Sokal R.R.和Michener，C.D.（1958）评估系统关系的统计方法。堪萨斯大学科学通报,28, 1409–1438.[谷歌学者]

26Tateno Y.、Ikeo K.、Imanishi T.、Watanabe H.、Endo T.、Yamaguchi Y.、Suzuki Y.、Takahashi K.、Tsunoyama K.、Kawai M.、Kawanishi Y.，Naitou K.和Gojobori T.（1997）《进化母题及其生物和结构意义》。《分子进化杂志》。,44（补充1），S38–S43。[公共医学][谷歌学者]

27Hirosawa M.、Totoki，Y.、Hoshida，M.和Ishikawa，M.（1995）《多序列比对迭代算法的综合研究》。计算。申请。Biosci公司。,11, 13–18. [公共医学][谷歌学者]

28Stoye J.、Evers，D.和Meyer，F.（1997）为多序列比对和系统发育重建生成基准。程序。国际竞争情报。系统。分子生物学。,5, 303–306. [公共医学][谷歌学者]

29Morgenstern B.、Dress，A.和Werner，T.（1996）基于片段间比较的多重DNA和蛋白质序列比对。程序。美国国家科学院。科学。美国,93, 12098–12103.[PMC免费文章][公共医学][谷歌学者]

30Morgenstern B.，（1999）DIALIGN2：改进多序列比对的分段到分段方法。生物信息学,15, 211–218. [公共医学][谷歌学者]

31Smith R.F.和Smith，T.F.（1992）模式诱导多序列比对（PIMA）算法，该算法采用二级结构依赖性间隙惩罚，用于比较蛋白质建模。蛋白质工程。,5, 35–41. [公共医学][谷歌学者]

32Gotoh O.，（1996）通过参考结构比对评估的迭代精细化，显著提高了多重蛋白质序列比对的准确性。分子生物学杂志。,264, 823–838. [公共医学][谷歌学者]

33Maidak B.L.、Cole，J.R.、Lilburn，T.G.、Parker，C.T.，Jr、Saxman，P.R.、Farris，R.J.、Garrity，G.M.、Olsen，G.J.、Schmidt，T.M.和Tiedje，J.M.（2001）RDP-II（核糖体数据库项目）。核酸研究。,29, 173–174.[PMC免费文章][公共医学][谷歌学者]

34Iwabe N.、Kuma，K.、Kishino，H.、Hasegawa，M.和Miyata，T.（1991）RNA聚合酶的进化和三大类古细菌的分支模式。《分子进化杂志》。,32, 70–78. [公共医学][谷歌学者]

35McClure M.A.、Vasi、T.K.和Fitch，W.M.（1994）《多蛋白序列比对方法的比较分析》。分子生物学。埃沃。,11, 571–592. [公共医学][谷歌学者]

36Smith T.F.和Waterman，M.S.（1981）常见分子子序列的识别。分子生物学杂志。,147, 195–197. [公共医学][谷歌学者]

37Karplus K.和Hu，B.（2001）使用BAliBASE多重比对测试集通过SAM-T99评估蛋白质多重比对。生物信息学,17, 713–720. [公共医学][谷歌学者]

38Lecompte O.、Thompson，J.D.、Plewniak，F.、Thierry，J.和Poch，O.（2001）后基因组时代的完整序列多重比对（MACS）。基因,270, 17–30. [公共医学][谷歌学者]

文章来自核酸研究由以下人员提供牛津大学出版社