简介
从检测关键功能残基到推断蛋白质家族的进化历史,多序列比对是分子生物学分析各个方面的基本工具。然而,如果没有专家知识的手动检查,很难正确对齐远距离相关序列。关于序列比对的优化问题,人们做了很多努力。Needleman和Wunsch(1)提出了一种基于动态规划(DP)的序列比较算法,通过该算法可以获得两个序列之间的最优比对。该算法在多序列比对中的推广(2)不适用于由数十或数百个序列组成的实际对齐,因为它需要与N个K(K),其中K(K)是每个序列的长度N个为了克服这一困难,各种启发式方法,包括渐进式方法(三)和迭代求精方法(4–6)到目前为止,已提出。它们主要基于连续二维DP的各种组合,其CPU时间与N个2.
即使这些启发式方法成功地提供了最佳比对,仍然存在着最佳比对是否真的符合生物正确比对的问题。结果比对的准确性受计分系统的影响很大。汤普森等. (7)在他们的程序CLUSTALW中开发了一个复杂的评分系统,其中根据输入序列的特征,如序列发散、长度、局部水肿等,仔细调整间隙惩罚和其他参数。然而,现有的评分系统无法正确处理各种类型的问题的全局对齐,包括内部插入的大型终端扩展(8). 最近,CLUSTALW的精确度有了很大提高(7)1.8版,最流行的校准程序,具有出色的可移植性和可操作性,以及T-COFFEE(9),它提供了迄今为止已知方法中最高精度的校准。
另一方面,自从Feng和Doolittle提出渐进式方法以来,很少有改进能够成功地减少CPU时间(三). 随着蛋白质和DNA序列数量的快速增加,适用于大规模问题的高速计算机程序变得越来越重要。为了提高DP的速度,在多序列比对过程中使用高度同源的片段是有效的(10). 有一些著名的同源搜索程序,如FASTA(11)和BLAST(12),基于字符串匹配算法。
在本报告中,我们开发了一种新的基于快速傅里叶变换(FFT)的多序列比对方法,该方法允许快速检测同源片段。尽管FFT具有很高的效率,但实际上很少用于检测序列相似性(13,14). 我们还提出了一种改进的评分系统,即使对于插入或扩展较大的序列,以及长度相似的远距离相关序列,该系统也表现良好。通过计算机模拟和BAliBASE测试了该方法的效率(CPU时间和准确性(15)与几种现有方法进行比较的基准测试。这些测试表明,CPU时间大大缩短,而最终校准的精度与现有方法中最精确的方法相当。
方法
通过FFT进行组对组比对
氨基酸取代的频率在很大程度上取决于参与取代的氨基酸对之间的物理化学性质的差异,特别是体积和极性的差异(16). 物理化学性质相似的氨基酸之间的取代倾向于保持蛋白质的结构,这种中性取代在进化过程中积累在分子中(17). 因此,有理由认为氨基酸一分配给其分量为体积值的向量v(v)(一)和极性值第页(一)格兰瑟姆介绍(18). 我们使用这些值的规范化形式:
和
,其中overbar表示平均超过20个氨基酸,σv(v)和σ第页分别表示体积和极性的标准偏差。氨基酸序列被转换为这种载体的序列。
计算两个氨基酸序列之间的相关性。我们定义相关性c(c)(k个)在这样的向量的两个序列之间
c(c)(k个) =c(c)v(v)(k个) +c(c)第页(k个),1
哪里c(c)v(v)(k个)和c(c)第页(k个)如下文所定义,是两个要对齐的氨基酸序列之间的体积分量和极性分量的相关性。相关性c(c)(k个)用位置滞后表示两个序列的相似程度k个地点。高价值c(c)(k个)表明序列可能有同源区域。
相关性c(c)v(v)(k个)序列1和序列2之间的体积分量,位置滞后k个站点定义为
哪里
和
是n个层序1的第个位点,长度为N个序列2的长度为M(M)分别为。考虑到N个≃M(M)在许多情况下,方程式2拿O(运行)(N个2)操作。FFT将此计算的CPU时间减少到O(运行)(N个日志N个) (19). 如果V(V)1(米)和V(V)2(米)是的傅里叶变换
和
,即。
⇔V(V)1(米)三
⇔V(V)2(米),4
众所周知,相关性c(c)v(v)(k个)表示为
c(c)v(v)(k个) ⇔V(V)1*(米) ·V(V)2(米),5
其中,ρ表示变换对,星号表示复数共轭。
相关性c(c)第页(k个)两个序列之间的极性分量
以相同的方式计算。
寻找同源片段。如果比较的两个序列具有同源区域,则相关性c(c)(k个)有一些峰值对应于这些区域(图。A) ●●●●。然而,通过FFT分析,我们只能知道位置滞后k个指两个序列中的同源区域,但不指该区域的位置。如图所示B、 为了确定每个序列中同源区域的位置,进行了窗口大小为30个位点的滑动窗口分析,其中计算了相关性中最高20个峰中每个峰的局部同源程度c(c)(k个). 我们将得分值超过给定阈值的30个站点(在我们的程序中,每个站点的得分为0.7,评分系统的详细信息见下文)确定为同源段。如果两个或多个连续的片段被鉴定为同源片段,则它们被组合成一个更大长度的片段。如果合并段的长度超过150个站点,则将该段分为多个段,每个段有150个站点。
(A类)FFT分析的结果。有两个峰对应于两个同源区块。(B类)进行了滑动窗分析,确定了同源块的位置。请注意,窗口大小为30(见文本),但为了简单起见,窗口大小在(B)中设置为4。
除法同调矩阵。为了获得两个序列之间的对齐,同源片段必须在两个序列中排列一致。矩阵S公司ij公司(1 ≤我,j个≤n个,n个是同源片段的数量)以如下方式构建。如果我序列1上的第th个同源片段对应于j个序列2上的第个同源片段,S公司ij公司具有上面计算的同源片段的得分值;否则S公司ij公司设置为0。通过将标准DP程序应用于矩阵S公司ij公司,我们得到了对应于同源片段的最优排列的最优路径。图A显示了一个存在五个同源片段的示例。序列1中的片段顺序与序列2中的不同。最佳路径取决于S公司23和S公司32; 如果S公司23>S公司32,带有粗体箭头的路径是最佳路径。
(A类)分段级DP示例;(B类)减少同源矩阵上DP的面积。
如图所示,在对应于同源段中心的边界处,将整体同源矩阵划分为若干子矩阵B.因此,图中的阴影区域计算中不包括B。由于FFT可以检测到许多同源片段,因此减少了CPU时间。
扩展到组对组对齐。通过考虑方程式,上述程序可以很容易地扩展到组对组对齐2和6作为特殊情况,每组有一个序列。这些方程通过替换扩展到组对组对齐
具有
,它是属于组1的成员的体积分量的线性组合:
哪里w个我是序列的加权因子我,其计算方式与CLUSTALW相同(7)对于渐进式方法,或以与Gotoh相同的方式(20)加权系统的迭代求精方法。类似地,极性分量计算为:
该方法通过将序列转换为四维向量序列来适用于核苷酸序列,四维向量的分量是每列a、T、G和C的频率,而不是体积和极性值。在这种情况下,两个核苷酸序列之间的相关性是:
c(c)(k个) =c(c)A类(k个) +c(c)T型(k个) +c(c)G公司(k个) +c(c)C(k个).
评分系统
相似矩阵。为了提高对齐效率,还修改了评分系统(相似矩阵和差距惩罚)。沃格特等. (21)建议Needleman–Wunsch(NW)算法对所有元素都为正值的全正矩阵表现良好。CLUSTALW公司(7)和其他方法默认使用这种全正矩阵。自Vogt以来等. (21)仅考察了每个蛋白质家族成员长度相似的情况,尚不清楚这种全阳性矩阵是否适用于各种比对问题,尤其是不同长度的比对问题。因此,与现有方法相反,我们采用了一个归一化相似矩阵
(一和b条是氨基酸),具有正值和负值:
哪里平均的1 = Σ一(f)一M(M)aa公司,平均的2 = Σa、 b条(f)一(f)b条M(M)ab公司,M(M)ab公司是原始相似矩阵,(f)一是氨基酸的出现频率一、和S公司一是一个用作间隙扩展惩罚的参数。在这个相似矩阵下
,两个随机序列之间每个位点的得分为S公司一,两个相同序列之间的每个位点得分为1.0+S公司一.如果S公司一比单位要小得多,差距的得分实际上相当于随机氨基酸序列。
我们程序的默认参数为:M(M)ab公司是琼斯的200 PAM log-odds矩阵等. (22),(f)一是氨基酸的出现频率一由Jones计算等. (22),S公司操作(间隙打开惩罚,定义如下)为2.4S公司一氨基酸序列为0.06。对于核酸序列,M(M)ab公司是根据Kimura的双参数模型计算出的200 PAM对数矩阵(23)转换/颠换比率为2.0,(f)一为0.25,S公司操作为2.4且S公司一为0.06。
差距惩罚。同调矩阵H(H)(我,j个)在两个氨基酸序列之间A类(我)和B类(j个)由相似矩阵构造为
,其中我和j个是序列中的位置。当两组序列对齐时,组1和组2之间的同源矩阵计算如下:
哪里A类(n、 我)表示我第个站点n个第1组中的第个序列,B类(m、 j个)是j个第个站点米第2组中的第th序列,以及w个n个是前面定义的权重因数,用于n个第个序列。
在NW算法(1)中,两组序列之间的最佳对齐计算如下:
哪里对(i、 j个)是从(1,1)到(1,1)的最优路径的累积分数(我,j个)、和G公司1(我,x个)和G公司2(j个,年)是下面定义的差距惩罚。
每组序列可能包含前面步骤中已经引入的间隙。如果在与现有间隙相同的位置新引入间隙,则不应对新间隙进行处罚,因为这些新间隙和现有间隙可能是由单个插入或删除事件造成的。Gotoh公司(6)和汤普森等. (7)根据现有差距的模式制定特定于职位的差距惩罚。我们在本报告中使用的方法比他们的方法简单:
G公司1(i、 x个) =S公司操作· {1 – [克1开始(x个) +克1结束(我)]/2},
哪里S公司操作对应于间隙打开惩罚,克1开始(x个)是从x个第个站点,以及克1结束(我)是结束于我第个站点。那就是,
哪里z(z)米(我)=1和一米(我)=0,如果我层序的第个位点米是一个缺口;否则z(z)米(我)=0和一米(我) = 1;w个米是序列的加权因子米.其他处罚G公司2(j个,年)以相同的方式计算。因为这个公式比现有的公式简单(6,7)CPU时间大大减少,但最终校准的精度与现有评分系统相当(见结果)。
计算机程序
我们开发了一个程序包MAFFT,其中包含了上述新技术。FFT算法的源代码取自Press等. (19). 在MAFFT中,累进方法(三,7)(FFT-NS-1,FFT-NS-2)和迭代求精方法(4–6)(FFT-NS-i)的实现只需稍作修改,如下所述。
FFT-NS-1。使用上述FFT算法和归一化相似矩阵,输入序列按照导向树中序列的分支顺序逐步对齐。这种方法在下文中被称为FFT-NS-1。此方法需要基于全对比较的导向树,其CPU时间为O(运行)(K(K)2),其中K(K)是序列数。距离矩阵的快速计算对于K(K)因此我们采用了琼斯的方法等. (22)经过两次修改;20种氨基酸分为六个物理化学基团(24)、和数字T型ij公司序列共享的6元组我和顺序j个被计数。此值转换为距离D类ij公司序列之间我和顺序j个作为
D类ij公司= 1 – [T型ij公司/最小值(T型ii(ii),T型日本)].
使用UPGMA方法从该距离矩阵构造导向树(25).
FFT-NS-2。输入序列沿FFT-NS-1根据对齐推断的导向树重新对齐。预计在更可靠的导向树的基础上获得更可靠的定线(26). 此方法称为FFT-NS-2。
FFT-NS-i型。对FFT-NS-2获得的对准进行了进一步改进,将对准分为两组并重新对准(4–6). 我们使用了一种称为树相关限制分区的技术(27). 重复此过程,直到上述分数没有得到更好的分数对齐。此方法称为FFT-NS-i。
为了测试上述FFT算法或归一化相似矩阵的效果,我们将这三种方法与未使用这些新开发技术的几种方法进行了比较。
NW-NS-1/NW-NS-2。我们研究了一种使用标准NW算法而不是FFT算法的方法,该方法使用了上述规范化相似矩阵。该方法称为NW-NS-1或NW-NS-2。关于导向树,NW-NS-1和NW-NS-2分别与FFT-NS-1或FFT-NS-2相同。
西北-AP-2。为了测试上述归一化相似矩阵的效果,我们使用传统的全正相似矩阵检验了一种方法(21),通过从所有元素中减去矩阵中最小的数字而得到正数。这相当于设置S公司一在方程式中7对于我们使用的相似矩阵为0.82。该方法称为NW-AP-2。除相似矩阵外,NW-AP-2的程序与NW-NS-2的程序相同。
结果
计算机模拟
为了评估当前方法的性能,我们进行了计算机仿真,重点是CPU时间和精度。使用仿真程序ROSE生成的序列(28)比较了现有方法和两种现有方法CLUSTALW 1.82版和T-COFFEE在不同长度和不同序列数下的CPU时间。使用了两种类型的序列集;一个是由高度保守的序列组成,具有约35–85%的同源性(平均距离为100 PAM),另一个是一组具有约15–65%同源性的远距离相关序列(平均距离是250 PAM)。我们还估计了CPU时间的顺序[年属于O(运行)(X(X)年),其中X(X)是输入序列的长度或数量]。
图显示了CPU时间对序列长度的依赖性。还显示了每种方法的回归系数。基于NW的标准方法CLUSTALW和NW-NS-2要求CPU时间与序列长度的平方成正比(两种方法的回归系数都接近2),与预期的序列相似程度无关。相反,基于FFT的方法FFT-NS-2和FFT-NS-i的CPU时间取决于输入序列的相似程度;对于高度保守的序列,FFT-NS-2和FFT-NS-i的CPU时间几乎与序列长度成正比(图中的回归系数接近1)。A) 而FFT-NS-2的CPU时间与NW-NS-2在距离相关序列中的CPU时间接近(图。B) ●●●●。
本文描述的三种方法(FFT-NS-2、FFT-NS-i和NW-NS-2)以及两种现有方法(CLUSTALW和T-COFFEE)的CPU时间与输入序列平均长度的关系图。输入序列之间的平均一致性百分比为~35–85%(A类)和~15–65%(B类). 序列数为40。每种方法都显示了通过幂回归分析计算得出的回归系数。对于所有情况,都使用了默认参数,但CLUSTALW除外,在这两种情况下,都检查了默认设置(CLW18d)和“快速树”选项(CLW28q)。所有计算都是在Linux操作系统(Intel Xeon 1.7 GHz,1 GB内存)上执行的。gcc 2.96版编译器与优化选项“-O3”一起使用。
图A和B显示CPU时间与数字的依赖关系(K(K))输入序列的。T-COFFEE的时间消耗为O(运行)(K(K)三)用于相对大量序列的对齐,如Notredame等. (9)估计。CLUSTALW(默认)需要通过标准NW算法进行全配对比较O(运行)(K(K)2)CPU时间。其他方法需要大约的CPU时间O(运行)(K(K)).
文本中描述的三种方法(FFT-NS-2和FFT-NS-i)以及两种现有方法(CLUSTALW和T-COFFEE)的CPU时间与输入序列数量的关系图。输入序列之间的平均一致性百分比为~35–85%(A类)和~15–65%(B类). 输入序列的平均长度为300。每种方法都显示了通过幂回归分析计算得出的回归系数。对于所有情况,都使用了默认参数,但CLUSTALW除外,在这两种情况下,都检查了默认设置(CLW18d)和“快速树”选项(CLW28q)。所有计算都是在Linux操作系统(Intel Xeon 1.7 GHz,1 GB内存)上执行的。gcc 2.96版编译器与优化选项“-O3”一起使用。
为了测试准确性,将五种新开发的方法FFT-NS-1、FFT-NS-2、NW-NS-1、NW-NS-2和FFT-NS-i应用于ROSE产生的不同同源水平的序列(28). 每种方法的准确度都是通过对对分数的总和来衡量的,其中重建比对与模拟(“正确”)比对进行比较,并从所有可能的比对中计算正确比对比对的比率(8). 模拟重复100次,并对每种方法取平均值(图。).
总分图(8)与五种方法(FFT-NS-1、FFT-NS-2、FFT-NS-i、NW-NS-1和NW-NS-2)的输入序列平均距离相比。输入序列的数量为40个,序列长度平均为200个位点。垂直线表示分数的标准偏差。对于所有情况,都使用了默认参数。
基于FFT的方法(FFT-NS-1和FFT-NS-2)的准确度几乎等同于基于标准NS-的方法(NW-NS-1和NW-NS-2)。这一结果表明,FFT算法并没有牺牲精度。正如预期的那样,FFT-NS-2的性能优于FFT-NS-1。对于远距离相关序列,FFT-NS-i在准确性上优于FFT-NS-1和FFT-NS-2。
使用BAliBASE的基准
汤普森等. (8)使用BAliBASE基准校准数据库发布了广泛分布的校准程序的系统比较(15),基于三维结构叠加的“正确”路线数据库。BAliBASE数据库分为五种不同类型的引用。第一类是由相似长度的等距离进化成员组成的。在第二类中,每个序列最多包含三个孤儿序列和一组近亲。第三类包含多达四个远距离相关的组,而第四类和第五类分别涉及长末端和内部插入。这些参考文献在下文中称为1-5类。
我们将方法NW-AP-2、NW-NS-2、FFT-NS-2和FFT-NS-i中描述的四种方法应用于该数据库,以与五种现有方法DIALIGN的效率进行比较(29,30)、PIMA(31),集群(7)版本1.82,PRRP(32)和T-咖啡(9). 平均得分总和(见上文)和列得分[正确对齐列的比率(8)]计算每个类别的平均值。Wilcoxon配对签名秩检验和t吨-进行了测试,以测试每种方法的准确性差异的显著性。这些测试给出对-值,这是观察到的差异可能是偶然造成的概率。
表显示了此基准测试的结果以及执行此测试的每个方法的CPU时间。与上述模拟不同,FFT-NS-2(基于FFT的方法)所需的CPU时间几乎相当于NW-NS-2。这是因为FFT算法对于像这些测试这样的远距离相关序列是无效的。NW-NS-2比CLUSTALW占用的CPU时间更少,可能是因为前者的计算过程简单。FFT-NS-i比T-COFFEE占用更少的CPU时间。
表1。
BAliBASE基准测试中各种对齐方法的平均分数和列分数之和
方法 | CPU时间(s) | 类别。1 | 类别。2 | 类别。三 | 类别。4 | 类别。5 | 平均值1 | 平均值2 |
---|
渐进式方法 |
太平洋投资管理局 | 1116 | 0.825/0.737 | 0.751/0.127 | 0.525/0.262 | 0.700/0.480 | 0.788/0.555 | 0.772/0.558 | 0.718/0.432 |
CLW18d型 | 2202 | 0.871/0.792 | 0.856/0.329 | 0.754/0.490 | 0.745/0.417 | 0.852/0.617 | 0.844/0.639 | 0.816/0.529 |
CLW18q系列 | 1657 | 0.871/0.790 | 0.859/0.334 | 0.763/0.473 | 0.728/0.402 | 0.887/0.709 | 0.847/0.644 | 0.824/0.542 |
西北-AP-2 | 250 | 0.842/0.746 | 0.833/0.268 | 0.770/0.443 | 0.703/0.311 | 0.851/0.667 | 0.821/0.593 | 0.800/0.487 |
NW-NS-2型 | 243 | 0.849/0.761 | 0.844/0.334 | 0.779/0.486 | 0.797/0.532 | 0.951/0.826 | 0.845/0.652 | 0.844/0.588 |
FFT-NS-2型 | 227 | 0.849/0.761 | 0.844/0.334 | 0.779/0.486 | 0.797/0.532 | 0.951/0.826 | 0.845/0.652 | 0.844/0.588 |
迭代精化方法与T-COFFEE |
直径2-1 | 18132 | 0.792/0.681 | 0.814/0.219 | 0.673/0.327 | 0.818/0.615 | 0.938/0.840 | 0.801/0.584 | 0.807/0.536 |
PRRP公司 | 9782 | 0.871/0.793 | 0.860/0.354 | 0.823/0.569 | 0.663/0.275 | 0.885/0.742 | 0.845/0.646 | 0.820/0.547 |
T-咖啡 | 12065 | 0.876/0.797 | 0.856/0.343 | 0.777/0.497 | 0.811/0.555 | 0.961/0.901 | 0.865/0.683 | 0.856/0.619 |
FFT-NS-i型 | 1466 | 0.864/0.787 | 0.853/0.363 | 0.789/0.518 | 0.799/0.534 | 0.956/0.835 | 0.857/0.675 | 0.852/0.607 |
路线数量 | | 82 | 23 | 12 | 15 | 12 | 144 | – |
NW-AP-2既不包含上述改进的评分系统,也不包含FFT算法,其精确度与CLUSTALW的前一版本(1.7)相当(未显示数据)。使用改进的评分系统,如方程式所示7NW-NS-2和FFT-NS-2的性能明显优于NW-AP-2。T-COFFEE的平均准确度最高,但FFT-NS-i的准确度与T-COFFEE相当。对-Wilcoxon匹配配对符号秩检验的值为0.13(配对总和得分)和0.43(列得分),以及对-值依据t吨-总分为0.10,列分为0.23。因此,差异并不显著。
LSU rRNA和RNA聚合酶序列的应用
BAliBASE倾向于由少量短序列组成的排列;每次比对的序列数为9.2,序列长度平均为251.1。为了说明我们的方法在实际序列分析中的威力,我们选择了两个相对较大的数据集示例:LSU rRNA的核苷酸序列和RNA聚合酶最大亚单位的氨基酸序列。
LSU rRNA。核糖体数据库项目(RDP-II)(33)包含72个来自细菌、古生菌和真核生物的LSU rRNA序列。此路线被用作参考路线。我们还使用了59个序列的另一个参考比对,其中片段序列被从完整的72个序列集中排除(参考比对可在http://www.biophys.kyoto-u.ac.jp/加藤/align/example/lsu). CPU时间和对销和列得分的总和(8)使用这两个数据集(表). 基于FFT的方法(FFT-NS-2和FFT-NS-i)对于此类相对较大的数据集非常有效。
表2。
几种使用LSU rRNA序列的方法的比较
方法 | CPU时间(s) | 平均得分总和 | 列得分 |
---|
72个序列×1305–5183个位点 |
CLW18d型 | 1998 | 0.692 | – |
CLW18q系列 | 600.2 | 0.597 | – |
西北-AP-2 | 197 | 0.796 | – |
西北-NS-2 | 205.2 | 0.770 | – |
FFT-NS-2型 | 73.39 | 0.769 | – |
FFT-NS-i型 | 251.8 | 0.781 | – |
59个序列×2810–5183个位点 |
T-咖啡 | 35 860 | 0.806 | 0.559 |
CLW18d型 | 1523 | 0.754 | 0.411 |
CLW18q系列 | 395.6 | 0.643 | 0.315 |
西北-AP-2 | 153.7 | 0.823 | 0.482 |
西北-NS-2 | 159.8 | 0.793 | 0.463 |
FFT-NS-2型 | 51.09 | 0.794 | 0.468 |
FFT-NS-i型 | 181.7 | 0.817 | 0.552 |
RNA聚合酶的最大亚单位。我们使用Iwabe的RNA聚合酶最大亚单位序列的参考比对等. (34)包括11个高度保守的区块。编译了两个数据集,一个(大)由76个序列组成,另一个(小)由24个序列组成。它们都包含来自细菌、古生菌和真核生物三大类(I、II和III)的氨基酸序列(参考比对可在http://www.biophys.kyoto-u.ac.jp/加藤/对齐/示例/rpol). 表显示了通过六种方法(NW-AP-2、FFT-NS-2、NW-NS-2、FFT-NS-i、CLUSTALW 1.82版和T-COFFEE)正确检测到的序列保守块的CPU时间和数量。T-COFFEE、FFT-NS-2、FFT-NS-i和NW-NS-2成功检测到所有11个块,尽管不同方法的CPU时间不同。FFT-NS-2(基于FFT的方法)的CPU时间约为NW-NS-2(标准NW-based方法)的三分之一。
表3。
几种使用RNA聚合酶最大亚基序列的方法的比较
方法 | CPU时间(s) | 正确对齐的块数 |
---|
76个层序×1182–2890个位点 |
CLW18d型 | 675.5 | 10 |
CLW18q系列 | 159.4 | 10 |
西北-AP-2 | 54.95 | 8 |
NW-NS-2型 | 59.30 | 11 |
FFT-NS-2型 | 18.15 | 11 |
FFT-NS-i型 | 173.1 | 11 |
24个序列×1206–2890个位点 |
T-咖啡 | 745.3 | 11 |
CLW18d型 | 100.1 | 9 |
CLW18q系列 | 50.78 | 9 |
西北-AP-2 | 20.79 | 10 |
西北-NS-2 | 22.77 | 11 |
FFT-NS-2型 | 7.150 | 11 |
FFT-NS-i型 | 46 | 11 |
讨论
人们认为合适的对齐算法取决于要对齐的序列的性质(8,35); NW算法为BAliBASE中的参考文献1、2和3生成准确可靠的比对,而Smith–Waterman(SW)算法(36)这是一种检测局部同源性的方法,对于类别4和5是成功的。根据输入序列的性质,正确选择这些不同的算法可能是不切实际的;实际序列数据包含各种类型的序列,即片段序列、融合蛋白、孤儿序列、某些成员的过表达等。
基于这些考虑,Notredame等. (9)在T-COFFEE中制定西北和西南对齐程序的组合。这种尝试在牺牲计算简单性的情况下,成功地提高了精确度。因此,该方法可能适用于短而小的数据集,如BAliBASE中的Karplus和Hu(37)指出。相比之下,本方法采用简单的NW算法(NW-NS-2)或基于FFT的更快速算法(FFT-NS-2和FFT-NS-i)。然而,BAliBASE基准测试表明,使用归一化相似矩阵的当前方法对类别4和类别5也表现良好。因此,FFT-NS-i的准确性与T-COFFEE的准确性相当。这一结果表明,在不使任何计算过程复杂化的情况下,可以显著提高比对的准确性,这与NW和SW算法的组合对于计算高质量比对是必要的传统观点相反(8,9,35). 通过对相似矩阵进行归一化,可以简单地提高精度。
这表明了汤普森参数选择的重要性等. (7,8)指出。然而,他们的战略与我们的战略有很大的不同。CLUSTALW中使用的评分系统复杂且耗时;评分系统中的许多参数根据输入序列动态变化。相比之下,目前的评分系统很简单;对于任何输入序列,相似矩阵都是固定的,而且DP算法中甚至没有明确包含扩展间隙惩罚。然而,NW-NS-2/FFT-NS-2的精确度与CLUSTALW相当。
在以上测试的所有情况下,与具有可比精度的现有方法相比,目前的方法占用的CPU时间通常更少。值得注意的是,CPU时间的顺序从O(运行)(N个2)至O(运行)(N个)对于高度保守的序列(图。A) ,其中N个是序列长度。这种快速多重比对方法适用于基因组序列的自动化高通量分析。同时,生物学家的专业知识仍然特别重要,因此需要一个用户友好的比对工作台,它可以方便地访问通过数据库搜索、比对分析和非同源方法获得的预测收集的各种信息(38). 这里介绍的方法作为这种集成对齐工作台的核心组件也很有用。
MAFFT程序包可在http://www.biophys.kyoto-u.ac.jp/加藤/程序/align/mafft它已经在Linux操作系统上进行了测试。由H.Suga、K.Katoh、Y.Yamawaki、K.Kuma、D.Hoshiyama、N.Iwabe和T.Miyata在X Window System上编写的图形用户界面也可以在http://www.biophys.kyoto-u.ac.jp/加藤/程序/align/xced.