摘要

BLAST程序是广泛使用的工具,用于搜索蛋白质和DNA数据库中的序列相似性。对于蛋白质比较,这里描述的各种定义、算法和统计改进允许BLAST程序的执行时间大大缩短,同时提高它们对弱相似性的敏感性。触发单词点击扩展的新标准,结合生成间隙对齐的新启发式,产生了一个间隙BLAST程序,其运行速度大约是原始程序的三倍。此外,还引入了一种方法,用于自动将BLAST生成的具有统计意义的比对组合到位置特定的得分矩阵中,并使用该矩阵搜索数据库。生成的位置特定的迭代BLAST(PSIBLAST)程序以与间隙BLAST大致相同的每次迭代速度运行,但在许多情况下,对微弱但生物相关的序列相似性更为敏感。PSI-BLAST用于揭示BRCT超家族的几个新的有趣成员。

介绍

BLAST算法的变化(1)已被纳入几个流行的程序中,用于搜索蛋白质和DNA数据库中的序列相似性。BLAST程序可以将蛋白质或DNA查询与任何组合的蛋白质或DNA数据库进行比较,在进行任何比较之前,DNA序列通常会进行概念翻译。我们将使用爆炸该程序将蛋白质查询与蛋白质数据库进行比较,作为BLAST的原型,尽管提出的思想立即扩展到涉及DNA查询或数据库翻译的其他版本。所描述的一些改进也适用于DNA-DNA比较,但尚未实施。

BLAST是一种启发式算法,试图优化特定的相似性度量。它允许在速度和灵敏度之间进行权衡,并设置“阈值”参数,T型。更高的值T型生成速度更快,但丢失弱相似性的可能性也更大。BLAST程序需要的时间与查询序列的长度和搜索到的数据库的长度的乘积成比例。由于数据库大小的变化率目前超过了处理器速度,运行BLAST的计算机承受着越来越大的负载。然而,几个新算法思想的结合使得新版本的BLAST能够以大幅提高的速度实现更高的灵敏度。本文描述了BLAST的三个主要改进。

(i) 为了提高速度,扩展单词对的标准已经修改。原始BLAST程序查找对齐分数至少为T型。然后扩展每个这样的“命中”,以测试它是否包含在高得分对齐中。对于默认值T型值时,此扩展步骤将占用大部分处理时间。新的“两次命中”方法要求在同一对角线上并在一定距离内存在两个不重叠的单词对A类在调用扩展之前。为了达到可比较的灵敏度,阈值参数T型必须降低,产生比以前更多的命中。然而,由于这些命中中只有一小部分被扩展,因此所需的平均计算量减少了。

(ii)增加了生成间隙定线的能力。最初的BLAST程序通常会发现涉及单个数据库序列的多个比对,这些比对在一起考虑时具有统计意义。忽略其中任何一条路线都会影响组合结果。通过引入一种生成间隙对齐的算法,有必要只找到一个而不是包含在重要结果中的所有未映射对齐。这允许T型参数,提高初始数据库扫描的速度。新的间隙对齐算法使用动态规划在两个方向上扩展对齐残差的中心对。对于速度,早期的启发式方法(2,)将生成的路线限制在动态编程路径图的预定义条带中(4). 我们的方法只考虑得分下降不超过X(X)低于迄今为止最好的分数。因此,该算法能够使其探索的路径图区域适应数据。

(iii)可以迭代BLAST搜索,并根据四轮中发现的重要比对生成特定位置的得分矩阵用于圆形+ 1. Motif或profile搜索方法在检测远距离关系时通常比成对比较方法敏感得多。然而,创建一组描述蛋白质家族的基序或剖面,并用它们搜索数据库,通常需要运行几个不同的程序,在不同阶段需要大量的用户干预。BLAST算法很容易推广为使用任意位置特定的得分矩阵来代替查询序列和相关的替换矩阵。因此,我们自动化了从BLAST搜索产生的输出生成这样一个矩阵的过程,并将BLAST演算法改为将此矩阵作为输入。由此产生的特定位置迭代BLAST或PSI-BLAST程序可能不如可用的最佳模体搜索程序那样敏感,但其速度和易操作性可以使这些方法的威力得到更广泛的使用。

在更详细地描述了BLAST的这些改进之后,我们考虑了几个生物示例,这些示例大大提高了程序的灵敏度和速度。

统计前期工作

为了分析BLAST算法及其改进,我们首先需要回顾高评分局部比对的统计数据。BLAST使用替换矩阵,该矩阵指定分数ij公司用于对齐每对氨基酸j。给定两个要比较的序列,原始BLAST程序会在每个序列中寻找长度相等的片段,当这些片段相互对齐且没有间隙时,总得分最大。不仅可以找到单个最佳段对,还可以找到其他局部最优的对(,5–7)其分数无法通过延长或修剪来提高。这种局部最优比对被称为“高评分段对”或HSP。

为了统计理论的缘故,我们假设一个简单的蛋白质模型,其中氨基酸以背景概率随机出现在所有位置P(P).我们要求两种随机氨基酸的预期分数图解的持否定态度。鉴于P(P)ij公司,基本理论(8,9)产生两个可计算参数,λ和K(K),可用于将HSP标称分数转换为标准化分数,从而从统计角度使所有评分系统直接具有可比性。标准化分数S公司‘HSP的公式如下:
1
本文给出了一个没有单位的标称分数,而一个由方程规范化的分数1据说是用(10,11). 当两个足够长度的随机蛋白质序列n个比较,数字E类标准化评分至少为S′的不同HSP中,偶然发生的HSP大致如下:
2
哪里N个=是搜索空间大小(8–10). 如果将蛋白质与整个数据库而不是单个序列进行比较,n个是数据库的剩余长度。方程式2可反转以屈服S公司′=对数2(N个/E类),实现特定目标所需的标准化分数E类-值。在典型的当前数据库搜索中,长度为250的蛋白质可以与总残留物为50000000的蛋白质数据库进行比较。要实现略微重要的E类-值为0.05时,需要~38位的标准化分数。

虽然刚刚概述的理论还没有被证明适用于有缺口的局部比对及其相关分数,但计算实验强烈表明它仍然有效(,12–15). 统计参数λ和K(K)然而,这些数据不再由理论提供,而是必须通过模拟或真实但不相关序列的比较进行估计。在下面区分给定参数集λ和K(K)对于有间隙或无间隙对齐,我们分别使用下标g和u。

当不允许有间隙时,另一个重要定理指出,在HSP中,对齐的字母对(,j)倾向于以“目标频率”发生:

这个q个方程的ij总和为1;确实,λu个计算为这种情况下的唯一正数(8,9). 分数ij公司对于检测与这些特定目标频率的对准是最佳的(8,10),并通过反转方程ij公司=[ln(q个ij公司/P(P)P(P)j)]/λu个,可以选择与任何期望的q个ij公司流行的PAM(16,17)和BLOSUM(18)用这个log-odds公式构造代换矩阵。对于间隙对准计分系统,尚未建立相应的结果。然而,如果所使用的间隙成本足够大,预计在随机序列的高评分局部比对中观察到的目标频率将不会与无间隙情况下的目标频率有很大差异。

基本算法的改进:二次命中法

BLAST算法的中心思想是,具有统计意义的对齐很可能包含一对得分较高的对齐单词。BLAST首先扫描数据库(蛋白质的长度通常为三),得分至少T型当与查询序列中的某个单词对齐时。满足此条件的任何对齐词对称为。算法的第二步检查每个命中是否位于一条对齐线内,且分数足以报告。这是通过在两个方向都击球来完成的,直到跑步路线的得分下降超过X(X)低于最高得分。这个扩展步骤的计算成本很高;使用T型X(X)为获得对弱对齐的合理敏感性所必需的参数,扩展步骤通常占BLAST执行时间的90%以上。因此,需要减少执行的扩展次数。

我们改进的算法基于这样的观察,即感兴趣的HSP比单个单词对长得多,因此可能需要在同一对角线上和相对较短的距离内进行多次点击。对角线的涉及从位置开始的单词的命中率(x1,x2)数据库和查询序列可以定义为x1x2. The距离同一对角线上的两次点击之间的第一个坐标差。)该特征码可用于更有效地定位HSP。具体来说,我们选择窗口长度A类,并且仅当在距离内发现两个不重叠的点击时调用扩展A类在同一条对角线上。任何与最近的点击重叠的点击都将被忽略。高效执行需要一个数组来记录每个对角线的最新命中的第一个坐标。因为数据库序列是按顺序扫描的,所以这个坐标总是随着连续点击而增加。Wilbur和Lipman首次在生物数据库搜索中使用了在同一对角线上搜索多个点击的想法(19).

作为HSP得分函数的两次命中和一次命中启发式的敏感性。使用BLOSUM-62氨基酸替代矩阵(18)、等式3暗示的目标频率qij以及Robinson和Robinson的背景氨基酸频率Pi(20),为每个标称分数37–92生成了10万个模型HSP,对应于标准化分数19.9–45.1位。通过检查确定每个HSP是否包含两个非重叠的长度为3的单词对,标称分数至少为11,彼此之间的距离为40,或者一个长度为3、标称分数至少13的单词对。使用T=11的两次命中启发式和T=13的一次命中启发式的丢失HSP的相应概率被绘制为归一化HSP得分的函数。双击法对得分至少为33位的HSP更敏感。
图1

作为HSP得分函数的两次命中和一次命中启发式的敏感性。使用BLOSUM-62氨基酸替代矩阵(18)和目标频率q个ij公司由方程式隐含和背景氨基酸频率P(P)罗宾逊和罗宾逊(20)对于每个标称分数37–92,生成100000个模型HSP,对应于标准化分数19.9–45.1位。通过检查来确定每个HSP是否未能包含标称得分至少为11并且彼此相距40以内的两个不重叠的长度为3的单词对,或者标称得分至少为13的单个长度为3的单词对。使用两次命中启发式和T型=11,一次命中启发式T型=13,绘制为归一化HSP评分的函数。两次命中方法对于得分至少为33位的HSP更为敏感。

因为调用扩展需要两次点击,而不是一次点击,所以阈值参数T型必须降低以保持可比较的敏感性。结果是发现了更多的单次点击,但只有一小部分在触发扩展的同一对角线上有关联的第二次点击。在仔细计算了查找合适的对角线、最近一次命中的坐标并检查其是否在距离内后,大多数命中都可能被忽略A类当前命中的坐标,最后用新坐标替换旧坐标。从经验上讲,由于需要较少的扩展而节省的计算量超过了处理较大点击数所需的额外计算量。

为了研究一次命中和两次命中方法检测不同评分的热休克蛋白的相对能力,我们使用Robinson和Robinson的背景氨基酸频率对蛋白质进行建模(20),并使用BLOSUM-62替换矩阵(18)用于序列比较。考虑到这些P(P)ij公司,未绘制局部路线的统计参数计算为λu个=0.3176和K(K)u个= 0.134. 使用方程式上面,我们可以计算q个ij公司对评分系统进行了优化,并使用这些目标频率生成模型HSP。最后,我们使用这些HSP评估了一次命中和两次命中BLAST启发式的敏感性。

蚕豆豆血红蛋白I(87)(SWISS-PROT登录号P02232)和马β-珠蛋白(88)(SWISOS-PROT注册号P02062)的BLAST比较。得分至少为13分的15次点击用加号表示。另外22次得分至少为11分的非重叠点击用圆点表示。在这37次点击中,只有两对显示在同一对角线上,彼此之间的距离在40以内。因此,T=11的二次启发式触发了两个扩展,取代了T=13的一次启发式调用的15个扩展。因为这只是一个例子,所以T的不同设置下的相对点击数和扩展数仅大致对应于完整数据库搜索中的比率。两个命中对的左侧未映射扩展生成标称分数为45或23.6位的HSP,使用λu和Ku进行计算。
图2

蚕豆豆血红蛋白Ⅰ的BLAST比较(87)(SWISS-PROT登录号P02232)和马β-珠蛋白(88)(SWISS-PROT登录号P02062)。得分至少为13分的15次点击用加号表示。另外22次得分至少为11分的非重叠点击用圆点表示。在这37次点击中,只有两对显示在同一对角线上,彼此之间的距离在40以内。因此,使用T型=11触发两个扩展,代替由一击启发式调用的15个扩展T型= 13. 因为这只是一个例子,所以在T型仅大致对应于完整数据库搜索中找到的比率。两个命中对的左侧未映射扩展生成标称分数为45或23.6位的HSP,使用λ计算u个K(K)u个.

如果HSP在某个地方包含长度,则一次命中方法将检测到HSP-W公司至少得分T型。对于W公司=3和T型= 13,图1显示了该方法错过HSP的经验估计概率,作为其标准化分数的函数。如果HSP包含两个非重叠长度,则两次命中方法将检测HSP-W公司至少得分T型,起始位置相差不超过A类残留物。对于W公司= 3,T型=11和A类= 40,图1显示了该方法错过HSP的估计概率,作为其标准化分数的函数。对于得分至少为33位的HSP,二次命中启发式更为敏感。

为了分析一次命中和两次命中方法的相对速度,使用上面研究的参数,我们注意到两次命中的方法平均产生约3.2倍的命中次数,但只有约0.14倍的命中范围(图2). 因为决定是否需要延长命中时间大约是实际延长命中时间的九分之一,所以两次命中方法的命中处理组件的速度大约是一次命中方法相同组件的两倍。

触发间隙路线的生成

图1表明,即使使用带有阈值参数的原始一次性方法T型=13,分数>38位的HSP丢失的概率通常不超过4%。虽然这对于大多数用途来说似乎已经足够了,但一次性默认T型参数通常设置为11,执行时间几乎是T型= 13. 为什么要为敏感性的最佳边际收益付出这样的代价?原因是,最初的BLAST程序通过在许多情况下定位涉及相同数据库序列的几个不同HSP,并计算组合结果的统计评估,隐式地处理间隙对齐(21,22). 这意味着分数远低于38位的两个或多个热休克蛋白组合在一起可以达到统计显著性。如果其中任何一个HSP缺失,那么综合结果也可能如此。

BLAST产生的缺口延伸用于蚕豆豆血红蛋白I(87)和马β-珠蛋白(88)的比较。(a) 当通过丙氨酸残基在各自位置60和62的排列来播种时,路径图的区域被探索。这个种子来源于图2所示的两个未映射扩展的左边生成的HSP。Xg衰减参数是标称分数40,与BLOSUM-62替换分数一起使用,长度k的间隙的成本为10+k。(b)生成的最佳局部对齐对应的路径,叠加在图2中描述的命中上。最初的BLAST程序使用T=11的一击启发法,能够定位该比对中包含的五个HSP中的三个,但只有第一个和最后一个获得了足以报告的分数。(c) 最佳局部对齐,标称得分75,标准化得分32.4位。在搜索SWISS-PROT(26)版本34(21 219 450残基)的上下文中,使用腿血红蛋白序列(143残基)作为查询,如果未调用边缘效应校正(22),则E值为0.54。原始BLAST程序定位此路线的第一个和最后一个未映射段。使用不带边缘效应校正的汇总统计法,此组合结果的E值为31(21,22)。在对齐的中心线上,标识得到了回应,BLOSUM-62矩阵(18)给出正分数的替换用“+”符号表示。
图3

BLAST生成的用于蚕豆豆血红蛋白I比较的间隙延伸(87)和马的β-珠蛋白(88). ()当通过丙氨酸残基在各自位置60和62处的排列进行播种时,探索路径图的区域。该种子源于图中所示的两个未映射扩展的左侧生成的HSP图2. TheX(X)衰减参数是标称分数40,与BLOSUM-62替换分数和10的成本一起使用+k个对于长度的间隙k个. (b条)与生成的最佳局部对齐对应的路径,叠加在图2.原始BLAST程序,使用一次性启发式T型=11,能够定位该比对中包含的五个HSP中的三个,但只有第一个和最后一个HSP的得分足以报告。(c(c))最佳局部对齐,标称得分75,标准化得分32.4位。在搜索SWISS-PROT的背景下(26),版本34(21 219 450个残基),使用豆血红蛋白序列(143个残基E类-如果没有边缘效果校正,值为0.54(22)被调用。原始BLAST程序定位此路线的第一个和最后一个未映射段。使用无边缘效应校正的汇总统计方法,此组合结果具有E类-值31(21,22). 在对齐的中心线上,对BLOSUM-62矩阵的恒等式和替换进行了响应(18)给出的正分数由“+”符号表示。

此处采用的方法允许BLAST同时生成有间隙的路线,并且运行速度比以前快得多。中心思想是为任何超过中等分数的HSP触发间隙延长S公司,这样每50个数据库序列调用的扩展就不会超过一个。(根据方程式2,对于典型长度的蛋白质查询,S公司应设置为~22位。)一个有间隙的扩展比一个没有间隙的扩展需要更长的时间来执行,但是只要执行很少的扩展,它们所消耗的总运行时间就可以保持相对较低的比例。

通过寻求单个间隙对准,而不是一组未对准的对准,只需定位一个组成HSP即可成功生成组合结果。这意味着我们可以容忍更高的机会错过任何一个中等得分的HSP。例如,考虑一个涉及两个HSP的结果,每个HSP具有相同的概率P(P)假设我们希望找到概率至少为0.95的组合结果。原始算法需要找到两个HSP,需要2个P(P)P(P)2≤0.05,或P(P)小于~0.025。相反,新算法只需要P(P)2≤0.05,可耐受P(P)高达0.22。这允许T型大幅提高算法命中阶段的参数,同时保持相当的灵敏度T型=11至T型=13(对于一次性启发式)。(上面描述的两次命中启发式降低了T型回到11。)正如下面将要讨论的,由此产生的速度增加超过了对罕见的间隙扩展所需的额外时间的补偿。

总之,新的间隙BLAST算法需要至少两次非重叠的得分命中T型,距离内A类调用第二次命中的未映射扩展。如果生成的HSP至少有标准化分数S公司位,然后触发间隙扩展。仅当其具有E类-价值低得令人感兴趣。例如,在成对比较中图2,左侧命中对调用的未映射扩展生成得分为23.6位的HSP(使用λ计算u个K(K)u个). 这足以触发间隙扩展,从而生成分数为32.4位的对齐(使用λ计算K(K))和E类-值为0.5(图3). 原始BLAST程序仅定位此路线的第一个和最后一个未映射段(图3c),并为其分配一个组合E类-值大于50倍。

有间隙局部定线的构造与统计评价

用于两两序列比对的标准动态规划算法对路径图的每个单元执行固定的计算量,路径图的尺寸是被比较的两个序列的长度(23–25). 为了提高速度,Fasta等数据库搜索算法(2)以及早期的空白版本BLAST()通过将动态规划限制在全路径图的带状部分来牺牲严格性(4),选择包含已确定相似性的区域。这种方法的一个问题是,最佳间隙对准可能会偏离探索频带的范围。随着带宽的增加以减少这种可能性,该算法的速度优势被削弱。

因此,我们采用了不同的启发式方法来构建有间隙的局部对齐,这是BLAST构建HSP方法的简单推广。中心思想是只考虑最优局部对齐分数下降不超过X(X)低于找到的最佳对齐分数。从一对对齐的残基开始,称为种子,动态规划通过路径图向前和向后进行(Zheng Zhang等。,手稿正在准备中)(图3a4). 这种方法的优点是,所探索的路径图区域适合正在构建的路线。排列可以在离种子任意多个对角线的地方漂移,但每行上扩展的单元数量往往保持有限,甚至可能在遇到路径图的边界之前收缩到零(图4). 这个X(X)参数的作用与早期启发式算法的带宽参数类似,但它隐式指定要探索的路径图区域通常更有效。

这种启发式的一个重要因素是对种子的智能选择。给定一个HSP,其分数足够高,从而触发间隙扩展,如何选择一个残基对来强制对齐?虽然更复杂的方法是可能的,但我们实现的简单程序是沿着HSP定位具有最高比对分数的长度为11的片段,并使用其中心残基对作为种子。如果HSP本身短于11,则选择中心残基对。例如,对齐中的第一个未映射区域图3c构成触发对齐的HSP。该热休克蛋白最长的11段核心长度使豆血红蛋白残基55-65与β-珠蛋白残基57-67对齐。因此,分别位于60和62位置的丙氨酸残基被用作图中所示的间隙延伸的种子图3a。如下面的性能评估部分所述,此过程在选择实际上参与最佳对齐的种子方面非常有效。

大多数缺口扩展都是由偶然的相似性触发的,因此可能在有限的范围内,如图4。本例中的反向扩展探索了~2000个路径图单元格,因此不遇到任何序列末尾的典型双向间隙扩展预计涉及~4000个单元格。因为S公司设置为每50个数据库序列调用一次gapped扩展不到一次,每个数据库序列需要探索的单元格不到80个。

原始程序和空白BLAST程序在不同算法阶段花费的相对时间
表1

原始程序和空白BLAST程序在不同算法阶段花费的相对时间

BLAST在缺口延伸期间探索的路径图区域,用于比较蚕豆豆血红蛋白I和来自人类腺病毒4型(89)的E1B蛋白小T抗原(SWISS-PROT登录号:P10406)。Xg衰减参数是标称分数40,与BLOSUM-62替代分数和10+k差距成本一起使用。触发这种延伸的22.7位HSP,涉及豆血红蛋白残基119-140和腺病毒残基101-122,只是一种随机相似性,而不是更大和更高核比对的一部分。通过残基124和106的排列来播种有间隙的延伸。当超过触发HSP时,路径图中通过点的最佳对齐分数会稳定下降,并且反向延伸在任一蛋白质开始之前终止。总共探索了2766个路径图单元,其中反向扩展占2047个。
图4

BLAST在缺口延伸期间探索的路径图区域,用于比较蚕豆豆血红蛋白I和人类腺病毒4型E1B蛋白小T抗原(89)(SWISS-PROT登录号:P10406)。这个X(X)衰减参数是标称分数40,与BLOSUM-62替换分数和10一起使用+k个缺口成本。触发这种延伸的22.7位HSP,涉及豆血红蛋白残基119-140和腺病毒残基101-122,只是一种随机相似性,而不是更大和更高核比对的一部分。通过残基124和106的排列来播种有间隙的延伸。当超过触发HSP时,路径图中通过点的最佳对齐分数会稳定下降,并且反向延伸在任一蛋白质开始之前终止。总共探索了2766个路径图单元,其中反向扩展占这些单元的2047个。

间隙扩展所需的执行时间是未映射扩展的约500倍。然而,通过以所述方式触发间隙扩展,同时提高T型对于从11到13的单次命中版本BLAST,每避免4000个未映射扩展,就会调用大约一个有间隙的扩展。由于未映射扩展的数量减少了约三分之二,因此BLAST扩展阶段的总时间减少了一半以上。当然,上述两次命中策略进一步减少了未映射扩展所需的时间。一旦计算了程序开销,净加速大约是三倍。

对于实际报告的任何路线,记录“回溯”信息的间隙扩展(25)需要执行。为了提高BLAST在产生最佳局部比对方面的准确性,这些带间隙的扩展默认使用更大的X(X)在程序搜索阶段使用的参数。

BLAST算法的各个步骤所需的时间因查询和数据库而异。表1显示了原始程序和间隙BLAST程序在不同算法阶段所花费的典型相对时间。在这里和下面,“原始BLAST”程序由爆炸版本1.4.9,修改后使用相同的边缘效果校正(22)背景氨基酸频率为“间隙BLAST”。时间表示三个不同查询的平均值,每个实例中原始BLAST程序的时间标准化为100个单位。

更具体地说,搜索SWISS-PROT(26),释放34(59 576个序列;21 219 450个残基),长度为567流感病毒血凝素前体(27)作为查询,原始BLAST程序需要45.8秒,间隙BLAST计划需要15.8秒。这个定时实验和下面提到的其他实验是在一台轻载SGI Power Challenge XL计算机的一个200 MHz R10000 cpu处理器上运行的,该计算机具有2.5 GB的RAM。该计算机运行操作系统IRIX,版本6.2,这是UNIX的一种实现。我们使用标准SGI C编译器-O(运行)优化标志,编译程序的所有版本。报告的时间是由时间命令,和用于两次相同运行中更好的运行。

在评估原始BLAST算法期间,G.Myers开发了一种与此处使用的有间隙扩展例程密切相关的类型。它没有包含在公开发布的代码中,主要是因为当时的扩展每次命中的策略由于实现的灵敏度增益相对较小而过度降低了算法的速度(1).

如上所述,可使用两个统计参数λ评估间隙定线的统计显著性K(K).Fasta程序的当前版本(2)通过分析数据库中所有序列产生的比对分数的分布,在每次运行时估计这些参数。BLAST通过仅为可能与查询相关的少数数据库序列生成对齐来提高速度,因此没有估算λ的选项K(K)在飞行中。相反,它使用随机模拟预先生成的这些参数的估计值(). 这种方法的一个缺点是,程序可能不接受未进行模拟的任意评分系统,并且仍然会产生统计显著性的准确估计。相比之下,由于原始BLAST程序只处理未映射的局部路线,因此可以导出λu个K(K)u个从任何得分矩阵的理论(8,9).

爆破在位置特定得分矩阵中的迭代应用

与使用简单序列作为查询的数据库搜索相比,使用位置特定的得分矩阵(也称为轮廓或图案)的数据库搜索通常能够更好地检测弱关系(28–38). 然而,使用这些方法经常需要使用几个不同的程序和相当程度的专业知识。因此,为了使motif搜索的功能更容易使用,我们编写了一个程序,从BLAST运行的输出中自动构建位置特定的得分矩阵,并修改了BLAST,以使用这样的矩阵代替简单的查询进行操作。生成的PSI-BLAST程序通常比相应的BLAST软件更为敏感,但每次迭代所需的运行时间几乎不超过相同的时间。在相关工作中,Henikoff和Henikof(39)描述了除了修改BLAST以使其可以对特定位置的得分矩阵进行操作之外,如何将与该矩阵近似的单个人工序列用作原始BLAST程序的查询。

职位特定评分矩阵的构建是一个多阶段的过程,在每个阶段必须在多个备选路线中进行选择。我们一直以自动操作、执行速度和总体简单性为目标。下面讨论的问题是:(i)分数矩阵的一般结构;(ii)从中导出矩阵的多重排列的构造;(iii)多重比对中序列的权重,以及对其构成的有效独立观测数的评估;(iv)目标频率的估计和矩阵分数的构建;(v) 将BLAST应用于位置特定矩阵,并对搜索结果进行统计评估。我们并不声称我们目前的实施是最佳的,而且随着时间的推移,它的一些细节可能会发生变化。

得分矩阵体系结构

一个简单序列与由特定位置的得分矩阵所体现的模式的对齐几乎完全类似于两个简单序列的对齐。唯一真正的区别是,将字母与模式位置对齐的分数是由矩阵本身给出的,而不是参照替换矩阵。对于蛋白质,查询长度L(左)将20×20维的代换矩阵替换为特定位置的维矩阵L(左)× 20. 也可以定义特定职位的缺口成本(34,40). 与两两序列比较一样,可以在矩阵和简单序列的最佳全局对齐中进行选择(23),找到完整矩阵与序列段的最佳对齐(41),并找到矩阵和序列的最佳局部对齐(24).

位置特异性蛋白质评分矩阵从两个来源获得其功效。第一个是改进了对氨基酸在不同模式位置出现的概率的估计,从而形成了一个更敏感的评分系统。第二是对重要主题边界的相对精确定义。通过要求一个或多个基序的完全对齐,而不是寻求任意的局部对齐,搜索空间的大小可能会大大减小,从而降低随机噪声的水平。不幸的是,从数据库搜索的输出中很好地自动描述一组主题有很多障碍。查询序列可能包含各种不同的域,并与数据库中的不同蛋白质共享它们的不同子集。此外,即使是单个图案的适当范围也可能很难确定(42).

因此,我们选择放弃限制派生矩阵长度的潜在优势,然后要求它们与数据库序列段完全对齐(41). 相反,我们构造的每个矩阵的长度都精确地等于原始查询序列的长度。当使用这种矩阵搜索数据库时,我们寻求局部比对,这与BLAST用于直接序列比较时所寻求的比对完全类似。最后,我们不会试图推导出特定职位的差距分数,以便与特定职位的替代分数一起使用。相反,在PSI-BLAST的每个迭代中,我们使用第一次简单BLAST运行中使用的相同差距分数。我们的理由是,没有好的理论可以从多重比对中得出缺口成本,并且,正如下面将要讨论的那样,通过避免特定位置的缺口成本,我们可以合理估计得出的局部比对的统计重要性。

(a) 将人类脆性组氨酸三联体(HIT)蛋白(61)(SWISS-PROT登录号P49789)与SWISS-PORT进行比较时,PSI-BLAST产生的多重比对。所有成对局部定线的E值为30.01,并在SWISS-PROT中确定为属于HIT系列。六个数据库序列中的粗条表示与查询中的各个段对齐的段。在为指定的多重对齐列构造序列权重时,对应于查询的余数108,只使用多重对齐的阴影部分。(b) 人类HIT蛋白和流感嗜血杆菌半乳糖-1-磷酸尿苷酰转移酶(63)的局部比对(SWISS-PROT登录号P31764)。在第一次特定位置迭代中,PSI-BLAST为该对齐提供了45.4位的分数,对应于4×10−5的E值。“+”符号反映BLOSUM-62矩阵得分为正,即使使用位置特定矩阵构建对齐。(c) 人类HIT蛋白和酵母5′,5‴-P1,P4-四磷酸磷酸化酶I(64)的局部比对(SWISS-PROT登录号P16550)。在第二次特定位置迭代中,PSI-BLAST为该对齐提供了43.4位的分数,对应于2×10−4的E值。
图5

()PSI-BLAST在人类脆性组氨酸三联体(HIT)蛋白作用下产生的多重对准(61)(SWISS-PROT登录号P49789)与SWISS-PROT进行了比较。所有成对的局部对齐都具有E类-值30.01,并在SWISS-PROT中确定为属于HIT系列。六个数据库序列中的粗条表示与查询中的各个段对齐的段。在为指定的多重对齐列构造序列权重时,对应于查询的余数108,只使用多重对齐的阴影部分。(b条)人HIT蛋白和流感嗜血杆菌半乳糖-1-磷酸尿苷酰转移酶(63)(SWISS-PROT登录号:P31764)。在第一次特定位置迭代中,PSI-BLAST为该对齐提供了45.4位的分数,对应于E类-值为4×10−5.“+”符号反映BLOSUM-62矩阵得分为正,即使使用位置特定矩阵构建对齐。(c(c))人HIT蛋白与酵母5′,5‴-P1,P4-四磷酸磷酸化酶I的局部比对(64)(SWISS-PROT登录号:P16550)。在第二次特定位置迭代中,PSI-BLAST为该对齐提供了43.4位的分数,对应于E类-值为2×10−4.

多重线形施工

为了从BLAST输出中生成多重对齐,我们只需使用E类-值低于阈值,默认设置为0.01。查询用作构建多重对齐的主控形状或模板M(M)。将清除与其对齐的查询段相同的任何行(即数据库序列段),并且只保留一个副本,其中任何行之间的相同程度大于98%。将忽略包含插入查询中的间隙字符的成对对齐列,以便M(M)与查询的长度完全相同。因为我们处理的是局部对齐M(M)可能涉及不同数量的序列,许多列可能只包含查询。我们没有试图改进M(M)通过相互比较数据库序列,或通过任何其他真正的多重对齐过程。

正如将要讨论的,为给定对齐列构建的矩阵分数不仅取决于其中出现的残差,还取决于其他列中的残差。然而,为了使这种依赖关系易于表述,我们需要修剪原始的多重对齐M(M)简化为更简单的“简化”。这种修剪是对每一列独立完成的,因此减少了多重对齐M(M)C类一般来说,会从一列中变化C类到下一个。要构造M(M)C类,我们首先指定集合R(右)它所包含的序列恰好是那些为色谱柱贡献残基的序列C类。然后定义M(M)C类就是那些M(M)其中的所有序列R(右)表示。通过施工,减少了多重线形M(M)C类在每一行和每一列中都有剩余字符或间隙字符(图5a),因此可以进行以下所述的各种操作。

序列权重

当从多重比对构造得分矩阵时,将所有比对序列赋予相等的权重是错误的。一大组紧密相关的序列所携带的信息几乎不比单个成员多,但仅凭其大小就可以轻易地“投票”出少数更分散的序列。克服这一困难的一种方法是为不同的序列分配权重,那些有许多近亲的序列的权重较小。已经提出的许多序列加权方法(43–51)通常会产生大致相同的结果。由于它的速度和简单性,我们实现了Henikoff和Henikof序列加权方法的改进版本(47). 间隙字符被视为第21个不同的字符,并且在计算权重时忽略由相同残数组成的任何列。在谈到柱的观测剩余频率时(f)从今以后,我们将指的是它的加权频率,而不是它的原始频率。

在构建矩阵得分时,不仅一列的观察到的剩余频率很重要,而且它所构成的独立观察的有效数量也很重要:由单个缬氨酸和单个异亮氨酸组成的列与由每个缬氨酸的五个独立实例组成的列具有不同的信息。因此,我们需要估计相对数量N个C类由定线构成的独立观测值M(M)C类。中序列数的简单计数M(M)C类这是一个糟糕的衡量标准,因为10个相同的序列比10个不同的序列意味着更少的独立观察。因此,我们建议对N个C类不同残基类型的平均数,包括间隙特征,在M(M)C类。这个估计显然不理想,因为无论包含多少独立序列,它都会在21时饱和M(M)C类然而,对于我们可能遇到的数据,N个C类通常小于21,因此对于我们的目的来说,这可能是一个很好的近似值。正如将要看到的,它不是N个C类这很重要,但更重要的是它在列之间的相对值。N个C类基本上与Henikoff和Henikof提出的路线可变性测量方法相同(52)以不同的方式使用。

目标频率估计

考虑到多重对齐,已经提出了许多生成得分矩阵的方法(28–37,42,52–54). 也许具有最佳理论基础的处方是,特定图案位置的分数应为对数形式(/P(P)),其中是残留物的估计概率在该列中找到(29,30,32,33,36,37,42,52–54). 这就留下了一个悬而未决的问题,即如何最好地估计.

给定涉及大量独立序列的多重比对对于特定的色谱柱,应简单地收敛到观察到的残留频率在那一列。然而,除了上面讨论的序列加权问题外,使估计复杂化的因素包括小样本(30)以及残留物之间关系的先验知识(16,37,53). 各种研究表明,目前最好的估算是Dirichlet混合物(52–56). 然而,因为它通常表现得差不多(52),由于其相对简单,我们实现了Tatusov引入的数据相关伪计数方法. (37). 该方法使用置换矩阵中包含的氨基酸关系的先验知识ij公司生成残余伪计数频率,用观测频率平均(f)估计.

具体来说,对于给定的列C类,我们构造伪计数频率使用公式:
4
其中q个ij公司是替换矩阵中隐含的目标频率,由公式给出直觉上,替换矩阵倾向于与实际观察到的残基对齐的那些残基接收到较高的伪计数频率。然后我们估计签署人:
5
其中,α和β是对观测和伪计数剩余频率的相对权重。这样我们构建的分数将减少到ij公司在没有与查询序列对齐的列中,我们让α=N个C类− 1. β仍然是一个任意的伪计数参数;它的值越大,对残差关系的先验知识相对于观测到的残差频率的重视程度就越高。我们从经验上发现,结合我们计算α的方法,β的合理设置为10。

BLAST应用于职位特定得分矩阵

BLAST算法的初始步骤是构建一个单词列表,该列表与得分至少为T型。对于由位置特定矩阵而非简单序列组成的查询,只需对代码进行微小修改即可执行此步骤。对于BLAST的未加帽和带帽扩展步骤也是如此。一个重要的问题是,关键参数是否T型X(X)在算法的各个启发式阶段使用,并调整为简单的序列比较,可以不改变地应用于特定位置矩阵,而不会过度降低数据库搜索的速度或灵敏度。我们通过确保标度λ来解决这个问题u个PSI-BLAST内部生成的矩阵得分与替换矩阵得分相对应ij公司换言之,我们将矩阵列的得分计算为[ln(/P(P))]/λu个.

没有分析理论可以用来估计特定位置得分矩阵和简单序列之间的间隙对齐的统计意义。然而,人们可以假设,对于构建成与ij公司,一组给定的间隙成本应产生相同的间隙对准标度参数λ至于ij公司这很方便,因为PSI-BLAST可以估计统计显著性,而不会在每次迭代后花费估计λ所需的大量时间K(K)通过随机模拟。为了验证这一假设,我们对PSI-BLAST生成的分数矩阵进行了一些统计测试,按比例缩放为λu个=0.3176,适用于先前发布的BLOSUM-62仿真的值().

首先,我们使用567流感病毒血凝素前体作为查询长度来搜索SWISS-PROT(27),并捕获PSI-BLAST从128条本地比对中构建的得分矩阵E类-值≤0.01。然后,我们将该矩阵与使用Robinson和Robinson的背景氨基酸频率生成的长度为567的10000个随机序列进行了比较(20). 一个长度的间隙k个被收取10英镑的费用+k个.使用适当修改的Smith-Waterman算法计算的最佳局部对齐分数的计数(24),绘制于图6图中还显示了最佳拟合的极值分布(,15)使用Altschul和Gish描述的边缘效应校正(),具有统计参数λ=0.251和K(K)= 0.031. 很明显,分布很好地符合随机试验;234个自由度的goodness-of-fit测试值为41.8,这低于人们预期的20%的时间,即使理论准确有效。这支持了上述统计理论适用于特定位置得分矩阵和简单序列的局部比对的观点。此外,估计值λ≈0.251±0.003与之前公布的这些缺口成本值0.255在实验误差范围内一致(). 作为初始查询,许多其他蛋白质序列也获得了类似的一致性(结果未显示),在所有情况下,重要程度要低得多K(K)也可以准确估计参数。通常,λ的值对于位置特定得分矩阵与简单序列的比较,与简单成对序列比较的值相比,差异似乎小于2%。使用λ的这些预计算值因此,对于PSI-BLAST分数<50比特,应导致小于一比特的误差,对应于统计显著性估计中小于2的因子。

绩效评估

为了更直接地测试PSI-BLAST使用的统计数据,我们将11个大型且特征明确的蛋白质家族的查询序列与SWISS-PROT数据库进行了比较,然后对同一数据库的洗牌版本运行生成的特定于位置的得分矩阵。对于每个查询,我们记录了最低的E类-找到的值,以及产生的洗牌序列数E类-值≤1和10。为了进行比较,我们对空白版本和原始版本的BLAST进行了相同的洗牌数据库测试。为了减少由于算法的启发式性质而错过高得分对齐的概率,我们使用T型=9,而不是默认值11。结果如所示表2对于11个查询,低PSI-BLAST的中值E类-值为0.87,对应于中位数P(P)-值为0.58(8,9). 随机数据库序列的平均数E类-<1和10的值分别为1.0和8.7,在1.0和10.0的预期值的20%以内。BLAST的未绘制版本和空白版本的等效测试也得出了与理论偏离<50%的结果。

通过将特定位置的得分矩阵与10000个随机蛋白质序列进行比较,得出最佳局部比对得分的分布。得分矩阵由PSI-BLAST根据SWISS-PROT搜索中发现的128条E值≤0.01的局部比对构建,使用长度为567的甲型流感病毒血凝素前体(27)作为查询(SWISSPROT登录号P03435)。使用罗宾逊和罗宾逊(20)的氨基酸频率生成每个长度为567的随机序列。使用位置特定矩阵和10+k缺口成本计算最佳局部对齐分数。绘制了最适合数据(3,15)的极值分布。34个自由度的χ2良好性检验值为41.8,对应的P值为0.20。
图6

通过将特定位置的得分矩阵与10000个随机蛋白质序列进行比较,得出最佳局部比对得分的分布。得分矩阵由PSI-BLAST根据128条局部路线构建E类-使用567流感病毒血凝素前体长度查询SWISS-PROT时,值≤0.01(27)(SWISPROT登录号P03435)。使用罗宾逊和罗宾逊的氨基酸频率生成每个长度为567的随机序列(20). 使用位置特定矩阵结合10计算最佳局部对齐分数+k个缺口成本。最适合数据的极值分布(,15)已打印。234个自由度的goodness-of-fit测试值为41.8,对应于P(P)-值为0.20。

不同查询序列与SWISS-PROT混合版本的比较
表2

不同查询序列与SWISS-PROT混合版本的比较

能够合理准确地估计有缺口的局部矩阵序列比对的重要性,使我们能够在PSI-BLAST程序的多次迭代期间自动构建位置特定的得分矩阵。在每次迭代之后,我们只需通过收集这些比对,就可以生成一个新的多重比对E类-值低于定义的阈值。PSI-BLAST的交互式版本允许用户覆盖特定局部路线的包含或排除。一旦给定的数据库序列被用于生成特定位置的得分矩阵,低E类-这个序列的值实际上在未来的迭代中得到了保证,因为序列在一定程度上是与自身进行比较的。因此,PSI-BLAST输出的生物相关性关键取决于避免在构建的多重比对中不适当地包含序列。具体地说,由于包含任何涉及高度偏倚氨基酸组成区域的对齐,生成的评分矩阵的效用立即受到影响(57,58).

Smith-Waterman和各种版本的BLAST的SWISS-PROT序列数量,产生E值≤0.01的比对,以及相对运行时间
表3

产生比对的SWISS-PROT序列数量E类-对于Smith-Waterman和各种版本的BLAST,值≤0.01,以及相对运行时间

比较BLAST的新间隙版本及其PSI-BLAST扩展与Smith-Waterman算法的性能(24)以及原始的未映射BLAST算法,我们使用了与上述相同的11个查询序列来研究PSI-BLAST统计的准确性。如图所示,由于这些统计数据非常准确,我们可以使用数据库搜索中发现的具有统计意义的序列的数量作为算法灵敏度的合理衡量标准。我们雇佣了研究人员程序,2.0u54版,来自Fasta包(2)作为Smith Waterman算法的实现。使用11个查询中的每一个,我们用四个程序中的每个搜索SWISPROT。我们展示了表3发现的序列数E类值≤0.01,以及运行时间与原始BLAST程序的平均比率。根据SWISS-PROT注释表3除了Smith-Waterman应用于组织相容性抗原查询时发现的得分最低的比对,以及应用于血凝素查询的原始BLAST发现的得分最低的比对之外,似乎是真正的家族成员。虽然一些比对涉及假想的蛋白质,但所有这些情况下保守残基的模式都表明是真阳性。

可以看出,空白BLAST程序的平均运行速度是原始程序的三倍,除一个案例外,在所有案例中都发现了更多具有统计意义的对齐。它的运行速度比Smith-Waterman快100倍以上,但对于11个合并查询,严格算法发现的1739个重要相似之处中只有8个遗漏。在这八个人中,只有一个人有E类-值<0.001,另一个似乎是随机的,而不是生物学意义上的相似性。缺口BLAST针对1731个相似性得出的分数仅在两个实例中与Smith-Waterman算法得出的分数不同。这两种情况下的差异都源于X(X)参数太低,而不是来自错误的种子选择。因此,尽管它很简单,但种子选择启发式是非常准确的。

包含单个PSI-BLAST迭代的搜索运行速度仍然比原始BLAST快,比Smith-Waterman快40倍,但在许多情况下可能更加敏感。它发现了史密斯-沃特曼(Smith-Waterman)返回的每一个真正的积极信息,但也经常有许多其他信息。这里只考虑了一次PSI-BLAST迭代,但如下文所示,多次迭代可以产生更好的结果。此外,我们发现PSI-BLAST在NCBI维护的非冗余蛋白质序列数据库的搜索中表现更好(59)与SWISS-PROT搜索相比,这是因为初始BLAST运行中发现的大量显著相似之处。

对于中的特定示例表3PSI-BLAST迭代所需时间明显长于有间隙的BLAST循环,这主要是因为从BLAST发现的大量重要局部比对中构建位置特定的得分矩阵所需的时间。对于返回少量重要对齐的查询,每个PSI-BLAST迭代需要的时间与BLAST几乎相同。

Psi-Blast示例

在许多情况下,PSI-BLAST能够自动发现简单的数据库搜索所无法发现的生物学上有趣的相似之处。有时需要多次迭代PSI-BLAST才能识别距离较远的蛋白质家族成员。我们在此更详细地考虑两个具有代表性的案例。

HIT蛋白

霍姆和桑德(60)描述三维结构的比较如何识别组氨酸三联体(HIT)蛋白质和半乳糖-1-磷酸尿苷酰转移酶(GalT)蛋白质之间的显著相似性。事实上,使用人类HIT蛋白(61)作为查询,SWISS-PROT的BLAST搜索显示了以下内容的点击率E类-值<0.01仅适用于其他HIT蛋白质(图5a). 与大鼠GalT蛋白的比对(62)只有一点意义不大E类-值为0.012。PSI-BLAST搜索,使用从中所示的六条路线生成的得分矩阵图5a,可以立即巩固对这种相似性的生物学相关性的信心。这个E类-与大鼠GalT的相似值降至2×10−4,并与对齐流感嗜血杆菌高尔夫球(63) (图5b)收到更重要的E类-值为4×10−5当然,这些相似性是不使用结构信息来揭示的。此外,在下一次迭代中,PSI-BLAST发现了一个非常重要的对齐(图5c;E类-值2×10−4)酵母5′,5‴-P1,P4-四磷酸磷酸化酶I(64),没有可用的结构。

BRCT蛋白

含有一个或多个BRCT域拷贝的蛋白质形成一个超家族,其中许多成员参与DNA损伤反应性细胞周期检查点(65–67). 虽然需要进行详细的分析来完全描述这组不同的蛋白质,但PSI-BLAST能够自动识别大多数超家族。我们使用人类BRCA1的C末端215残基(68),包括两个BRCT域(65),作为搜索NCBI非冗余蛋白质序列数据库的初始查询。使用默认截止E类-值为0.01时,初始BLAST搜索被认为与其他BRCA1序列和之前描述的BRCT蛋白BARD仅存在显著的比对(69) (表4). 然而,随后的PSI-BLAST迭代检索了表4; 表中省略了其他紧密同源物。博克描述的几乎所有BRCT蛋白. (66)被认可。未发现视网膜母细胞瘤家族(其假定的BRCT域特别不同)、蠕虫R13A5.13(未在搜索的数据库中)和人类DNA-连接酶III。PSI-BLAST确实报告了酵母RAD9和YGR103w乳克鲁维酵母RAP1同源物、蠕虫ZK675.2和各种末端脱氧核苷酸转移酶和聚(ADP-核糖)聚合酶,但都具有E类-值>0.01(表4). 对比对结果的详细检查表明,唯一可能的假阳性涉及锥虫EST(70)和詹氏甲烷球菌mutT蛋白(71)后者尽管参与DNA修复(表4).

据报道,最近添加到蛋白质数据库中的七个蛋白质是BRCT超家族的成员(表4). (i)拟南芥T10M13.12型(72),是发现的第一个包含BRCT结构域的植物蛋白。(ii)KIAA0259(73)是一种功能未知的大型人类蛋白质,具有八个BRCT结构域,是迄今为止在单个蛋白质中观察到的最大数量。(iii)T13F2.3(74)是一种具有500倍低复杂性的蠕虫蛋白(57)N端。(iv)SPAC6G9.12(75)是一种裂变酵母蛋白,与之前认识到的(66)酵母BRCT蛋白L8543.18(76). (v) C36A4.8型(74)是一种蠕虫蛋白,其C末端包含单个BRCT结构域,其N末端包含环指结构域,与BRCA1的N末端极为相似。与BRCA1相似的组织使这种蛋白质特别有趣。(vi)协同孢子虫专用D90904(77)是第一个非细菌连接酶的细菌BRCT蛋白。虽然它没有通过截止线E类-值为0.01时,其C末端BRCT结构域与几种细菌连接酶的结构域非常相似,这可能导致其在数据库中的分类不正确。BRCT结构域的大多数蛋白质N末端由线圈结构域组成。实际协同孢子虫sp.DNA连接酶(77,78)PSI-BLAST在第13次迭代中发现E类-值为0.002。(vii)Pescadillo是一种人类蛋白质,其斑马鱼同源基因对胚胎发育至关重要(79)和其酵母同源物YGR103w(80)以前被认为是BRCT蛋白(66,67). 它没有通过截止线E类-值为0.01,但出现近显著性E类-从第五次迭代开始,PSI-BLAST输出中的值。BRCA1和七个新鉴定的BRCT蛋白中BRCT结构域的大致位置如图所示图7.

BRCT结构域在人类BRCA1(68)、拟南芥T10M13.12(72)、人类KIAA0259(73)、蠕虫T13F2.3(74)、裂变酵母SPAC6G9.12(75)、蠕虫C36A4.8(74)、聚囊藻D90904(77)和人类Pescadillo(79)中的位置。此外,BRCA1和C36A4.8都有一个N端环指结构域。C36A4.8的BRCT结构域之前的短区域与其他蠕虫序列的相似性表明该蛋白可能被错误组装。
图7

BRCT域在人类BRCA1中的位置(68),拟南芥T10M13.12型(72),人类KIAA0259(73),蜗杆T13F2.3(74),裂变酵母SPAC6G9.12(75),蜗杆C36A4.8(74),协同孢子虫属D90904(77)和人类Pescadillo(79). 此外,BRCA1和C36A4.8都有一个N端环指结构域。C36A4.8的BRCT结构域之前的短区域与其他蠕虫序列的相似性表明该蛋白可能被错误组装。

讨论和结论

除了上述主要算法更改外,我们还修改了原始BLAST程序输出例程的一个方面,该方面有时会导致重要的相似性被忽略。当发现大量具有统计意义的比对时,BLAST通常只报告得分最高的500分。然而,这些对齐可能都涉及数据库中经常出现的查询的一个域。与查询其他区域的有趣但较弱的关系可能会被从列表底部删除。因此,遵循Sonnhammer和Durbin的总体思路(81),我们限制了涉及查询每个区域的对齐报告数量,但没有设置总体上限。

BLAST项目不太可能保持不变,未来还有许多可能的改进途径。我们在这里简要讨论了其中三个。

缺口成本

可以使用各种不同类型的缺口成本来构建缺口线形。由于单个突变事件可能插入或删除大量残基,因此有人认为长间隙的成本不应比短间隙高很多,并且仿射的差距成本,用于评估分数-(+英国)对于长度的间隙k个(82,85),已成为应用最广泛的。已经提出了这些成本的一般化,允许间隙包含两个序列中的残基,而不仅仅是一个序列(86). 具体来说,一个缺口,其中k个插入或删除残留物,以及j成对的残差保持未对齐状态以获得分数-(+英国+cj公司). 使用此类成本所需的算法只是传统仿射间隙成本的一个小变种。在许多情况下,新的缺口成本会产生更准确、更具统计意义的局部校准(86). 这些成本对于与PSI-BLAST一起使用可能具有特殊价值,因为通过仅在合理的情况下实施对齐,它们可能会导致构建更敏感的位置特定得分矩阵。使用广义仿射缺口成本作为通用数据库搜索的默认值是否可取,有待详细的实证研究。

使用BRCA1的C末端作为查询的PSI-BLAST蛋白数据库搜索结果
表4

使用BRCA1的C末端作为查询的PSI-BLAST蛋白质数据库搜索结果

位置特定得分矩阵作为PSI-BLAST的输入

PSI-BLAST执行三种不同的操作:它从BLAST输出数据构造多重对齐;它将这种对齐处理为特定于职位的得分矩阵;它使用这个矩阵来搜索数据库。然而,研究人员可能希望绕过前两个操作,直接向PSI-BLAST提供分数矩阵作为查询。主要困难是保持计算可靠统计数据的能力;如上所述,PSI-BLAST对其生成的矩阵施加严格的缩放规则,允许使用预计算的λ以评估重要性。有三条可能的路线是开放的。(i) 可以允许指定20个目标频率而不是20分。然后,这些可以在内部转换为具有适当刻度的对数赔率分数,以便应用预先计算的统计参数。(ii)可以通过随机模拟估计输入得分矩阵的统计参数(). 一个优点是适用于更广泛的评分系统,包括可能使用职位特定的差距成本。缺点是获得相关统计参数的合理准确估计可能会过度增加程序的执行时间。(iii)可以放弃对所生成路线的统计评估。这为输入评分系统提供了最大的范围,但排除了PSIBLAST自动迭代的任何合理方案。需要进行大量实验才能确定这些方法中哪一种最有效。

重新校准

在初始BLAST运行或稍后的PSI-BLAST迭代之后,用于后续迭代的多重对齐可以用比上述更复杂的方式构建。与其将所有立即超过阈值的成对比对合并为多重比对,不如使用其中最重要的比对来构建初始多重比对和相关位置特定的得分矩阵,然后可以使用该矩阵重新排序和重新对齐得分较低的数据库序列。在执行另一个全面的数据库搜索之前,可以多次重复此步骤。这种方法有几个潜在的优点。(i) 较弱的成对比对可能有点不准确,可以在它们被纳入进化多重比对之前进行改进和扩展。(ii)获得机会高分的无关序列可以通过改进的矩阵降低其分数,并且可能在将其纳入对齐之前被拒绝。(iii)获得相对较高比对分数但未达到纳入阈值的相关序列的分数可能会增加,并且可能会被纳入多重比对。简言之,重新对准过程可以防止不准确的两两比对破坏演化多重比对,并可以加速相关序列的识别,所有这些都只需很少的计算成本。初步研究表明,这一发展路线是富有成效的。

总之,新的间隙版本的BLAST比原始版本快得多,并且能够生成间隙对齐。虽然相关统计参数不再能够从理论上计算出来,但随机模拟允许预先估计常用氨基酸替代矩阵和缺口成本。对于许多查询,PSI-BLAST扩展可以大大提高对微弱但生物相关的序列关系的敏感性。PSI-BLAST保留了报告准确统计信息的能力,每次迭代的运行时间不超过间隔BLAST,并且可以迭代和完全自动使用。这些发展将大大提高数据库搜索方法对分子生物学家的实用性。

注释

新BLAST程序的源代码可通过匿名ftp从机器ncbi.nlm.nih.gov的“BLAST”目录中获得,程序可从ncbi的网站运行,网址为网址:http://www.ncbi.nlm.nih.gov/

致谢

W.M.和Z.Z.由国家医学图书馆拨款LM05110支持。我们感谢沃伦·吉斯博士的有益对话,感谢尤金·库宁博士对示例的帮助,感谢格雷戈里·舒勒博士制作了其中几个数字。

工具书类

1
阿尔特舒尔
S.F.公司。
吉什
西。
米勒
西。
迈尔斯
E.W.公司。
利普曼
D.J.公司。
分子生物学杂志。
1990
,卷。 
215
(第
403
-
410
)
2
皮尔逊
W.R.公司。
利普曼
D.J.公司。
程序。国家。阿卡德。科学。美国
1988
,卷。 
85
(第
2444
-
2448
)
阿尔特舒尔
S.F.公司。
吉什
西。
方法酶制剂。
1996
,卷。 
266
(第
460
-
480
)
4
K.-M.公司。
皮尔逊
W.R.公司。
米勒
西。
计算。申请。Biosci公司。
1992
,卷。 
8
(第
481
-
487
)
5
卖方
P.H.公司。
牛市。数学。生物。
1984
,卷。 
46
(第
501
-
514
)
6
阿尔特舒尔
S.F.公司。
埃里克森
B.W.公司。
牛市。数学。生物。
1986
,卷。 
48
(第
633
-
660
)
7
沃特曼
医学硕士。
艾格特
米。
分子生物学杂志。
1987
,卷。 
197
(第
723
-
728
)
8
卡林
美国。
阿尔特舒尔
S.F.公司。
程序。国家。阿卡德。科学。美国
1990
,卷。 
87
(第
2264
-
2268
)
9
德姆博
答:。
卡林
美国。
Zeitouni公司
O。
Ann.问题。
1994
,卷。 
22
(第
2022
-
2039
)
10
阿尔特舒尔
S.F.公司。
分子生物学杂志。
1991
,卷。 
219
(第
555
-
565
)
11
阿尔特舒尔
S.F.公司。
《分子进化杂志》。
1993
,卷。 
36
(第
290
-
300
)
12
史密斯
财政部。
沃特曼
医学硕士。
伯克斯
C、。
核酸研究。
1985
,卷。 
13
(第
645
-
656
)
13
柯林斯
J.F.公司。
库尔森
A.F.W.公司。
莱尔
答:。
计算。申请。Biosci公司。
1988
,卷。 
4
(第
67
-
71
)
14
莫特
R。
牛市。数学。生物。
1992
,卷。 
54
(第
59
-
75
)
15
沃特曼
医学硕士。
文格隆
米。
统计科学。
1994
,卷。 
9
(第
367
-
381
)
16
戴霍夫
M.O.公司。
施瓦茨
相对湿度。
奥尔卡特
公元前
戴霍夫
M.O.公司。
蛋白质序列和结构地图集
1978
,卷。 
5
 
补充3
华盛顿特区
国家生物医学研究基金会
(第
345
-
352
)
17
施瓦茨
相对湿度。
戴霍夫
M.O.公司。
戴霍夫
M.O.公司。
蛋白质序列和结构地图集
1978
,卷。 
5
 
补充3
华盛顿特区
国家生物医学研究基金会
(第
353
-
358
)
18
海尼科夫
美国。
海尼科夫
J.G.公司。
程序。国家。阿卡德。科学。美国
1992
,卷。 
89
(第
10915
-
10919
)
19
威尔伯
W.J.公司。
利普曼
D.J.公司。
程序。国家。阿卡德。科学。美国
1983
,卷。 
80
(第
726
-
730
)
20
罗宾逊
A.B.公司。
罗宾逊
有限责任公司。
程序。国家。阿卡德。科学。美国
1991
,卷。 
88
(第
8880
-
8884
)
21
卡林
美国。
阿尔特舒尔
S.F.公司。
程序。国家。阿卡德。科学。美国
1993
,卷。 
90
(第
5873
-
5877
)
22
阿尔特舒尔
S.F.公司。
舒豪伊
美国。
基因组研究中的理论和计算方法
1997
纽约
增压器压力
(第
1
-
14
)
23
针匠
S.B.公司。
Wunsch公司
客户尽职调查。
分子生物学杂志。
1970
,卷。 
48
(第
443
-
453
)
24
史密斯
财政部。
沃特曼
医学硕士。
分子生物学杂志。
1981
,卷。 
147
(第
195
-
197
)
25
桑苛夫
D。
克鲁斯卡尔
J.B.公司。
时间扭曲、字符串编辑和大分子:序列比较的理论与实践
1983
雷丁,马萨诸塞州
出版商
26
贝罗奇
答:。
阿普维勒
R。
核酸研究。
1997
,卷。 
25
(第
31
-
36
)
27
裘(Jou)
W.M.公司。
Verhoeyen公司
米。
德沃斯
R。
萨曼人
E.公司。
R。
Huylebroeck公司
D。
菲耶尔
西。
特雷尔福尔
G.公司。
理发室
C、。
凯里
Emtage公司
美国。
单元格
1980
,卷。 
19
(第
683
-
696
)
28
麦克拉克伦
公元
分子生物学杂志。
1983
,卷。 
169
(第
15
-
30
)
29
斯塔登
R。
核酸研究。
1984
,卷。 
12
(第
505
-
519
)
30
施耐德
T.S.公司。
斯托莫
总直径。
黄金
L。
埃伦菲希特
答:。
分子生物学杂志。
1986
,卷。 
188
(第
415
-
431
)
31
泰勒
W.R.公司。
分子生物学杂志。
1986
,卷。 
188
(第
233
-
258
)
32
伯格
O.G.公司。
冯·希佩尔
P.H.公司。
分子生物学杂志。
1987
,卷。 
193
(第
723
-
750
)
33
多德
投资银行。
伊根
J.B.公司。
分子生物学杂志。
1987
,卷。 
194
(第
557
-
564
)
34
哥博斯科夫
米。
麦克拉克伦
公元
艾森伯格
D。
程序。国家。阿卡德。科学。美国
1987
,卷。 
84
(第
4355
-
4358
)
35
保蒂
L。
分子生物学杂志。
1987
,卷。 
198
(第
567
-
577
)
36
斯托莫
总直径。
哈特泽尔
G.W.公司。
程序。国家。阿卡德。科学。美国
1989
,卷。 
86
(第
1183
-
1187
)
37
塔图索夫
相对湿度。
阿尔特舒尔
S.F.公司。
计算物理学
电动汽车。
程序。国家。阿卡德。科学。美国
1994
,卷。 
91
(第
12091
-
12095
)
38
T.-M.公司。
着陆器
E.S.公司。
蛋白质科学。
1994
,卷。 
(第
1315
-
1328
)
39
赫尼科夫
美国。
海尼科夫
J.G.公司。
蛋白质科学。
1997
,卷。 
6
(第
698
-
705
)
40
巴克尔
第页。
卡普拉斯
英国。
莫埃里
霍夫曼
英国。
计算。化学。
1996
,卷。 
20
(第
-
23
)
41
卖方
P.H.公司。
J.算法
1980
,卷。 
1
(第
359
-
373
)
42
劳伦斯
首席执行官。
阿尔特舒尔
S.F.公司。
博古斯基
医学硕士。
线路接口单元
J.S.公司。
纽瓦尔德
空军。
伍顿
J.C.公司。
科学类
1993
,卷。 
262
(第
208
-
214
)
43
阿尔特舒尔
S.F.公司。
卡罗尔
R.J.公司。
利普曼
D.J.公司。
分子生物学杂志。
1989
,卷。 
207
(第
647
-
653
)
44
锡伯德
管理层代表。
阿戈斯
第页。
分子生物学杂志。
1990
,卷。 
216
(第
813
-
818
)
45
砂光机
C、。
施耐德
R。
蛋白质
1991
,卷。 
9
(第
56
-
68
)
46
戈尔斯坦
米。
松哈默
E.L.公司。
科提亚
C、。
分子生物学杂志。
1994
,卷。 
236
(第
1067
-
1078
)
47
海尼科夫
美国。
海尼科夫
J.G.公司。
分子生物学杂志。
1994
,卷。 
243
(第
574
-
578
)
48
汤普森
J.D.(医学博士)。
希金斯
D.G.公司。
吉布森
T.J.公司。
计算。申请。Biosci公司。
1994
,卷。 
10
(第
19
-
29
)
49
埃迪
S.R.公司。
米奇逊
G.公司。
杜宾
R。
J.计算。生物。
1995
,卷。 
2
(第
9
-
23
)
50
高多
O。
计算。申请。Biosci公司。
1995
,卷。 
11
(第
543
-
551
)
51
克罗格
答:。
米奇逊
G.公司。
罗林斯
C、。
克拉克
D。
奥尔特曼
R。
亨特
L。
伦高(Lengauer)
T。
沃达克
美国。
第三届分子生物学智能系统国际会议论文集
1995
加利福尼亚州门罗公园
AAAI出版社
(第
215
-
221
)
52
海尼科夫
J.G.公司。
海尼科夫
美国。
计算。申请。Biosci公司。
1996
,卷。 
12
(第
135
-
143
)
53
棕色
米。
休伊
R。
克罗格
答:。
米安
I.S.公司。
Sjölander号
英国。
豪斯勒
D。
亨特
L。
西尔斯
D。
沙夫利克
J。
第一届分子生物学智能系统国际会议论文集
1993
加利福尼亚州门罗公园
AAAI出版社
(第
47
-
55
)
54
贝利
T.L.公司。
哥博斯科夫
米。
D.J.公司。
阿加瓦尔
第页。
盖斯特地区
T。
亨特
L。
史密斯
R。
第四届分子生物学智能系统国际会议论文集
1996
加利福尼亚州门罗公园
AAAI出版社
(第
15
-
24
)
55
卡普拉斯
英国。
罗林斯
C、。
克拉克
D。
奥尔特曼
R。
亨特
L。
伦高(Lengauer)
T。
沃达克
美国。
第三届分子生物学智能系统国际会议论文集
1995
加利福尼亚州门罗公园
AAAI出版社
(第
188
-
196
)
56
斯约兰德
英国。
卡普拉斯
英国。
棕色
米。
休伊
R。
克罗格
答:。
米安
I.S.公司。
豪斯勒
D。
计算。申请。Biosci公司。
1996
,卷。 
12
(第
327
-
345
)
57
伍顿
J.C.公司。
费德亨
美国。
计算。化学。
1993
,卷。 
17
(第
149
-
163
)
58
阿尔特舒尔
S.F.公司。
博古斯基
医学硕士。
吉什
西。
伍顿
J.C.公司。
自然遗传学。
1994
,卷。 
6
(第
119
-
129
)
59
本森
D.A.公司。
博古斯基
医学硕士。
利普曼
D.J.公司。
奥斯特尔
J。
核酸研究。
1997
,卷。 
25
(第
1
-
6
)
60
霍尔姆
L。
砂光机
C、。
结构
1997
,卷。 
5
(第
165
-
171
)
61
欧姆(Ohta)
米。
井上
H。
科蒂切利
M.G.公司。
卡苏里
英国。
巴法
R。
宫殿
J。
西普拉什维利
Z。
莫里
米。
McCue公司
第页。
德鲁克
T。
克罗切
客户经理。
Huebner公司
英国。
单元格
1996
,卷。 
84
(第
587
-
597
)
62
海德雷奇
注册会计师。
马利
J。
西格尔
美国。
DNA序列。
1993
,卷。 
(第
311
-
318
)
63
马斯凯尔
D.J.公司。
萨博
医学博士。
死人
机械工程师。
莫克森
E.R.公司。
摩尔微生物。
1992
,卷。 
6
(第
3051
-
3063
)
64
高原
第页。
弗罗芒
米。
施米特
J.M.公司。
布勒
J.M.公司。
毛毯
美国。
《细菌学杂志》。
1989
,卷。 
171
(第
6437
-
6445
)
65
计算物理学
电动汽车。
阿尔特舒尔
S.F.公司。
博克
第页。
自然遗传学。
1996
,卷。 
13
(第
266
-
268
)
66
博克
第页。
霍夫曼
英国。
巴克尔
第页。
诺伊瓦尔德
空军。
阿尔特舒尔
S.F.公司。
计算物理学
电子邮箱。
美国财务会计准则委员会J。
1997
,卷。 
11
(第
68
-
76
)
67
卡勒博
一、。
莫农
J.-P.公司。
FEBS通讯。
1997
,卷。 
400
(第
25
-
30
)
68
米奇
年。
史云生
J。
沙塔克·伊登斯
D。
未来
私人助理。
哈尔什曼
英国。
塔夫提吉语
美国。
线路接口单元
问。
科克伦
C、。
贝内特
L.M.有限公司。
西。
,等人
科学类
1994
,卷。 
266
(第
66
-
71
)
69
有限责任公司。
Z.W.公司。
J.T.公司。
斯皮尔曼
文学硕士。
答:。
X.L.公司。
M.C.公司。
黄星京
洛杉矶。
鲍科克
上午。
贝尔
R。
自然遗传学。
1996
,卷。 
14
(第
430
-
440
)
70
田中
T。
田中
米。
1996
 
DDBJ注册号:D87228。
71
Bult(灯泡)
C.J.公司。
白色
O。
奥尔森
G.J.(通用)。
L。
Fleischmann公司
钢筋混凝土。
萨顿
G.G.公司。
布莱克
J.A.公司。
菲茨杰拉德
L.M.有限公司。
克莱顿
注册会计师。
戈凯恩
J.D.(医学博士)。
,等人
科学类
1996
,卷。 
273
(第
1058
-
1073
)
72
约翰逊
空军。
德拉巴斯蒂德
米。
洛迪
米。
霍夫曼
J。
长谷川
答:。
格诺伊
L。
哥特斯曼
T。
格拉纳特
美国。
哈米德
答:。
卡普兰
,等人
1997
 
GenBank登录号2104545。
73
长濑
T。
塞基
石川
英国。
奥希拉
米。
卡瓦拉巴亚西
年。
大原
O。
田中
答:。
小谷
H。
宫岛县
野村证券
DNA研究。
1996
,卷。 
(第
321
-
329
)
74
威尔逊
R。
安斯科
R。
安德森
英国。
拜恩斯
C、。
伯克斯
米。
邦菲尔德
J。
伯顿
J。
康奈尔
米。
科普西
T。
库珀
J。
,等人
自然
1994
,卷。 
368
(第
32
-
38
)
75
巴雷尔
英国政府。
拉贾德勒姆
文学硕士。
康纳
R.E.公司。
1996
 
EMBL注册号:Z81317。
76
约翰斯顿
米。
安德鲁斯
美国。
布林克曼
R。
库珀
J。
H。
Z。
法维尔洛
答:。
富尔顿
L。
加通
美国。
格雷科
T。
,等人
1994
 
GenBank登录号662142。
77
金子
T。
佐藤
美国。
小谷
H。
田中
答:。
阿萨米苏
E.公司。
中村
年。
宫岛县
广泽
米。
杉浦
米。
笹本
美国。
,等人
DNA研究。
1996
,卷。 
(第
109
-
136
)
78
田畑
美国。
1996
 
GenBank注册号:1651660。
79
阿连德
M.L.公司。
阿姆斯特丹
答:。
贝克尔
T。
川崎
英国。
盖亚诺
霍普金斯大学
基因发育。
1996
,卷。 
10
(第
3141
-
3155
)
80
埃尔南德斯
英国。
韦伯
Wipfli公司
第页。
施密德海尼
T。
1996
 
EMBL注册号:Z72888。
81
松哈默
E.L.公司。
杜宾
R。
计算。申请。Biosci公司。
1994
,卷。 
10
(第
301
-
307
)
82
高多
O。
分子生物学杂志。
1982
,卷。 
162
(第
705
-
708
)
83
惠誉(Fitch)
水含量。
史密斯
财政部。
程序。国家。阿卡德。科学。美国
1983
,卷。 
80
(第
1382
-
1386
)
84
阿尔特舒尔
S.F.公司。
埃里克森
B.W.公司。
牛市。数学。生物。
1986
,卷。 
48
(第
603
-
616
)
85
迈尔斯
E.W.公司。
米勒
西。
计算。申请。Biosci公司。
1988
,卷。 
4
(第
11
-
17
)
86
阿尔特舒尔
S.F.公司。
蛋白质
 
新闻界。
87
理查森
米。
迪尔沃思
医学博士。
斯加文
医学博士。
FEBS通讯。
1975
,卷。 
51
(第
33
-
37
)
88
松田
G.公司。
迈塔
T。
布劳尼策尔
G.公司。
施兰克
B。
Hoppe-Seyler的Z.生理学。化学。
1980
,卷。 
361
(第
1107
-
1116
)
89
德永
O。
雅加西
T。
Lowe公司
J。
多布斯
L。
帕德马纳班
R。
病毒学
1986
,卷。 
155
(第
418
-
433
)
90
富尔顿
L。
沃特斯顿
R。
1995
 
GenBank登录号1176713。

评论

0条评论
提交评论
您输入了无效代码
感谢您对本文发表评论。您的评论将由杂志自行审查并发表。请通过电子邮件查看更多通知。