跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
公共科学图书馆计算生物学。2009年12月;5(12):e1000585。
2009年12月4日在线发布。 数字对象标识:10.1371/日记.pcbi.1000585
预防性维修识别码:PMC2777313型
PMID:19997483

结合进化序列保守性和三维结构预测蛋白质配体结合位点

托马斯·伦高,编辑器

关联数据

补充资料

摘要

识别蛋白质的功能位点是表征其分子功能的重要步骤。针对这个问题,已经开发了许多基于结构和序列的方法。这里我们介绍一下ConCavity公司,一种小分子结合位点预测算法,将进化序列保守性估计与基于结构的方法相结合,用于识别蛋白质表面空腔。在对一组不同的单链和多链蛋白质结构进行大规模测试时,我们发现ConCavity公司在识别3D配体结合囊和单个配体结合残基方面,大大优于现有方法。作为测试的一部分,我们对基于保守性和基于结构的方法进行了第一次直接比较。我们发现,这两种方法在很大程度上提供了互补信息,可以将其结合起来,单独改进其中一种方法。我们也证明了这一点ConCavity公司在预测催化位点和药物结合囊中具有最先进的性能。总的来说,这里提出的算法和分析大大提高了我们识别配体结合位点的能力,并进一步加深了我们对进化序列保守性与蛋白质结构和功能属性之间关系的理解。数据、源代码和预测可视化可在ConCavity公司网站(http://compbio.cs.princeton.edu/concavity/).

作者摘要

蛋白质分子在细胞中无处不在;它们执行对生命至关重要的数千项功能。蛋白质通过与其他分子的相互作用几乎完成所有这些功能。这些相互作用是由蛋白质中特定的氨基酸位置介导的。了解这些“功能位点”对于理解蛋白质执行其功能的分子机制至关重要;然而,在绝大多数蛋白质中还没有发现功能位点。这里,我们介绍ConCavity公司这是一种通过结合进化序列保守性分析和蛋白质3D结构预测蛋白质中小分子结合位点的计算方法。ConCavity公司与以前的方法相比,特别是在大的多链蛋白质上,提供了显著的改进。与早期仅预测整个结合位点的方法相比,锥形空腔对空间中可能与配体原子重叠的位置和可能与结合的配体接触的残基进行了具体预测。这些预测可用于帮助计算功能预测,指导实验性蛋白质分析,以及集中用于药物发现的计算密集型技术。

介绍

蛋白质的功能在很大程度上取决于它们与其他分子的相互作用。识别参与这些相互作用的残基是蛋白质功能特征的重要组成部分。许多基于蛋白质序列或结构分析的计算方法已被开发用于预测各种蛋白质功能位点,包括配体结合位点[1][3],DNA结合位点[4],催化位点[2],[5],蛋白质相互作用界面(PPI)[6],[7]和特异性决定位置[8][12]在本文中,我们重点研究了从蛋白质序列和结构预测小分子结合位点的任务。除了有助于蛋白质的功能表征外,对这些结合位点的了解可以指导抑制剂和拮抗剂的设计,并为靶向突变提供支架。在过去的15年里,已经开发了大量预测小分子结合位点的方法。结构方法使用几何和能量标准来寻找蛋白质表面上可能结合配体的凹陷区域[1],[13][21]另一方面,基于序列的方法在很大程度上利用了序列保守性,或功能或结构重要位点相对于蛋白质其余部分接受较少突变的趋势[22].

我们介绍ConCavity公司,一种预测3D配体结合囊和单个配体结合残基的新方法。这个ConCavity公司该算法在模块化三步流水线中直接将进化序列守恒估计与基于结构的表面口袋预测相结合。在第一步中,我们通过结合基于结构的口袋查找算法(例如。,褐煤 [16],冲浪网 [14],或PocketFinder(口袋查找器) [23])具有邻近残留物的序列守恒值。在第二步中,我们使用三维形状分析算法从网格中提取相干口袋,以确保预测的口袋具有生物学上合理的形状和体积。在最后一步中,我们通过将高分分配给高分口袋网格点附近的残差,将预测的口袋映射到附近的残留物。使用此管道,ConCavity公司能够预测空间中可能包含配体原子以及可能接触结合配体的蛋白质残基的两个区域。

我们证明ConCavity公司通过广泛的测试和分析,的卓越性能。首先,我们展示ConCavity公司通过整合保守性和结构,与单独使用保守性或结构的方法相比,在识别配体结合囊和残基方面有了显著改进;该测试是在生物相关结合位点的多样性、非冗余褐煤数据库上进行的[24]。我们发现锥形空腔的顶部预测残基在近80%的时间内与配体接触,而单独测试结构和单独守恒方法的顶部预测分别在67%和57%的蛋白质中是正确的。以下方面的显著改进ConCavity公司与保守方法相比,当结构信息可用时,考虑结构信息具有显著的附加效益。其次,我们证明了这一点ConCavity公司显著优于当前公开可用的方法[1],[19],[25]基于口袋查找来识别配体结合位点。第三,我们证明ConCavity公司在使用各种口袋检测算法时执行类似操作[14],[16],[23]或序列保护措施[2],[26]第四,我们描述ConCavity公司在一系列情况下,比较其在从apo和holo结构以及在酶和非酶中识别配体结合位点的性能。第五,我们测试其性能ConCavity公司可以识别催化位点和药物结合位点。第六,我们研究了我们的方法中存在的问题,并强调了多链蛋白对基于结构的方法识别配体结合位点带来的困难。最后,我们证明了我们在口袋提取和残差映射方面的方法学改进使我们现有方法的实现在性能上比以前的版本有了显著提高。事实上,如果没有这些改进,在识别配体结合残基时,以前的结构方法并不比简单的序列保守性方法好。总的来说,ConCavity公司在发现配体结合位点方面取得了重大进展。我们的详细分析揭示了序列保守性、结构和功能之间的许多关系,并表明序列保守和基于结构的属性提供了关于功能重要性的补充信息。

进一步的相关工作

基于序列的功能位点预测主要是搜索显示进化约束证据的残基位置。同源物多序列比对列中的氨基酸保守性是此类估计的最常见来源(参见[22]查看)。最近比较排列柱氨基酸分布与背景氨基酸分布的方法优于许多现有的保护措施[2],[27]然而,基于保守性的预测的成功与否取决于所寻求的功能残留物的类型;序列保守性已被证明与配体结合和催化位点密切相关,但与蛋白质界面(PPI)中的残基相关性较小[2]多种技术被用于将系统发育信息纳入基于序列的功能位点预测,例如,遍历系统发育树[28],[29],统计率推断[26],功能亚家族分析[9],[12]和系统发育基序[30]最近,进化保守性与序列预测的其他性质相结合,例如二级结构和相对溶剂可及性,以确定功能位点[31].

基于结构的功能位点预测方法寻求识别有利于相互作用的蛋白质表面区域。配体结合口袋和残基一直是这些方法的主要焦点[1],[13][21].锂辉石 [16]冲浪网 [14]通过寻找蛋白质表面附近被蛋白质包围的点来识别口袋。CASTp公司 [17],[19]应用计算几何中的阿尔法形状理论来检测和测量空腔。与这些几何方法相反,其他方法使用能量学模型来识别潜在的结合位点[23],[25],[32][34]最近的算法将重点放在范德瓦尔斯能量学上,以创建围绕蛋白质表面的网格电位图。PocketFinder(口袋查找器) [23]使用脂肪族碳作为探针,并且Q-SiteFinder [25]使用甲基。我们的工作建立在基于几何和能量学的配体结合口袋预测方法的基础上,但应该注意的是,还有其他基于结构的方法不适合这些类别(例如,理论微观滴定曲线(THEMATICS)[35],绑定站点相似性[36],噬菌体展示库[37]、和残留物相互作用图[38]). 与基于序列的预测相比,基于结构的方法通常可以在残基水平和空间中可能包含配体的区域进行预测。

以前的几个结合位点预测算法都考虑了序列和结构。ConSurf公司[39]提供了蛋白质结构表面序列保守性值的可视化,以及最近的修补程序查找器 [40]该方法自动从ConSurf预测功能表面补丁。具有高进化痕迹值的空间聚集残基与功能位点重叠[41]和Panchenko等人。[42]发现在特定环境下,跨空间聚集位置的平均序列保守性可以改善功能位点识别。几个小组试图识别和分离残基的结构和功能约束[43],[44].Wang等人。[45]对三个基于序列的属性进行logistic回归,并通过估计每个位置突变对结构稳定性的影响来预测功能位点。尽管这些方法利用了蛋白质结构,但在预测中并未明确考虑蛋白质的表面几何形状。几何、化学和进化标准一起被用来定义代表已知结合位点的基序,以用于蛋白质功能预测[46].机器学习算法已应用于基于序列和结构的特征[47],[48]预测催化位点[5],[49][51]最近预测药物靶点[52]以及一组有限的配体和离子结合位点[53][55]在这些情况下,序列保守性是一个主要的预测因素。

最类似于ConCavity公司是两种最新的配体结合位点识别方法,它们在后处理步骤中使用进化保守性来重新编码[1]或细化[56]基于几何的口袋预测。相反,锥形空腔将保护直接融入到寻找口袋中。这使得它能够识别单独考虑结构时未发现的口袋,并能够直接分析序列保守性、结构模式和功能重要性之间的关系。

结果

前期工作

为了简化说明,我们首先比较ConCavity公司代表性结构方法和代表性守恒方法的性能。我们使用褐煤+作为代表性的基于结构的方法,并将其称为“结构”.褐煤+是我们实现的(如上标“+”所示)一种流行的基于几何的表面口袋识别算法。我们在方法部分褐煤+提供了这些方法的公平表示。我们选择Jensen-Shannon散度(JSD公司)代表保护方法并将其称为“保护.”JSD公司以前已经证明在识别催化位点和配体结合位点方面具有最先进的性能[2]。我们开发了三个版本的ConCavity公司将进化守恒整合到不同的表面口袋预测算法中(褐煤 [16],冲浪网 [14],或PocketFinder(口袋查找器) [23]). 当底层算法相关时,我们将这些版本称为ConCavity公司,ConCavity公司S公司、和ConCavity公司P(P)。然而,为了简单起见,我们将使用ConCavity公司作为这些方法的代表并称之为“ConCavity公司.”

ConCavity公司结构预测配体结合囊和残基。口袋预测在围绕蛋白质的常规3D网格上以非零值形式给出;与每个网格点相关联的分数表示其与结合的配体原子重叠的估计可能性。类似地,蛋白质序列中的每个残基被分配一个分数,该分数表示其接触结合配体的可能性。保护因为它没有考虑蛋白质结构,所以只能进行残留水平预测。所有方法均基于非冗余LigASite 7.0数据集中的332个蛋白质进行评估[24]为了评估口袋识别性能,我们预测了配体在全息数据集上的位置,以便将结合配体的位置用作阳性。在评估残基预测时,我们预测载脂蛋白结构上的配体结合残基,并将注释为配体结合的残基(源自完整结构)用作阳性。

我们通过两种方式量化了每种方法预测的总体性能。首先,对于口袋和残留预测,我们生成了精确的重新调用(PR)曲线,该曲线反映了每种方法的网格和残留分数分别识别配体原子和配体结合残留的能力。(就像给残基分配一系列配体结合分数一样,预测口袋中的网格点也会得到一系列分数,因为可能有更多证据表明配体结合在口袋的一部分而不是另一部分。)其次,对于每组预测口袋(对应于3D网格中的非零值组),我们通过Jaccard系数考虑它们与已知配体的重叠程度。雅卡德系数通过计算预测口袋和实际配体的交集与其结合的比率,在精确性和召回率之间进行权衡。雅卡德系数介于0和1之间,较高的值意味着预测很好地覆盖了配体,并且具有相似的体积。我们通过Wilcoxon秩和检验来评估数据集上方法相对于给定统计的性能差异的显著性。

整合进化序列保守性和基于结构的口袋发现来预测配体结合位点,这两种方法都可以单独改进

图1比较ConCavity公司其组成结构和基于守恒的成分。图1A表明,在预测的口袋中,分数较高的网格点更有可能与配体重叠,并且ConCavity公司结束结构(p<2.2e−16)在得分阈值范围内存在。图1B证明了ConCavity公司预测配体结合残基时也适用(p=6.80e−13)。ConCavity公司的识别配体结合残基的能力是惊人的:在这个多样的数据集中ConCavity公司将与近80%的蛋白质中的配体接触。ConCavity公司在整个召回范围内也保持了较高的准确度:50%召回时的准确度为65%,在所有配体结合残基都被识别后的准确度高于30%。如上所述,在预测配体位置时,也存在这种巨大的改进;然而,PR曲线表明,对于每种方法来说,完全识别配体的位置比找到所有接触残基更困难。

保存图片、插图等的外部文件。对象名称为pcbi.1000585.g001.jpg
配体结合位点预测性能。

(A) 预测生物相关结合配体空间位置的PR曲线。(B) 配体结合残基预测的PR曲线。我们的ConCavity公司该算法将序列保守性与基于结构的预测器相结合,在两个任务中都显著优于任何一种组成方法。单独基于结构信息的预测优于单独考虑序列守恒的预测。比较(A)和(B),我们发现准确预测所有配体原子的位置对于这些方法来说比找到所有接触的残基更困难。随机给出了随机排列网格点和残差的方法的预期性能。保护无法包含在(A)中,因为它仅在残留物水平上进行预测。这些曲线基于非冗余LigASite 7.0数据集中332个蛋白质的结合位点。

配体重叠统计表1也证明了ConCavity公司在近95%的结构中,ConCavity公司的预测与结合配体重叠。结构在所考虑的蛋白质中,近92%的预测与配体重叠。当我们检查这些重叠的程度时,两种方法之间的差异变得更加明显。两者都有ConCavity公司结构预测口袋的总体积(预测体积)与所有相关配体的体积(配体体积)相似,但ConCavity公司的口袋与配体体积的较大部分重叠。因此ConCavity公司Jaccard系数明显较高(p<2.2e−16)。这表明,与单独使用结构特征时相比,将序列守恒与结构口袋识别相结合可以获得更准确的口袋。

表1

LigASite数据库中全蛋白结构中预测的囊和结合配体之间的重叠。
方法带配体重叠的分数预测体积(Ω)配体体积(奥数)预测保存图片、插图等的外部文件。对象名称为pcbi.1000585.e001.jpg配体(Au)预测保存图片、插图等的外部文件。对象名称为pcbi.1000585.e002.jpg配体(Au)雅卡系数
结构 0.921806.81977.2426.93357.10.197
ConCavity公司 0.951806.91977.2647.63136.50.257
第一列给出了方法预测与配体重叠的蛋白质部分。第二列(预测卷)列出了每个蛋白质预测囊的平均体积,而第三列(配体卷)列出结构中观察到的配体的平均体积。下一列给出了预测和配体的交集和并集的平均体积以及雅卡系数(交集/并集)。ConCavity公司结构预测相似大小的口袋——两者都使用相似的口袋容量阈值——但是ConCavity公司的预测与更多的结合配体重叠。ConCavity公司更高的Jaccard系数表明,它可以更好地管理精确性和召回之间的权衡。

图1B还提供了基于序列守恒的配体结合位点预测方法与基于结构特征的配体连接位点预测方法的直接比较。结构跑赢大市保护这是一种最先进的估计序列保守性的方法。蛋白质残基在进化上可以因许多原因而被保存,所以这并不奇怪保护识别了许多非配体结合残基,因此表现不如结构.

ConCavity公司的改进来自集成进化序列保护和基于结构的口袋识别的互补信息

图2和3当前口袋和残留物预测保护,结构、和ConCavity公司在三种示例蛋白质上。通常,不同类型的位置由以下公式预测保护结构。如果我们考虑数据集中每个蛋白质的已知配体结合残基的数量,并对结构保护方法:重叠仅为26%。序列保守性预测的残基分布在整个蛋白质中(图2); 配体结合残基通常非常保守,但由于其他功能限制,许多其他位置也高度保守。相比之下,基于结构的预测强烈聚集在表面空洞周围(图3,左栏);口袋附近的许多残基在进化上并不保守。然而,这些特征在很大程度上提供了关于配体结合重要性的补充信息。在整个数据集中,68%的残留物由这两种方法预测保护结构与配体接触,而仅通过保守或结构预测的配体结合分别只有16%和43%。ConCavity公司利用这种互补性实现其显著改进;它给那些既有证据表明自己处于良好状态又有进化保守的位置打了高分。

保存图片、插图等的外部文件。对象名称为pcbi.1000585.g002.jpg
进化序列守恒映射到三种示例蛋白质的表面。

(A) 细胞维甲酸结合蛋白II(PDB:3CWK)。(B) δ1-哌啶-2-羧酸还原酶(PDB:2CWH)。(C) 硫胺素磷酸合成酶(PDB:1G6C)。较暖和的颜色表明进化更保守;最保守的残基是深红色,最保守的是深蓝色。配体用黄色棒子渲染,蛋白质骨架原子显示为球体。一般来说,保护配体附近的残基得分最高,但在每个结构中都有高得分残基。预测结构ConCavity公司因为这些蛋白质是在图3.

保存图片、插图等的外部文件。对象名称为pcbi.1000585.g003.jpg
结合位点预测的比较结构ConCavity公司在三种示例蛋白质上。

此处显示的三种蛋白质与图2在每个窗格中,配体结合残基分数已映射到蛋白质表面。较暖和的颜色表示绑定分数较高。口袋预测显示为绿色网格。(A) PDB:3CWK。这两种方法都确定了结合位点,但都考虑了保护信息(图2A),ConCavity公司更准确地追踪配体。(B) PDB:2CWH。结构显著高估了左下角配体的范围,并预测了蛋白质背面的额外口袋。ConCavity公司只预测了两个配体结合囊。(C) PDB:1G6C。为了更清楚地显示预测,只显示了蛋白质的二级结构图。这个例子说明了多链蛋白的困难;结构中有许多空穴,但并不是所有的结合配体。结构识别了一些相关的口袋,但重点是链条之间形成的大的、无束缚的中央空腔。参考该蛋白质的保守性特征(图2C),我们发现配体结合囊具有很高的保守性,而非结合囊没有。因此,ConCavity公司只选择相关的装订袋。在每个示例中,ConCavity公司从所有潜在口袋中选择结合口袋,并更准确地追踪配体在这些口袋中的位置。

的示例图2和3说明这一点并突出显示中的几个常见模式ConCavity公司的改进预测。对于细胞维甲酸结合蛋白3CWK,结构ConCavity公司的残基预测集中在主配体结合囊上(图3A),同时保护结合位点中的某些位置得分较高,但也对一些无关的残基得分较高(图2A). 查看配体位置预测(绿色网格图3A),结构ConCavity公司两者都找到了口袋,但来自守恒的信号使ConCavity公司更准确地追踪配体的位置。这说明了在蛋白质表面观察到的功能保守性模式如何影响预测口袋的形状。配体通常不能完全填充表面囊;如果接触残基是守恒的,我们的方法可以建议更准确的形状。

2CWH的结果(图3B)和1G6C(图3C)证明这一点ConCavity公司可以预测与单独考虑结构时获得的口袋集截然不同的口袋集。在2CWH中,两种方法都能识别配体,但结构过高预测了左下方的结合囊,并预测了一个没有配体结合的额外囊。ConCavity公司更紧密地追踪配体,不预测任何额外的囊。结构在四聚体1G6C上表现很差:它预测了几个不结合配体的囊;它不能完全识别几种配体;它完全缺失了一个配体。与此形成鲜明对比的是,ConCavity公司的四个预测口袋准确地追踪配体。结合守恒原理,可以准确预测仅使用结构预测无口袋的区域中的口袋。数据集中所有蛋白质的所有方法的预测图像可在文本S1文件,以及ConCavity公司对蛋白质四元结构(PQS)数据库中所有结构的预测都可以在线获得。

ConCavity公司显著优于可用的预测服务器

我们现在比较ConCavity公司几种现有的配体结合位点识别方法与公开可用的web服务器。Ligsite碳钢 [1]是基于几何图形的更新版本褐煤、和LigsiteCSC公司 [1]是一种考虑进化保护信息的类似结构方法。Q-SiteFinder [25]估计蛋白质和探针之间的范德瓦尔斯相互作用的方式类似于PocketFinder。CASTp公司 [19]是一种基于几何的算法,用于根据蛋白质的α形状分析来查找口袋。每个服务器生成一个由残差集表示的预测口袋列表;然而,它们都没有提供预测口袋的完整3D表示。因此,我们评估了它们预测配体结合残基的能力。请参阅方法有关生成和处理服务器预测的更多信息,请参见第节。简言之,每个服务器预测的残差是根据它们被分配到的最高级别的存储区进行排序的,即第一个预测存储区的所有残差都比第二个存储区的残差得分高,依此类推。我们重新实现了LigsiteCSC公司,因为web服务器上基于保守性的重新分类选项对我们数据集中的许多蛋白质都不起作用。我们使用JSD公司作为保守性评分方法。

图4给出了每种方法的配体结合残基PR曲线。ConCavity公司表现显著优于Ligsite碳钢,LigsiteCSC公司+,Q-SiteFinder、和CASTp公司(每个值均小于2.2e−16)。令人惊讶的是,保护与这些基于结构的方法竞争。一些服务器没有对数据库中的一小部分蛋白质进行预测,例如Q-SiteFinder服务器不接受超过10000个原子的蛋白质。图4基于来自褐煤数据集的234个蛋白质,能够获得并评估所有方法的预测。因此锥形空腔与其他数字略有不同,但其性能没有显著变化。

保存图片、插图等的外部文件。对象名称为pcbi.1000585.g004.jpg
的比较ConCavity公司使用公开的配体结合位点预测服务器。

ConCavity公司在预测配体结合残基方面明显优于以往的每种方法。现有的服务器专注于口袋预测任务,并返回表示绑定口袋预测的残差集。他们对这些单独的残留物没有给出不同的分数。相反,ConCavity公司为每个残留物指定一个结合的可能性,因此同一预测袋中的残留物可以有不同的分数。这种能力和序列守恒的直接结合是锥形空腔的改进。保护,该方法完全基于序列守恒,与之前的结构方法相比具有竞争力。该数据基于来自LigASite载脂蛋白数据集的234个蛋白质,我们能够从所有方法中获得预测。

LigsiteCSC公司+前面的方法与ConCavity公司; 它使用序列守恒来重新排列由Ligsite碳钢.LigsiteCSC公司+Ligsite碳钢,但与ConCavity公司结束结构(图1). 这说明了与使用保护信息对预测口袋进行后处理相比,将保护信息直接纳入口袋搜索的好处。

这些以前的方法在识别配体结合残基方面表现不佳,部分原因是它们无法区分预测的结合囊附近的残基。整个口袋是一个有用的分析起点,但结合口袋中的许多残基实际上不会接触配体。研究人员对特定配体结合残基的知识最感兴趣。我们方法的预测反映了这一点——同一口袋中的残基可能会得到不同的配体结合分数。以前的方法无法区分口袋中的残留物,这是我们选择使用以前基于结构的方法的实现作为这些方法在所有其他比较中的代表的原因之一。请参阅方法部分了解更多详细信息。

我们测试了一种将序列保守性与结构信息相结合的额外方法,该方法是通过观察3D中的保守残基簇通常与结合位点重叠而得到的[41],[42]简单地说,该方法对每个残差的守恒分数进行三维高斯模糊,并为每个残差分配最大重叠值。因此,空间附近的残基与其他保守残基相比得分较高。这种方法改进了仅考虑保护的情况,但与ConCavity公司(文本S1). 我们还考虑了由进化轨迹(ET)查看器 [57]定义为25%蛋白质覆盖率的簇按大小排序,簇内的残基按其原始值排序电子技师分数。该方法的性能不如上述聚类算法(数据未显示),并且仅限于单链蛋白质,因为电子技师只返回一条多链蛋白质链的预测。

ConCavity公司对基于几何和能量学的网格创建方法执行类似操作

在前面的部分中,我们使用了ConCavity公司它将Jensen-Shannon分歧(JSD)的进化序列保守性估计整合到褐煤+,以代表锥形空腔方法。然而,我们将序列守恒与结构预测相结合的策略是通用的;它可以与各种基于网格的表面口袋识别算法和守恒估计方法一起使用。

图5给出了证明这一点的PR曲线ConCavity公司无论结构方法是否基于几何特性,都能提供卓越的性能(褐煤+,冲浪网+)或能量学(PocketFinder(口袋查找器)+). 在预测空间中的两个配体位置方面有了显著的改进(每对的p<2.2e−16)(图5A)和配体结合残基(p=6.802e−13褐煤+,p<2.2e−16PocketFinder(口袋查找器)+,p<2.2e−16冲浪网+) (图5B). 三个人ConCavity公司版本的性能类似,尽管在利吉斯特+,冲浪网+、和袖珍取景器+。在下面的部分中,我们将在空间和清晰度允许的情况下包含所有三种方法的性能统计数据。如果未在此处显示,所有方法的结果都可以在补充文件中找到文本S1.

保存图片、插图等的外部文件。对象名称为pcbi.1000585.g005.jpg
不同版本的比较康卡蒂。

ConCavity公司为结合位点预测提供了一个通用框架。我们使用褐煤+-基于ConCavity公司作为代表,但也可以在ConCavity公司此图比较了三种版本的PR曲线(ConCavity公司,ConCavity公司P(P),锥形空腔S公司)---每种方法都基于将序列守恒与不同的网格创建策略相结合(褐煤+,PocketFinder(口袋查找器)+,或冲浪网+)。所有三个版本的性能都类似,都显著优于仅基于结构分析的方法(虚线)。这些结论适用于配体结合囊(A)和配体结合残基(B)预测。

我们还发现ConCavity公司当采用不同的最先进的方法时,可获得类似的性能[26]用于对进化序列守恒进行评分(文本S1).

基于结构的方法难以处理多链蛋白质

由多个亚基组成的蛋白质通常比单链蛋白质有更多的囊袋,这是因为链之间经常形成间隙。为了研究结构复杂性对性能的影响,我们根据蛋白质四元结构(PQS)服务器预测的结构中存在的链数对数据集进行了分区[58]并对分区集执行了我们之前的评估。图6提供以下统计信息ConCavity公司,结构、和保护为了进行并排比较,我们报告了PR曲线下的面积(PR-AUC),而不是给出完整的曲线。

保存图片、插图等的外部文件。对象名称为pcbi.1000585.g006.jpg
通过结构中的链数识别配体结合位点的性能。

(A) 用于预测每组结构上配体结合残基的精确再调用曲线(PR-AUC)下的平均面积。(B) 配体结合囊鉴定的平均PR-AUC。(C) 预测口袋与结合配体重叠的平均Jaccard系数。随着蛋白质中链数的增加,仅基于结构的方法越来越难以区分链间的配体结合囊和非配体结合间隙。这一趋势在每次评估中都很明显。保护的性能没有表现出这种效果(A)。事实上,保护表现出色结构在具有五个或更多链的蛋白质上。序列守恒与口袋预测的集成ConCavity公司提高每个评估中基于链的每个分区的性能,以及ConCavity公司发现多链蛋白质的性能仅略有下降。保护(B)和(C)中不能单独包含,因为它不能进行袖珍预测。请注意,图中的y轴比例不同。每个链组的结构数:1条链:143,2条链:112,3条链:18,4条链:35,5条或更多链:24。

随着结构中链条数量的增加结构在预测配体结合残基时都可以看到这种模式(图6A)和口袋(图6B、C). 这种影响如此之大,以至于对于具有五条或更多链的蛋白质,保护跑赢大市结构蛋白质中的链数对保护的性能。的性能随机在具有少量链的蛋白质上,比在具有许多链的蛋白质中稍差(例如,1链的残基PR-AUC:0.097,2链:0.110,3链:0.127,4链:0.119,5+链:0.142),因此结构的表现并不是每组积极因素所占比例的结果。这些观察结果强调了在评估中包括多链蛋白的重要性。

同四聚体1G6C图3C提供了以下故障的示例结构多链蛋白。结构中心的链条之间有一个很大的间隙,在接触链对的界面上形成了几个额外的凹槽。如图所示,大的中央空腔不结合配体;然而,它是预测的最大口袋结构这在预测中经常观察到。虽然蛋白质链之间的一些囊袋参与配体结合,但其中许多囊袋并不参与。随着链条数量的增加,此类潜在误导性口袋的数量也会增加。

通过整合序列保守性信息,ConCavity公司准确识别多链蛋白中的配体结合囊。1G6C表面的保护剖面就是一个明显的例子;显示序列守恒的口袋是那些结合配体的口袋(图2C). 1G6C也不例外。ConCavity公司在所有三个评估中,为数据集的每个分区提供了显著的性能改进,并大大减少了多链蛋白质中大量非配体结合口袋对性能的影响。锥形空腔还提供了以下方面的改进结构在单链蛋白质组上。这是值得注意的,因为这些蛋白质没有链间间隙,所以这种改进来自于追踪配体,并比单独使用结构信息更准确地在链内口袋中进行选择(如图3A).

ConCavity公司在apo和holo结构上都表现良好

配体的结合诱导蛋白质的构象变化[59]因此,具有配体结合(holo)和非结合(apo)的同一蛋白质的结构之间,结合位点的3D结构可能不同。在全息结构中,相关的侧链是与配体接触的构象,这通常比载脂蛋白结构中更清楚地定义结合囊。为了研究全息结构中提供的附加信息对性能的影响,我们对这两种方法进行了评估(表2).

表2

LigASite的apo(未结合)和holo(结合)版本的配体结合残基预测方法的精确重排曲线(PR-AUC)下面积。
残留PR-AUC
方法阿波罗全息图
ConCavity公司 0.6080.657
ConCavity公司P(P) 0.6010.646
ConCavity公司S公司 0.5860.648
褐煤+ 0.5190.552
PocketFinder(口袋查找器)+ 0.4720.514
冲浪网+ 0.4160.481
随机 0.1090.095
所有方法在全息结构上的性能都优于apo结构,但性能下降并不显著,并且两个数据集中方法的相对排名相同。

正如预期的那样,所有方法在全息(绑定)结构上的性能都优于相应的apo(未绑定)结构。然而,无论是考虑apo结构还是全息结构,所有先前的结论都成立;这些方法的排名是一致的,并且考虑守恒所带来的改进同样很大。补充文件中给出了这种比较的PR曲线文本S1。我们将尽可能继续报告使用载脂蛋白结构计算的残基预测结果,以便准确评估算法在现实世界中配体结合位点预测方法面临的情况下的性能。

这些方法比非酶更好地识别酶中的配体结合位点

LigASite载脂蛋白数据集包含执行一系列不同功能的蛋白质分子。到目前为止,酶是最常见的;它们在数据集中的332种蛋白质中占254种。其余78种非酶配体结合蛋白参与多种功能,如转运、信号传导、核酸结合和免疫系统反应。

表3比较了配体结合位点预测方法在酶和非酶上的性能。每种方法在非酶蛋白上的表现差异更大,所有方法在酶上的表现都明显更好(例如,p=3.336e−4ConCavity公司). 酶中的活性位点通常存在于蛋白质表面的大裂口中,并且始终表现出进化序列保守性[60],[61]因此,尽管酶可以结合多种底物,但与其他蛋白质中发现的各种结合机制相比,这些共同特征可以简化预测。

表3

酶和非酶(褐煤apo)中配体结合残基的鉴定。
残留物PR-AUC
方法非酶
ConCavity公司 0.6470.480
ConCavity公司P(P) 0.6420.466
ConCavity公司S公司 0.6240.461
褐煤+ 0.5410.451
PocketFinder(口袋查找器)+ 0.4940.399
冲浪网+ 0.4300.370
保护 0.3180.216
随机 0.1040.123
所有方法在识别酶中的结合残基方面都优于非酶。这个ConCavity公司方法在这两个数据集上都取得了最佳的性能,但结合保护信息在非酶方面的改进较少。

尽管非酶蛋白的性能有所下降,但前面部分的主要结论仍然成立。然而ConCavity公司在非酶方面没有那么好。这可能是由于在非酶蛋白中发现了更复杂的保护模式,以及保护在此设置中。也有可能锂辉石+的方法特别适合于鉴定非酶中的结合位点。总的来说,这些结果突出了使用不同数据集评估功能性场地预测的重要性。

ConCavity公司改进药物结合位点的识别

小分子结合位点的知识在药物发现和设计中有相当大的用途。许多用于筛选潜在目标的技术,例如对接和虚拟筛选,都是计算密集型的,只有在聚焦于蛋白质表面的特定区域时才可行。基于结构的表面空洞识别算法可以指导此类情况下的分析[52].

要测试ConCavity公司我们在一组98个蛋白药物复合物上评估了它识别药物结合位点的能力[62].提供的卓越性能锥形空腔结束结构对上述各种蛋白质的研究表明ConCavity公司可能在药物筛选管道中有用。表4比较了三种版本的配体重叠PR-AUC和Jaccard系数ConCavity公司及其基于结构的类似物。每个ConCavity公司该方法大大改进了仅考虑结构特征的方法(例如,重叠PR-AUC上的p=1.25e−6和Jaccard上的p=2.06e−ConCavity公司). 虽然在该数据集上的改进不如在更为多样化的LigASite数据集上看到的那么大,但仍有显著意义。这可能是因为药物化合物不是蛋白质的天然配体;结合囊中残基的进化保守性可能反映了与实际配体而非药物结合相关的压力。

表4

药物结合位点鉴定。
方法网格值PR-AUC雅卡系数
ConCavity公司 0.2710.240
ConCavity公司P(P) 0.2630.222
ConCavity公司S公司 0.2780.236
褐煤+ 0.2170.207
口袋查找器+ 0.1950.191
冲浪网+ 0.1700.183
随机 0.006不适用
该表比较了平均网格值精度重新调用AUC和平均Jaccard预测系数和重叠系数ConCavity公司以及仅基于一组98种蛋白药物复合物的结构分析的方法。将序列保守性和基于结构的口袋查找结合起来,可以改进药物结合位点的识别。保护不包括在此评估中,因为它不进行袖珍预测。

困难结构示例

虽然ConCavity显著优于以前的方法,但其性能并非完美无瑕。图7,我们给出了三个示例结构,以说明在以下情况下观察到的模式ConCavity公司表现不佳。处理这些情况可能对进一步改进配体结合位点预测很重要。

保存图片、插图等的外部文件。对象名称为pcbi.1000585.g007.jpg
困难结构的示例。

对于每个结构,进化序列的保守性都映射到蛋白质骨架的表面(窗格(C)中的所有原子),较暖色表示保守性更强。结合配体以黄色显示,口袋预测ConCavity公司由绿色网格表示。(A) ActR蛋白(PDB:3B6A)包含一个配体结合域(下半部分)和一个更保守的DNA结合域(上半部分)。(B) 类志贺毒素的环状五聚体B亚基(PDB:1CQF)通过环中心周围相对平坦的界面结合球三糖神经酰胺(Gb3)ConCavity公司链条之间存在凹坑。如图所示,ConCavity公司的不准确预测通常是由于误导进化序列保守性信息(A)或配体部分或全部结合在定义明确的凹形表面口袋(B,C)之外而导致的。在(A)和(B)中,ConCavity公司缺少配体,但为其他类型的相互作用(DNA和蛋白质)识别功能相关的结合位点。

这些困难案例中常见的第一种模式是进化序列保守性信息,导致预测偏离实际的配体结合位点。图7A提供了一个配体结合位点不如蛋白质其他部分保守的示例。ActR蛋白来自腔色链霉菌(PDB:3B6A)包含一个小分子配体结合域和一个DNA结合域[63]配体结合域位于结构的底部,不太保守。DNA结合结构域位于给定结构的更保守的上半部分。该域的更大守恒导致ConCavity公司将重点放在配体结合位点之上的DNA结合位点上。在其他情况下,由于缺乏同源序列,保守性信息是无信息的。基于低质量序列比对的保守性估计可能会损害某些结构的性能,但我们发现它们仍然提供了总体净性能增益(文本S1).

图7还提供了另一个困难情况的两个例子:配体绑定在清晰定义的凹形表面口袋之外。图7B,ConCavity公司将志贺样毒素(PDB:1CQF)的五聚体B亚基的环状结构中心确定为结合位点。这种蛋白质通过环中心周围相对平坦的界面与糖脂结合,如所示的球三糖神经酰胺(Gb3)[64].中心空腔(ConCavity公司的预测)被毒素的a亚基的一部分(不包括在结构中)填充,该部分在结合后断裂并进入宿主细胞。图7C显示了二聚体非催化碳水化合物结合模块(CBM29)的结构马Piromyces equi与甘露糖络合(PDB:1GWL)。碳水化合物配体在蛋白质表面长而平的裂缝中结合[65]尽管这些遗址表现出显著的进化保守性,但它们的几何形状使其无法被预测。相反,链之间形成的一个不太保守的口袋突出显示为ConCavity公司.

总的来说,这样的病例很少;ConCavity公司的预测只有5%的结构没有与配体重叠。此外,这些“错误的”预测中的一些实际上是与其他类型交互作用的功能相关的结合位点,如图7.

结合守恒和结构改进了催化位点的预测

配体结合位点并不是生物学家感兴趣的唯一功能位点类型。人们对确定催化位点的问题给予了大量关注。如上所述,大多数酶活性位点都存在于蛋白质表面的大裂口中,因此,尽管本文中考虑的结构方法并不打算确定催化位点,但它们可以很好地完成这项任务。

表5给出了方法预测催化位点能力的评估结果(由催化位点图谱定义[66])在LigASite apo数据集中。与配体结合位点预测相比,这些方法在这方面的相对性能有所不同。这个ConCavity公司方法仍然显著优于其他方法(p<2.2e−16结构,p=8.223e−4保护). 最令人惊讶的是,保护显著优于仅基于结构的方法(p=9.863e−3褐煤+,p=4.694e−6口袋查找器+,p=1.171e−6冲浪网+). 当预测催化位点时,所有方法的PR-AUC都低于预测配体结合残基(例如。,ConCavity公司PR-AUC分别为0.315和0.608);这在很大程度上是由于每个蛋白质序列中催化残基的数量远小于配体结合残基。

表5

催化残渣鉴定(褐煤apo)。
方法PR-AUC公司
ConCavity公司 0.315
ConCavity公司P(P) 0.301
锥形空腔S公司 0.288
保护 0.249
褐煤+ 0.190
PocketFinder(口袋查找器)+ 0.149
冲浪网+ 0.142
随机 0.012
ConCavity公司比其他方法识别更多的催化位点。然而,与配体结合残基预测相反,保护在检测催化位点方面优于基于结构的方法。

这些结果表明,进化上非常保守,比在表面口袋中发现更能说明催化作用。虽然催化位点通常位于结合配体附近的囊中,但每个蛋白质的催化位点比结合配体残基少很多。因此,只需搜索袋中的残留物即可识别出许多非催化残留物。这与早期的机器学习研究一致,这些研究发现保守性是一个主要的预测特征[5],[49],[50]它建议寻找新的结构模式来改进催化位点的识别。

以前的几种方法在机器学习框架中结合了序列守恒和结构特性来预测催化位点[5],[50],[51]由于大多数数据集和算法不易获得,因此很难与这些方法进行直接比较。Tong等人。[51]比较了几种机器学习方法在不同数据集上的精度和召回率,以期对它们的相对性能有一个定性的了解。虽然基于跨数据集比较得出结论并不谨慎,但为了完整性,我们注意到ConCavity公司不同的LigASite数据集在完全召回时的催化位点预测精度(23.8%)高于其比较中报告的方法的最大精确度(所有召回水平)。

讨论

进化序列保守性和蛋白质3D结构通常用于识别功能重要的位点;在这里,我们将这两种方法集成在ConCavity公司,一种新的配体结合位点预测算法。通过在配体结合位点的大型、多样化的数据集上评估一系列基于保守性和结构的预测策略,我们确定结构方法通常优于序列保守性,并且通过将两者结合,ConCavity公司在约95%和70%的结构上分别优于保守型和结构型。总的来说,ConCavity公司的第一个预测残留物与近80%的apo结构中的配体接触,并且在所有召回水平上都保持了高精度。这些结果适用于以下三种变体ConCavity公司我们考虑了,每个组件都使用不同的基于结构的底层组件。此外,ConCavity公司在确定药物结合位点这一共同任务上,的综合方法大大改进了保守性方法和基于结构的方法。

将基于序列保守性的方法与结构信息相结合在多聚蛋白的情况下尤其有效。我们的分析表明,随着结构中链的数量增加,鉴定配体结合位点的结构方法的性能显著降低;在具有五条或更多链的蛋白质上,仅保守性就优于基于结构的方法。仅从结构属性很难确定链界面上形成的口袋是否与配体结合。然而,配体结合囊通常表现出高度的进化序列保守性。ConCavity公司利用这种互补信息,在多链蛋白质上表现得很好;链间存在许多非配体结合囊对其性能影响不大。

While期间ConCavity公司与之前的方法相比,我们发现了两个导致结果不佳的主要原因:误导进化序列保守性信息和配体部分或全部结合在定义明确的凹表面口袋之外。配体结合位点可能缺乏很强的保守性,原因有很多:基本序列比对可能质量较低,蛋白质中可能还有其他更保守的功能区,并且一些位点由于功能原因而高度可变[67]。随着序列数据覆盖率和保守性估计方法的改进,定线质量问题的相关性将降低。第二种情况可能需要集成其他特征,以更好地区分不同类型的功能站点。类似地,寻找与凹形表面口袋外结合的生物相关配体可能需要开发额外的结构描述符。配体缺失或不完整也会影响方法的表面性能,但由于结构数据的性质,此类问题是不可避免的。

在实施和评估以前基于3D网格的配体结合位点预测方法时,我们发现,用于将网格值聚集到相干囊中以及将这些囊映射到表面残基上的方法都会对性能产生很大影响。为了关注进化序列守恒带来的改进,上述基于结构的方法的结果在这些步骤中使用了我们的新算法。我们在方法第节。从更高的层面上讲,我们提出的新方法通过预测每个结构的合理结构口袋的灵活数量以及根据其局部环境而不是整个口袋的等级为每个残基分配结合配体的可能性,提供了显著的改进。我们使用配体的形态特性来指导口袋的创建,但这些步骤的最合适算法在很大程度上取决于预测任务的性质。与计算网格值相比,这些步骤受到的关注少得多;我们的结果表明,今后应该仔细考虑这些问题。

我们专注于配体结合位点的预测,但保守和结构信息的直接合成可能有助于预测其他类型的重要功能位点。我们的应用ConCavity公司催化位点预测说明了这种方法的前景和挑战。催化位点通常存在于表面口袋中,但考虑到结构证据本身表现得相当糟糕——比序列守恒更糟糕。与单独的守恒相比,将结构与进化守恒相结合在性能上提供了适度的增益。蛋白质-蛋白质界面残基是另一个有吸引力的预测靶点;通过描述蛋白质与其他蛋白质的相互作用,可以对蛋白质有很多了解。然而,蛋白质相互作用位点提供了额外的挑战;它们通常又大又平,而且保存得很差[68].ConCavity公司不适合此任务。其他类型的功能站点也缺乏与功能重要性密切相关的简单属性。对这些位点的几何形状、物理性质和功能作用的分析将产生更准确的预测因子,并可能导致对蛋白质完成其分子功能的一般机制的新见解。

总之,本文通过改进预测方法的原理、方法和评估,显著提高了配体结合位点识别的最新进展。它还增加了我们对进化序列保守性、蛋白质结构属性和功能重要性之间关系的理解。通过在线提供我们的源代码和预测,我们希望建立一个平台,从中可以进一步研究功能位点的预测以及序列和结构数据的集成。

方法

锥形空腔

本节介绍ConCavity公司从蛋白质3D结构和进化序列保守性预测配体结合残基的算法。

ConCavity公司分为三个概念步骤:网格创建、口袋提取和残留物映射(图8). 首先,给定蛋白质的结构和进化特性被用来创建围绕该蛋白质的规则3D网格,其中与每个网格点相关的分数表示与结合配体原子重叠的估计可能性(图8A). 其次,对连续的高得分网格点组进行聚类,以提取符合给定形状和大小约束的口袋(图8B). 最后,根据每个蛋白质残基与提取囊的接近程度,对其与配体结合的可能性进行评估(图8C).

保存图片、插图等的外部文件。对象名称为pcbi.1000585.g008.jpg
ConCavity公司预测管道。

大的灰色形状代表蛋白质的3D结构;三角形代表表面残留物;灰度梯度表示蛋白质中不同的序列保守性值。每种颜色的深浅表示值较高。(A) 在本例中,初始网格值来自进化序列守恒信息和结构预测的组合褐煤。对于PocketFinder(口袋查找器)冲浪网(B)根据形态学标准对(A)中生成的网格进行阈值化,以便只有形状良好的口袋才具有非零值。为简单起见,仅显示口袋附近的栅格值。(C) 最后,表示口袋预测的网格映射到蛋白质的表面。我们执行3D高斯模糊(保存图片、插图等的外部文件。对象名称为pcbi.1000585.e03.jpg)并为每个残差分配最高的重叠网格值。网格值非常高的空间区域附近的残留物得分最高。

一些以前的配体结合位点预测系统(例如。,[14],[16],[23]). 然而,我们对这三个步骤的调整会显著影响预测的质量。首先,我们演示了如何将进化信息直接集成到三种不同的基于网格的口袋预测算法的网格创建步骤中。其次,我们介绍了一种使用数学形态学算子从网格中提取形状良好的口袋的方法。第三,我们提供了一种基于高斯模糊的稳健方法,用于将基于网格的配体结合预测映射到蛋白质残基。这三种方法的细节及其对配体结合预测影响的评估在以下小节中进行了描述。

网格创建

我们的过程的第一步是构建一个覆盖蛋白质周围自由空间的3D规则网格。目标是生成与在每个网格点找到结合配体的可能性相关的网格值。

已经提出了几种方法来生成这种类型的网格。例如,锂辉石 [16]通过沿三个轴和四条三次对角线扫描蛋白质表面,生成一个值介于0和7之间的网格。对于蛋白质外部的每个网格点,双向撞击蛋白质表面的扫描次数,即所谓的蛋白质-蛋白质(PSP)事件,就是该点的值。大量的PSP事件表明网格点在许多方向上被蛋白质包围,因此可能位于一个口袋中。

冲浪网 [14]通过构建填充成对蛋白质原子之间的空间而不重叠任何其他原子的球体来为网格分配值。这些球体是为所有蛋白质表面原子对构造的,它们之间的距离在10º以内。半径小于1.5º的球体将被忽略,并且允许球体的最大半径为4º。这个过程会产生一组重叠的球体,填充蛋白质中的空腔和裂缝。稍微扩展一下原始算法,我们将每个网格点的值指定为与之重叠的球体数(而不是像原始算法中那样,简单地将一个用于重叠,将零用于无重叠)。因此,较高的值通常与口袋“中心”的位置相关。

PocketFinder(口袋查找器) [23]通过计算原子探针与蛋白质的范德瓦尔斯相互作用势,为网格点赋值。Lennard-Jones函数用于估计蛋白质与放置在每个网格点上的碳原子之间的相互作用势。网格点处的电位保存图片、插图等的外部文件。对象名称为pcbi.1000585.e004.jpg是:

方程式图像
(1)

哪里保存图片、插图等的外部文件。对象名称为pcbi.1000585.e006.jpg保存图片、插图等的外部文件。对象名称为pcbi.1000585.e007.jpg是常量(取自AutoDock[69])根据碳探针原子和蛋白质原子之间的相互作用能形成Lennard-Jones函数保存图片、插图等的外部文件。对象名称为pcbi.1000585.e008.jpg、和保存图片、插图等的外部文件。对象名称为pcbi.1000585.e009.jpg是网格点之间的距离保存图片、插图等的外部文件。对象名称为pcbi.1000585.e010.jpg保存图片、插图等的外部文件。对象名称为pcbi.1000585.e011.jpg(超过10Å的距离上的相互作用被忽略)。

还提出了其他网格创建方法,但这三种方法(褐煤,冲浪网、和PocketFinder(口袋查找器))为我们的研究提供一个具有代表性的集合。

我们通过将进化信息集成到网格创建过程中来增强这些算法。我们的方法基于这样的观察,即这些(和其他)网格创建算法是通过根据与邻近蛋白质原子的空间关系,在网格点上积累配体结合的证据(“投票”)来操作的。对于PocketFinder(口袋查找器),每个蛋白质原子为附近的网格点投下“一票”,其大小等于范德瓦尔斯势的(相反)。褐煤,每对蛋白质原子在它们之间的线段上“投票”选择溶剂可访问的网格点。在我们实施冲浪网,原子对“投票”所有网格点,这些网格点重叠在覆盖它们之间溶剂可及区域的球体上。

根据这一观察结果,我们对“投票”进行加权,因为网格是通过估计与产生投票的原子相关联的残基的序列守恒来创建的。我们测试了几种缩放投票的方案。如果保存图片、插图等的外部文件。对象名称为pcbi.1000585.e012.jpg保存图片、插图等的外部文件。对象名称为pcbi.1000585.e013.jpg是与相关原子相关的估计保守性得分(例如,从多序列比对中的残基保守性中得出),我们通过产品对基于结构的成分进行了缩放(保存图片、插图等的外部文件。对象名称为pcbi.1000585.e014.jpg),算术平均值(保存图片、插图等的外部文件。对象名称为pcbi.1000585.e015.jpg),几何平均值(保存图片、插图等的外部文件。对象名称为pcbi.1000585.e016.jpg),指数的乘积(保存图片、插图等的外部文件。对象名称为pcbi.1000585.e017.jpg),以及转换守恒值的指数乘积(保存图片、插图等的外部文件。对象名称为pcbi.1000585.e018.jpg). 每个方案都为所有方法提供了改进,但由于特定方法的差异,没有一个单独的权重方案对所有方法都是最佳的。具体来说,对于PocketFinder(口袋查找器)每个投票只有一个原子,我们将每个原子的投票(范德瓦尔势)线性缩放为保存图片、插图等的外部文件。对象名称为pcbi.1000585.e019.jpg。对于褐煤我们通过守恒值的算术平均值和冲浪网通过变换的守恒值的指数的乘积。

在我们的研究中,守恒分数是通过Jensen Shannon散度(JSD)和序列加权和间隙惩罚来计算的[2]; 然而,任何产生残基分数(然后映射到残基中的原子)的序列保守性度量都可以合并。

性能.我们的卓越性能ConCavity公司预测配体结合囊和残基的网格创建方法在图5结果第节。唯一的区别是ConCavity公司方法(ConCavity公司,ConCavity公司S公司,ConCavity公司P(P))以及仅基于结构的同行(褐煤+,冲浪网+,PocketFinder(口袋查找器)+)是在网格创建步骤中使用序列守恒。对于每个网格创建策略,考虑进化保护会产生显著的改进。

袋式提取

我们流程的第二步是将连续的高得分网格点组聚类为口袋很可能含有结合配体。

以前已经提出了几种方法来解决这个问题。最简单的方法是对网格应用一个固定的阈值,即消除低于某个给定值的所有网格点。然后,剩余的网格点可以聚集到口袋中(例如,连接的组件),小口袋可以丢弃。这种方法,我们称之为“门槛“,已在以前的版本中使用褐煤 [1],[16]此方法的一个问题是,所有蛋白质的阈值都设置为相同的值,这无法控制算法预测的口袋总数和大小。在最坏的情况下,当每个网格值都低于阈值时,该算法将预测无口袋。另一方面,如果门槛太低,就会有很多大口袋。不同的蛋白质有不同类型的口袋,因此没有一个阈值可以为所有蛋白质提取适当大小和形状的口袋。

PocketFinder(口袋查找器) [23].在“标准偏差“网格中数值的平均值和标准偏差用于确定每个蛋白质的不同阈值。具体来说,栅格被模糊保存图片、插图等的外部文件。对象名称为pcbi.1000585.e020.jpg,然后阈值被设置为高于网格值的平均值4.6个标准偏差。这种方法是有问题的,因为阈值取决于网格的参数;蛋白质嵌入网格的方式的任何改变(例如,改变蛋白质的方向,改变蛋白质和网格边界之间的距离等)都会影响网格值的平均值和标准偏差,这反过来又会影响选择用于提取口袋的阈值。例如,只需将网格范围扩大10%,网格中就会包含大量接近零的值,这将降低阈值,并使提取的口袋变大。此外,不控制口袋的数量和大小;对于某些蛋白质来说,网格值可能比平均值高4.6个标准偏差,在这种情况下,预测不到口袋。

使用门槛标准偏差在这两种方法中,每个网格点都独立应用一个阈值,并且仅根据网格点之间的几何邻近性形成簇,因此可以提取一组具有生物学上不合理形状的口袋。例如,无法保证算法不会提取一个覆盖蛋白质表面很大一部分的非常大的口袋,或分布在蛋白质表面的许多小口袋,和/或包含长而薄的区域的口袋,这些区域的横截面直径太小,不适合结合配体。当然,在使用后处理算法根据几何标准提取这些口袋后,可以修剪/丢弃这些口袋[1],[23],[56]然而,除非用于选择网格阈值的方法和用于剔除口袋的方法之间存在反馈,否则无法保证输出一组生物学上合理的口袋,即,使用所选网格阈值提取的口袋可能都不符合剔除标准。

锥形空腔,我们将口袋的提取和剔除集成到一个框架中。我们对网格阈值进行二进制搜索,生成一组具有指定属性(最大口袋数、所有口袋的总体积、任何口袋的最小体积、任何袋子的最小横截半径以及与蛋白质表面的最大距离)的剔除口袋。具体来说,对于二进制搜索的每个步骤,我们选择一个网格阈值,提取一组口袋(值高于阈值的网格点的连接组件),然后应用一系列剔除算法,根据口袋的大小和形状修剪/丢弃口袋。如果剔除操作产生的口袋集不满足指定的全局属性,则算法会进行迭代,向上或向下调整阈值。当二进制搜索找到一组满足所有指定属性的口袋或确定不可能有口袋时,它将终止。我们称之为“搜索”.

具体来说,剔除步骤是通过一系列基于网格的过滤器来实现的,每个过滤器都在计算时间内运行,计算时间随网格大小线性增长。给定网格阈值的当前猜测,第一个过滤器只会将值低于阈值的所有网格点归零。

第二个过滤器将距离范德瓦尔蛋白质表面超过给定阈值的网格点归零,最大保护偏移此过滤器是通过首先将蛋白质所有原子的球体光栅化为网格来计算的,将任何蛋白质原子范德瓦尔半径内的每个网格点设置为一,其他网格点设置成零。然后,通过三次线性时间扫描计算每个网格点到van der Waal曲面上最近点的距离的平方,如果平方距离大于最大保护偏移 2.

第三个过滤器确保袋的任何部分的横截面半径都不小于给定的阈值,最小插座半径该滤波器由数学形态学中的“开”算子实现。直观地看,每个口袋的边界(网格的非零值)被“侵蚀”最小插座半径然后以相同的量“膨胀”,使横截面半径小于阈值的区域被移除,而其他区域保持不变。该操作符通过两次计算距口袋边界的平方距离来实现,每一次计算都需要网格大小的线性时间。

第四个过滤器构建网格的连接组件,然后将体积小于给定阈值的组件中的网格点置零,最小插座容量。通过相邻非零网格点的一系列深度第一次遍历来计算连接的组件,这些遍历都需要线性时间,并且使用quicksort按体积对口袋进行排序,这需要保存图片、插图等的外部文件。对象名称为pcbi.1000585.e021.jpg时间保存图片、插图等的外部文件。对象名称为pcbi.1000585.e022.jpg口袋。

在针对每次迭代执行这些滤波器之后计算所有剩余袋的总体积并将其与给定的目标体积进行比较,总插座容量。如果总体积大于(小于)目标体积,网格阈值将增加(减少)到当前阈值和最大(最小)可能阈值之间的一半值,即网格中最初的最大值(最小)值,最小值(最大)设置为当前阈值。使用新的阈值重复该过程,直到所有口袋的总体积在保存图片、插图等的外部文件。对象名称为pcbi.1000585.e023.jpg给定的总插座容量。请注意,我们对褐煤在开始此搜索之前,使用网格对预测的口袋进行更好的控制褐煤整数网格值。

我们根据经验设置这些过滤器的参数。在以前的研究中,已经观察到大多数结合配体原子位于蛋白质范德华表面的5°范围内,因此我们设置最大保护偏移至5年。为了靶向生物相关配体的结合位点,我们设置最小插座半径至1º和最小插座容量至100º根据观察,所有结合配体的总体积与蛋白质的总体积大致成比例[17],我们设置总插座容量在我们的研究中,达到总蛋白质体积的2%(文本S1). 最后,我们将网格分辨率设置为1º保存图片、插图等的外部文件。对象名称为pcbi.1000585.e024.jpg至1º.

性能为了评估不同口袋提取策略对结合位点检测准确性的影响,我们实施了几种替代方法,并比较了它们预测口袋与LigASite数据集完整结构中配体重叠的程度。表6显示了几种口袋提取算法(第二列)在三种不同网格类型(第一列)上的结果。除了阈值标准偏差,最大(N)指将不在最大N个格点(连接的组件)中的所有格点归零。

表6

口袋提取方法的比较。
网格生成口袋提取预测体积(Ω) 保存图片、插图等的外部文件。对象名称为pcbi.1000585.e025.jpgw/液化石油气。) 保存图片、插图等的外部文件。对象名称为pcbi.1000585.e026.jpgw/Lig.(带照明)。)预测/配体 保存图片、插图等的外部文件。对象名称为pcbi.1000585.e027.jpg/预测 保存图片、插图等的外部文件。对象名称为pcbi.1000585.e028.jpg/配体雅卡德系数。
褐煤+ 阈值(6)9385.9767.310595.84.5770.1060.3600.085
褐煤+ 阈值(6),最大值(3)5919.7674.87222.12.2810.2000.3220.129
褐煤+ 搜索1806.8426.93357.11.2500.3320.338 0.197
冲浪网+ -44242.41729.344490.329.0030.0450.8960.044
冲浪网+ 搜索1766.3426.33317.21.2180.3000.287 0.166
袖珍取景器+ 标准偏差(保存图片、插图等的外部文件。对象名称为pcbi.1000585.e029.jpg)69477.51742.169712.649.2500.0280.9000.028
袖珍取景器+ 标准偏差(保存图片、插图等的外部文件。对象名称为pcbi.1000585.e030.jpg)18317.11218.419075.912.0260.0940.6520.085
袖珍取景器+ 标准偏差(保存图片、插图等的外部文件。对象名称为pcbi.1000585.e031.jpg)8303.7896.49384.45.1170.1700.4890.130
袖珍取景器+ 标准偏差(保存图片、插图等的外部文件。对象名称为pcbi.1000585.e032.jpg)3703591.35088.82.1500.2700.3260.148
袖珍取景器+ 搜索18074363348.21.2500.3030.292 0.167
对于三种类型的网格(第一列),我们运行了不同的口袋提取算法(第二列),并比较了口袋在全息PQS结构中重叠绑定配体的程度。第三列(“预测体积”)列出了每个蛋白质上所有预测口袋的平均体积。作为参考,PQS文件(“配体”)中观察到的所有配体的平均体积为1977.2。接下来的两列列出了交叉口(配体)的平均体积保存图片、插图等的外部文件。对象名称为pcbi.1000585.e033.jpg预测)和并集(配体保存图片、插图等的外部文件。对象名为pcbi.1000585.e034.jpg预测)和配体网格。最后,最右边的四列列出了平均过预测因子(预测/配准)、精度(交集/预测)、召回(交集/Ligand)和雅卡系数(交集/Union)。对于最后三列,值的范围在0到1之间,值越大表示性能越好。比较每种方法预测的口袋平均体积,我们可以看到搜索的口袋最接近实际的配体体积。此外,搜索每种网格类型的高Jaccard系数表明,它在所测试的方法中提供了召回率和精确度之间的最佳权衡。

中显示的统计数据表6反映了每种提取技术预测的口袋的各种属性。雅卡德系数(交集/并集)在0和1之间,通过奖励与已知配体重叠的预测(大交集)和惩罚预测非常大的口袋(大并集)的方法,考虑了召回和精确度之间的自然权衡。因此,这是比较口袋提取方法整体性能的一个合适的度量。例如,尽管PocketFinder(口袋查找器)+使用标准偏差(保存图片、插图等的外部文件。对象名称为pcbi.1000585.e035.jpg)提取方法具有很高的召回率(0.900),其Jaccard系数很低,因为预测的口袋具有非常大的平均体积(比配体多49倍)。对于每种网格类型,我们的搜索口袋提取法预测了体积接近实际配体体积的口袋,得到了最佳的Jaccard系数。因此,我们使用搜索在里面锥形空腔以及我们以前基于网格的方法的实现。

残留物映射

我们的管道的第三步使用提取的口袋集生成残基的配体结合预测。我们的目标是根据每个残基与提取囊的关系对其进行评分,以便得分较高的残基更有可能与配体结合。这一目标比以往的残留物绘图方法更为雄心勃勃,这些方法只寻求识别与预测囊袋相关的残留品。

也许之前最简单、最常见的方法是标记某个距离阈值内的所有残留物,保存图片、插图等的外部文件。对象名称为pcbi.1000585.e036.jpg任何口袋都是绑定的(例如,分数=1),其余口袋都是未绑定的(如,分数=0)[25]。我们称此方法为“01区.“口袋表面和几何中心之前都被作为参考点;我们在中使用口袋表面01区。此方法忽略有关预测口袋的所有本地信息。两种相关方法将预测口袋的属性合并到01区第一个分配反映最近口袋大小的口袋附近的残留物分数(“Dist-Size(距离-大小)”)[1]; 最大口袋附近的残留物得分最高,依此类推。类似的方法使用口袋附近所有残留物的平均守恒(“Dist-Cons公司”)[1]对口袋进行排序,并将基于等级的分数分配给残差。

ConCavity公司,我们的目标是根据残基结合配体的可能性对残基进行评分。我们使用原始网格值(反映空间中每个点上配体的预测可能性)来加权分配给附近残基的分数。从提取的口袋集合内的网格值开始,我们使用高斯滤波器模糊该网格(保存图片、插图等的外部文件。对象名称为pcbi.1000585.e037.jpg),然后为每个残留物指定在其任意原子位置评估的最大网格值。这种方法,我们称之为“模糊,“为同一口袋中的残留物分配不同的分数,因为一些残留物位于结合位点的中间,紧邻具有最高网格值的口袋部分,而其他残留物则位于位点的边缘,接近边缘网格值。由指定的分数模糊反映了单个残基与配体结合可能性的差异。

与…对比模糊以往的残渣提取方法都没有对同一袋中的残渣进行不同的评分。相比之下,我们开发了距离策略(比如模糊)考虑原始栅格值。Dist-Raw公司简单地分配给内部的每个残留物保存图片、插图等的外部文件。对象名称为pcbi.1000585.e038.jpg口袋的最近口袋网格点的值。

性能我们通过比较PR-AUC来分析这些残基映射方法在预测LigASite apo数据集中定义的配体结合残基方面的性能。在每种情况下,我们都从相同的提取口袋网格开始,并应用不同的残差映射算法。我们考虑了三种不同袖珍网格上的所有残差映射策略:ConCavity公司,ConCavity公司S公司、和锥形空腔P(P).面向所有人距离方法,我们设置保存图片、插图等的外部文件。对象名称为pcbi.1000585.e039.jpg至5º,对于Dist-Cons公司我们考虑在袋的8°范围内所有残留物的守恒性(如[1]).

结果显示于表7证明这一点模糊与以前的残留映射方法的所有版本相比,为每个网格类型提供了更好的性能。因此,我们使用模糊在里面ConCavity公司以及我们以前的配体结合位点预测算法的实现。基于邻近网格点的值分配残差分数的两种方法(模糊Dist-Raw)在每种情况下都比那些根据口袋的全局属性为口袋中的所有剩余分配相同分数的情况下提供更好的性能(Dist-Size(距离-大小)Dist-Cons)这表明在预测结合位点时应考虑残留物周围的当地环境。

表7

残差映射策略的比较。
袖珍网格源
映射方法 ConCavity公司 ConCavity公司P(P) ConCavity公司S公司
模糊 0.608 0.602 0.587
Dist-Raw公司 0.4770.5530.509
Dist-Size(距离-大小) 0.4420.4860.474
Dist-Cons公司 0.4260.4730.437
01区 0.4040.4550.414
我们将五种残差映射算法应用于三个预测口袋网格(ConCavity公司,ConCavity公司P(P),ConCavity公司S公司). 下表列出了用于识别每种组合的LigASite apo数据集中配体结合残基的PR-AUC。我们的模糊对于每种网格类型,算法都能获得最佳性能。

以前的方法

我们进行了比较ConCavity公司配体结合位点预测的几种方法。其中许多方法缺乏可公开访问的实现,可用的方法输出预测的口袋和剩余的不同表示。在本节中,我们描述了如何为评估中考虑的所有先前方法生成预测。在某些情况下,我们完全重新实现了策略,而在其他情况下,则对现有实现的输出进行了后处理。表8提供了这些详细信息的摘要。如前所述,方法名后面附加的“+”表示它是(至少部分是)我们的实现,例如。,褐煤+.

表8

评价方法实施细则。
预测算法步骤
姓名网格创建口袋提取残留物映射后期处理
ConCavity公司 褐煤+Cons 搜索 模糊 -
ConCavity公司P(P) PocketFinder+缺点 搜索 模糊 -
ConCavity公司S公司 冲浪网+康纳斯 搜索 模糊 -
锂辉石+ 褐煤 搜索 模糊 -
PocketFinder(口袋查找器)+ PocketFinder(口袋查找器) 搜索 模糊 -
冲浪网+ 冲浪网 搜索 模糊 -
Ligsite碳钢 http://gopubmed2.biotec.tu-dresden.de/pocket/ 残留物按袋级排列
Q-SiteFinder http://www.modelling.leeds.ac.uk/qsitefinder/
CASTp公司 网址:http://sts-fw.bioener.uic.edu/castp/
LigsiteCSC公司+ http://gopubmed2.biotec.tu-dresden.de/pocket/ 按袋式保护分类的残留物
此表总结了我们评估的方法的配体结合位点预测过程的每个步骤的详细信息。新的ConCavity公司方法完全基于我们的代码。我们还开发了新的实现(褐煤+,PocketFinder(口袋查找器)+、和冲浪网+)前三种方法中的一种。其他先前方法的预测是从列出的可公开访问的web服务器中获得的。这些服务器输出与预测的装订袋相关的残留物集。为了纳入残留预测评估,这些服务器的输出按照规定进行了后处理。对于我们的方法来说,这一步不是必需的,因为模糊输出对残留物预测进行了排名。方法名后面附加的“+”表示它(至少部分)基于我们的代码。文本中给出了每个算法的实现细节,我们的实现代码可以在线获得。

褐煤+,网上冲浪+和Pocketfinder+

我们开发了新的褐煤,冲浪网、和口袋查找器网格生成方法。这是必要的,使我们能够将序列保守性与这些方法完全结合起来。然而,它也使我们能够研究不同的口袋提取和残差映射算法对整体性能的影响。

默认情况下,我们使用搜索取出口袋和模糊映射到残留物褐煤+,冲浪网+、和袖珍取景器+,因为如上所示,这些方法产生了最佳性能。我们的实现输出预测配体结合囊的表示和接触残基的排序列表,因此它们可以包括在囊和基于残基的评估中。

LigsiteCS、Q-SiteFinder和CASTp

在我们的实验中,我们使用三个公开可用的web服务器生成绑定站点预测:Ligsite碳钢 [1],QSiteFinder [25]、和CASTp公司 [19]。每个服务器都会生成一个由残留物集表示的预测口袋列表。在每种情况下,残留物都没有与其相关的分数。因此,要将这些方法包括在配体结合残基预测评估中,我们必须对残基进行评分。我们尝试了两种方法。第一种方法为所有预测残差分配一分,其他所有残差分配零分。第二种方法根据分配给它们的最高等级袋对残差进行排序,即来自第一个预测袋的所有残差都比来自第二个的残差得分高,依此类推。这些方法类似于ConCavity公司上述章节;然而,这些精确的算法不能在这里应用,因为web服务器不能提供预测口袋的全部范围的表示。我们发现残差排序产生更好的结果(数据未显示),所以我们使用这种方法。我们考虑每种方法预测的默认口袋数:Ligsite碳钢返回三个口袋;Q-SiteFinder返回十个口袋;CASTp公司返回一个可变数字。这个Q-SiteFinderweb服务器不会接受原子数超过10000的蛋白质。

Ligsite碳钢,Q-SiteFinder、和CASTp公司没有提供每个预测口袋的完整范围的表示,因此它们不能被包括在配体位置预测评估中。

LigsiteCSC公司+

这个LigsiteCSC公司方法是的扩展Ligsite碳钢它使用预测口袋周围残留物的进化序列守恒来重新排序口袋预测。上的此功能Ligsite碳钢预测服务器对于我们数据集中的许多PQS结构都不起作用,所以我们在Ligsite碳钢结果。对于每个口袋,我们计算了口袋中心8°范围内所有残留物的平均守恒。HSSP比对的JSD方法用于产生守恒分数。然后根据平均保护度对前三个口袋的大小进行排名。此实现遵循发布的描述LigsiteCSC公司,但使用JSD代替ConSurf进行保护除外。

Jensen-Shannon发散

采用Jensen-Shannon发散度(JSD)表征进化序列保守性的表现;最近的研究表明,它在一系列功能性场地预测任务中提供了最先进的性能[2]它将同源物的多序列比对列中观察到的氨基酸分布与背景分布进行了比较。JSD得分在0到1之间。卡普拉和辛格提供的代码[2]使用默认的序列权重和差距惩罚对所有比对进行评分。

数据

本文描述的预测方法以蛋白质3D结构和/或多序列比对为输入。蛋白质结构从蛋白质四元结构(PQS)服务器下载[58]。使用预测的四级结构(而不是PDB文件中提供的三级结构),以考虑处于生物活性状态的蛋白质的口袋和蛋白质-干性接触。所有比对均来自同源衍生蛋白质二级结构(HSSP)数据库[70].所有3D结构的图像均使用PyMol渲染[71].

LigASite数据集非冗余版本定义的配体结合位点(v7.0)[24]用于评估方法预测。该组由337个具有载脂蛋白(未结合)结构的蛋白质组成,每个蛋白质与组中任何其他蛋白质的序列一致性都小于25%。337个结构中有5个被排除在评估之外:1P5T、1YJG和3DL3在数据库中缺少完整配体信息,2PCY和3EZM,因为它们对应的完整结构不在PQS或HSSP中。每个载脂蛋白结构都具有至少一个相关的完整(结合)结构,在该结构中识别生物相关配体,以定义配体结合残基并将其映射到载脂蛋白的结构。如果蛋白质有多个完整结构,则结合接触残基组来定义载脂蛋白结构的结合残基。我们通过对每个apo结构取具有最多配体接触残基的holo结构来选择LigASite holo评估集的结构。每个apo结构的全息结构平均数量为2.58个,任何单个结构的最大数量为32个。平均链长为276个残基,最小59个,最大1023个。每条链上接触生物相关配体的阳性位点的平均数量为25个残基(约占链的11%)。apo数据集包括许多具有多个链的蛋白质;每个蛋白质的平均链数为2.22。链分布为:1链:143,2链:112,3链:18,4链:35,5链或更多链:24。

药物数据集来自一组100个非冗余3D结构,这些结构由[62]这组包含一组不同的高质量结构(分辨率<3º),药物或类药物分子(分子量在200到600之间,以及1−12个可旋转键)结合在一起。结构1LY7已从PDB中删除,无法解析1R09。我们考虑剩下的98个结构。

催化位点注释摘自2.2.9版催化位点图谱[66]。LigASite apo数据集中有153个蛋白质,其条目位于催化位点图谱中。这些蛋白质每条链平均有3.2个催化位点(略高于链中所有残基的1%)。

评价

配体结合囊的预测由蛋白质周围规则3D网格中的非零值表示。这些代表了空间中被认为含有配体的区域。这些预测通过两种方式进行评估:在口袋级,通过计算它们与已知配体的重叠,以及在网格级,通过分析网格分数对重叠配体原子的网格点的排名。我们将PQS结构中配体原子的栅格化范德瓦尔斯球体用作栅格点的“正”集合。由此,我们计算了实际配体原子的交并和预测。我们比较了使用过预测因子(预测体积/配体体积)、精度(交集体积/预测体积)、召回率(交集容积/配体容积)和Jaccard系数(交集容量/联合体积)的方法。

我们还创建了精确重新调用(PR)曲线,将y轴上的精度(TP/(TP+FP))与x轴上的召回(TP/)(TP+FN)进行比较,以评估每种方法预测网格点上是否存在配体原子的能力。我们认为与配体原子重叠的网格点是正的。为了构造PR曲线,我们计算了口袋预测网格中网格值的每个截止点的精度和召回率。为了总结每种方法的性能,我们构造了一条复合PR曲线[72]通过平均数据集中每个结构在每个召回级别的精度。作为参考点,我们还包括了随机分类器在所有结构上的平均性能。随机方法的预期性能是所有网格点的正数量。Davis和Goadrich的方法和代码[73]用于计算PR曲线下的面积(PR-AUC)。对于数据集中所有结构的成对性能统计数据,使用Wilcoxon符号秩检验评估方法之间差异的显著性。使用Wilcoxon秩和检验计算不同数据集上单个方法的性能差异的显著性。

对于基于残留物的评估,我们考虑每种方法的残留物分数识别配体结合残留物有多好。阳性是指与LigASite数据库定义的配体接触的残基。PR曲线是通过计算每个链在残差得分排名表上每个位置的精确度和召回率来绘制的。计算复合PR曲线时,如网格点评估所述,但曲线首先在结构中的链上平均,然后在结构上平均。对于催化位点分析,绘制了类似的PR曲线,但阳性被定义为催化位点图谱中列出的残留物。

支持信息

文本S1

补充文本、结果和分析。

(0.39 MB PDF格式)

脚注

提交人声明,不存在相互竞争的利益。

JAC得到了NIH定量与计算生物学项目T32 HG003284拨款的支持。MS感谢NSF授予PECASE MCB-0093399,感谢NIH授予GM076275。MS和TAF感谢NSF为IIS-0612231拨款。这项研究也得到了美国国立卫生研究院卓越中心P50 GM071508和美国国立卫生研究院CA041086的资助。TAF还感谢Leverhulme信托基金和BBSRC为他在EBI的休假提供资金。资助者在研究设计、数据收集和分析、出版决定或手稿准备方面没有任何作用。

工具书类

1Huang B,Schroeder M.LIGSITEcsc:使用Connolly表面和保守度预测配体结合位点。BMC结构生物。2006;6:19. [PMC免费文章][公共医学][谷歌学者]
2Capra J,Singh M.从序列保守性预测功能重要的残基。生物信息学。2007;23:1875–1882.[公共医学][谷歌学者]
三。Lopez G,Valencia A,Tress M.firestar——使用结构模板和比对可靠性预测功能重要残基。核酸研究。2007;35:W573–W577。 [PMC免费文章][公共医学][谷歌学者]
4Kuznetsov I,Gou Z,Li R,Hwang S.利用进化和结构信息预测DNA结合蛋白上的DNA结合位点。蛋白质:Stuct、Func和Bioinf。2006;64:19–27.[公共医学][谷歌学者]
5Youn E,Peters B,Radivojac P,Mooney S.新型褶皱中催化残基预测特征的评估。保护科学。2007;16:216–226. [PMC免费文章][公共医学][谷歌学者]
6Ofran Y,Rost B.将蛋白质相互作用热点分割成序列。公共科学图书馆计算生物学。2007;:e119。 [PMC免费文章][公共医学][谷歌学者]
7Zhou H,Qin S.蛋白质复合物的相互作用位点预测:一项关键评估。生物信息学。2007;23:2203–2209.[公共医学][谷歌学者]
8Hannenhalli S,Russell R.通过蛋白质序列比对分析和预测功能亚型。分子生物学杂志。2000;303:61–76.[公共医学][谷歌学者]
9del Sol Mesa A,Pazos F,Valencia A。预测功能重要残基的自动方法。分子生物学杂志。2003;326:1289–1302.[公共医学][谷歌学者]
10Kalinia O,Mironov A,Gelfand M,Rakhmaninova A.通过比较分析蛋白质家族中的同源基团,自动选择决定蛋白质功能特异性的位置。保护科学。2004;13:443–456. [PMC免费文章][公共医学][谷歌学者]
11Chakrabarti S、Bryant S、Panchenko A。功能特异性取决于氨基酸的性质和进化变化。分子生物学杂志。2007;373:801–10. [PMC免费文章][公共医学][谷歌学者]
12Capra J,Singh M.确定蛋白质功能特异性的残基的表征和预测。生物信息学。2008;24:1473–1480. [PMC免费文章][公共医学][谷歌学者]
13Levit D,Banaszak L.Pocket:一种识别和显示蛋白质空腔及其周围氨基酸的计算机图形方法。J Mol Graphics杂志。1992;10:229–234.[公共医学][谷歌学者]
14Laskowski R.Surfinet:一个可视化分子表面、空腔和分子间相互作用的程序。J摩尔图。1995;12:323–330.[公共医学][谷歌学者]
15Peters K,Fauck J,Frömmel C.仅使用几何标准自动搜索已知三维结构蛋白质中的配体结合位点。分子生物学杂志。1996;256:201–213.[公共医学][谷歌学者]
16Hendlich M,Ripman F,Barnickel G.配体:蛋白质中潜在小分子结合位点的自动高效检测。J摩尔图模型。1997;15:359–363.[公共医学][谷歌学者]
17Liang J,Edelsbrunner H,Woodward C.蛋白质囊和腔的解剖:结合位点几何形状的测量和配体设计的意义。保护科学。1998;7:1884–1897. [PMC免费文章][公共医学][谷歌学者]
18Brady G,Jr,Stouten P.使用PASS快速预测和可视化蛋白质结合囊。J Comp-Aided Mol Design公司。2000;14:383–401.[公共医学][谷歌学者]
19Dundas J,Ouyang Z,Tseng J,Binkowski A,Turpaz Y,et al.CASTp:蛋白质表面地形的计算图谱,以及功能注释残基的结构和地形映射。核酸研究。2006;34:W116–W118。 [PMC免费文章][公共医学][谷歌学者]
20Xie L,Bourne P.一种稳健有效的蛋白质结构形状描述算法及其在预测配体结合位点中的应用。BMC生物信息。2007;8:S9。 [PMC免费文章][公共医学][谷歌学者]
21Weisel M,Proschak E,Schneider G.PocketPicker:用形状描述符分析配体结合位点。化学中心杂志。2007;1:7. [PMC免费文章][公共医学][谷歌学者]
22Valdar W.Scoring残留物保护。蛋白质:结构、功能和遗传学。2002;48:227–241.[公共医学][谷歌学者]
23An J,Totrov M,Abagyan R.Pocketome,配体结合包膜的综合鉴定和分类。分子细胞保护。2005;4:752–761.[公共医学][谷歌学者]
24Dessailly B、Lensink M、Orengo C、Wodak S.LigASite:具有已知脱辅基结构的蛋白质中生物相关结合位点的数据库。核酸研究。2008;36:D667–673。 [PMC免费文章][公共医学][谷歌学者]
25Laurie A,Jackson R.Q-SiteFinder:一种基于能量的蛋白质-配体结合位点预测方法。生物信息学。2005;21:1908–1916.[公共医学][谷歌学者]
26Mayrose I,Graur D,Ben-Tal N,Pupko T。现场特定速率参考方法的比较:贝叶斯方法更优。分子生物学进化。2004;21:1781–1791.[公共医学][谷歌学者]
27Wang K,Samudrala R.结合背景频率改进了基于熵的残留物保存措施。BMC生物信息。2006;7:385. [PMC免费文章][公共医学][谷歌学者]
28Mihalek I,Res I,Lichtarge O。一个进化家族-按重要性对蛋白质残基进行排序的熵混合方法。分子生物学杂志。2004;336:1265–1282.[公共医学][谷歌学者]
29Sankaraman S,Sjolander K.Intrepid–蛋白质功能位点识别的信息理论树遍历。生物信息学。2008;24:2445–2452. [PMC免费文章][公共医学][谷歌学者]
30Bahadur KD,Livesay D.利用系统发育基序改进蛋白质功能位点的位置特异性预测。生物信息。2008;24:2308–2316.[公共医学][谷歌学者]
31Fischer J,Mayer C,Soeding J.通过概率密度估计预测序列中的蛋白质功能残基。生物信息学。2008;24:613–620.[公共医学][谷歌学者]
32Elcock A.仅基于蛋白质结构的计算能量学预测功能重要的残基。分子生物学杂志。2001;312:885–896.[公共医学][谷歌学者]
33Bate P,Warwicker J.使用基于电荷的方法对酶/非酶活性位点位置进行识别和预测。分子生物学杂志。2004;340:263–276.[公共医学][谷歌学者]
34Hernandez M,Ghersi D,Sanchez R.SITEHOUND-web:蛋白质结构中配体结合位点识别的服务器。核酸研究。2009数字对象标识:10.1093/nar/gkp281.[PMC免费文章][公共医学][谷歌学者]
35Ko J,Murga L,Andre P,Yang H,Ondrechen M等。使用理论微观滴定曲线鉴定蛋白质活性位点的统计标准。蛋白质:Stuct、Func和Bioinf。2005;59:193–195.[公共医学][谷歌学者]
36Brylinski M,Skolnick J.配体结合位点预测和功能注释的基于线程的方法(FINDSITE)。国家科学院院刊。2008;105:129–134. [PMC免费文章][公共医学][谷歌学者]
37Halperin I,Wolfson H,Nussinov R.SiteLight:使用噬菌体展示库进行结合位点预测。保护科学。2003;12:1344–1359. [PMC免费文章][公共医学][谷歌学者]
38.Amitai G、Shemesh A、Sitbon E、Shklar M、Netanely D等。蛋白质结构的网络分析识别功能残基。分子生物学杂志。2004;344:1135–1146.[公共医学][谷歌学者]
39Landau M、Mayrose I、Rosenberg Y、Glaser Y、Martz E等,《2005年ConSurf:蛋白质结构上残基的进化保守性分数预测》。核酸研究。2005;33:W299–W302。 [PMC免费文章][公共医学][谷歌学者]
40Nimrod G,Schushan M,Steinberg D,Ben-Tal N.已知结构的“假设蛋白质”中功能重要区域的检测。结构。2008;16:1755–1763.[公共医学][谷歌学者]
41Yao H、Kristensen D、Mihalek I、Sowa M、Shaw C等。一种准确、灵敏和可扩展的方法,用于识别蛋白质结构中的功能位点。分子生物学杂志。2003;326:255–261.[公共医学][谷歌学者]
42Panchenko A,Konrashov F,Bryant S.通过序列和结构保存分析预测功能场所。保护科学。2004;13:884–892. [PMC免费文章][公共医学][谷歌学者]
43Chelliah V,Chen L,Blundell T,Lovell S.区分进化中的结构和功能限制,以确定相互作用位点。分子生物学杂志。2004;342:1487–1504.[公共医学][谷歌学者]
44Cheng G,Qian B,Samudrala R,Baker D.通过使用计算设计区分蛋白质家族进化的结构和功能约束来改进蛋白质功能位点预测。核酸研究。2005;33:5861–5867. [PMC免费文章][公共医学][谷歌学者]
45.Wang K,Horst J,Cheng G,Nickle D,Samudrala R.结合序列、结构、进化和氨基酸属性信息的蛋白质元功能特征。公共科学图书馆计算生物学。2008;4:9. [PMC免费文章][公共医学][谷歌学者]
46Chen B,Fofanov V,Bryant D,Dodson B,Kristensen D等。蛋白质功能预测的mash管道和3D基序的几何细化算法。J Comp Biol.公司。2007;14:791–816.[公共医学][谷歌学者]
47Burgoyne N,Jackson R.预测蛋白质相互作用位点:蛋白质-蛋白质和蛋白质-蛋白质界面中的结合热点。生物信息学。2006;22:1335–1342.[公共医学][谷歌学者]
48.Yoon S,Ebert J,Chung E,DeMicheli D,Altman R.功能预测的聚集蛋白质环境:在3D中发现PROSITE基序。BMC生物信息。2007;8(补充4):S10。 [PMC免费文章][公共医学][谷歌学者]
49Gutteridge A,Bartlett G,Thornton J.使用神经网络和空间聚类预测酶中活性位点的位置。分子生物学杂志。2003;330:719–734.[公共医学][谷歌学者]
50Petrova N,Wu C.使用具有选定蛋白质序列和结构特性的支持向量机预测催化残留物。BMC生物信息。2006;7:312. [PMC免费文章][公共医学][谷歌学者]
51Tong W,Wei Y,Murga L,Ondrechen M,Williams R.部分顺序最佳似然(POOL):使用3D结构和序列特性预测蛋白质活性位点残基的最大似然。公共科学图书馆计算生物学。2009;5:1. [PMC免费文章][公共医学][谷歌学者]
52Nayal M,Honig B.关于蛋白质表面空洞的性质:应用于药物结合位点的鉴定。蛋白质:Stuct、Func和Bioinf。2006;63:892–906.[公共医学][谷歌学者]
53Wei L,Altman R.使用贝叶斯评分函数识别蛋白质结构中的复杂、不对称功能位点。生物信息计算生物学杂志。2003;1:119–138.[公共医学][谷歌学者]
54Bordner A.利用骨架结构预测蛋白质中的小配体结合位点。生物信息学。2008;24:2865–2871. [PMC免费文章][公共医学][谷歌学者]
55.Ebert J,Altman R.蛋白质中锌结合位点的稳健识别。保护科学。2008;17:54–65. [PMC免费文章][公共医学][谷歌学者]
56Glaser F,Morris R,Najmanovich R,Laskowski R,Thornton J.蛋白质结构中定位配体结合囊的方法。蛋白质:Stuct、Func和Bioinf。2006;62:479–488.[公共医学][谷歌学者]
57.Morgan D、Kristensen D、Mittleman D、Lichtarge O.ET查看器:预测和可视化蛋白质结构中功能位点的应用。生物信息学。2006;22:2049–2050.[公共医学][谷歌学者]
58Henrick K,Thornton J.PQS:蛋白质四元结构文件服务器。生物化学科学趋势。1998;23:358–361.[公共医学][谷歌学者]
59Najmanovich R,Kuttner J,Sobolev V,Edelman M.配体结合后蛋白质的侧链灵活性。蛋白质:结构、功能和遗传学。2000;39:261–268.[公共医学][谷歌学者]
60Laskowski R,Luscombe N,Swindels M,Thornton J.分子识别和功能中的蛋白质断裂。保护科学。1996;5:2438–2452. [PMC免费文章][公共医学][谷歌学者]
61Bartlett G,Porter C,Borkakoti N,Thornton J.酶活性位点中催化残留物的分析。分子生物学杂志。2002;324:105–121.[公共医学][谷歌学者]
62Perola E、Walters W、Charifson P。药物相关性系统当前对接和评分方法的详细比较。蛋白质:Stuct、Func和Bioinf。2004;56:235–249.[公共医学][谷歌学者]
63Willems A,Tahlan K,Taguchi T,Zhang K,Lee Z,et al.空泡链霉菌TetR-like蛋白ActR单独和与放线素或放线素生物合成前体(S)-DNPA复合的晶体结构。分子生物学杂志。2008;376:1377–1387.[公共医学][谷歌学者]
64Ling H、Boodhoo A、Hazes B、Cummings M、Armstrong G等。与受体Gb3类似物复合的类志贺毒素I B五聚体的结构。生物化学。1998;37:1777–1788.[公共医学][谷歌学者]
65.Charnock S,Bolam D,Nurizzo D,SzabóL,McKie V,et al.配体结合中的混杂性:与细胞和甘露糖复合的吡霉碳水化合物结合模块cbm29-2的三维结构。国家科学院院刊。2002;99:14077–14082. [PMC免费文章][公共医学][谷歌学者]
66Porter C,Bartlett G,Thornton J.催化位点图谱:使用结构数据识别酶中催化位点和残基的资源。核酸研究。2004;32:D129–D133。 [PMC免费文章][公共医学][谷歌学者]
67Magliery T,Regan L.蛋白质中配体结合位点的序列变异。BMC生物信息。2005;6:240. [PMC免费文章][公共医学][谷歌学者]
68Caffrey D、Somaroo S、Hughes J、Mintseris J、Huang E。蛋白质-蛋白质界面在序列上是否比蛋白质表面的其他部分更保守?保护科学。2004;13:190–202. [PMC免费文章][公共医学][谷歌学者]
69Morris G、Goodsell D、Halliday R、Huey R、Hart W等。使用拉马克遗传算法和经验结合自由能函数的自动对接。《复合化学杂志》。1998;19:1639–1662. [谷歌学者]
70Dodge C、Schneider R、Sander C。蛋白质结构序列比对和家族简介的HSSP数据库。核酸研究。1998;26:313–315. [PMC免费文章][公共医学][谷歌学者]
71DeLano W.PyMOL用户手册。2002年,美国加利福尼亚州帕洛阿尔托市德拉诺科学公司。http://www.pymol.org.
72Manning C,Raghavan P,Schütze H.剑桥大学出版社;2008年,信息检索导论。第158-163页。[谷歌学者]
73Davis J、Goadrich M.《精确再调用和ROC曲线之间的关系》。第23届国际机器学习大会。2006;23:233–240. [谷歌学者]

文章来自PLOS计算生物学由以下人员提供普洛斯