解释ConSurf结果

来自Proteopedia

跳转到:航行,搜索

本页讨论如何决定ConSurf公司对于你想问的关于蛋白质的问题来说,结果是最佳的。它假设您已经有一个或多个完成的ConSurf结果。有关如何获得ConSurf结果的背景原则和说明,请参阅ConSurf/索引.

本页没有详细介绍优化ConSurf结果所需的设置更改。ConSurf的作业提交表中显示了增加(或减少)基础多序列比对(MSA)中序列多样性和数量的选项。鼓励您尝试各种选项,下面的信息将帮助您决定哪些选项可以为您的目的提供最满意的结果。

目录

MSA的多样性

ConSurf结果在很大程度上取决于多序列比对(MSA)中包含的序列。这些序列的最佳多样性取决于您的目标。MSA中的多样性由#平均成对距离(APD)。

  • 如果你想知道哪些残留物在整个蛋白质家族中保持重要地位(或超级家族),那么MSA应该足够广泛,包括整个家族的代表。保存的残留物包括保守的残基可以使结构域正确折叠。这样的MSA可能会模糊对特定功能重要的一些残留物的保存。

有关此方面的详细信息,请参阅为了构建MSA,收集同源序列的最佳方法是什么?在ConSurf服务器上。

平均成对距离

这个平均成对距离多序列比对(MSA)中的APD是对所包含序列中进化多样性的度量。APD是“路线中任意两个序列之间的平均替换次数;0.01的距离意味着平均每100个位置的预期替换次数为1。”(引自ConSurf服务器)。

通常,APD为0.25到0.5与MSA一致,MSA的序列仅限于具有一种特定功能的蛋白质。随着APD接近或超过1.0,MSA中更有可能包含多种功能的蛋白质。

例子

在ConSurf服务器上,单击画廊,然后MHC一级重链(2VAA)。在副标题下,2VAA链A的最终结果中序列数据,单击使用的序列.

APD 0.99

库中默认设置的ConSurf Server 2VAA结果的APD为0.99MSA有150个序列,主要限于主要组织相容性复合体I类蛋白质的序列。101个序列的标签(150个序列中的67%)包含“I类”或“1类”。只有一个II类蛋白质序列。三个序列被标记为“锌-α-2-糖蛋白”,明显具有不同的功能。有22个标记为“非特征化蛋白”的序列,但与查询有很高的相似性。19个序列被标记为“UPI000…相关簇”。如果未表征的和“UPI000…”序列实际上是I类序列,那么高达142/150(95%)的序列可能是MHC-I.

然而,只有当定制ConSurf Server作业的APD达到0.30左右时,关键功能残留物的保存才被揭示出来:参见ConSurfDB_vs.ConSurf#示例.

APD 1.62

相比之下,ConSurfDB为其2VAA链A结果使用了300个序列。APD是1.62这表明MSA中包含了一些非MHC-I蛋白。MSA中只有146/300个序列(总共300个序列的49%)的标签包含“I类”(不包括带有“II级”的计数)。MSA包括62个标记为“Ig-like domain-containing protein”的序列,20个CD1家族的“T-cell surface glycoprotein”序列,17个明显无关的蛋白质(每个一个或几个),14个组织相容性II类蛋白质,8个“遗传性血色素沉着蛋白”序列,8个是“锌-α-2-糖蛋白”序列,11个无特征蛋白。不包括未表征的蛋白质129个(300个中的43%)不具有或可能不具有MHC I蛋白功能.

残留物的分布

Jmol简介显示了氨基酸在9个保护等级中的分布。这有助于提醒您MSA的问题。以下是一些示例。

在ConSurf服务器结果页面上,下载PDB文件通过打开高分辨率图形和PDB文件,然后单击下载ConSurf PDB文件以在Jmol中进行首次浏览.然后将其上传至FirstGlance。通过下载PDB文件,您将在结果出来后获得它消失来自ConSurf服务器。从ConSurf数据库(ConSurfDB)下载的PDB文件不工作第一眼看到。

良好分布:150个序列

下面是一些令人满意的ConSurf结果的分布示例。
图片:3HTL-X-APD1.37.png 图片:7cap-APD1.27.png

良好分布:<100个序列

当获得的唯一序列少于100个时,有时会获得令人满意的结果。在以下情况下第1年7月,43个序列(发现的唯一序列总数)与150个序列(从22855个唯一序列中取样)获得了类似的结果。APD值相近,75%的最高保护等级为9的残留物是共同的。
图片:1sy7-43seq-APD0.94.png 图片:1sy7-APD0.96.png


以下是<100个序列的更多令人满意的结果:
图片:1n73-56seq-APD1.01.png 图片:4mkm-39seq-APD0.85.png

分布不良:序列太少

当序列数降至大约25个以下时,结果不太可能令人满意。分发提醒您该问题。在这种情况下,数据不足的残留物百分比(保护等级不确定)会上升,而1-9级残留物的平均保护等级往往为>5.5.
图片:6t3x-18seq-APD0.77.png 图片:2PNL-B-13seq-APD0.21.png

分配不良:短链

蛋白质具有少于50个残基可能会给出不令人满意的结果。胶原蛋白6vzx型只有24个氨基酸/链。增加MSA中的序列数对结果的改善作用不大。
图片:6vzx-collagen-APD0.75.png 图片:6vzx-collagen-250seq-APD0.74.png

残留物过多,数据不足

数据不足的氨基酸(保护等级不确定)为黄色。这里有两种情况,黄色残留物是一个问题,并有解决方案。

需要更多序列

如果感兴趣的残留物没有足够的数据,则增加MSA中的序列数可以为其提供可靠的保护等级。这发生在序列相同的链C和F中第1页73对于150个序列(默认作业设置),参与异肽键的Lys401没有足够的数据。当在MSA中使用300个序列时,Lys401获得了可靠的保护等级1。它在异肽键中的伴侣Gln397从保护等级8降到7,尽管APD没有增加。

FirstGlance自动报告六种类型的蛋白质交联包括异肽键。进化保守性着色的蛋白质交联的其他例子有过氧化氢酶中的硫醚交联聚-泛素中的一种异肽.

图片:1n73-APD1.05.png 图片:1n73-isopeptide-conservation-yellow.png
图片:1n73-300seqs-APD 1.04.png 图片:1n73-isopeptide-conservation.png

数据不足的整个域

在某些情况下,MSA无法充分覆盖整个域,因此整个域为黄色。在默认作业设置和自动序列选择的情况下2年正如ConSurf服务器解释的那样,解决方案是将每个域作为单独的ConSurf作业运行(未显示)。这里有分隔域的说明到不同的PDB文件中。
图片:2yev-APD1.12.png 图片:2yev-consurf-chainA.png

另请参阅

  • ConSurf/索引:链接到进化保护原则的解释以及实用指南。
  • 第一眼/可视化保护:演示了FirstGlance提供的便利性,可以很容易地看到盐桥、阳离子-π相互作用、结合配体、底物或抑制剂的残基、共价蛋白质交联中的残基或您指定的任何残基的守恒。

Proteopedia页面贡献者和编辑(这是什么?)

埃里克·马茨

个人工具