来自Proteopedia
蛋白质组链接蛋白质组链接此页面包含以下人员之间的协作用户:Eric Martz和ConSurf团队。仅当您是此协作的参与者时,请编辑此页面。谢谢您。
ConSurf-DB使用了太多序列吗?
在ConSurf-DB中,我认为不能在太多和太少的序列之间进行单一折衷,从而对所有蛋白质产生最佳结果。然而,我发现下面的案例提供了信息。
我的结论是,也许我们应该提醒用户:ConSurf-DB设计用于在其多序列比对(MSA)和分析中包含广泛的序列。通常,MSA将包含大量与查询蛋白功能不同的蛋白质序列。因此,着色为高度保守的氨基酸在一系列序列相似的蛋白质中确实高度保守。然而,蛋白质中高度保守的氨基酸相同的功能作为查询蛋白可能看起来不保守在ConSurf-DB结果中。为了识别这些残基,检查PSI-BLAST在ConSurf运行中收集的序列,然后将“最大同源数”设置为表示与查询蛋白具有相同功能的蛋白质的数量。这种分析的一个例子是可用的。
示例如下。
我惊讶地注意到,MHC I类α链中的Q226在ConSurf-DB中的保护等级为4。Q226参与识别CD8蛋白,CD8与MHC I类的结合对MHC I级刺激T淋巴细胞对MHCⅠ类呈现的外源肽抗原作出反应的功能至关重要。因此,我希望Q226高度保守。
通过检查ConSurf-DB使用的MSA,我发现了除MHC I类蛋白以外的许多蛋白质。当我去掉这些后,Q226的保护等级从4级降到了9级。详情如下。
MHC Alpha链中的功能环220-230
在MHC I类(小鼠和人类)中,Q226是CD8结合位点的一部分[1]关于人类MHC中的α链(A)1千焦,作者声明:
α3结构域的一个柔性环(残基223-229)以经典的抗体-抗原相互作用方式夹在两个CD8亚基的互补决定区(CDR)样环之间。。。。
CD8和HLA-A2α链之间涉及该环的氢键如下(见表2[1]):
CD8:D T30.OG1:T225.O HLA-A2:A 2.7μCD8:E S34.OG:Q226.NE2 3.0CD8:D S100.O:Q226.NE2 3.0CD8:D S100.OG:Q226.O 2.7CD8:E Y51.OH:D227.OD2 3.0小时CD8:D N99.OD1:L230.N 3.0CD8:D N99.ND2:L230.O 3.4CD8:D S27.OG1:E232.OE1 2.7
在1个小时[2].这两个(1千焦和1个小时)是我在PDB公司CD8-结合区MHCα链的序列比较:
| 195-198 | 220-230 |
HLA-A2抗原 | SDHE公司
| D通用电气DQT公司QD公司T型E类我
|
H-2K型b条
| PEDK公司
| 通用电气公司ELI公司QD公司M(M)E类我
|
对于仅包含MHC I类序列(136个序列,见下文)的MSA,红色氨基酸的保护等级为8或9。
2VAA的ConSurf结果:A 220-230
发现的前136*个序列是来自不同物种的MHC I类分子。之后是非MHC I类序列,即遗传性血色素沉着症蛋白、锌-α-2-糖蛋白、IgG受体FcRn大亚基和MHC II类(不与CD8结合)的多个序列。
此处显示的所有作业都使用默认参数,但要使用的最大序列数除外。
2VAA链条A |
服务器 | 数量 序列 | 欺骗。分数 220-230 | 平均。欺骗。组。 220-230 | APD公司 | 作业链接 |
ConSurf-DB公司 | 144 | 8 5777648775 | 7.1 | 1.72 | 康瑟夫德布
|
ConSurf公司 | 全部=218 | 8 7656545553 | 5.9 | 1.17 | 1237248584
|
ConSurf公司 | 150 | 8 6635666365 | 6 | 0.52 | 1237414642
|
ConSurf公司 | 139 | 8 9846698577 | 7.7 | 0.36 | 1237421568
|
ConSurf公司 | 136* | 8 9846698587 | 7.8 | 0.33 | 1237421568
|
ConSurf公司 | 100 | 8 9968899899 | 9.2 | 0.20 | 1237327837
|
ConSurf公司 | 70 | 7 99?8898799 | 8.3 | 0.22 | 1237327964
|
Q226保护等级为黑体.
? = 数据不足。
APD=多序列比对中的平均成对差。
警告
当我指定136作为要使用的最大序列数时(基于作业中“PSI-BLAST输出”的检查1237421568),我预计最远的序列过去是列表中的第136位,即“sp | P15979 | HA1F_CHICK I类组织相容性抗原,F10 alp…”。然而,接下来的两个序列(Q9GL43、Q9GL42)包含在“使用的唯一序列”列表中,其中确实包含了136个序列。这我不明白。
2VAA:A的保护等级分布
以下是在多序列比对中使用不同序列总数的2VAA:A的保护等级分布(来自上表中链接的作业)。
此图表准备了谷歌电子表格.
我是并不感到惊讶查看:
- 随着序列数量的增加和APD的增加,保留水平为9的残基数量急剧下降[3].
- 具有中等保护水平(尤其是4-6级)的残留物数量出现了补偿性增长。
我是惊讶查看:
- 序列数和APD[3]对1-3级保护区(灰色区)的残留量影响很小,对7-8级保护区的残留量的影响很小。1级的稳定性尤其令人惊讶。
- ConSurf中218个序列与ConSurf-DB中144个序列的分布几乎没有差异,令人惊讶的是,考虑到APD[3]分别为1.17和1.72。
当然,其中一些观察结果可能并不适用于其他蛋白质链。分析更多的案例会很有用。
工具书类
- ↑1 1.1Gao GF、Tormo J、Gerth UC、Wyer JR、McMichael AJ、Stuart DI、Bell JI、Jones EY、Jakobsen BK。人CD8alpha(alpha)和HLA-A2复合物的晶体结构。自然。1997年6月5日;387(6633):630-4. PMID:9177355数字对象标识:http://dx.doi.org/10.1038/42523
- ↑Kern PS、Teng MK、Smolyar A、Liu JH、Liu J、Hussey RE、Spoerl R、Chang HC、Reinherz EL、Wang JH。通过与H-2Kb复合的鼠CD8α-胞外结构域片段的晶体学分析揭示了CD8共受体功能的结构基础。免疫。1998年10月;9(4):519-30. PMID:9806638
- ↑3 3.1 3.2APD:平均成对距离,衡量多序列比对中的序列多样性。