自由建模结果
100多个域在CASP 14中提供了预测目标。其中14个属于最困难的类别,自由建模(“FM”),意思是没有信息同源模拟法模板已存在。其中8个(57%)实现了AlphaFold2的预测GDT_TS得分87-93(中位数88.5)。对于这8个样本,次佳预测的GDT_TS为43-76(中位数66)。下面将分析两个案例。
第一,SARS-CoV-2 ORF8[2],一个92位FM域,其中AlphaFold2的GDT_TS为87,次佳为43(潘贤明集团)[3],FM目标中第一个和第二个预测之间的最大差异。这更不寻常,因为后来发表了两种独立确定的X射线晶体结构。本案的灵感来自于鲁比埃拉的讨论[4].
其次FM类中最长的结构域,404个残基该结构域是噬菌体2180残基RNA聚合酶的一部分,其中一些组成员在人类肠道中普遍存在[5]CASP 14 FM靶域中有八个是该蛋白的组成部分,6伏4对于404-residue域T1037,AlphaFold2的GDT_TS为88,第二好的预测为63(通过Seok-refine)[6]在14个FM目标中,第二长的有276个残基,中位数为132,最短的为92。
严重急性呼吸系统综合征冠状病毒2型ORF8
我们的第一个例子是SARS-CoV-2蛋白ORF8,一种有助于新冠肺炎毒力的蛋白质[2]CASP 14将ORF8分类为“自由建模”(FM)目标[7],这意味着没有足够的经验模板同源模拟法这一点很容易得到证实。当ORF8的氨基酸序列已提交给瑞士模式它报告了用于同源建模的最佳模板。当这两个经验模型不包括在CASP 14期间不可用的(7jtl型和7jx6个),提供的最佳模板,链B3afc公司在13.2%的序列同源性下,仅覆盖ORF8长度的36%,在序列比对中有4个残基的非模板缺口。此模板不足以构建有用的模型。
ORF8的X射线结构
通过与X射线晶体学的比较来判断ORF8结构预测的质量经验模型这对做出预测的小组来说是不可用的。CASP 14竞赛后不久(2020年夏季),ORF8的两个X射线晶体结构被报道:7jtl型2020年8月26日发布,以及7jx6个2020年9月23日发布。这个决议分别为2.0Å和1.6Å,两者都比平均值差免费值。
单击绿色链接改变分子场景。拖动以旋转。 缩放使用鼠标滚轮或Shift-Drag向上/向下移动分子。
|
从较高分辨率的X射线结构来看,7jx6个这些链条形成二硫键二聚体二聚体形成高阶多聚体[2](未显示)。请注意氨基和羧基的 链条的两端连在一起形成两条平行的β链。还要注意,有3个二硫键。准确的预测将包括这两个特征。
[8]唯一的实质性分歧是对于较大的表面环,序列范围为48-57。见下表一风险管理与可持续发展部值。
ORF8不是一个新颖的折叠
少于新的2%经验确定的结构褶皱新颖;也就是说,褶皱在PDB公司[9].当链A7jx6个已提交给Dali[10](2021年2月),最热门的是5a2页CD166人细胞表面受体参与T淋巴细胞的活化。Z评分为7.1,88个α碳与RMSD 3.2μ叠加。瑞士PdbViewer获得48个α-碳的RMSD 1.95Å[11]Dali在其基于结构的序列比对中报告了6%的同源性。MAFFT序列比对[12]使用更多更大的间隙获得了18%的序列一致性。[13]与AlphaFold2的预测值相差不大,但比第二好的预测值更接近(见下表一)。总之,ORF8没有新的折叠[14].
ORF8的AlphaFold2预测
CASP中预测的质量在很大程度上取决于全球距离测试总分(GDT_TS).AlphaFold2的预测结构[15]有一个GDT_TS得分为87(0分无意义,100分表示与X射线晶体结构完全一致。)87表示[8].AlphaFold2预测的结构为几乎与X射线晶体学模型相似 7jx6个独立确定的X射线结构7jtl型.AlphaFold2预测了92个氨基酸的位置。(CASP 14从目标残留物中排除了残留物48-59,一个12-残留物表面环[7]参见下表一风险管理与可持续发展部值。关于盐桥和阳离子-π相互作用,预测基本准确(见下表三和表四)。
表I.ORF8预测与链A叠加7jx6个
模型 | GDT_TS(通用数据传输系统) | 二硫化物 债券 | Cα风险管理与可持续发展部, Å | Cα叠加 | 风险管理与可持续发展部包括 侧链,奥 | 原子叠加 |
7jtl型:A | 96[16] | 三 | 4.02 0.66 | 102/102 (100%) 87/102 (85%) | 4.3 1.58 | 829/829 (100%) 709/829 (86%)
|
字母折叠2 | 87 | 三 | 2.58 1.25 | 92/92 (100%) 83/92* (90%) | 3.23 1.91 | 747/748 (100%) 679/748 (91%)
|
大理热门[17] 5a2页 | 60[16] | 纳 | 3.2 1.95 | 92/92 (100%) 48/92 (52%) | 纳 | 纳 |
第二名* | 43 | 0 | 5.33 1.71 | 92/92 (100%) 38/92 (41%) | 6.54 5.86 | 747/748(100%) 324/748 (43%))
|
第三名§ | 33 | 0 | 13.37 † | 92/92 (100%) † | 14.50 † | 747/748 (100%) † |
张-TBM 服务器 | 27 | 0 | 14.90 † | 92/92 (100%) † | 15.61 † | 747/748 (100%) † |
罗塞塔 服务器 | 26 | (2‡) | 14.99 † | 92/92(100%) † | 16.07 † | 747/748 (100%) † |
- “Magic Fit”叠加[18]Swiss-PdbViewer 4.1。
- “迭代魔术拟合”的叠加[8]Swiss-PdbViewer 4.1。
- 包含不到50%的每个结构的叠加。
- na:不适用。
- *第二名:北京清华大学潘贤明小组。
- §第三名:盖恩斯维尔佛罗里达大学阿尔贝托·佩雷斯小组。
- †迭代Magic Fit无法叠加。
- 二硫键均不正确。
ORF8的次优预测
在CASP 14中,70个研究小组和42个自动化服务器预测了ORF8的结构。所有112项预测的GDT_TS评分中位数为26。AlphaFold2做出了最佳预测(GDT_TS 87)。[8],使用GDT_TS 43(见上表一)。褶皱和拓扑预测正确,但细节远不够准确而不是AlphaFold2预测中的那些。第二好的预测是无二硫键关于盐桥和阳离子-π相互作用,这一预测在很大程度上是不正确的(见下表三和表四)。
ORF8的第三最佳预测
Perez实验室利用GDT_TS 33对ORF8进行了第三次最佳预测(见上表一)。它正确预测了由链的氨基和羧基末端形成的平行β链.[19]。此预测具有无二硫键. The盐桥Arg86:正确预测了Asp98,以及两个错误预测的盐桥。
自动服务器的顶级预测
在自动化服务器对所有~100个CASP 14目标的预测中,排名最高的服务器是来自Yang Zhang组(密歇根大学)的QUARK。对于ORF8,Zhang-TBM服务器使用GDT_TS,共27页(QUARK的预测几乎与GDT_TS 26一样好。)该预测具有双链末端不平行,氨基末端不是β链,在两个方面都与X射线模型不同。也,无二硫键预测。这个盐桥Arg86:正确预测了Asp98,以及几个错误预测的盐桥。结构叠加非常差,没有显示出来。
ORF8的Baker Rosetta服务器预测
在对所有~100个CASP 14目标的预测中,David Baker小组排名第二贝克集团的罗塞塔服务器总体排名第18位,但排名第4[20].对于ORF8,罗塞塔服务器预测GDT_TS为26,略好于23的中位数。罗塞塔服务器对ORF8的预测相隔很远的两个终点站(Cα13º或更远),与X射线结构有显著差异(Cα大多相距~5º)。它预测两个二硫键,但都不匹配实际二硫键中的Cys残基对。这个盐桥Arg86:Asp98被正确预测,还有一个被错误预测的盐桥。结构叠加很差,未显示。
ORF8侧链预测精度
从下面跳到#ORF8侧链精度
噬菌体RNA聚合酶T1037
我们的第二个例子是2180个残基RNA聚合酶中的404-残基结构域,6伏4,gp66来自类crAss噬菌体,其中一些成员普遍存在于人类肠道中[5]一种已知的目标噬菌体宿主是革兰氏阴性需氧菌波罗的海纤毛虫从海洋微藻中分离得到[5][21]这种RNA聚合酶被包装在病毒粒子中,并传递到宿主细胞中,在那里转录早期噬菌体基因[5]CASP 14对该域进行了分类,编码T1037型,作为自由建模(“FM”)目标[7],这意味着在PDB公司.
X射线晶体结构
在CASP竞赛期间,预测团队无法获得晶体结构6英尺4,使用分辨率3.5º,“比此分辨率的平均值好得多”的Rfree“可靠性”(根据Jmol第一眼). 链的末端彼此相距很远(~85º),并且没有二硫键。这个非对称单元包含2条链条。参考结构取自链条B因为它的平均值较低温度系数两条链条几乎相同(见下表二)。
CASP 14靶向404个残基的T1037序列起始于序列号337,结束于901,即565个残基。目标序列是404个残基,因为它不包括形成不同结构域的残基370-530(长度161)。。这是404-残留目标序列使用干预域(不包括在CASP目标中) .
(长度404残留物)由残留物337-369+531-901组成6英尺4(取自链条B)。这是一个 45%螺旋,19%β链和37%的循环和转弯。N端和C端相距10º,没有半胱氨酸(因此没有二硫键)。
T1037包含几个已知的褶皱碎片
T1037(来自6vr4的404个残基)的X射线结构被提交给大理[10]2021年3月。在Z≥2.0的~1000次点击中,长度≥400的有152次,长度≥300的有224次,长度足以与大部分T1037叠加。在所有点击中,对齐残基的最大数量为140/404(35%),RMSD为11.7º。第二大是127/404(31%),RMSD 7.7亿。因此,PDB中没有任何单一结构与T1037的35%以上重叠。
然而,一些达利撞击与非重叠的核心碎片重叠6伏4[22]:
- 第二季第七季链A,RNA依赖的RNA聚合酶
- 长度934,对齐残留物115,4.3亿令吉,Z=4.0,结构线形9%id。
- 4ncj个链A,DNA双链断裂修复RAD50 ATP酶
- 长度311,对齐残留物109,4.7亿令吉,Z=3.4,结构线形11%id。
- 5伏fk链A,未表征蛋白质
- 长度146,对齐残留物61,7.8亿令吉,Z=3.3,结构线形11%id。
利萨·霍尔姆[10][23]声明:“T1037在PDB中有一个同源模板。T1037的父结构噬菌体RNA聚合酶(6vr4,2166个氨基酸)与粗糙脉孢菌的RNAi聚合酶同源(2j7n链a,934个氨基酸)[5].Dali将其与564个残留物进行比对,RMSD为4.8 A。T1037子结构中有115个公共堆芯残留物。T1037/6vr4中相对于2j7n(链A)的几个长插入形成子域,子域从公共核向外指向。例如,在葡萄糖基转移酶1家族中,可以看到共同核心的类似大规模适应[24]”
这个FATCAT服务器据报道,为了将T1037的150个残基(404的37%)与PDB中最接近的结构重叠,需要在铰链处扭转3次,然后获得3.1º的RMSD。对于200倍的叠加(404的50%),3次扭转后的最佳结果的RMSD为5.4º。
T1037的AlphaFold2预测
[8]404个α碳中的.91%可以与RMSD 1.0º对齐。(GDT_TS 88;详见下表二)。
表二:。T1037预测与子域叠加6伏4链条B。
模型 | GDT_TS(通用数据传输系统) | Cα风险管理与可持续发展部, Å | Cα叠加 | 风险管理与可持续发展部包括 侧链,奥 | 原子叠加 |
第T1037页,共页 6伏4:A | 99.9[16] | 0.25 0.25 | 404/404 (100%) 404/404 (100%) | 0.58 0.24 | 3157/3157 (100%) 1616/3157 (51%)
|
阿尔法折叠2 | 88 | 1.68 0.98 | 404/404 (100%) 368/404 (91%) | 2.28 1.01 | 3157/3157 (100%) 1472/3157 (47%)
|
第二名* | 63 | 12.8 1.90 | 404/404 (100%) 52/404 (13%) | 13.4 2.18 | 3157/3157 (100%) 252/3157 (8%)
|
赛德尔§ | 53 | 12.3 1.90 | 404/404 (100%) 88/404 (22%) | 12.7 1.64† | 3157/3157 (100%) 804†/3157 (25%)
|
- “Magic Fit”叠加[18]Swiss-PdbViewer 4.1。
- “迭代魔术拟合”叠加[8]Swiss-PdbViewer 4.1。
- 包含不到50%的每个结构的叠加。
- 每个结构的叠加量≤25%。
- *Seok-refine排名第二:首尔国立大学Chaok-Seok小组。
- §Seder2020预测(GDT_TS 53的预测之一,任意比GDT_TS 63的第二好预测少10):俄亥俄州哥伦布市Andrzej Kloczkowski小组。未显示叠加.
- †三条最长α螺旋的紧密叠加。
T1037的第二好预测
尽管GDT_TS达到了令人印象深刻的63,[8]而不是AlphaFold2的预测。(第二个最佳预测是首尔国立大学Chaok Seok小组的Seok-refine做出的。)
计算GDT_TS
请参阅#GDT_TS计算.