来自CASP 14的AlphaFold2示例

来自Proteopedia

根据氨基酸序列预测蛋白质结构，理论建模，一直极具挑战性。2020年，AlphaFold2取得了突破性的成功^[1]，一个项目DeepMind公司.关于这一突破的概述由双年度预测竞赛记录CASP公司，请看2020年：CASP 14以下是该比赛的两个预测示例。

用鼠标拖动结构进行旋转

自由建模结果

100多个域在CASP 14中提供了预测目标。其中14个属于最困难的类别，自由建模（“FM”），意思是没有信息同源模拟法模板已存在。其中8个（57%）实现了AlphaFold2的预测GDT_TS得分87-93（中位数88.5）。对于这8个样本，次佳预测的GDT_TS为43-76（中位数66）。下面将分析两个案例。

第一，SARS-CoV-2 ORF8^[2]，一个92位FM域，其中AlphaFold2的GDT_TS为87，次佳为43（潘贤明集团）^[3]，FM目标中第一个和第二个预测之间的最大差异。这更不寻常，因为后来发表了两种独立确定的X射线晶体结构。本案的灵感来自于鲁比埃拉的讨论^[4].

其次FM类中最长的结构域，404个残基该结构域是噬菌体2180残基RNA聚合酶的一部分，其中一些组成员在人类肠道中普遍存在^[5]CASP 14 FM靶域中有八个是该蛋白的组成部分，6伏4对于404-residue域T1037，AlphaFold2的GDT_TS为88，第二好的预测为63（通过Seok-refine）^[6]在14个FM目标中，第二长的有276个残基，中位数为132，最短的为92。

严重急性呼吸系统综合征冠状病毒2型ORF8

我们的第一个例子是SARS-CoV-2蛋白ORF8，一种有助于新冠肺炎毒力的蛋白质^[2]CASP 14将ORF8分类为“自由建模”（FM）目标^[7]，这意味着没有足够的经验模板同源模拟法这一点很容易得到证实。当ORF8的氨基酸序列已提交给瑞士模式它报告了用于同源建模的最佳模板。当这两个经验模型不包括在CASP 14期间不可用的(7jtl型和7jx6个)，提供的最佳模板，链B3afc公司在13.2%的序列同源性下，仅覆盖ORF8长度的36%，在序列比对中有4个残基的非模板缺口。此模板不足以构建有用的模型。

ORF8的X射线结构

通过与X射线晶体学的比较来判断ORF8结构预测的质量经验模型这对做出预测的小组来说是不可用的。CASP 14竞赛后不久（2020年夏季），ORF8的两个X射线晶体结构被报道：7jtl型2020年8月26日发布，以及7jx6个2020年9月23日发布。这个决议分别为2.0Å和1.6Å，两者都比平均值差免费值。

单击绿色链接改变分子场景。拖动以旋转。缩放使用鼠标滚轮或Shift-Drag向上/向下移动分子。

从较高分辨率的X射线结构来看，7jx6个这些链条形成二硫键二聚体二聚体形成高阶多聚体^[2]（未显示）。请注意氨基和羧基的 链条的两端连在一起形成两条平行的β链。还要注意，有3个二硫键。准确的预测将包括这两个特征。

^[8]唯一的实质性分歧是对于较大的表面环，序列范围为48-57。见下表一风险管理与可持续发展部值。

ORF8不是一个新颖的折叠

少于新的2%经验确定的结构褶皱新颖；也就是说，褶皱在PDB公司^[9].当链A7jx6个已提交给Dali^[10]（2021年2月），最热门的是5a2页CD166人细胞表面受体参与T淋巴细胞的活化。Z评分为7.1，88个α碳与RMSD 3.2μ叠加。瑞士PdbViewer获得48个α-碳的RMSD 1.95Å^[11]Dali在其基于结构的序列比对中报告了6%的同源性。MAFFT序列比对^[12]使用更多更大的间隙获得了18%的序列一致性。^[13]与AlphaFold2的预测值相差不大，但比第二好的预测值更接近（见下表一）。总之，ORF8没有新的折叠^[14].

ORF8的AlphaFold2预测

CASP中预测的质量在很大程度上取决于全球距离测试总分（GDT_TS）.AlphaFold2的预测结构^[15]有一个GDT_TS得分为87（0分无意义，100分表示与X射线晶体结构完全一致。）87表示^[8].AlphaFold2预测的结构为几乎与X射线晶体学模型相似 7jx6个独立确定的X射线结构7jtl型.AlphaFold2预测了92个氨基酸的位置。（CASP 14从目标残留物中排除了残留物48-59，一个12-残留物表面环^[7]参见下表一风险管理与可持续发展部值。关于盐桥和阳离子-π相互作用，预测基本准确（见下表三和表四）。

表I.ORF8预测与链A叠加7jx6个
模型	GDT_TS（通用数据传输系统）	二硫化物债券	Cα风险管理与可持续发展部, Å	Cα叠加	风险管理与可持续发展部包括侧链，奥	原子叠加
7jtl型：A	96^[16]	三	4.02 0.66	102/102 (100%) 87/102 (85%)	4.3 1.58	829/829 (100%) 709/829 (86%)
字母折叠2	87	三	2.58 1.25	92/92 (100%) *83/92 (90%)**	3.23 1.91	747/748 (100%) 679/748 (91%)
大理热门^[17] 5a2页	60^[16]	纳	3.2 1.95	92/92 (100%) 48/92 (52%)	纳	纳
第二名*	43	0	5.33 1.71	92/92 (100%) 38/92 (41%)	6.54 5.86	747/748（100%） 324/748 (43%))
第三名§	33	0	13.37 †	92/92 (100%) †	14.50 †	747/748 (100%) †
张-TBM 服务器	27	0	14.90 †	92/92 (100%) †	15.61 †	747/748 (100%) †
罗塞塔服务器	26	(2‡)	14.99 †	92/92（100%） †	16.07 †	747/748 (100%) †

“Magic Fit”叠加^[18]Swiss-PdbViewer 4.1。

“迭代魔术拟合”的叠加^[8]Swiss-PdbViewer 4.1。

包含不到50%的每个结构的叠加。

na：不适用。

*第二名：北京清华大学潘贤明小组。

§第三名：盖恩斯维尔佛罗里达大学阿尔贝托·佩雷斯小组。

†迭代Magic Fit无法叠加。

二硫键均不正确。

ORF8的次优预测

在CASP 14中，70个研究小组和42个自动化服务器预测了ORF8的结构。所有112项预测的GDT_TS评分中位数为26。AlphaFold2做出了最佳预测（GDT_TS 87）。^[8]，使用GDT_TS 43（见上表一）。褶皱和拓扑预测正确，但细节远不够准确而不是AlphaFold2预测中的那些。第二好的预测是无二硫键关于盐桥和阳离子-π相互作用，这一预测在很大程度上是不正确的（见下表三和表四）。

ORF8的第三最佳预测

Perez实验室利用GDT_TS 33对ORF8进行了第三次最佳预测（见上表一）。它正确预测了由链的氨基和羧基末端形成的平行β链.^[19]。此预测具有无二硫键. The盐桥Arg86：正确预测了Asp98，以及两个错误预测的盐桥。

自动服务器的顶级预测

在自动化服务器对所有~100个CASP 14目标的预测中，排名最高的服务器是来自Yang Zhang组（密歇根大学）的QUARK。对于ORF8，Zhang-TBM服务器使用GDT_TS，共27页（QUARK的预测几乎与GDT_TS 26一样好。）该预测具有双链末端不平行，氨基末端不是β链，在两个方面都与X射线模型不同。也，无二硫键预测。这个盐桥Arg86：正确预测了Asp98，以及几个错误预测的盐桥。结构叠加非常差，没有显示出来。

ORF8的Baker Rosetta服务器预测

在对所有~100个CASP 14目标的预测中，David Baker小组排名第二贝克集团的罗塞塔服务器总体排名第18位，但排名第4^[20].对于ORF8，罗塞塔服务器预测GDT_TS为26，略好于23的中位数。罗塞塔服务器对ORF8的预测相隔很远的两个终点站（Cα13º或更远），与X射线结构有显著差异（Cα大多相距~5º）。它预测两个二硫键，但都不匹配实际二硫键中的Cys残基对。这个盐桥Arg86:Asp98被正确预测，还有一个被错误预测的盐桥。结构叠加很差，未显示。

ORF8侧链预测精度

从下面跳到#ORF8侧链精度

噬菌体RNA聚合酶T1037

我们的第二个例子是2180个残基RNA聚合酶中的404-残基结构域，6伏4，gp66来自类crAss噬菌体，其中一些成员普遍存在于人类肠道中^[5]一种已知的目标噬菌体宿主是革兰氏阴性需氧菌波罗的海纤毛虫从海洋微藻中分离得到^[5]^[21]这种RNA聚合酶被包装在病毒粒子中，并传递到宿主细胞中，在那里转录早期噬菌体基因^[5]CASP 14对该域进行了分类，编码T1037型，作为自由建模（“FM”）目标^[7]，这意味着在PDB公司.

X射线晶体结构

在CASP竞赛期间，预测团队无法获得晶体结构6英尺4，使用分辨率3.5º，“比此分辨率的平均值好得多”的Rfree“可靠性”（根据Jmol第一眼). 链的末端彼此相距很远（~85º），并且没有二硫键。这个非对称单元包含2条链条。参考结构取自链条B因为它的平均值较低温度系数两条链条几乎相同（见下表二）。

CASP 14靶向404个残基的T1037序列起始于序列号337，结束于901，即565个残基。目标序列是404个残基，因为它不包括形成不同结构域的残基370-530（长度161）。。这是404-残留目标序列使用干预域（不包括在CASP目标中） .

（长度404残留物）由残留物337-369+531-901组成6英尺4（取自链条B）。这是一个 45%螺旋,19%β链和37%的循环和转弯。N端和C端相距10º，没有半胱氨酸（因此没有二硫键）。

T1037包含几个已知的褶皱碎片

T1037（来自6vr4的404个残基）的X射线结构被提交给大理^[10]2021年3月。在Z≥2.0的~1000次点击中，长度≥400的有152次，长度≥300的有224次，长度足以与大部分T1037叠加。在所有点击中，对齐残基的最大数量为140/404（35%），RMSD为11.7º。第二大是127/404（31%），RMSD 7.7亿。因此，PDB中没有任何单一结构与T1037的35%以上重叠。

然而，一些达利撞击与非重叠的核心碎片重叠6伏4^[22]:

第二季第七季链A，RNA依赖的RNA聚合酶
- 长度934，对齐残留物115，4.3亿令吉，Z=4.0，结构线形9%id。
4ncj个链A，DNA双链断裂修复RAD50 ATP酶
- 长度311，对齐残留物109，4.7亿令吉，Z=3.4，结构线形11%id。
5伏fk链A，未表征蛋白质
- 长度146，对齐残留物61，7.8亿令吉，Z=3.3，结构线形11%id。

利萨·霍尔姆^[10]^[23]声明：“T1037在PDB中有一个同源模板。T1037的父结构噬菌体RNA聚合酶（6vr4，2166个氨基酸）与粗糙脉孢菌的RNAi聚合酶同源（2j7n链a，934个氨基酸）^[5].Dali将其与564个残留物进行比对，RMSD为4.8 A。T1037子结构中有115个公共堆芯残留物。T1037/6vr4中相对于2j7n（链A）的几个长插入形成子域，子域从公共核向外指向。例如，在葡萄糖基转移酶1家族中，可以看到共同核心的类似大规模适应^[24]”

这个FATCAT服务器据报道，为了将T1037的150个残基（404的37%）与PDB中最接近的结构重叠，需要在铰链处扭转3次，然后获得3.1º的RMSD。对于200倍的叠加（404的50%），3次扭转后的最佳结果的RMSD为5.4º。

T1037的AlphaFold2预测

^[8]404个α碳中的.91%可以与RMSD 1.0º对齐。（GDT_TS 88；详见下表二）。

表二：。T1037预测与子域叠加6伏4链条B。
模型	GDT_TS（通用数据传输系统）	Cα风险管理与可持续发展部, Å	Cα叠加	风险管理与可持续发展部包括侧链，奥	原子叠加
第T1037页，共页 6伏4：A	99.9^[16]	0.25 0.25	404/404 (100%) 404/404 (100%)	0.58 0.24	3157/3157 (100%) 1616/3157 (51%)
阿尔法折叠2	88	1.68 0.98	404/404 (100%) 368/404 (91%)	2.28 1.01	3157/3157 (100%) 1472/3157 (47%)
第二名*	63	12.8 1.90	404/404 (100%) 52/404 (13%)	13.4 2.18	3157/3157 (100%) 252/3157 (8%)
赛德尔§	53	12.3 1.90	404/404 (100%) 88/404 (22%)	12.7 1.64†	3157/3157 (100%) 804†/3157 (25%)

“Magic Fit”叠加^[18]Swiss-PdbViewer 4.1。

“迭代魔术拟合”叠加^[8]Swiss-PdbViewer 4.1。

包含不到50%的每个结构的叠加。

每个结构的叠加量≤25%。

*Seok-refine排名第二：首尔国立大学Chaok-Seok小组。

§Seder2020预测（GDT_TS 53的预测之一，任意比GDT_TS 63的第二好预测少10）：俄亥俄州哥伦布市Andrzej Kloczkowski小组。未显示叠加.

†三条最长α螺旋的紧密叠加。

T1037的第二好预测

尽管GDT_TS达到了令人印象深刻的63，^[8]而不是AlphaFold2的预测。（第二个最佳预测是首尔国立大学Chaok Seok小组的Seok-refine做出的。）

计算GDT_TS

请参阅#GDT_TS计算.

AlphaFold2的预测是适用于4/5交互，与一个不正确互动。
- AlphaFold2的预测是两个中的一个正确盐桥，并预测没有不正确的盐桥。
- AlphaFold2的预测是三选三正确阳离子-π相互作用，但已预测一个不正确互动。
第二好的预测是校正为1/5交互，与2不正确互动。
- 第二好的预测是两个中的一个正确盐桥，但预测两个不正确盐桥。
- 第二好预测未能预测任何在三个阳离子-π相互作用中，预测零相互作用。

表三盐桥预测精度
7JX6型	第7节	阿尔法折叠2	第二名
R101:D112（AB）	R101:D113（AB）	R86:D98	R86:D98
R115:D119（AB）	R115:D119（AB）	–	100兰特：E4类
K44:E59（AB)	K44:E59（AB）	K29:E44	–
–	–	–	K78:E77型

同一排的桥是相同的（除了红色残留物）。将X射线结构中的序列号减去15，得到预测中的等效序列号。
黑色：最短侧链氮到侧链氧距离≤4.0º。
灰色：最短侧链氮与侧链氧的距离为4.4至4.8Å。
–：最短的侧链氮到侧链氧的距离为6到16º。
（AB）：每个X射线模型中的两条链。
斜体：错误预测。

表四阳离子Pi预测精度
7英寸6英寸	第7节	阿尔法折叠2	第二名
R101:Y46+Y108（AB）	R101:Y46+Y108（AB）	R86:Y31+Y96	–
K44:F108（乙）	K44:F108（AB）	K29:93层	–
–	–	K79:F105	–

所有列出的交互作用都被认为具有能量重要性CaPTURE服务器.
同一行中的交互是相同的。将X射线结构中的序列号减去15，得到预测中的等效序列号。
斜体：错误预测。
第二好的预测没有阳离子-π相互作用。
（AB）：每个X射线模型中的两条链。

表面电荷分布的可视化

表面电荷的分布与AlphaFold2的预测和两种晶体结构吻合良好。第二个最佳预测中的分布与其他三个模型存在一些差异。

GDT_TS计算

预测的GDT_TS值取自CASP 14结果。CASP 14 GDT_TS值的参考结构是7JTL的92个α碳^[7]，因为CASP 14靶只有92个残基^[7].

使用AS2TS服务器亚当·泽姆拉^[25]。请参阅说明计算GDT_TS校正了92个残基（而不是104个）的GDT_TS值，因为CASP 14靶只有92个残基团^[7].

为了进行比较，CASP 14报告了AlphaFold2预测的GDT_TS 86.96，而AS2TS服务器计算了GDT_TS 85.87对7jx6链A，88.32对7JTL链A（这些结果分别针对90/92和91/92残基进行了校正），CASP-14的GDT_TS计算结果与第计算GDT_TS.

另请参见

AlphaFold/索引，Proteopedia中关于Alphafold的页面列表。

参考资料和注释

↑高级AW、Evans R、Jumper J、Kirkpatrick J、Sifre L、Green T、Qin C、Zidek A、Nelson AWR、Bridgeland A、Penedones H、Petersen S、Simonyan K、Crossan S、Kohli P、Jones DT、Silver D、Kavukcuoglu K、Hassabis D。利用深度学习潜能改进蛋白质结构预测。自然。2020年1月；577(7792):706-710. doi:10.1038/s41586-019-1923-7。Epub 2020年1月15日。PMID：31942072数字对象标识：http://dx.doi.org/10.1038/s41586-019-1923-7
↑² ^2.1 ^2.2Flower TG、Buffalo CZ、Hooy RM、Allaire M、Ren X、Hurley JH。SARS-CoV-2 ORF8的结构，一种快速进化的免疫逃避蛋白。美国国家科学院院刊2021年1月12日；118（2）中。pii:2021785118。doi：，10.1073/pnas.2021785118。PMID：33361333数字对象标识：http://dx.doi.org/10.1073/pnas.2021785118
↑对于SARS-CoV-2 ORF8，请访问CASP 14表格浏览器，检查T1064-D1并按下显示结果.
↑ CASP14：谷歌DeepMind的AlphaFold 2真正实现了什么，它对蛋白质折叠、生物学和生物信息学意味着什么Carlos Outeir al-Rubiera于2020年12月3日发表的博客文章。
↑⁵ ^5.1 ^5.2 ^5.3 ^5.4Drobysheva AV、Panafidina SA、Kolesnik MV、Klimuk EI、Minakhin L、Yakunina MV、Borukhov S、Nilsson E、Holmfeldt K、Yutin N、Makarova KS、Koonin EV、Severinov KV、Leiman PG、Sokolova ML。类crAss噬菌体病毒RNA聚合酶的结构和功能。自然。2020年11月18日。pii:10.1038/s41586-020-2921-5。doi：，10.1038/s41586-020-2921-5。PMID：33208949数字对象标识：http://dx.doi.org/10.1038/s41586-020-2921-5
↑对于噬菌体RNA聚合酶靶点CASP 14表格浏览器，检查T1037-D1并按下显示结果.
↑⁷ ^7.1 ^7.2 ^7.3 ^7.4 ^7.5 CASP 14领域的总结、定义和分类.
↑⁸ ^8.1 ^8.2 ^8.3 ^8.4 ^8.5 ^8.6Swiss-PdbViewer的叠加迭代魔术拟合这从序列比对引导的结构叠加开始，然后叠加结构子集以最小化RMSD。八个中间结构由Theis Morph服务器通过线性插值。
↑Cuff AL、Sillitoe I、Lewis T、Clegg AB、Rentzsch R、Furnham N、Pellegrini-Calace M、Jones D、Thornton J、Orengo CA。扩展CATH：增加蛋白质结构宇宙的覆盖范围并将结构与功能联系起来。核酸研究，2011年1月；39（数据库问题）:D420-6。doi:10.1093/nar/gkq1001，Epub 2010年11月19日。PMID：21097779数字对象标识：http://dx.doi.org/10.1093/nar/gkq1001
↑¹⁰ ^10.1 ^10.2Holm L.DALI和蛋白质形状的持久性。蛋白质科学。2020年1月；29(1):128-140. doi:10.1002/pro.3749。Epub 2019年11月5日。PMID：31606894数字对象标识：http://dx.doi.org/10.1002/pro.3749
↑使用Swiss-PdbViewer根据所选内容调整从每个结构中选择102个残基，然后提高贴合度.
↑Katoh K，Standley DM。MAFFT多序列比对软件版本7：性能和可用性的改进。分子生物学进化。2013年4月；30(4):772-80. doi:10.1093/molbev/mst010。Epub 2013年1月16日。PMID：23329690数字对象标识：http://dx.doi.org/10.1093/molbev/mst010
↑Dali的结构叠加。插值由耶鲁Morph2服务器.均质化方法：同源建模。无最小化。这产生了一个9模型文件，其中模型1是7jx6，模型2-9是插值。添加5a2f残基28-133作为模型10（分子场景中为黑色）。
↑利莎·霍尔姆（Liisa Holm）善意地证实了达利的结果意味着ORF8没有一个新的折叠，并与埃里克·马茨2021年2月。
↑从下载AlphaFold2预测的ORF8结构T1064TS427_1-D1.pdb.
↑¹⁶ ^16.1 ^16.2请参阅#GDT_TS计算.
↑请参阅#ORF8不是一个新颖的折叠.
↑¹⁸ ^18.1Swiss-PdbViewer的叠加魔术般的配合这是一种序列比对引导的结构叠加。八个中间结构由Theis Morph服务器通过线性插值。
↑Swiss-PdbViewer的叠加探索Fragment备选配件，它不使用序列信息。八个中间结构由Theis Morph服务器通过线性插值。
↑对于CASP 14中的所有目标，排名前两位的服务器是QUARK和Zhang服务器（Z分数之和为62.9时没有显著差异），其次是Zhang CEthreder（55.9）和BAKER-ROSETTASERVER（55.3）。
↑Johansen JE，Nielsen P，Sjoholm C.《巴尔的摩嗜纤维菌gen.nov.，sp.nov.and Cellulophaga fucicola gen.nov，sp.nov.的描述》，以及《溶菌酶[Cytophaga]重新分类为溶菌酶Cellulochaga lytica gen.nov.，comb》。11月国际系统细菌杂志。1999年7月；第49部分3:1231-40。doi:10.1099/00207713-49-3-1231。PMID：10425785数字对象标识：http://dx.doi.org/10.1099/00207713-49-3-1231
↑Liisa Holm于2021年3月善意地指出了这些不重叠的核心碎片。
↑经Liisa Holm许可引用，2021年3月。
↑Holm L，Sander C.糖原磷酸化酶和DNA修饰酶之间的进化联系。EMBO J.1995年4月3日；14(7):1287-93. PMID：7729407
↑Zemla A.LGA：一种在蛋白质结构中发现3D相似性的方法。核酸研究，2003年7月1日；31(13):3370-4. doi:10.1093/nar/gkg571。PMID：12824330数字对象标识：http://dx.doi.org/10.1093/nar/gkg571

Proteopedia页面贡献者和编辑(这是什么？)

埃里克·马茨

检索自“http://proteoppedia.org/wiki/index.php/AlphaFold2_examples_from_CASP_14"