晶体生物学学报D结构生物学。2022年1月1日;78(第1部分):1-13。
的含义AlphaFold公司2用于通过分子替换进行晶体定相
,a、,* ,一和一
艾莉·麦考伊
一英国剑桥大学希尔斯路剑桥医学研究所血液学系,剑桥CB2 0XY
马西莫·桑米托
一英国剑桥大学希尔斯路剑桥医学研究所血液学系,剑桥CB2 0XY
兰迪·里德
一英国剑桥大学希尔斯路剑桥医学研究所血液学系,剑桥CB2 0XY
一英国剑桥大学希尔斯路剑桥医学研究所血液学系,剑桥CB2 0XY
2021年5月18日收到;2021年11月13日验收。
版权©McCoy、Sammito和Read版权所有2022 这是一篇开放访问的文章,分布在知识共享署名(CC-BY)许可证的条款,允许无限制使用、分发和以任何媒介复制,由原作者和引用了资料来源。
The implications of theAlphaFold公司2蛋白质结构建模软件用于晶体定相策略。
关键词:蛋白质结构预测,晶体学相问题,分子替换,AlphaFold公司2
摘要
这个AlphaFold公司第14版《结构预测临界评估》(CASP14)中的2个结果表明电子版无论蛋白质是否通过高覆盖率序列相似性与已知结构相关,蛋白质结构域的模型都在地平线上。随着通过利用相关突变和深度学习的力量产生的高精度模型变得可用,结构生物学将受到影响的一个方面将是结晶学中的阶段化方法。在这里,CASP14的数据用于探索阶段化方法的变化前景,特别是用于探索使用生物信息学模型。
关键词:蛋白质结构预测,结晶相问题,分子替换,AlphaFold公司2
1.简介
对于给定的衍射分辨率极限,通过分子替换对晶体结构进行定相的模型的质量取决于模型与目标结构的平方根偏差(r.m.s.d.)以及总散射的分数((f)米
)它所代表的。一般来说,随着实验数据分辨率的降低(f)米
必须增加(图1). 基于r.m.s.d.的具体预测。,(f)米
和数据分辨率指导个别病例中的分子重定位阶段策略(Oeffner等。, 2018▸).
PDB中结构分布的直方图(按分辨率)。指出了数据分辨率与适合分子替换的模型大小之间的关系。
当数据分辨率扩展到优于~1º时,模型可以像单个原子一样小。单个原子可以被认为是完美的生物信息学子结构模型,目标结构的r.m.s.d.为零,尽管从该模型计算的总体结构系数由于极低而误差较大(f)米
在单原子分子替换之后,对数似然梯度补全可以快速定位剩余的有序原子,对于这些解决方案,相位问题被认为是可以解决的(McCoy等。, 2017▸).
当数据扩展到优于~2.2º的分辨率时,螺旋或β-片的小型二级结构元素是可行的模型,在某些情况下,该技术扩展到2.5º的精度。模型的原子坐标可以从已知结构中提取或生成生物信息学(Glykos&Kokkindis,2001年▸). 成功并不一定需要序列一致性超过30%的同源模型,尽管这是分子替换成功的常用指标(Scapin,2013▸). 密度修改和模型构建在更高分辨率下更为强大,是使用此方法完成结构的关键。准确的片段经常用于软件中的分子替换,例如阿西姆博尔多(桑米托等。, 2014▸, 2015▸; 罗德里格斯等。, 2009▸)和充足的(比比等。, 2012▸; 里格登等。, 2018▸; 辛普金等。, 2019▸). 对于这些解决方案,相位问题在很大程度上也被认为是可以解决的。PDB的中值分辨率为2.2º,这使得这种方法适用于当今许多晶体结构。补充图S1说明了期望在这些分辨率下通过分子替换容易放置高精度片段的理论原因。
当实验数据延伸到低于~2.2μl分辨率时,分子替换所需的模型必须至少在某种程度上代表目标蛋白(疏水核或更多)的折叠。A高(f)米
随着分辨率的降低,低r.m.s.d.变得越来越重要,在典型的晶体中,通过~3.0°分辨率,成功的分子替换和模型完成需要小于1°r.m.s.d的全结构模型。这是同系物、基于模板的建模和生物信息学模型变得特别有价值。
对于那些与同源结构遥远相关的目标,早期基于模板的建模尝试(如结构预测临界评估(CASP)所列)通常会增加(而不是减少,正如目标一样)目标的r.m.s.d。CASP7是第一个显示基于模板的建模改进了分子替换模型的CASP。从这个CASP中还出现了第一个案例生物信息学一种具有不对称球状折叠的天然蛋白质的结构预测被成功地用于分子替换,尽管是回顾性的(钱等。, 2007▸). 从那时起生物信息学该模型已用于肽聚糖聚合酶RodA(Sjodt等。, 2018▸).
自CASP7以来,CASP包括了一个根据单个模型预测在分子替换中的有用性对其进行评分的指标,每个挑战回合都取得了稳步进展。从CASP13可以看出,不仅准确的坐标,而且准确估计坐标中的误差,对于成功的分子替换至关重要(Croll等。, 2019▸).
有几个管道用于分子替换生物信息学模型。第一个是CaspR公司,它利用了建模师(克劳德等。, 2004▸). 的第一次迭代充足的流水线开发了一种使用聚类和截断的方法来快速计算从头算模型由生成罗塞塔或夸克(比比等。, 2012▸). 在进一步的发展中,充足的已扩展到使用GREMLIN和PconsFam数据库(Simpkin)的结构预测等。, 2019▸). 模型来自I-TASSER公司由全长迭代结构碎片重组产生的I-TASSER-MR公司服务器,它使用渐进序列截断来编辑分子替换模型(Wang等。, 2017▸).AWSEM-套装将同源模型模板和协同进化信息与AWSEM公司(金等。, 2020▸). 在我们自己的合作中菲尼克斯·mr·罗塞塔管道(Terwilliger等。, 2012▸)可以使用罗塞塔在尝试分子替换之前重建模板结构。我们还使用罗塞塔,扩展到包括一个适合电子密度的术语(DiMaio,2013▸),对假定的分子置换溶液进行排序,并在分子置换后重建非常差的模型。
2、CASP14
CASP14在蛋白质结构预测方面实现了飞跃。对模型和建模组进行排名的主要CASP指标是GDT_TS(全球距离测试总分),这是一种为结构对齐计划设计和开发的结构相似性度量LGA公司(本地–全球协调)作为r.m.s.d.的替代品(Zemla,2003▸). GDT测量C的百分比α模型和目标之间在一定距离内发现的原子相互截断(取决于或独立于序列比对):必须为每个报告的GDT值定义截断距离。GDT_TS是四个截止距离(1、2、4和8 Au)的平均值。与r.m.s.d.相比,使用更好的模型可以获得更高的GDT值,而r.m.s.d的值越低越好。在需要对较小差异敏感的分数的情况下,使用GTD_HA;这是GDT_TS的变体,其中截止距离为0.5、1、2和4º。
利用相关突变、接触预测和深度学习的力量,来自商业组织DeepMind(Service,2018)的AlphaFold2组(CASP14编号中的427组)▸; Callaway,2020年▸)在上排名第一Z轴-GDT_TS得分,达到第二组和后续排名组的两倍以上,最多三倍,具体取决于考虑的目标分类。这是在其他组取得重大进步的背景下实现的,包括贝克组(Baker组473排名第二,Baker-实验组403排名第三;平沼组等。, 2021▸)他在学术环境中使用了类似的方法。
在评估期间提供的模型的帮助下,首次将提交给CASP作为目标的结构分阶段进行(Kryshtafovych等。, 2021▸). 对于目标T1058,通过MR-SAD使用AlphaFold公司2模型、其结构域和服务器模型。对于T1089AlphaFold公司2个模型给出的分子重定位信号远高于修剪集成模型。对于T1100,提交给CASP的几个模型包括AlphaFold公司2个模型,给出了单个域核磁共振结构失效的分子置换解决方案。这个AlphaFold公司T1064的2模型也被用于通过分子替换回顾性地求解SARS-CoV-2 ORF8结构(Flower&Hurley,2021)▸).
3. AlphaFold公司和罗斯塔福尔德
在审查和修订本文件的过程中,出现了两项重大发展,使提交给CASP14的文件的质量模型随时可供所有人使用。首先AlphaFold公司已发布2种算法(Jumper等。, 2021▸),以及源代码的发布,使得能够预测任何感兴趣的蛋白质结构。此外,在欧洲生物信息学研究所托管的数据库中,已经为来自大量蛋白质组的所有蛋白质提供了预测结构;还承诺进一步发布(Tunyasuvunakool等。, 2021▸). 其次,罗斯塔福尔德由贝克集团(Baek)开发和出版等。, 2021▸); 它已作为罗贝塔服务器,源代码也已发布。罗斯塔福尔德是一种深度学习算法,其特点受所揭示内容的启发AlphaFold公司CASP14第2页。
4.分子置换评估
分子替换的适用性是CASP高精度评估的指标之一,包括CASP14(Pereira等。, 2021▸; 密兰等。, 2021▸). 评估使用对数似然增益(LLG),计算方法如下:相位器(麦考伊等。, 2007▸; Read&McCoy,2016年▸). 可能性是在给定模型的情况下测量数据的概率,而对数似然增益是模型的对数似然与根据相同原子的随机分布计算得出的值之间的差值(Wilson,1949▸).
使用LLG对模型进行评分的一个重要组成部分是在坐标中纳入估计误差。作为建模的一部分,鼓励小组估算每个原子位置的误差(Δ),并在B类-存放的PDB文件的因子列。此误差估计值可以转换为B类通过关系确定每个原子位置的因子B类= 8π2Δ2/3,因此用于在LLG计算中适当地加权每个原子。误差的准确估计改善了LLG(Bunkóczi等。, 2015▸; 克罗尔等。, 2019▸)在实践中,通过增加分子重定位搜索中的信号,将为模型增加价值。
如果在分子置换搜索过程中,模型的姿势在特定的空间组相关值上具有LLG(非极性空间组中为60,极性空间群中为50P(P)1) ,姿势可能是正确的。然而,实现这一LLG并不足以确定整个结构是否可以追溯并细化到适合解释、出版和沉积的程度;这还取决于模型的准确性和完整性以及数据的分辨率。测试模型到阶段的能力包括验证名义上成功的模型替换下游的这些步骤。
4.1. 模型参数
在结构求解之前,可以使用“预期LLG”(eLLG;McCoy等。, 2017▸). 我们之前已经展示了每个反射的eLLG香港特别行政区可以根据σ计算A类参数(Read,1986▸):
总eLLG是该值在所有反射上的总和香港特别行政区.分辨率相关σA类该项近似于四参数曲线,其中包括r.m.s.d.、(f)米
以及影响σ的两个溶剂参数A类分辨率低于约8º时的值(Murshudov等。, 1997▸). 对于分辨率高于8º的反射,该曲线主要取决于(f)米
以及对r.m.s.d的指数依赖性。2.对于每个反射香港特别行政区(决议d日香港特别行政区
),
由于当数据中没有病理学时,eLLG是对LLG的良好估计(Oeffner等。, 2018▸),上述方程也显示了r.m.s.d.之间的关系。,(f)米
和LLG。LLG对r.m.s.d.和(f)米
如图2所示.
r.m.s.d.之间关系的图解。,(f)米
和每反射的LLG(方程式2). (一)LLG用于(f)米
=0.8,线性刻度。(b条)LLG用于(f)米
=0.8,对数刻度。(c(c))等高线图显示了有效值与有效值之间的LLG(f)米
,线性比例。(d日)等高线图显示了有效值与有效值之间的LLG(f)米
,对数刻度。价值观(f)米
=0.8在等高线图上以橙色线显示。
任何与r.m.s.d.密切相关的参数(例如GDT_HA高时的GDT_HA)都将显示与LLG的相同关系。
当相同的r.m.s.d.值描述本地和全局模型与目标之间的差异时,r.m.s.d仅用于预测LLG。如果区域之间存在差异,则r.m.s.d.主要由r.m.s.d较大的区域控制,而LLG得分将由r.m.s.d.较低的区域控制。在实践中,有些区域的建模效果比其他区域更好,当每个坐标中的估计误差良好并通过B类因子,如上所述。
4.2. 目标
提供了33个晶体结构作为CASP14的建模目标。其中,31个在不对称单元中有一个单一的蛋白质序列(有时有多个拷贝),两个有两个蛋白质序列。目标命名和晶体结构之间的关系并不简单。在31例单序列病例中的30例中,序列与CASP目标编号(例如T1032)之间存在一对一的对应关系。例外情况是具有PDB代码的结构6伏4,其中有九个单独的靶点(T1031、T1033、T1035、T1037、T1039、T1040、T1041、T1042和T1043),每个靶点代表2194个残基的完整多肽序列的95到404个残基,其中两个拷贝存在于不对称单元中。在30个案例中的11个案例中,完整序列被视为“多域”,并被分为两个、三个或四个域;这些被视为额外的、独立的靶标,在整个结构的靶标编号上加上后缀“-D1”、“-D2”、“-D3”或“-D4”(例如,T1024分为T1024-D1和T1024-D2)。在11个“multidom”目标中的8个中,整个序列目标被引用为后缀为“-D0”(例如T1038-D0),而不是像11个目标中的其他三个(例如T1024)那样,仅由目标编号来引用。在30个非“multidom”的案例中,有19个在完整序列中定义了单个域,目标被赋予后缀“-D1”(例如T1032-D1)。在33种不对称单元中有两个序列的情况中,有两种情况下,对应的两个目标使用相同的目标编号命名,并添加后缀“s1”或“s2”(T1046s1和T1046s2;T1065s1和T1065s2)。这两种方法都没有将其成分划分为域,单个目标被赋予“-D1”后缀。
我们还考虑了另一个目标,PDB入口6月9日,对应目标T1048,因缺乏三级结构而从CASP14中取消;它是一个序列,折叠成一个螺旋,形成一个螺旋。该结构的模型也由AlphaFold公司取消前2组。
当“多原子”靶的结构域包括在总数中时,我们总共考虑了34个晶体结构中的72个CASP14靶(表1). 与结构测定困难相关的结晶细节,如分辨率极限和不对称单元中的拷贝数,将在下文的分子置换试验中进行讨论。
表1
CASP14中包含的34个晶体结构以及与每个晶体结构相关的靶点
晶体编号。 | 目标编号。 | CASP目标 | 残留物 | CASP域 | 残留物 | “多域”域 | 残留物 |
---|
1 | 1 | T1024型 | 408 | | | T1024-D1型 | 193 |
T1024-D2型 | 204 |
2 | 2 | T1030型 | 273 | T1030-D0型 | (273) | T1030-D1型 | 154 |
| T1030-D2型 | 119 |
三 | 三 | T1031型 | 95 | T1031-D1段 | (95) | | |
4 | T1033型 | 100 | T1033-D1型 | (100) | | |
5 | T1035型 | 102 | T1035-D1号 | (102) | | |
6 | T1037型 | 404 | T1037-D1段 | (404) | | |
7 | T1039型 | 161 | T1039-D1段 | (161) | | |
8 | 时间1040 | 130 | T1040-D1型 | (130) | | |
9 | T1041型 | 242 | T1041-D1段 | (242) | | |
10 | T1042型 | 289 | T1042-D1型 | 276 | | |
11 | T1043型 | 148 | T1043-D1型 | (148) | | |
4 | 12 | T1032型 | 284 | T1032-D1型 | 169 | | |
5 | 13 | T1034型 | 156 | T1034-第1天 | (156) | | |
6 | 14 | 时间1038 | 199 | T1038-D0型 | 190 | T1038-D1段 | 114 |
T1038-D2型 | 76 |
7 | 15 | T1046s1型 | 216 | T1046s1-D1号文件 | 72 | | |
16 | T1046s2型 | 216 | T1046s2-D1型 | 141 | | |
8 | 17 | T1048型†
| | | | | |
9 | 18 | T1049型 | 141 | T1049-D1号 | 134 | | |
10 | 19 | T1050型 | 779 | | | T1050-D1型 | 321 |
T1050-D2型 | 316 |
T1050-D3型 | 128 |
11 | 20 | T1052型 | 832 | T1052-D0型 | (832) | | |
12 | 21 | T1053型 | 580 | T1053-D0型 | 576 | T1053-D1型 | 405 |
T1053-D2型 | 171 |
13 | 22 | T1054型 | 190 | T1054-D1型 | 143 | | |
14 | 23 | T1056型 | 186 | T1056-D1型 | 169 | | |
15 | 24 | 时间1058 | 382 | T1058-D0型 | (382) | T1058-D1号 | 221 |
T1058-D2型 | 161 |
16 | 25 | T1064型 | 106 | T1064-D1型 | 92 | | |
17 | 26 | T1065s1型 | 225 | T1065s1-D1型 | 11 | | |
27 | T1065s2型 | 225 | T1065s2-D1型 | 98 | | |
18 | 28 | 时间1067 | 220 | 时间1067-D1 | (221) | | |
19 | 29 | T1070型 | 335 | | | T1070-D1型 | 76 |
T1070-D2型 | 101 |
T1070-D3型 | 76 |
T1070-D4型 | 68 |
20 | 30 | T1073型 | 58 | T1073-D1型 | (59) | | |
21 | 31 | T1074型 | 131 | T1074-D1型 | (132) | | |
22 | 32 | T1079型 | 483 | T1079-D1号 | 451 | | |
23 | 33 | T1080型 | 137 | T1080-D1段 | 133 | | |
24 | 34 | T1082型 | 97 | T1082-D1型 | 75 | | |
25 | 35 | T1083型 | 196 | T1083-D1型 | 92 | | |
26 | 36 | T1084型 | 146 | T1084-D1型 | 71 | | |
27 | 37 | T1085型 | 588 | T1085-D0型 | 406 | T1085-D1型 | 167 |
T1085-D2型 | 182 |
T1085-D3型 | 57 |
28 | 38 | T1086型 | 408 | T1086-D0型 | 381 | 时间1086-D1 | 193 |
T1086-D2型 | 188 |
29 | 39 | T1087型 | 186 | T1087-D1型 | 93 | | |
30 | 40 | T1089型 | 404 | T1089-D1型 | 377 | | |
31 | 41 | T1090型 | 193 | T1090-D1型 | 191 | | |
32 | 42 | T1091型 | 863 | | | T1091-D1段 | 139 |
T1091-D2型 | 107 |
T1091-D3段 | 106 |
T1091-D4型 | 112 |
33 | 43 | 时间1100 | 338 | | | T1100-第1天 | 171 |
T1100-D2型 | 166 |
34 | 44 | T1101型 | 318 | T1101-D0型 | 307 | T1101-D1型 | 83 |
T1101-D2型 | 224 |
4.3. 目标分类
CASP根据建模难度将目标分为四类:自由建模(FM)、基于模板的建模(TBM-easy和TBM-hard)以及自由建模和基于模板建模(FM/TBM)边界上的结构。在晶体结构集合中,所有四类都有很好的表现(图3
一). 除了两个结构外,其他所有结构都来自低等生物(病毒、细菌、古细菌和四膜虫),这两个结构被归类为TBM,这反映了高等生物现在已经实现了折叠空间的高度覆盖(补充表S1).
CASP14中34种晶体结构的分类和精度。(一)不同建模类别FM(自由建模)和TBM(基于模板的建模)的比例。PDB条目6伏4被计算为单个FM目标。提交的所有五个数据的分布直方图AlphaFold公司44个晶体目标的2个模型(b条)LGA_S和(c(c))RMSD。
4.4. 目标质量指标
为了判断分子替换模型,模型r.m.s.d.和(f)米
是重要的指标。
在CASP报告的指标中,序列相关性液化天然气(4á)参数RMSD和LGA_S与r.m.S.d.和(f)米
RMSD是C子集的根平方偏差α与序列相关的靶结构残基相对应的模型中的原子LGA公司叠加。LGA_S是序列相似性得分,是GDT得分和LCS得分的组合,其中LCS是最长的连续片段(占总序列的百分比),可以在给定截止值的r.m.S.d.下拟合。LGA_S分数与紧密排列结构的GDT_TS分数相似。LGA_S与(f)米
分子置换相位的模型对模型中的任何配准误差都不直接敏感。
指标RMSD和LGA_S的直方图AlphaFold公司图3显示了44个感兴趣的CASP晶体靶的2个模型(b条)和3(c(c)). LGA_S几乎倾向于全序列覆盖,平均为87%,RMSD围绕1.27º的平均RMSD聚集。
RMSD和LGA_S也显示了AlphaFold公司比其他小组提交的模型多2个模型。表2显示了AlphaFold公司对于44个感兴趣的CASP晶体靶点,两个模型具有最佳LGA_S和最佳RMSD(在提交的五个模型中),以相同的总体指标与最佳模型进行比较。只有两种情况(T1073和T1085)是AlphaFold公司2型并不是LGA_S得分最高的。在T1085的情况下,LGA _S的差异可以忽略不计(不到0.5%)AlphaFold公司2模型的RMSD低得多(0.85比1.39 Au)。就T1073而言,模型之间的差异主要局限于从球状褶皱体延伸的N末端螺旋的一个短区域。在15种情况下-AlphaFold公司模型2的RMSD较低;然而,这完全是以更低(通常是更低)的LGA_S为代价的。
表2
CASP14中34种晶体结构目标的最佳模型模型为(CASP组号)_(排名模型号)。括号中是LGA_S和RMSD。组号:427,AlphaFold2;013,FEIG-S;029,Venclovas;071,Kiharalab;080,FOLDYNE;081,MUFOLD;129,张;132,PBuild公司;140、Yang-Server;217,CAO-QA1;259,AWSEM-CHEN;288,日期;334,FEIG-R3;337,卡特;392,trfold;403,烘焙实验;473,贝克;480,FEIG-R2。
水晶编号。 | ASU中的目标 | 最佳AlphaFold公司LGA_S推出的2款车型 | LGA_S的最佳整体模型 | 最佳AlphaFold公司RMSD的2个模型 | RMSD的最佳整体模型 |
---|
1 | T1024型 | 427_3 [87.5, 1.83] | 427_3 | 427_1 [58.8, 1.60] | 427_1 |
2 | T1030型 | 427_2 [62.0, 1.82] | 427_2 | 427_2 | 013_2 [39.2, 1.27] |
三 | T1031型 | 427_2 [94.0, 1.12] | 427_2 | 427_4 [93.7, 0.98] | 427_4 |
T1033型 | 427_1 [93.3, 1.39] | 427_1 | 427_3 [92.5, 1.36] | 259_4 [39.3, 1.29] |
T1035型 | 427_5 [99.0, 0.81] | 427_5 | 427_5 | 427_5 |
T1037型 | 427_4 [95.4, 1.12] | 427_4 | 427_5 [93.7, 1.11] | 427_5 |
T1039型 | 427_1 [86.3, 1.61] | 427_1 | 427_1 | 071_1 [33.5, 1.17] |
T1040型 | 427_1 [77.5, 1.95] | 427_1 | 427_2 [76.3, 1.90] | 140_1 [16.4, 1.31] |
T1041型 | 427_1 [94.7, 1.21] | 427_1 | 427_1 | 427_1 |
T1042型 | 427_3 [93.8, 1.22] | 427_3 | 427_5 [93.4, 1.21] | 427_5 |
T1043型 | 427_3 [90.2, 1.42] | 427_3 | 427_1 [90.0, 1.41] | 427_1 |
4 | T1032型 | 427_3 [71.1, 1.67] | 427_3 | 427_1 [70.1, 1.65] | 427_1 |
5 | T1034型 | 427_1 [96.9, 1.00] | 427_1 | 427_2 [95.7, 0.87] | 427_2 |
6 | T1038型 | 427_2 [91.9, 1.17] | 427_2 | 427_2 | 427_2 |
7 | T1046s1 | 427_4 [98.1, 0.68] | 427_4 | 427_1 [98.1, 0.64] | 427_1 |
T1046s2型 | 427_1 [98.9, 0.69] | 427_1 | 427_1 | 427_1 |
8 | T1048型†
| | | | |
9 | T1049型 | 427_1 [95.3, 0.82] | 427_1 | 427_1 | 427_1 |
10 | T1050型 | 427_1 [93.3, 1.26] | 427_1 | 427_1 | 427_1 |
11 | T1052型 | 427_4 [63.4, 1.17] | 427_4 | 427_5 [62.9, 1.14] | 337_5 [45.5, 1.13] |
12 | T1053型 | 427_3 [96.9, 0.98] | 427_3 | 427_3 | 427_3 |
13 | T1054型 | 427_3 [93.7, 0.84] | 427_3 | 427_2 [93.0, 0.81] | 029_1 [49.7, 0.76] |
14 | T1056型 | 427_2 [99.3, 0.66] | 427_2 | 427_2 | 427_2 |
15 | T1058型 | 427_3 [93.7, 1.25] | 427_3 | 427_3 | 427_3 |
16 | T1064型 | 427_1 [92.6, 1.34] | 427_1 | 427_2 [91.0, 1.31] | 427_2 |
17 | T1065s1型 | 427_2 [98.4, 0.91] | 427_2 | 427_4 [97.8, 0.85] | 427_4 |
| T1065s2型 | 427_1 [99.5, 0.60] | 427_1 | 427_1 | 427_1 |
18 | T1067型 | 427_3 [92.9, 0.86] | 427_3 | 427_3 | 427_3 |
19 | T1070型 | 427_5 [45.0, 1.69] | 427_3 | 427_3 [41.2, 1.52] | 334_1 [30.4, 1.22] |
20 | T1073型 | 427_3 [86.7, 1.76] | 288_4 [95.2, 1.47] | 427_5 [85.5, 1.41] | 217_3 [83.8, 0.97] |
21 | T1074年 | 427_2 [93.7, 1.15] | 427_2 | 427_4 [92.6, 1.06] | 427_4 |
22 | T1079型 | 427_4 [96.7, 1.05] | 427_4 | 427_2 [96.7, 1.03] | 427_2 |
23 | T1080型 | 427_4 [91.6, 1.37] | 427_4 | 427_4 | 427_4 |
24 | T1082型 | 427_1 [97.9, 0.88] | 427_1 | 427_2 [97.3, 0.88] | 427_2 |
25 | T1083型 | 427_4 [91.9, 1.09] | 427_4 | 427_4 | 392_2 [88.7, 0.96] |
26 | T1084型 | 427_5 [94.6, 0.85] | 129_3 [95.1, 1.39] | 427_4 [94.0, 0.77] | 480_4 [92.6, 0.60] |
27 | T1085型 | 427_1 [88.2, 1.86] | 427_1 | 427_1 | 473_4 [32.5, 1.45] |
28 | T1086型 | 427_1 [89.6, 1.78] | 427_1 | 427_4 [88.7, 1.64] | 080_1 [53.0, 1.60] |
29 | T1087年 | 427_3 [97.0, 0.63] | 427_3 | 427_2 [96.8, 0.57] | 081_3 [40.3, 0.38] |
30 | T1089型 | 427_2 [99.0, 0.71] | 427_2 | 427_2 | 427_2 |
31 | T1090型 | 427_3 [95.4, 1.16] | 427_3 | 427_1 [92.1, 1.04] | 427_1 |
32 | T1091型 | 427_2 [79.8, 2.00] | 427_2 | 427_5 [77.0, 1.96] | 403_2 [27.3, 1.47] |
33 | T1100型 | 427_2 [90.3, 1.68] | 427_2 | 427_4 [55.9, 1.06] | 132_2 [18.2, 0.81] |
34 | T1101型 | 427_4 [92.0, 1.17] | 427_4 | 427_3 [91.9, 1.15] | 427_3 |
这两个指标[LGA_S和RMSD来自LGA公司(4)]不是表示r.m.s.d.的理想指标(f)米
r.m.s.d和(f)米
这主要取决于结构的排列,排列应该基于电子密度而不是坐标,这个问题将在其他地方解决。
5.分子置换方法
LGA_S得分高,RMSD得分低AlphaFold公司2个模型表明,这些模型在通过分子替换实现阶段化方面具有良好的前景。
最初,序列和CASP晶体结构之间具有一对一对应关系的31个靶点,两个靶点分别对应于两个异二聚体结构,九个靶点对应于PDB进入6伏4用于分子置换(总共有44个CASP晶体靶被放置在34个晶体结构中)。
如果用代表完整序列的靶标进行分子置换失败,并且靶标是被分类为“多靶标”的11个靶标之一,则尝试用结构域进行分子置换。
这个AlphaFold公司任何给定目标的2个模型几乎完全重叠,坐标变化很小,因此创建集合结构并不表明可以在何处修剪建模不佳的区域(通过模型之间的差异),除非使用非常小的差异距离阈值(例如0.1º)。不是使用微小偏差阈值,而是使用作为AlphaFold公司2构造预测。
这个AlphaFold公司两种模型(完整靶点和结构域靶点,未修剪和修剪)用于相位器.旅行者(手稿正在准备中)。相位器.旅行者使用相位rtng代码库(McCoy等。, 2021▸). 初始VRMS(有效r.m.s.d.)设置为1.2º,然后针对姿势模型进行优化。提交的五个AlphaFold公司使用2个模型作为一个整体。如果目标结构可用,则检查姿势以查看它是否与目标坐标匹配菲尼克斯(欧夫纳等。, 2012▸). 为了确认解决方案,我们使用了菲尼克斯汽车对于首字母R(右)价值和R(右)
自由的(特威利格等。, 2008▸). 如果σA类-用计算的加权密度图自动编译模型和最终结构均大于0.3。如果R(右)
自由的很高,尝试改进车型phenix.morph模型。未进一步进行人工建模和改进。
在一种情况下(如下所述),分子替换为相位器.旅行者失败,用ARCIMBOLDO_LITE公司用于线圈(Caballero等。, 2018▸).
6.分子置换结果
在34个晶体结构中,有31个可以用AlphaFold公司两个模型,两个可以部分求解,一个不能用AlphaFold公司2型号。
无法用解决的情况AlphaFold公司2型号为晶体8,卷绕结构带PDB代码6月9日,目标T1048。虽然不能用完全解决AlphaFold公司2模型,该结构可以用一个通用的20-残基多胺螺旋来求解,使用ARCIMBOLDO_LITE公司用于盘绕线圈(Caballero等。, 2018▸).
晶体3部分溶解,聚合酶结构带有PDB代码6伏4九个CASP组成目标中的六个(各两份)可以放在其中。整个结构未被指定为CASP目标。如果整个结构或更大的部件成为目标AlphaFold公司2模型可用,这样的模型可能也会成功地进行分子替换。
对晶体2(PDB码全螺旋结构)也实现了部分求解6便便。整个结构被指定为具有两个域的“多室”CASP目标。第二个域T1030-D1可以明确放置。第一个结构域T1030-D2可以通过分子置换来放置,但得到非常高的最终结构域R(右)
自由的.
在31个求解结构中,28个直接求解,默认为相位器.旅行者协议(表3).
表3
CASP14中34种感兴趣晶体结构的相位调整总结AlphaFold公司2种型号文中讨论了粗体列出的晶体和目标。
水晶 | 目标 | PDB代码 |
d日
最小值(Å) | 反射次数 |
Z轴
†
| 域 | 过滤器‡
| TFZ公司§
|
R(右)
自由的
|
R(右)
自由的变形后 |
---|
1 | T1024年 |
6t1z
| 2.9 | 12686 | 1 | 1 | 不 | 24.7 | 0.52 | 0.42 |
2
¶
|
T1030型
|
6便便
|
3
|
7525
|
1
|
2
|
不
|
20.4
|
0.53
| |
三
¶
|
T1031型
|
6伏4
| 3.5 | 92907 | 2 | | | | | |
T1033型
|
T1035型
|
T1037型
|
T1039型
|
T1040型
|
T1041型
|
T1042型
|
T1043型
|
4
|
T1032型
|
6n64号
|
3.3
|
27936
|
6
|
1
|
0.7
|
16.1
|
0.47
|
0.44
|
5 | T1034型 |
6毫米
| 2.1 | 47702 | 4 | 1 | 不 | 31.9 | 0.45 | |
6 | T1038型 |
6年2月
| 2.5 | 20426 | 三 | 1 | 不 | 24.3 | 0.35 | |
7 | T1046s1型 |
6像素4
| 1.7 | 69112 | 2 | 2 | 不 | 31.8 | 0.35 | |
T1046s2型 |
8
††
|
T1048型
|
6月9日
|
2.8
|
19203
|
4
| | | | | |
9 | T1049型 |
6年4月
| 1.8 | 12228 | 1 | 1 | 不 | 23.7 | 0.34 | |
10 | T1050型 | | 2.7 | 97731 | 三 | 1 | 不 | 39 | 0.30 | |
11 | T1052型 | | 2 | 88914 | 2 | 1 | 不 | 48.6 | 0.43 | |
12 | T1053型 |
7毫安
| 3.2 | 49627 | 4 | 1 | 不 | 51 | 0.35 | |
13 | T1054型 |
6伏4伏
| 1.7 | 25547 | 1 | 1 | 不 | 33.2 | 0.34 | |
14 | 时间1056 |
6yj1年
| 2.3 | 17863 | 2 | 1 | 不 | 19.7 | 0.37 | |
15 | T1058型 |
7磅
| 3.1 | 20228 | 2 | 1 | 不 | 25.5 | 0.44 | |
16 | T1064型 |
7jtl型
| 2 | 16787 | 2 | 1 | 不 | 19.1 | 0.41 | |
17 | T1065s1 |
7米5英尺
| 1.6 | 35695 | 1 | 2 | 不 | 48.7 | 0.22 | |
T1065s2型 |
18 | T1067型 | | 1.4 | 51025 | 1 | 1 | 不 | 57.2 | 0.26 | |
19 | T1070型 | | 2.5 | 25412 | 1 | 1 | 不 | 6.8 | 0.49 | 0.42 |
20
|
T1073型
| |
1.9
|
27326
|
4
|
1
|
1
|
24.1
|
0.39
| |
21 | T1074型 |
7月9日
| 1.5 | 25800 | 1 | 1 | 不 | 21.1 | 0.29 | |
22 | T1079型 | | 3.2 | 47985 | 4 | 1 | 不 | 33.6 | 0.38 | |
23
|
T1080型
| |
1.7
|
100570
|
6
|
1
|
不
|
20.9
|
0.39
| |
24 | T1082型 |
6x6像素
| 1.1 | 97672 | 2 | 1 | 不 | 33.6 | 0.44 | 0.31 |
25 | T1083型 | | 1.3 | 81236 | 4 | 1 | 0.6 | 30 | 0.48 | 0.35 |
26 | T1084型 | | 1.9 | 23901 | 三 | 1 | 不 | 32.1 | 0.38 | |
27 | T1085型 | | 2.5 | 10758 | 1 | 三 | 不 | 22 | 0.40 | |
28 | T1086型 | | 2.3 | 21887 | 1 | 1 | 不 | 18.7 | 0.41 | |
29 | T1087型 | | 1.4 | 69617 | 4 | 1 | 不 | 43.2 | 0.25 | |
30 | T1089型 | | 2.2 | 55192 | 2 | 1 | 不 | 63.5 | 0.29 | |
31 | T1090型 |
7千7瓦
| 1.8 | 22947 | 1 | 1 | 不 | 27.2 | 0.29 | |
32 | T1091型 | | 2.2 | 62789 | 1 | 4 | 不 | 22.5 | 0.44 | |
33
|
T1100型
| |
3.1
|
36829
|
4
|
1
|
不
|
31.1
|
0.48
|
0.45
|
34 | T1101型 | | 1.4 | 58030 | 1 | 1 | 不 | 16.2 | 0.34 | |
下面给出了晶体8(无溶液)、晶体2和3(部分溶液)以及晶体20、23和33的详细信息,对于这些晶体,结构解决方案是成功的,但证明存在更多问题。
6.1. Crystal 2(PDB条目6便便,目标T1030)
T1030是一种螺旋束,被归类为具有两个域的“多室”。D2可以通过分子替换明确地放置,但D1的最佳姿势只能叠加片段的一部分,并且R(右)
自由的分子置换后大于0.50。
排名第一的C原子的总r.m.s.dAlphaFold公司D1的目标模型2在154个残基上为2.8μl,D2在119个残基上为1.2μl。
高R(右)
自由的D1弯曲角度和六个组成螺旋的角度分布的模型/目标差异可导致分子重定位解的差异。由于螺旋很长(剩余长度为18、15、35、15、38和22),这些差异导致坐标的系统偏差,因此总的r.m.s.d.不能给出坐标发散的完整图像。
使用分析HELANAL Plus公司服务器(Kumar&Bansal,2012▸)显示了六个AlphaFold公司根据平均和最大弯曲角度,将2条螺旋线分为“线性”、“弯曲”、“线性”,“未指定”和“弯曲”,而将目标螺旋线分别分为“弯曲的”、“曲线的”、《扭结的》、《线性的》、“扭结的”和《弯曲的》。使用进行分析helixang公司从中央对手方清算所4(优胜者等。, 2011▸)给出了螺旋线1和螺旋线2-6的螺旋轴之间的角度AlphaFold公司2个模型分别为173°、7°、194°、19°和−154°,目标分别为172°、5°、171°、−23°和-153°;最显著的是螺旋1和4(相差23°)以及螺旋1和5(相差42°)的排列差异。
6.2. Crystal 3(PDB条目6伏4,目标T1031、T1033、T1035、T1037和T1039–T1043)
对于CASP14,crAss-like噬菌体phi14:2的病毒包装DNA依赖RNA聚合酶的单链多肽被分为九个评估域,我们在这里将其编号为1-9(图4). 八个域被归类为FM,一个域被分类为FM/TBM。
Crystal 3,PDB入口6伏4、目标T1031(1,红色)、T1033(2,橙色)、T1055(3,黄色)、T11037(4,卡其色)、T10.39(5,绿色)、T1040(6,蓝色)、T10.41(7,紫色)、T11042(8,洋红)和T1043(9,紫色)。两个目标在一级层序中是不连续的。(一)突出显示目标的结构;与目标不对应的区域显示为灰色。该图形是使用创建的摩尔*(Sehnal公司等。, 2021▸). (b条)突出显示目标的顺序;未突出显示的区域未包含在目标中。
不对称单元(PDB条目)中有两个单体副本6伏4; 德罗比雪娃等。, 2021▸)由非晶体学的双重性相关。评估域被用作分子替换的模型。总共可以放置18个域中的12个,给出2/3的完整解决方案,这不足以对结构的剩余片段进行阶段化,因为有限的分辨率为3.5º。部分解决方案是通过运行相位器从命令行。域按顺序排列,12个域的排列顺序为4、4、7、7、2、3、2、3,8、5、5。域2、3和8的第二个副本不是通过分子替换放置的,而是通过对已经放置的副本应用非晶体学对称算子并执行刚体细化来放置的。放置第一个域2后,40个循环REFMAC公司(穆尔舒多夫等。, 2011▸)在继续之前,进行了细化以改善局部结构。在放置第二个域3后重复此过程。无法放置域1、5和9;这些域的r.m.s.d.非常高,目标值超过2.5º(表4).
表4
晶体3的相位(PDB条目6伏4)带有AlphaFold公司2种型号对于CASP14,靶序列的单一多肽链被划分为九个评估域。晶体不对称单元中有两个目标序列拷贝。通过分子替换发现了六个靶点的两个拷贝,并给出了链标识符A类–我按放置顺序。无法放置目标T1031、T1040和T1043。
| 模型 |
Z轴
| 类型 | 残留物 | R.m.s.d.(奥兰多) | 链条 |
---|
1 | T1031TS427_1-D1 | 2 | FM公司 | 95 | 2.91 | |
2 | T1033TS427_1-D1 | 2 | FM公司 | 100 | 1.58 |
如
|
三 | T1035TS427_1-D1 | 2 | FM/TBM公司 | 102 | 0.81 |
FH公司
|
4 | t1037次427_1-D1 | 2 | FM公司 | 404 | 1.25 |
AB公司
|
5 | T1039TS427_1-D1 | 2 | FM公司 | 161 | 2.50 |
吉隆坡
|
6 | T1040TS427_1-D1 | 2 | FM公司 | 130 | 2.76 | |
7 | T1041TS427_1-D1 | 2 | FM公司 | 242 | 1.70 |
光盘
|
8 | T1042TS427_1-D1 | 2 | FM公司 | 276 | 1.79 |
IJ公司
|
9 | T1043TS427_1-D1 | 2 | FM公司 | 148 | 2.46 | |
6.3. Crystal 4(PDB条目6n64号,目标T1032)
T1032被分类为FM/TBM。在不对称单元中有六个序列拷贝(Chen等。, 2020▸)在三个二聚体中。
该模型的LGA_S为70%,RMSD为1.7欧。成功的分子替换需要找到模型中正确的部分。该结构可以使用两种不同的方法进行求解。
使用的第一种方法ARCIMBOLDO_螺纹(密兰等。, 2018▸)它将模型“分解”为由每个C原子周围的球体定义的片段,并使用不同片段搜索的解决方案的持久性作为增强分子重新放置信号的一种方法。不对称单元中六个结构副本中的四个最初是使用上述分子置换协议发现的。它们形成了两个二聚体,每个二聚体都具有非晶体学双重性。从部分溶液中提取一个二聚体,并成功用于分子替换以放置最后两个组分。从部分结构溶液中提取寡聚物缔合物并使用它们来完成不对称单元是分子替换的既定方案。
第二种方法使用相位器.旅行者修剪模型后的管道,其中模型和目标之间的预测偏差(由AlphaFold公司2) 大于0.7º。在使用所述协议成功地将六份副本进行分子替换后AlphaFold公司2模型叠加在用于分子替换的片段上,并用phenix.morph模型(应用平滑变形)以使R(右)
自由的至42%。
6.4. Crystal 8(PDB条目6月9日,目标T1048)
T1048为单螺旋,因“缺乏三级结构”于2020年10月20日从CASP14中取消。然而,该结构的模型由AlphaFold公司2之前取消目标。
这种结构是一个61英寸的螺旋线圈。众所周知,由于螺旋重复序列对数据的调制,螺旋线圈结构很难通过分子替换解决(Caballero等。, 2018▸; 托马斯等。, 2015▸).
该结构在不对称单元中有四个目标的副本。The overall C-alpha r.m.s.d. of theAlphaFold公司2模型到链A类在目标结构中,67个残基为2.1º。使用进行分析HELANAL-Plus公司服务器(Kumar&Bansal,2012▸)结果表明,最大弯曲角度有显著差异(7.4°对25.7°);模型螺旋线被归类为“弯曲”,而目标被归类为扭结。无法使用求解结构AlphaFold公司中的2个模型相位器.旅行者即使通过修剪优化模型,以降低沉积结构的r.m.s.d.(以降低分数散射为代价)。
ARCIMBOLDO_LITE公司在线圈-线圈模式下,可以使用通用的20-残基多胺螺旋来解决结构问题。对线圈结构使用短通用螺旋的优点是,它们能够与低r.m.s.d.的线圈螺旋的多个短截面重叠。结构解决方案需要“验证”步骤,这是一种有效的方法,可以区分真实解和大量虚假解,这些虚假解仅来自满足数据螺旋调制的螺旋布局(卡巴列罗等。, 2018▸).
6.5. 水晶20(目标T1073)
所有研究组均对T1073的12-残基N-末端螺旋进行了建模,并将其与目标物进行了高r.m.s.d.的比较。这个螺旋线从褶皱的致密体延伸出来。通过移除AlphaFold公司标准模型分离协议中预测误差超过1º的2模型相位器.旅行者.
在这种情况下,挑战在于数据准备,而不是模型准备;模型制备并不显著,但我们发现这种情况也需要对晶体学数据给予一些额外的关注。所提供的文件中提供了许多不同的数据集。分子替换是在phenix.x分类(兹瓦特等。, 2005▸)分析,使用其中一个数据集,分辨率限制为2.8º。
6.6. 水晶23(目标T1080)
T1080被分类为FM/TBM。在两个三聚体的不对称单元中有六个靶标拷贝。
这是唯一一个五人提交的案件AlphaFold公司2个模型显示出显著的偏差。模型3在前40个N末端残基中与其他四个的一致折叠不同;这40个残基在模型3中具有非常不同的构象。在分析中,四种模型的一致折叠是正确的,而模型3是不正确的,尽管不正确的构象可被视为“三聚体交换”错误,链部分跟随三聚体中相邻单体的折叠。分子置换模型对这些残基和残基进行了修剪,预测偏差超过1.2º,在133个残基中剩下78个残基。因此,分子置换模型是目标结构的60%。结构解决后AlphaFold公司2一致折叠叠加在解决方案上并用于细化。
6.7. 晶体33(目标T1100)
T1100被归类为具有两个域的“multidom”。在两个二聚体的不对称单元中有四个拷贝,两个二聚体之间具有平移非晶体学对称性。D2是一个致密的球状结构。D1是一个螺旋束结构,有四个螺旋,分别为52、11、64和28个残基。在二聚体中,D1螺旋形成一个螺旋。
D2可以通过分子替换明确地放置。
D1更难定位。该问题可归因于螺旋弯曲角度中的模型/目标差异。一般来说,模型中的螺旋线比靶中的螺旋更直,平均弯曲角度分别为4.5°、7.1°、4.6°和3.6°,而8.5°、9.3°、8.5°和7.8°。当弯曲角度的差异在长螺旋上复合时,尤其是螺旋1(~75º)和螺旋3(~90º),不可能同时叠加模型和目标的两端。分子替换为D1提供了几个密切相关的姿势,将模型和目标螺旋的不同部分重叠在一起。
7.阶段划分方法调查
识别高精度的影响生物信息学晶体定相方法模型,我们对世纪之交以来的晶体定相法进行了一次调查。
我们可以将晶体相位策略分为四大类:直接方法、实验相位、分子替换和差分傅里叶方法(傅里叶合成)。直接法相位调整在大分子晶体学中的应用可以忽略不计,相反,它在小分子晶体术中占据着主导地位(Sheldrick,2008)▸). 在实验相位类别中,有MAD(多波长异常色散)、SAD(单波长异常色散和MIRAS(异常散射的多个同晶替换)(综述见Rupp,2010▸).
PDB主要记录发表在同行评审期刊上的大分子晶体结构。PDB是新晶体形态的记录,如果不是新结构的话。我们的分析只包括那些蛋白质是晶体成分的条目。
每个PDB条目的阶段化方法记录在“结构确定方法”字段中,该字段应允许对阶段化方法进行调查;然而,由于下面列出的一些原因,分析并不简单。
(i) 虽然2019年1月29日之后开始提交的文件必须填写“结构确定方法”字段,但历史条目中有很大一部分为空。2000年之前记录的条目被认为太少,无法进行分析。空条目可能偏向于特定类别的定相。
(ii)尽管自2019年1月29日起,“结构确定方法”字段被限制为提交文件的几个文本字符串,但从历史上看,它是“自由格式”且高度可变的。在这项研究中,所有历史文本条目都被眼睛扫描,以将每个条目分配给一个新的限制值。如果字段引用了许多方法(例如具有分子替换的SAD或SIRAS/MAD),则分配了最高级的阶段化方法,优先顺序为MIRAS、MIR、MAD、SIRAS、SIR、SAD、分子替换和傅里叶合成。
(iii)由于对“结构确定方法”字段的条目进行了调查,因此研究中不包括直接方法的定相从头算显示尽管这些条目包括直接方法分阶段的条目,但在大多数情况下从头算指基于片段的分子替换方法或使用直接方法测定异常亚结构。因为很少有条目被归类为从头算,从考虑中删除这些并没有显著的偏差结果。
(iv)对照相应出版物中记录的方法,检查“结构确定方法”字段中的小样本条目,表明该字段并不总是准确的。不准确可能偏向于特定的阶段划分类别。
(v) 每个条目都有存放日期、发布日期和修订日期,因此确定每个条目的日期是有问题的。沉积和释放日期通常相隔一年,但可以相隔三年甚至更长。修订日期通常是最近的,因为它们包括PDB范围内对PDB术语的更改。只考虑了值为“1”的“实体ID”条目。为了跟踪结构确定方法的演变,我们考虑了五年间隔,并对每个间隔限制PDB标识符,以便沉积日期和释放日期都在五年间隔内。因此,我们的分析对PDB条目的子集进行了采样。
(vi)不同晶体学家对不同定相方法定义的理解可能不同。例如,傅里叶合成和分子置换方法之间存在一定程度的重叠,因为前者可以被视为后者,但没有初始的宽半径搜索策略(使用旋转和平移函数的搜索策略);如果姿态超出刚体细化的收敛半径,则(名义上)同晶晶体无法通过差分傅里叶方法进行相位调整,并使用局部或全局搜索进行分子替换。同样,晶体学家可能无法区分各种类似的实验定相方法(例如SAD与SIRAS)。
尽管有这些警告,但过去20年来结构确定方法的变化趋势是明确的(图5
一)并反映了轶事经历。分子置换现在占定相的80%左右,比2000年的50%左右有所增加,分子置换和傅立叶合成(差分傅立叶)方法加起来占定相的95%。如果试图通过分子替换实现阶段化,则可能会有更高比例的结构。
自2000年以来,PDB“结构测定方法”领域中记录的定相方法:SAD(单波长异常色散)、MAD(多波长异常色散,IR(同晶置换)、FS(傅里叶合成)和MR(分子置换)。提交文件的保存和发布日期均在所示的五年时间内。(一)所有方法占每个时间段PDB提交的百分比。(b条)实验阶段化方法,即每个时间段内PDB提交的数量。
在实验阶段化战略中,实验阶段化的方法发生了很大变化,2000年MAD占主导地位,但今天SAD占主导。SAD阶段化,通常使用硒代蛋氨酸取代蛋白,现在占实验阶段结构的82%(图5
b条).
特别值得注意的是,最初作为大分子定相支柱的红外方法的衰落。为了获得目前需要IR分期的结构类型的概述,我们更详细地检查了2020年提交和发布的结构(补充表S2). 13个结构符合这一标准,通过IR方法进行了阶段划分,并在撰写本文时提供了出版物。在这13个结构中,我们发现其中一个实际上是Se-SAD解决的,一个是Os-SAD解决的,另一个是Pt-MAD解决的和一个是MR解决的。在九个已证实的IR示例中,只有两个结构使用了多重导数。
8.讨论
显然,结晶学需要晶体;结晶是一个瓶颈,尽管随着表达系统、流体学、机器人学和计算机视觉的发展,这个瓶颈的约束已经大大减少。不仅必须有晶体,而且晶体必须衍射到4º以上的分辨率才能用于结构生物学。由于收集到的数据具有晶体形式(空间群、单位胞、不对称单位含量)所允许的最高分辨率,通常将晶体学数据视为分子置换相位的“固定”成分,并将模型视为“动态”成分。阶段化管线主要用于以不同方式准备的许多模型结构的自动探索,希望其中一个能够准确放置,并允许使用提供的单个数据集进行模型构建和优化。
在某种程度上AlphaFold公司2个模型颠覆了这一范式。随着这些高精度模型的可用性,通过系综中同系物的不同组合、不同层次的裁剪、域数据库的挖掘以及将小型二级结构元素用作模型,对模型的广泛生成的需求可能会大大减少。本质上AlphaFold公司2个模型从所有这些方法中提取信息,更多的是在一个单一的结构中。结晶学问题可能会变成寻找一种易于用分子替换的晶体形式(例如,不对称单元中的副本较少)生物信息学模型。例如,在对数据而非模型进行按摩后,成功地用T1073(晶体20)进行了分子替换。
对于被归类为“多室”的19个结构中的5个,我们使用了结构域而不是整个结构的模型来进行分子替换。在这种方法中,整个结构是通过加法建立的,因为域是按顺序放置在不对称单元中的。当靶材中畴的配置在很大程度上取决于晶体堆积或变构效应时,这是必要的。
最难用AlphaFold公司2个模型包含延伸螺旋。问题是双重的。首先,虽然螺旋二级结构很容易预测,但螺旋中的细微弯曲和扭结更难以捉摸,并且在模型与目标的匹配中具有长期影响。其次,螺旋线圈在衍射数据中引发调制,混淆了分子替换中的最大似然目标,这是晶体方法发展的一个已知问题和活跃领域。
表3中的统计数据表明分子替换为AlphaFold公司2个模型,然后是简单的细化策略,没有给出适合立即提交给PDB的结构。根据对结构的生物理解程度,需要对人工模型建造进行投资,以获得最终结构,这超出了本研究的范围。
使用生物信息学分子替换模型也将影响下游模型的构建和完善。模型的构建和细化已经可以通过借鉴从头算建模(特威利格等。, 2012▸). 由于模型代表了100%的多肽链的近似正确构象,因此模型构建的方向是将电子密度局部最小化,而不是从头开始的模型构建。在这项研究中,我们使用phenix.morph模型改善结构中最初与密度不匹配的部分。在由于晶体中的静态无序而导致电子密度较弱或不存在的区域,将结构限制在模型中可能会降低R(右)并改进了密度的解释。在极端情况下在没有模型的情况下,衍射数据可能不需要像细化、通过验证指标和发布结构所需的那样好。实际上,衍射数据只需验证模型。
有一些工作要做,以优化高精度的使用生物信息学用于分子替换的模型。模型中缺乏构象可变性,这与从同源物中提取的模型不同。同系物往往在偏离目标结构的区域变化最大AlphaFold公司即使在与目标结构不同的区域,两个模型也非常一致(坚持)。如果纯粹从表面上看,这将导致,例如,由于(错误的)包装冲突,分子置换溶液被拒绝。我们还可以改进如何在模型准备中利用坐标中的估计误差。σ的估计也可能会有所改进A类对于这些模型,由于σ的优化A类估计值是针对同系物而不是生物信息学模型(Hatti等。, 2020▸).
CASP14晶体结构主要代表一种特殊类型的晶体结构:在不对称单元中具有单一蛋白质序列,并且由一个或几个结构域组成,其中该结构域与已知结构无关或相关性差。这些类型的晶体结构由CASP选择,因为它们代表了结构预测中更具挑战性的结构。然而,为了支持结构生物学,结晶学通常侧重于具有肽基序、寡聚物关联和多域结构的蛋白质复合物,通常具有PDB中已经具有同源结构的域。统计数据表明,至少95%的情况下,这些问题都可以通过分子替换或傅里叶合成来解决,并且不会降低他们的科学兴趣。
我们对相位调整方法的调查表明,红外相位调整正在成为一种专业方法。尽管红外光谱无疑能获得非常好的相位,即使分辨率低、数据差,但还有其他因素意味着尽可能避免红外光谱。如果使用重金属,则需要处理剧毒的金属盐,这些金属盐不仅与蛋白质结合,还与蛋白质结晶仪结合(Blundell&Johnson,1976)▸). 使用氙气等惰性气体的方法需要专门设计的高压电池以及适当的培训和支持才能使用。我们注意到,在我们2020年的调查中,红外分阶段的九个结构中有两个是使用碘进行SIRAS分阶段的,这是一种无毒且简单的方法。
自1913年以来,结晶相位策略一直在不断发展(Ewald,1962▸; Brooks-Bartlett&Garman,2015年▸)高精度模型的贡献是继续这一演变。这使得晶体学家能够更加直接地将精力集中在结构生物学上。我们应该期待这将带来的生物学见解。
9.相关文献
以下参考文献在支持信息本文作者:Bahat等。(2020▸)埃肯罗斯等。(2021▸),菲利普切克等。(2020▸)甘迪尼等。(2020▸)、加西亚-多瓦尔等。(2020▸),他等。(2020▸),贾格尔等。(2020▸)、延森等。(2020▸),米切夫斯基等。(2020▸)、聂等。(2021▸),樱井等。(2020▸),朱等。(2020▸)和Zimanyi等。(2020▸).
致谢
我们感谢CASP14的所有贡献者,特别是在PDB中沉积之前提供数据的作者。我们还感谢RCSB的Rachel Kramer Green提供有关PDB进入记录历史的信息。
资金筹措表
这项工作由Wellcome信托基金资助209407/Z/17/Z兰迪·J·里德。
工具书类
- Baek,M.、DiMaio,F.、Anishchenko,I.、Dauparas,J.、Ovchinnikov,S.、Lee,G.R.、Wang,J.,Cong,Q.、Kinch,L.N.、Schaeffer,R.D.、MilláN,C.、Park,H.、Adams,C.、Glassman,C.R.、DeGiovanni,A.、Pereira,J.H.、Rodrigues,A.V.、van Dijk,A.A.、Ebrecht,A.C.、Opperman,D.J.、Sagmeister,T.、Buhlheller,C.、Pavkov-Keller,T。,Rathinaswamy,M.K.,Dalwadi,U.,Yip,C.K.,Burke,J.E.,Garcia,K.C.,Grishin,N.V.,Adams,P.D.,Read,R.J.&Baker,D.(2021)。科学类,373, 871–876.
- Bahat,Y.,Alter,J.&Dessau,M.(2020年)。程序。美国国家科学院。科学。美国,117, 26237–26244.[PMC免费文章][公共医学]
- Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012)。阿克塔·克里斯特。天68, 1622–1631. [公共医学]
- Blundell,T.L.&Johnson,L.N.(1976年)。蛋白质结晶学纽约:学术出版社。
- Brooks-Bartlett,J.C.和Garman,E.F.(2015)。Interdiscip公司。科学。版次。
40, 244–264.
- Bunkóczi,G.、Wallner,B.和Read,R.J.(2015)。结构,23, 397–406.[PMC免费文章][公共医学]
- Caballero,I.、Sammito,M.、Millán,C.、Lebedev,A.、Soler,n.和Usón,I.(2018年)。阿克塔·克里斯特。天74, 194–204.[PMC免费文章][公共医学]
- 卡拉威,E.(2020)。性质,588, 203–204. [公共医学]
- Chen,K.、Birkinshaw,R.W.、Gurzau,A.D.、Wanigasurya,I.、Wang,R.、Iminitoff,M.、Sandow,J.J.、Young,S.N.、Hennessy,P.J.,Willson,T.A.、Heckmann,D.A.、Webb,A.I.、Blewitt,M.E.、Czabotar,P.E.和Murphy,J.M.(2020年)。科学。信号。
13,eaaz5599。[公共医学]
- Claude,J.B.、Suhre,K.、Notredame,C.、Claverie,J.-M.和Abergel,C.(2004)。核酸研究。
32,W606–W609。[PMC免费文章][公共医学]
- Croll,T.I.、Sammito,M.D.、Kryshtafovych,A.和Read,R.J.(2019年)。蛋白质,87, 1113–1127.[PMC免费文章][公共医学]
- DiMaio,F.(2013)。阿克塔·克里斯特。天69, 2202–2208.[PMC免费文章][公共医学]
- Drobisheva,A.V.、Panafidina,S.A.、Kolesnik,M.V.、Klimuk,E.I.、Minakhin,L.、Yakunina,M.V.、Borukhov,S.、Nilsson,E.、Holmfeldt,K.、Yutin,N.、Makarova,K.S.、Koonin,E.V.、Severinov,K.V.、Leiman,P.G.和Sokolova,M.L.(2021)。性质,589, 306–309. [公共医学]
- Eckenroth,B.E.,Cao,V.B.,Averill,A.M.,Dragon,J.A.&Doublié,S.(2021年)。结构,29, 29–42.[PMC免费文章][公共医学]
- Ewald,P.P.(1962年)。X射线衍射五十年波士顿:斯普林格。
- Philipík,P.、Latham,S.L.、Cadell,A.L.、Day,C.L.、Croucher,D.R.和Mace,P.D.(2020年)。程序。美国国家科学院。科学。美国,117, 21308–21318.[PMC免费文章][公共医学]
- Flower,T.G.和Hurley,J.H.(2021)。蛋白质科学。
30, 728–734.[PMC免费文章][公共医学]
- Gandini,R.、Reichenbach,T.、Spadiut,O.、Tan,T.C.、Kalyani,D.C.和Divne,C.(2020年)。分子生物学杂志。
432, 4658–4672. [公共医学]
- Garcia-Doval,C.、Schwede,F.、Berk,C.、Rostöl,J.T.、Niewoehner,O.、Tejero,O.,Hall,J.、Marraffini,l.A.和Jinek,M.(2020年)。国家公社。
11, 1596.[PMC免费文章][公共医学]
- Glykos,N.M.和Kokkindis,M.(2001年)。阿克塔·克里斯特。天57, 1462–1473. [公共医学]
- Hatti,K.S.、McCoy,A.J.、Oeffner,R.D.、Sammito,M.D.和Read,R.J.(2020年)。阿克塔·克里斯特。天76, 19–27.[PMC免费文章][公共医学]
- He,X.,Chen,Y.,Beltran,D.G.,Kelly,M.,Ma,B.,Lawrie,J.,Wang,F.,Dodds,E.,Zhang,L.,Guo,J.&Niu,W.(2020年)。国家公社。
11, 4820.[PMC免费文章][公共医学]
- Hiranuma,N.、Park,H.、Baek,M.、Anishchenko,I.、Dauparas,J.和Baker,D.(2021)。国家公社。
12, 1340.[PMC免费文章][公共医学]
- Jäger,F.、Lamy,A.、Guerini,N.、Sun,W.S.和Berntsson,R.P.A.(2020年)。生物Rxiv, 2020.10.30.342212.
- Jensen,J.L.、Yamini,S.、Rietsch,A.和Spiller,B.W.(2020年)。《公共科学图书馆·病理学》。
16,e1008923。[PMC免费文章][公共医学]
- Jin,S.、Miller,M.D.、Chen,M.、Schafer,N.P.、Lin,X.、Chen、X.、Phillips,G.N.和Wolynes,P.G.(2020年)。IUCrJ大学,7, 1168–1178.[PMC免费文章][公共医学]
- Jumper,J.,Evans,R.,Pritzel,A.,Green,T.,Figurnov,M.,Ronneberger,O.,Tunyasuvunakool,K.,Bates,R.第页,M.,Berghammer,T.,Bodenstein,S.,Silver,D.,Vinyals,O.,Senior,A.W.,Kavukcuoglu,K.,Kohli,P.&Hassabis,D.(2021)。性质,596, 583–589.
- Kryshtafovych,A.、Moult,J.、Albrecht,R.、Chang,G.A.、Chao,K.、Fraser,A.、Greenfield,J.,Hartmann,M.D.、Herzberg,O.、Josts,I.、Leiman,P.G.、Linden,S.B.、Lupas,A.N.、Nelson,D.C.、Rees,S.D.、Shang,X.、Sokolova,M.L.、Tidow,H.和AlphaFold2团队(2021年)。蛋白质,89, 1633–1646.[PMC免费文章][公共医学]
- Kumar,P.和Bansal,M.(2012年)。《生物分子杂志》。结构。动态。
30, 773–783. [公共医学]
- McCoy,A.J.、Grosse-Kunstleve,R.W.、Adams,P.D.、Winn,M.D.、Storoni,L.C.和Read,R.J.(2007年)。J.应用。克里斯特。
40, 658–674.[PMC免费文章][公共医学]
- McCoy,A.J.、Oeffner,R.D.、Wrobel,A.G.、Ojala,J.R.M.、Tryggvason,K.、Lohkamp,B.和Read,R.J.(2017)。程序。美国国家科学院。科学。美国,114, 3637–3641.[PMC免费文章][公共医学]
- McCoy,A.J.、Stockwell,D.H.、Sammito,M.D.、Oeffner,R.D.、Hatti,K.S.、Croll,T.I.和Read,R.J.(2021)。阿克塔·克里斯特。天77, 1–10.[PMC免费文章][公共医学]
- Micevski,D.、Zeth,K.、Mulhern,T.D.、Schuenemann,V.J.、Zammit,J.E.、Truscott,K.N.和Dougan,D.A.(2020年)。生物分子,10, 615.[PMC免费文章][公共医学]
- Millán,C.,Keegan,R.M.,Pereira,J.,Sammito,M.D.,Simpkin,A.J.,McCoy,A.J..,Lupas,A.n.,Hartmann,M.D,Rigden,D.J.和Read,R.J.(2021)。蛋白质,89, 1752–1769.[PMC免费文章][公共医学]
- Milán,C.,Sammito,M.D.,McCoy,A.J.,Nascimento,A.F.Z.,Petrillo,G.,Oeffner,R.D.,Domínguez-Gil,T.,Hermoso,J.A.,Read,R.J.&Usón,I.(2018年)。阿克塔·克里斯特。天74, 290–304.[PMC免费文章][公共医学]
- Murshudov,G.N.、Skubák,P.、Lebedev,A.A.、Pannu,N.S.、Steiner,R.A.、Nicholls,R.A、Winn,M.D.、Long,F.&Vagin,A.(2011)。阿克塔·克里斯特。天67, 355–367.[PMC免费文章][公共医学]
- Murshudov,G.N.、Vagin,A.A.和Dodson,E.J.(1997)。阿克塔·克里斯特。天53, 240–255. [公共医学]
- Nie,L.、Pascoa,T.C.、Pike,A.C.W.、Bushell,S.R.、Quigley,A.、Ruda,G.F.、Chu,A.、Cole,V.、Speedman,D.、Moreira,T.、Shrestha,L.,Mukhopadhyay,S.M.、Burgess-Brown,N.A.、Love,J.D.、Brennan,P.和Carpenter,E.P.(2021)。自然结构。分子生物学。
28, 512–520.[PMC免费文章][公共医学]
- Oeffner,R.D.、Afonine,P.V.、Millán,C.、Sammito,M.、Usón,I.、Read,R.J.和McCoy,A.J.(2018)。阿克塔·克里斯特。天74, 245–255.[PMC免费文章][公共医学]
- Oeffner,R.D.,Bunkóczi,G.&Read,R.J.(2018)。计算。Crystallogr公司。纽斯利特。
三, 5–10.
- Pereira,J.、Simpkin,A.J.、Hartmann,M.D.、Rigden,D.J.、Keegan,R.M.和Lupas,A.N.(2021年)。蛋白质,89, 1687–1699. [公共医学]
- Qian,B.、Raman,S.、Das,R.、Bradley,P.、McCoy,A.J.、Read,R.J.和Baker,D.(2007)。性质,450, 259–264.[PMC免费文章][公共医学]
- Read,R.J.(1986年)。阿克塔·克里斯特。A类42, 140–149.
- Read,R.J.和McCoy,A.J.(2016)。阿克塔·克里斯特。天72, 375–387.[PMC免费文章][公共医学]
- Rigden,D.J.、Thomas,J.M.H.、Simkovic,F.、Simpkin,A.、Winn,M.D.、Mayans,O.和Keegan,R.M.(2018)。阿克塔·克里斯特。天74, 183–193.[PMC免费文章][公共医学]
- 罗德里格斯(Rodríguez,D.D.)、格罗斯(Grosse,C.)、希梅尔(Himmel,S.)、冈萨雷斯(González,C.),德伊拉杜亚(de Ilarduya,I.M.)、贝克尔(Becker,S.,Sheldrick,G.M.&Usón,I.(2009)。自然方法,6, 651–653. [公共医学]
- Rupp,B.(2010年)。生物分子晶体学:结构生物学的原理、实践和应用。纽约:加兰科学。
- Sakurai,S.、Shimizu,T.和Ohto,U.(2020年)。阿克塔·克里斯特。F类76, 326–333.[PMC免费文章][公共医学]
- Sammito,M.、Meindl,K.、de Ilarduya,I.M.、Millán,C.、Artola-Recolons,C.、Hermoso,J.A.和Usón,I.(2014)。FEBS J公司。
281, 4029–4045. [公共医学]
- Sammito,M.、Millán,C.、Frieske,D.、Rodríguez-Freire,E.、Borges,R.J.和Usón,I.(2015)。阿克塔·克里斯特。天71, 1921–1930. [公共医学]
- Scapin,G.(2013)。阿克塔·克里斯特。天69, 2266–2275.[PMC免费文章][公共医学]
- Sehnal,D.、Bittrich,S.、Deshpande,M.、Svobodová,R.、Berka,K.、Bazgier,V.、Velankar,S.,Burley,S.K.、Ko cha,J.和Rose,a.S.(2021年)。核酸研究。
49,W431–W437。[PMC免费文章][公共医学]
- Service,R.F.(2018)。科学类, http://doi.org/10.1126/science.aaw2747。
- Sheldrick,G.M.(2008)。阿克塔·克里斯特。A类64, 112–122. [公共医学]
- Simpkin,A.J.、Thomas,J.M.H.、Simkovic,F.、Keegan,R.M.和Rigden,D.J.(2019年)。阿克塔·克里斯特。天75, 1051–1062.[PMC免费文章][公共医学]
- Sjodt,M.、Brock,K.、Dobihal,G.、Rohs,P.D.A.、Green,A.G.、Hopf,T.A.、Meeske,A.J.、Srisuknimit,V.、Kahne,D.、Walker,S.、Marks,D.S.、Bernhardt,T.G.、Rudner,D.Z.和Kruse,A.C.(2018年)。性质,556, 118–121.[PMC免费文章][公共医学]
- Terwilliger,T.C.,DiMaio,F.,Read,R.J.,Baker,D.,Bunkóczi,G.,Adams,P.D.,Grosse-Kunstleve,R.W.,Afonine,P.V.&Echols,N.(2012)。J.结构。功能。基因组学,13, 81–90.[PMC免费文章][公共医学]
- Terwilliger,T.C.、Grosse-Kunstleve,R.W.、Afonine,P.V.、Moriarty,N.W.,Zwart,P.H.、Hung,L.-W.、Read,R.J.和Adams,P.D.(2008)。阿克塔·克里斯特。天64, 61–69.[PMC免费文章][公共医学]
- Thomas,J.M.H.、Keegan,R.M.、Bibby,J.、Winn,M.D.、Mayans,O.和Rigden,D.J.(2015)。IUCrJ大学,2, 198–206.[PMC免费文章][公共医学]
- Tunyasuvunakool,K.、Adler,J.、Wu,Z.、Green,T.、Zielnski,M.、Cahiídek,A.、Bridgeland,A.、Cowie,A.、Meyer,C.、Laydon,A.、Velankar,S.、Kleywegt,G.J.、Bateman,A.、Evans,R.、Pritzel,A.、Figurnov,M.,Ronneberger,O.、Bates,R.,Kohl,S.A.、Potapenko,A.、Ballard,A.J.、Romera-Pardes,B.、Nikolov,S.,Jain,R.和Clancy,E.、雷曼、,D.、Petersen,S.、Senior,A.W.、Kavukcuoglu,K.、Birney,E.、Kohli,P.、Jumper,J.和Hassabis,D.(2021)。性质,596, 590–596.
- Wang,Y.、Virtanen,J.、Xue,Z.和Zhang,Y.(2017)。核酸研究。
45,W429–W434。[PMC免费文章][公共医学]
- Wilson,A.J.C.(1949年)。阿克塔·克里斯特。
2, 318–321.
- Winn,M.D.,Ballard,C.C.,Cowtan,K.D.,Dodson,E.J.,Emsley,P.,Evans,P.R.,Keegan,R.M.,Krissinel,E.B.,Leslie,A.G.W.,McCoy,A.,McNicholas,S.J.,Murshudov,G.N.,Pannu,N.S.,Potterton,E.A.,Powell,H.R.、Read,R.J.、Vagin,A.&Wilson,K.S.(2011)。阿克塔·克里斯特。天67, 235–242.[PMC免费文章][公共医学]
- Zemla,A.(2003)。核酸研究。
31, 3370–3374.[PMC免费文章][公共医学]
- Zhu,P.,Yu,X.,Wang,C.,Zhang,Q.,Liu,W.,McSweeney,S.,Shanklin,J.,Lam,E.&Liu,Q.(2020年)。国家公社。
11, 2249.[PMC免费文章][公共医学]
- Zimanyi,C.M.、Guo,M.、Mahmood,A.、Hendrickson,W.A.、Hirsh,D.和Cheung,J.(2020年)。结构,28, 1051–1060.[PMC免费文章][公共医学]
- Zwart,P.H.、Grosse-Kunstleve,R.W.和Adams,P.D.(2005)。CCP4新闻。蛋白质结晶仪。
43, 27–35.