Putting AlphaFold models to work with phenix.process_predicted_model and ISOLDE

Oeffner, R.D.; Croll, T.I.; Millán, C.; Poon, B.K.; Schlicksup, C.J.; Read, R.J.; Terwilliger, T.C.

doi:10.1107/S2059798322010026

研究论文

结构
生物学

编号：2059-7983

第78卷| 第11部分| 2022年11月| 第1303-1314页

https://doi.org/10.107/S2059798322010026

打开

访问

放字母折叠要使用的模型菲尼克斯进程预测模型和ISOLDE公司

罗伯特·D·奥夫纳，^一特里斯坦·I·克罗尔，^一克劳迪娅·米兰，^一比利·K·潘，^b条克里斯托弗·施利克索普，^b条兰迪·里德 ^一 ^*和汤姆·C·特威利格 ^c（c）^*

^一剑桥大学血液学系，剑桥医学研究院，剑桥生物医学校区，英国剑桥CB2 0XY Hills Road Keith Peters Building，^b条分子生物物理和集成生物成像，美国加州伯克利市劳伦斯伯克利国家实验室（LBNL）33R0349号楼，邮编：94720-8235^c（c）新墨西哥州联盟，洛斯阿拉莫斯国家实验室，100 Entrada Drive，Los Alamos，NM 87544，USA
^*通信电子邮件：邮箱：rjr27@cam.ac.uk，tterwilliger@newmexicoconsortium.org

英国利物浦大学综合生物学研究所S.Antonyuk编辑(收到日期：2022年7月22日； 2022年10月13日接受；在线2022年10月27日)

字母折叠最近已成为提供实验模型的重要工具结构测定通过X射线晶体学和低温电子显微镜，预测模型的大部分通常接近实验确定结构的精度，尽管在畴的相对方向上经常存在局部误差和误差。重要的是，蛋白质模型中的残基由字母折叠标记有预测的局部距离差异测试分数，告知用户预测结构的哪些区域时信心不足。字母折叠还生成一个预测的对齐误差矩阵，表示其对预测模型中每对残差的相对位置的置信度。这个菲尼克斯进程预测模型工具降低或删除低置信残差，并可以将模型分解为自信预测的域，以准备分子置换或低温电磁对接。这些置信度指标进一步用于ISOLDE公司加权扭转和原子-原子距离约束字母折叠以交互方式重新排列模型，以匹配停靠的片段，并减少重建连接区域的需要。

关键词： 字母折叠;凤凰;ISOLDE公司;进程预测模型;置信度.

类似文章

1.简介

直到最近，高分子的典型工作流程晶体结构解决方案大致遵循以下协议。首先，收集衍射数据并确定数据中可能的病理。第二，数据的阶段分子置换（MR）使用来自蛋白质数据库（PDB；Berman）的同源物等。, 2003 ). 在困难的情况下，测试不同的模型制备方法、不同的同系物和同系物的集合。如果MR失败或PDB中没有同源物，尝试使用实验阶段化方法解决结构。

在该协议中，MR的定相步骤本质上是一个刚性体精细化以最佳匹配衍射数据。模型的适当部分可以分解为多个域，并细化为独立的刚体，如果域的相对方向不正确，则可以提高与数据的一致性。如果模型不是一个密切的同源物，通常会出现这种情况。然而，如果不需要将模型分解为域，则会受到惩罚，因为各个域的正确位置和方向的得分值越小，越小。已经制定了一些详细的战略来解决这一局限性。例如，在阿西姆博尔多（密兰等。, 2015 )阶段化是用引导的SHELXE公司（Thorn&Sheldrick，2013）)使用二级结构元素的小片段或片段库中的折叠。在充足的管道（Bibby等。, 2012 ),从头算生产的模型罗塞塔（简短等。, 1998 )用于对小型结构进行相位调整，随后使用SHELXE公司。此类协议在结构大小或X射线数据分辨率方面具有固有的限制，并且所需的CPU时间随着问题的难度而急剧增加。

随着字母折叠（跳线等。, 2021 )分阶段步骤在实践中变得简单得多。无论PDB中是否存在紧密同源物，或者充其量只有遥远同源物字母折叠模型的质量通常足以解决MR问题。实验阶段化正在成为少数结构的利基方法字母折叠未能提供一个好的模型（McCoy等。, 2022 ). 因为初始模型通常要好得多，尤其是当PDB中没有紧密同源物时，并且它们已经拥有正确的序列、模型构建过程，精细化验证通常也要简单得多。

模型预测字母折叠重新调整用途B类-pLDDT的PDB文件的因子列，局部距离差测试（LDDT）分数的预测值（Mariani等。, 2013 ). 因此，有必要将这些值转换为相应的B类在求解结构的软件中使用模型文件之前，需要考虑各种因素。实际上，未能转换pLDDT值将阻碍结构求解，因为它们与B类因子：如果不进行转换，最大置信残差将在MR计算中得到最小权重。

对于低温-EM结构测定没有相位问题，但可用性字母折叠模型类似地大大简化了构建初始模型（通过对接各个刚性组件），然后重新构建和细化模型的过程。

这个菲尼克斯进程预测模型工具可以轻松集成字母折叠模型进入结构求解管道，即使是临时用户。在下面，我们描述了菲尼克斯进程预测模型以及如何将其集成到凤凰软件套件（Liebschner等。, 2019 )与一起字母折叠。我们展示了它在中的三个使用示例分子替换。前两个示例应用了两种不同的方法将预测模型分割为各个域，从而成功地进行了MR计算。第三个例子讨论了一个案例，其中菲尼克斯进程预测模型去除预测模型的低置信区域，否则会在随后的MR计算中导致严重的填充冲突。此外，我们还讨论了如何将PAE矩阵用于ISOLDE公司在分辨率较低的具有挑战性的结构中，需要对连接区域进行大规模重建。在这里，我们展示了如何将对接的MR碎片用作重新建模完整预测模型的指南ISOLDE公司在置信加权距离和扭转约束的支持下。这种方法允许快速建模柔性连接区域，在当前标准实践中，通常通过多轮自动和/或手动跟踪剩余密度来跟踪这些区域。

2.定制字母折叠Colab笔记本到凤凰

谷歌DeepMind软件字母折叠可以在谷歌云计算平台上使用科拉布笔记本服务。这个字母折叠团队创建了字母折叠Colab笔记本和ColabFold公司团队创建了一个更简单的版本，名为冷折叠:字母折叠具有MMseqs系列2（米尔迪塔等。, 2022 ). 笔记本凤凰是进一步简化的ColabFold公司适合与一起使用的笔记本凤凰此外，它允许用户将其他模型作为模板字母折叠生成新预测模型时（特威利格等。, 2022 ). 笔记本从凤凰GUI，它在用户计算机上的默认web浏览器中打开它。

2.1. 怎么菲尼克斯进程预测模型作品

这个菲尼克斯进程预测模型该工具使用结构预测工具提供的不确定性估计B类-创建新伪模型的值（原子位移参数）字段-B类值，以删除模型的不确定部分并将模型分解为多个域。

这个B类-预测模型中的值字段可以表示三个可能值之一：实际值B类值（原子位移参数），位置误差的估计值（r.m.s.d.，见罗斯塔福尔德; 贝克等。，2021年 )或pLDDT置信度，范围为0到1或0到100。

在菲尼克斯进程预测模型，位置误差估计值或置信值用于剪除最不可靠的残差，然后转换为B类剩余残留物的值。最后，这些残基被选择性地分组为域。

3.将误差估计值转换为B类值

位置误差估计值转换为B类使用标准公式（1）的值)3D r.m.s.位置变化之间的关系Δ和相应的B类值，

$[B={{8{\pi^2}{{{\Delta}}^2}}\over 3}.\eqno（1）]$

这个的应用B类该值的效果是，在对应于输入r.m.s.d.的三维高斯概率上涂抹原子的电子密度（Read，1990 ). 我们之前已经表明，使用这种B类如果误差估计是可靠的，那么在MR中使用模型的较不可靠部分的权重值会为预测模型增加相当大的价值（Bunkóczi等。, 2015 ; 克罗尔等。, 2019 ; 密兰等。, 2021 ).

3.1. 将pLDDT值转换为误差估计

因为字母折叠脚本可以根据pLDDT值是以分数还是百分比来报告进程预测模型脚本首先确保将它们设置为0到1的小数位数。用户可以明确指定比例；否则，将根据观测值的范围自动推断刻度。

然后将0到1范围内的pLDDT值转换为误差估计值Δ使用经验公式（贝克等。, 2021; 平沼等。，2021年 ),

$[\Delta=1.5\exp[4（0.7-{\rm pLDDT}）]。\方程式（2）]$

这个经验公式产生与直觉一致的结果，估计的均方根误差接近25 φ（与随机折叠一致），pLDDT为0和0.45 λ表示pLDDT为1，类似于同一蛋白质不同晶体形式之间的坐标差异。pLDDT值0.7（下文建议将其作为丢弃低置信区域的默认阈值）对应于1.5的估计均方根误差 Å.

3.2. 从预测模型中剔除低置信区域

虽然通过降低预计只有中等误差的区域的权重，MR和对接的相当大的价值被添加到预测结构中，但我们发现通常最好完全删除非常低的置信区域。这有两个原因。首先，低置信度区域经常处于折叠不良的构象中，导致晶体填充中的冲突。其次，针对C的位置校准pLDDT和r.m.s.分数^α原子。当预测准确时，类似的坐标误差可能适用于残留物中的其他原子，但当预测置信度较低时局部构象增加了其他原子的预期误差。包括超重的低置信残基会降低LLG评分；这最多会减慢计算速度，但最糟糕的是，找到清晰解决方案所需的信号可能会丢失。

中的默认阈值菲尼克斯进程预测模型是0.7的分数pLDDT值，换算为1.5的r.m.s.d.值奥或到aB类值约为60 Å²。此阈值由用户控制。

4.将修剪后的模型拆分为域

当链内各域的相对方向不确定时，通常可以将预测结构划分为单独的刚体，这些刚体可以通过以下方式独立放置分子置换（晶体学）或通过对接（cryo-EM）。对修剪低置信度区域后剩余的链部分进行目视检查可以有效地识别紧致域，但自动化方法有助于结构确定管道。

中提供了两种方法菲尼克斯进程预测模型一种是基于仅使用结构信息找到紧凑域，而另一种是通过解析预测对齐误差（PAE）矩阵（对于字母折叠仅适用于型号）。

4.1. 从低分辨率模型表示中查找域

使用的方法是基于输入模型计算低分辨率贴图，然后识别该低分辨率贴图中可能对应于域的大斑点。低分辨率贴图是按照域_大小关键字（默认值15 Å). 对这张地图进行分析，以确定密度斑点。所使用的策略是在地图中找到一个高到足以不包含大量噪声的等高线级别（默认值至少是地图中最大密度的一半），并且低到足以具有多个区域。然后以不同的截止水平绘制低分辨率地图的轮廓，范围从地图中最大密度的一半到地图中的最大密度。对于每个截断，将标识地图中所有相邻区域，其中一个区域中的所有点都具有高于截断的值。然后选择产生最大数量唯一连续区域的截止点，并记录相应的连续区域。然后，通过将与现有区域相邻的所有点按顺序指定给该区域，将地图中的每个点指定给这些唯一区域之一，直到指定了所有点。指定所有区域后，每个C^α原子在字母折叠模型被分配给它所在的区域，导致域被表示为字母折叠模型，每个区域对应一个域。最后，调整残基到域的分配，以消除非常短的片段（默认为10个或更少的残基，通过将短片段移动到包含相邻残基的域中来完成）并确保可以分配给两个域中任一域的段放置在联系人数量最多的域中。

使用此方法时，建议调整获得的域数的方法是更改目标域大小（默认半径为15 Å). 或者，可以使用maximum_domains（最大域）关键字（默认为3）。

此方法通常适用于以下预测的模型字母折叠也适用于其他来源的模型，例如低温电磁结构。

4.2. 通过分析预测对齐误差（PAE）矩阵查找域

此方法分析由提供的PAE矩阵字母折叠并发现具有较小相互对齐误差的残差分组，这些残差分组通常对应于域。

请注意，PAE矩阵不是对称的，因为条目ij公司表示残差位置的预期误差j个当残留物我模型的残差叠加在真实结构中的相同残差上。如果残留物的局部主链构象我比残留物的局部主链构象更不确定j个，条目ij公司在矩阵中，将指示比条目更大的错误吉与此类似的是，一名水手在波涛汹涌的海面上驾驶着双筒望远镜，将双筒望远镜对准陆地上的灯塔。虽然水手经常会错过对灯塔的关注，但灯塔管理员很容易观察到船上的水手在波浪上上下浮动。这两个条目中较低的条目更好地指示了它们在空间中的相对位置的已知程度，因此，通过将所有非对角线条目对设置为两个值中较低者来预处理PAE矩阵。

通过对预处理的PAE矩阵进行社区聚类分析，识别出相互误差较小的残差分组。每个残差被视为图中的一个节点，并且在每对残差之间形成一条边，其中相互PAE低于c（c）（通常情况下c（c）= 5 Å); 边缘的权重为（PAE）^−第页，通常情况下第页 = 1. 截止日期c（c）和权重指数第页用户可通过pae_自动化和pae_电源参数；可选地，可以根据C之间的距离进一步加权边缘^α原子。然后使用中实现的Clauset–Newman–Moore贪婪模块化最大化算法对图进行分区网络X（哈格伯格等。, 2008 ; 克劳塞特等。, 2004 ).

在凤凰1.20，建议调整找到的域数的方法是更改pae_电源，值越大，域越多。在即将发布的Python 3版本中凤凰可以通过graph_resolution论证（在实施的文件中讨论网络X)值越高，域的数量就越多。使用maximum_domains（最大域）关键字如上所述。

4.3. 结构域大小和数目对分子替换的影响

MR成功的机会可以通过LLG（eLLG）的预期值来判断，可以从数据质量和范围、非对称单元由模型和模型预测的有效均方根误差（Oeffner等。, 2018 ). 如果多域模型具有相对于目标结构的大量域运动，则整个模型的有效均方根误差将远大于单个域的有效均方根误差。在这种情况下，必须将模型划分为单独的刚性域，这将产生更高的LLG值。考虑到eLLG取决于模型完整性的平方，对于单个域的大小有一个限制（取决于数据分辨率），并且在MR搜索中仍然会给出重要的信号。因此，建议如下：相位器（麦考伊等。, 2007 )在MR计算之前，通知用户搜索组件的大小是否足以成功进行首次放置以及后续放置。

eLLG计算及其推导的策略取决于分配给模型的均方根误差。在…出现之前字母折叠从同系物获得的模型所需的坐标误差主要来自未知结构的序列恒等式（Hatti等。, 2020 ). 虽然我们还没有对字母折叠模型，迄今已有数十个模型的经验进程预测模型建议值为1 奥数是一个合理的起始估计数。

注意，如果进程预测模型表明字母折叠模型应划分为多个域，但相位器然后预测结构求解将非常困难，通过在MR测试的模型中包含较大的模型来测试相对领域方向确实正确的可能性可能会很有成效。

5.使用菲尼克斯进程预测模型

的典型命令行调用菲尼克斯进程预测模型如下所示：phenix.process_predicted_model my_model.pdb b_value_field_is=lddt pae_file=我的pae.json.

这将转换B类-中的值字段我的模型.pdb从pLDDT得分到B类值，修剪pLDDT小于0.7的残基，并写出一个新模型，其中包含与从PAE矩阵中识别的域相对应的单链（单独的链ID值）我的名字.json。可以通过命令查看其他可选参数的列表phenix.process_predirected_model--显示默认值.

这个菲尼克斯进程预测模型也可以使用凤凰图形用户界面。使用默认值可能会或可能不会生成所需数量的域。在这种情况下，建议尝试第4.1节中描述的参数的非默认值和4.2.

注意，对于多聚体预测，使用PAE矩阵的域解析不可用，一次只能处理一条链。

6.置信加权距离和扭转约束ISOLDE公司

众所周知，当初始模型与实验确定的映射明显不同步时，需要某种形式的构象约束，以防止梯度驱动柔性拟合（Trabuco等。, 2009 )，其中每个重原子简单地偏向最近的高密度区域。在晶体学环境中尤其如此，模型中严重位移的部分通常与对称邻域的强密度重叠。然而，过度限制模型通常是明智的，因为这将阻止成功拟合实验构象与正确放置的模型略有不同的位置。如前所述（Croll&Read，2021 ),ISOLDE公司基于最初推导用于机器学习的“自适应”损失函数，实施距离和扭转约束方案（Barron，2019 ). 虽然这些方案的设计是为了支持在应用偏差的强度、宽度和下降率方面的置信度编码（在预应变的基础上）字母折叠这种灵活性在很大程度上没有得到利用。自1.3版起，ISOLDE公司已利用字母折叠pLDDT值用于调整每个扭转约束，剩余–剩余PAE值用于调整距离约束（并完全排除低置信距离）。这些约束的当前形式如图1所示扭转和图2中距离。可以通过隔离约束扭转和隔离约束距离使用参数的命令信心调整为真.英寸ISOLDE公司1.3距离约束的置信度加权仅适用于从字母折叠蛋白质结构数据库；ISOLDE公司1.4支持使用任何用户提供的字母折叠预测及其相关的PAE矩阵。

图1
中参考模型扭转约束的默认权重ISOLDE公司根据pLDDT。这个φ，ψ并且（如果模板和模型残留物具有相同的标识）χ基于匹配模板残基的pLDDT来约束给定残基中的二面体；这个ω二面体被限制为顺式或反式±30°，使用平底扭转约束ISOLDE公司模板pLDDT小于50的残留物不受限制。

图2
中参考模型距离约束的默认权重ISOLDE公司根据最小值(我，j个)、PAE(j个，我)]. 在这里d日₀是给定约束原子对与模板中的距离d日是工作模型中的当前瞬时距离。相互PAE值大于4的成对残基之间不形成约束 Å. 这样做最重要的结果是，它避免了在一些常见的场景中引入虚假约束，其中字母折叠由于随机机会，将没有真实世界交互的域放置在附近。

对于给定的残留物φ，ψ和χ二面体具有相同的权重和置信项。原则上，它可能比外部的减轻重量约束更好χ二面体，在实践中我们发现，对于大多数高置信度残基，特别是那些形成蛋白质填充核心的残基，预测的侧链几何形状对所有二面体都是正确的。因此，全面降低侧链二面体约束可能会适得其反。

7.工作示例

7.1. 工作示例1：分子置换具有从PAE矩阵派生的域

作为第一个测试用例，我们选择了PDB条目6l5升，的晶体结构人DExD-box RNA解旋酶DDX21的apo状态（Chen等。, 2020 ). 该结构于2020年6月17日发布，因此在字母折叠培训数据集，基于截至2018年4月30日PDB的结构。数据包含7209次反射，分辨率高达3.1 Å.

372个残基的序列提交给字母折叠（通过菲尼克斯公司笔记本），关闭使用PDB中的模板的选项。每个残基的相关pLDDT得分和PAE矩阵如图3所示.

图3
由凤凰Colab预测结构的笔记本字母折叠PDB条目的氨基酸序列6升15升(一)PAE矩阵，从蓝色到红色，用于预测从低到高的对齐误差。(b条)pLDDT（百分比标度）作为残数的函数。

PAE矩阵的可视化表示基于ColabFold公司团队（米尔迪塔等。, 2022). 预测模型和PAE矩阵用作输入菲尼克斯进程预测模型将模型划分为不同的域，如图4所示(b条). 使用默认参数时，基于结构的域标识算法（不使用PAE矩阵）无法识别这些域，尽管我们没有调查它是否可以使用一些非默认参数成功。

图4
(一)人类DExD-box RNA解旋酶DDX21的未加工结构，由预测字母折叠，由中的pLDDT值着色B类-PDB文件的factor字段。颜色从蓝色到绿色再到红色变化平稳，分别对应于pLDDT值100、80和0。标记N-和C-末端（残基1和372）。残留物216被标记为通过对分子的目视检查发现的刚性结构域之间的潜在边界。(b条)处理后的预测构造叠加在沉积目标构造上，PDB入口6l5升，灰蓝色，使用二级结构匹配(SSM公司; Krissinel&Henrick，2004年

). (c（c）)加工和预测结构的成功MR解决方案分为两条链，去掉pLDDT小于70的残基。MR解叠加在目标结构上phenix.find_alt_orig_sym_日期，说明允许的对称性和原点偏移。数字是用中央处理器4毫克版本2.10（McNicholas等。, 2011

在图4中(一)我们注意到残基Thr216连接潜在的紧域。该剩余数也位于图3中沿着PAE矩阵对角线的两个深蓝色正方形之间的边界附近(一)并得出图3中的最小pLDDT值(b条). 这些观察结果支持了Thr216周围的残基形成结构域边界的发现。

处理后字母折叠模型中的pLDDT值B类-新模型的因子列已转换为伪-B类因素，使处理后的模型能够用于后续的结构求解程序。

7.1.1. 测试预测PDB进入的模型6l5升在分子置换计算中

预测PDB入口结构的加工模型的MR计算6l5升用相位器（麦考伊等。, 2007). 使用的硬件是一台Windows 10 64位台式PC，带有8核Intel Xeon CPU（3 GHz）和32 GB内存。第一次计算是将预测模型作为一个单独的集合进行的，而不是划分为各个域。MR计算终止失败。

对于第二个计算菲尼克斯进程预测模型如图4所示(c（c）)作为两个单独的搜索集合用于MR计算。MR计算成功地放置了LLG值为567且TFZ得分为21的两个分量。在这两种情况下，一般估计的均方根误差为Δ= 1.0 奥与沉积序列和反射数据文件一起使用。在上述计算案例中相位器细化输入Δ均方根值为1.02和0.92 两个搜索组件链的A类和B类分别是。这为我们从其他测试得出的非正式结论提供了支持Δ= 1.0 “o”是适当的通用输入值。

沉积层顶部双链MR溶液的叠加晶体结构使用phenix.find_alt_orig_sym_日期（欧夫纳等。, 2012 )如图4所示(c（c）). 两个搜索组件都很好地叠加到目标结构上SSM公司将r.m.s.d.值报告给0.83和1.16的沉积目标结构链条的A类和B类分别是。

7.2. 示例2：分子置换具有源自低分辨率blob的域

作为第二个测试用例，我们选择了PDB条目6j09年，的晶体结构属于流感嗜血杆菌巴马语（Ma等。, 2019 ). 该结构于2019年10月30日发布，因此在字母折叠培训数据。由于该结构由MR根据2007年发布的结构进行求解，人们可能预计预测的结构基本上是正确的，但内部域运动使这一点复杂化。数据包含12个 972次反射，分辨率达到3.0 Å.

333个残基的序列提交给字母折叠（通过凤凰Colab上述笔记本）。每个残基的相关pLDDT评分和PAE矩阵如图5所示.

图5
由菲尼克斯公司预测结构的笔记本字母折叠PDB条目的氨基酸序列6j09年(一)PAE矩阵，从蓝色到红色，用于预测从低到高的对齐误差。(b条)pLDDT（百分比标度）作为残数的函数。

使用非默认值域大小=19.0，菲尼克斯进程预测模型将预测模型分成三条链。图5所示的PAE矩阵(一)在视觉上暗示存在三个或四个域。然而，当菲尼克斯进程预测模型提供了该PAE矩阵，它没有将模型划分为单独的链。与前面的示例一样，我们没有研究在中使用PAE矩阵时，某些非默认参数集是否会产生三条链菲尼克斯进程预测模型.

7.2.1. 测试预测PDB进入的模型6j09年在分子置换计算中

第一次计算是在保留为一个刚性搜索模型的处理模型上进行的，如图6所示MR解决方案不正确，相应的分数较差（LLG=24.6，TFZ=6.2）。这个SSM公司图6中的叠加(b条)表明，当使用处理后的模型作为一个刚性搜索模型时，内部域运动有效地防止了完美的叠加，从而防止了良好的MR解。

图6
(一)PDB条目的未处理预测结构6j09年由pLDDT着色。(b条)经过处理的预测结构分为三个域，彩色珊瑚、金色和冰蓝色，与SSM公司作为一个刚性模型，以灰色显示目标结构。(c（c）)使用以下三个域的MR解菲尼克斯进程预测模型作为搜索组件并叠加到目标结构上phenix.find_alt_orig_sym_日期。数字是用中央处理器4毫克.

然后，在不使用PAE矩阵的情况下，使用分为三个独立域的处理模型进行第二次计算，结果如图6所示(c（c）). MR计算成功，得分较高（最后一个域的LLG=1013.2，TFZ=30.7）。链的r.m.s.值A类，B类和C类如图6所示(c（c）)精炼至0.26、1.72和0.59 分别为：。报告的r.m.s.d.值SSM公司MR溶液和目标结构之间的差值为0.63、1.04和0.69 链条的A类，B类和C类分别是。

当反射的数量在数据集中相对于原子的数量足够大时，相位器经常成功地找到正确放置一个或多个域（但不是全部）的解决方案。随后的入住精细化在有利的情况下，（通过检测具有高TFZ分数的解决方案的错误冲突来触发，该分数表示置信度）将为刚性模型中错误放置的域或残数分配零占用率，否则在包装过程中会与对称副本冲突单位单元格。在上述研究中，由于这两个数据集的分辨率较低，部分正确的放置不能产生清晰的MR搜索信号，必须将搜索模型划分为不同的域以获得正确的MR解。

7.3. 工作示例3：分子置换使用低置信区域模型

这个晶体结构人类核酸外切酶5（PDB条目7升7; 汉堡等。, 2021 )说明了低置信区域遇到的问题以及删除它们的优点。此结构是在字母折叠培训已经进行。在字母折叠蛋白质结构数据库（Varadi等。, 2022 ; 跳跃者等。, 2021)，已经预测结晶蛋白的部分主链，例如从Leu31到Leu70和从Gly357到Lys373具有低LDDT值（参见S1段). 可以选择将这些部分保留在输出模型中菲尼克斯进程预测模型然而，使用保留低置信残差的模型进行的MR计算由于包装冲突而拒绝了正确的解决方案。另一方面，使用模型进行MR计算，其中菲尼克斯进程预测模型去除了低置信区域，发现了正确的解决方案，LLG得分（676）高于使用未修剪模型的被拒绝解决方案（582）。

在图7中PDB入口的未修剪预测模型7升7显示与重叠SSM公司在晶体中的目标结构上单位电池以及两个对称副本。很明显，未修剪模型无法呈现MR解。例如，未修剪模型的Lys53和Leu40周围的残基分别与Leu148和Leu192周围残基的对称副本重叠。

图7
未经修剪的预测模型（金）叠加在PDB进入的晶体结构上7升7（冰蓝色）包括两个对称副本。这个图形是用中央处理器4毫克.

7.4. 示例4：需要大量重建的低分辨率数据集

作为一个更具挑战性的示例，我们选择了PDB条目3现在，810-残留，2.99 来自的UNC-45的分辨率结构黑腹果蝇（图8; 李等。, 2011 ). UNC-45形成一个不平衡的倒V形，N末端形成较短的臂。这个字母折叠该模型在局部上相当准确，但与近似垂直于V平面的沉积结构相比，畴的相对位置相差很大，使得N端偏移约15 当C末端结构域与沉积结构对齐时。虽然天真地使用字母折叠模型（在修正低置信残差并将pLDDT分数转换为B类因子）中相位器导致C端域位置正确的解（LLG=163，TFZ=17.6），N端域与其对称等价物严重冲突，通过相位器使用PAE矩阵将模型分为两个域，包含692个残基（与沉积结构中建模的786个残基相比），这两个域提供了更高质量的解决方案（图8b条; LLG=2331，TFZ=47）。

图8
(一)PDB条目3现在（浅绿色）采用V形构造。已处理的字母折叠预测（颜色由B类因子；蓝色，0 Å²; 红色，≥100 Å²)具有明显更宽的铰链角，导致N端域与对称配对（绿色C^α跟踪）。(b条)使用从PAE矩阵确定的两个域菲尼克斯进程预测模型（紫色、橙色）产生强烈的MR溶液。

虽然此解决方案可以用作标准模型完成算法的基础，但完整的字母折叠预测允许我们探索一种潜在的更快的方法（图9和补充电影S1). 简而言之，MR解决方案仅用于提供（i）目标指南和（ii）交互式改装完整模型的初步地图ISOLDE公司。首先使用隔离约束距离和隔离约束扭转第6节中描述的命令，和映射是从相位器输出MTZ文件。在标准中ISOLDE公司通常会忽略预先计算的地图，而采用基于当前模型坐标计算的MDFF电位“live”。在这里，我们暂时禁用了此功能，而启用了相位器2毫发_o个−DF公司_c（c）地图。然后，在交互式模拟中，选择位置外的N末端结构域（大约残基140–420），并使用“拖拽选择”鼠标右键模式ISOLDE公司在我们的测试机器上（一个配备Nvidia Titan Xp GPU的双Xeon E5-2687W工作站），这一初始“总体”改装模拟花费了略多于1 分钟，并伴有R（右）系数从0.57到0.41。此时，预先计算的相位器地图被丢弃，所有进一步的重建都被执行到实时计算的地图中ISOLDE公司.

图9
中完整模型的交互式重装ISOLDE公司MR溶液显示为棕褐色色带；完整的模型在中初始化ISOLDE公司并显示为C^α跟踪。亮绿色高亮显示的区域被选中，并被中的“拖拽选择”鼠标模式拖拽ISOLDE公司，距离和扭转限制在字母折叠模型几何图形。对于此初始步骤相位器用作拟合电位；一旦总重组完成，进一步的重建将使用根据模型实时计算的结构因子。

必须强调的是字母折叠模型并不能免除用户根据实验密度仔细检查模型的需要。虽然大多数需要重建的问题都是围绕对称界面出现的，但一些远离构象变化位置的高置信度残基仍然显示出与图谱的严重偏差，例如Leu287和Trp322（图10)从错误的侧面相互堆叠；很容易推测，这导致回路C端偏离Trp322。此类错误可以在中解决ISOLDE公司通过选择性地释放局部参考约束，然后进行交互式重建。

图10
高pLDDT并不总是指示局部正确性。(一)尽管pLDDT得分分别高达93.9和90.5，但使用不正确的旋转异构体预测Leu297和Trp322。Trp322之后的循环也严重错误（尽管置信度明显较低）。(b条)该地区可以直接重建ISOLDE公司选择性释放局部参考约束后。在这两个面板中，地图是通过以下方式进行实时计算的ISOLDE公司.青色线框，2毫发_o个−DF公司_c（c）1.5时σ; 青色表面，2毫发_o个 −DF公司_c（c）(B类_锋利的= 30 Å²)在2σ; 绿色和红色线框，毫发_o个−DF公司_c（c）在+3σ和−3σ分别是。

除了590–620回路（图8的左上角）外，从这一点重建模型通常非常简单一)，经过a～30 在初始模型中，奥向下移动到对称界面中叠加，并与对称接触严重重叠。虽然直接从最初的模型进行重新设计，但在ISOLDE公司，一个同样有效的选项可能是首先删除此循环，然后重新构建模型的其余部分精细化。首次传入ISOLDE公司重点重建显示主要错误的局部区域（对称冲突和与地图的大偏差）；之后精细化结果的菲尼克斯定义我们进行了第二次端到端检查和重建，然后进行了最终检查精细化。总的来说，这个过程花费了大约半个工作日；生成的模型比原始模型多了一个残差，显示出显著改进的几何结构，并使用R（右）与原始因素相当或略好的因素（表1). 最终模型与原始模型的叠加如图11所示我们注意到，在这一阶段，该图显示了许多添加有序溶剂分子的机会；虽然我们放置了六个水域，但完整的覆盖范围超出了这份手稿的范围。

表1
原始PDB条目和概要PDB条目的模型统计数据比较3新

请注意，新模型是使用不同的自由反射集构建的，因此R（右）这些因素不具有直接可比性。

	原件	修订过的
分辨率范围	49.2–2.99 (49.2–6.44)	49.2–2.99 (49.2–7.03)
优化中使用的反射	39320 (3335)	39335（2509）
反射用于R（右）_自由的	1865 (153)	1883 (110)
R（右）_工作	0.1923 (0.2901)	0.1967 (0.2943)
R（右）_自由的	0.2256 (0.3351)	0.2151 (0.3239)
非H原子数量	6077	6094
蛋白质残留物	786	787
R.m.s.d.，粘结长度（Ω）	0.013	0.007
R.m.s.d.，角度（°）	1.42	0.94
拉马钱德兰支持（%）	91.58	97.83
允许Ramachandran（%）	7.53	2.17
Ramachandran异常值（%）	0.89	0
拉马钱德兰Z轴-分数	−4.62	−1.38
旋转器异常值（%）	4.84	0.30
冲撞得分	18.44	0.16

图11
年经过两轮重建后的最终模型ISOLDE公司具有精细化在里面菲尼克斯定义（颜色由B类因子：蓝色，35 Å²; 红色，≥135 Å²)覆盖原始PDB条目3现在.

8.讨论

将搜索模型分割为适用于MR的独立刚性碎片，在历史上一直是自动化的一个挑战，并且常常留给个别晶体学家的直觉。此外，使用远距离同源物进行阶段划分通常具有挑战性，通常需要对不同水平的模型截断进行多次试验才能找到可行的解决方案。自从字母折叠第二个挑战已基本消除：在分解成域之后，通常只需要删除最灵活和/或不确定的循环和尾部，就可以成功地进行阶段化。

这个菲尼克斯进程预测模型工具提供了将模型自动分解为域的基础。它是通用的，可以应用于将模型拆分为结构域，而不管模型是如何导出的。如果它是来自字母折叠它可以使用相关的PAE矩阵，而如果它是从不同的预测算法或X射线或低温电子显微镜等实验中导出的模型，它将使用模型本身的信息将其划分为域。根据模型中域之间的预期大小或距离，在特定情况下，对于给定模型，一种或另一种方法可能更可取。在任何情况下，自动分解成结构域通常会产生在MR中表现良好的片段。这允许整合到大分子结构溶液管道中。

除最普通的情况外，所有适用于MR的刚性碎片都不会对应于整个结构。MR成功后，典型的当前方法是将缺失的残留物追溯到残留物密度，通常需要多次重建/细化循环才能达到收敛。现代结构预测通常具有良好的局部几何形状，与大规模区域定位的实验结构、回路和尾部的布置以及偶尔出现的旋转仪误差不同。这允许一种潜在的更省时、更节能的方法，我们在这里已经探讨过了：使用MR解决方案结合置信加权约束，将完整模型的匹配部分引导到停靠位置，允许剩余结构的大部分自然沉降。在当前ISOLDE公司实现这允许“从头开始”重述PDB条目3现在在不到一天的时间里，在一个工作站上。

第7.1节示例中使用的两种蛋白质和7.2未构成的训练集的一部分字母折叠尽管最初用于求解它们的MR模型确实如此。然而，作为字母折叠实现蛋白质序列和生成的蛋白质结构之间的无硬编码对应，并且由于禁用了使用相关结构作为模板的选项，因此这些结构对于测试字母折叠以及预测模型对后续下游结构求解程序的适用性。

蛋白质结构AI预测的发展目前是一个活跃的研究领域，我们预计提供给菲尼克斯进程预测模型可能会随时间变化。

支持信息

支持信息文件的详细信息。内政部：https://doi.org/10.107/S2059798322010026/ai5009sup1.pdf

凤凰AlphaFold Colab笔记本预测了PDB条目6j09的结构。内政部：https://doi.org/10.107/S2059798322010026/ai5009sup2.pdb

PAE矩阵作为文本文件6J09_1_cycle_1_PAE_cycle_1.jsn，由Phenix AlphaFold Colab笔记本电脑制作，如第S2节所述。内政部：https://doi.org/10.107/S2059798322010026/ai5009sup3.txt

凤凰AlphaFold Colab笔记本预测了PDB条目6l5l的结构。内政部：https://doi.org/10.107/S2059798322010026/ai5009sup4.pdb

纯文本文件，phenix6L5L_16_1_cycle_1_PAE_cycle_1.jsn，由Phenix AlphaFold Colab笔记本电脑制作，如第S2节所述。内政部：https://doi.org/10.107/S2059798322010026/ai5009sup5.txt

AF-Q9H790-F1-model_v2.pdb，对应于pdb条目7lw7的UniProt ID Q9H780的AlphaFold预测结构。内政部：https://doi.org/10.107/S2059798322010026/ai5009sup6.pdb

AF-Q9H790-F1-predicted_aligned_error_v2.json，对应于PDB条目7lw7的UniProt ID Q9H79 0的AlphaFold预测的PAE矩阵。内政部：https://doi.org/10.1107/S2059798322010026/ai5009sup7.txt

补充电影S1。内政部：https://doi.org/10.107/S2059798322010026/ai5009sup8.mp4

资金筹措信息

以下资金已获认可：威康信托首席研究奖学金（授予Randy J.Read第209407/Z/17/Z号）；美国国立卫生研究院（Randy J.Read，Tom C.Terwilliger，批准号：P01GM063210）。

工具书类

Baek，M.、DiMaio，F.、Anishchenko，I.、Dauparas，J.、Ovchinnikov，S.、Lee，G.R.、Wang，J.，Cong，Q.、Kinch，L.N.、Schaeffer，R.D.、MilláN，C.、Park，H.、Adams，C.、Glassman，C.R.、DeGiovanni，A.、Pereira，J.H.、Rodrigues，A.V.、van Dijk，A.A.、Ebrecht，A.C.、Opperman，D.J.、Sagmeister，T.、Buhlheller，C.、Pavkov-Keller，T。，Rathinaswamy，M.K.，Dalwadi，U.，Yip，C.K.，Burke，J.E.，Garcia，K.C.，Grishin，N.V.，Adams，P.D.，Read，R.J.&Baker，D.（2021）。科学类，373, 871–876. 交叉参考中国科学院公共医学谷歌学者
 Barron，J.T.（2019）。2019年IEEE/CFF计算机视觉与模式识别会议（CVPR）第4326–4334页。皮斯卡塔韦：IEEE。谷歌学者
 Berman，H.、Henrick，K.和Nakamura，H.（2003）。自然结构。分子生物学。 10, 980. 科学网交叉参考谷歌学者
 Bibby，J.、Keegan，R.M.、Mayans，O.、Winn，M.D.和Rigden，D.J.（2012）。阿克塔·克里斯特。D类68, 1622–1631. 科学网交叉参考 IUCr日志谷歌学者
 Bunkóczi，G.、Wallner，B.和Read，R.J.（2015）。结构，23, 397–406. 科学网公共医学谷歌学者
 陈，Z，李，Z，胡，X，谢，F，匡，S，詹，B，高，W，陈，X，高，S，李，Y，王，Y，钱，F，丁，C，甘，J，吉，C，徐，X，W，周，Z，黄，J，何，H，H，和李，J（2020）。高级科学。 7, 2000532. 交叉参考谷歌学者
 Clauset，A.、Newman，M.E.和Moore，C.（2004年）。物理学。版本E，70, 066111. 交叉参考谷歌学者
 Croll，T.I.&Read，R.J.（2021）。阿克塔·克里斯特。D类77, 438–446. 交叉参考 IUCr日志谷歌学者
 Croll，T.I.、Sammito，M.D.、Kryshtafovych，A.和Read，R.J.（2019年）。蛋白质，87, 1113–1127. 科学网交叉参考中国科学院公共医学谷歌学者
 Hagberg，A.A.、Swart，P.J.和Schult，D.A.（2008）。第七届Python科学大会论文集（SciPy 2008）由G.Varoquaux、T.Vaught和J.Millman编辑，第11-15页谷歌学者
 Hambarde，S.、Tsai，C.-L.、Pandita，R.K.、Bacolla，A.、Maitra，A.、Charaka，V.、Hunt，C.R.、Kumar，R.、Limbo，O.、Le Meur，R.，Chazin，W.J.、Tsutakawa，S.E.、Russell，P.、Schlacher，K.、Pandita，T.K.和Tainer，J.A.（2021年）。分子电池，81, 2989–3006. 交叉参考中国科学院公共医学谷歌学者
 Hatti，K.S.、McCoy，A.J.、Oeffner，R.D.、Sammito，M.D.和Read，R.J.（2020年）。阿克塔·克里斯特。D类76, 19–27. 科学网交叉参考 IUCr日志谷歌学者
 Hiranuma，N.、Park，H.、Baek，M.、Anishchenko，I.、Dauparas，J.和Baker，D.（2021）。国家公社。 12, 1340. 科学网交叉参考公共医学谷歌学者
 Jumper，J.，Evans，R.，Pritzel，A.，Green，T.，Figurnov，M.，Ronneberger，O.，Tunyasuvunakool，K.，Bates，R.第页，M.，Berghammer，T.，Bodenstein，S.，Silver，D.，Vinyals，O.，Senior，A.W.，Kavukcuoglu，K.，Kohli，P.&Hassabis，D.（2021）。自然，596, 583–589. 科学网交叉参考中国科学院公共医学谷歌学者
 Krissinel，E.和Henrick，K.（2004年）。阿克塔·克里斯特。D类60, 2256–2268. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Lee，C.，Hauenstein，A.，Fleming，J.，Gasper，W.，Engelke，V.，Sankaran，B.，Bernstein，S.&Huxford，T.（2011）。结构，19, 397–408. 交叉参考中国科学院公共医学谷歌学者
 Liebschner，D.，Afonine，P.V.，Baker，M.L.，Bunkóczi，G.，Chen，V.B.，Croll，T.I.，Hintze，B.，Hung，L.-W.，Jain，S.，McCoy，A.J.，Moriarty，N.W.，Oeffner，R.D.，Poon，B.K.，Prisant，M.G.，Read，R.J.，Richardson，J.S.，Richadson，D.C.，Sammito，M.D.，Sobolev，O.V.，Stockwell，D.H.，Terwilliger，T.C.，Urzhumtsev，A.G.，Videau，L。L.、Williams、C.J.和Adams，P.D.（2019年）。阿克塔·克里斯特。D类75, 861–877. 科学网交叉参考 IUCr日志谷歌学者
 Ma，X.，Wang，Q.，Li，Y.，Tan，P.，Wu，H.，Wang。美国财务会计准则委员会J。 33, 14690–14702. 交叉参考中国科学院公共医学谷歌学者
 Mariani，V.、Biasini，M.、Barbato，A.和Schwede，T.（2013）。生物信息学，29, 2722–2728. 交叉参考中国科学院公共医学谷歌学者
 McCoy，A.J.、Grosse-Kunstleve，R.W.、Adams，P.D.、Winn，M.D.、Storoni，L.C.和Read，R.J.（2007年）。J.应用。克里斯特。 40, 658–674. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 McCoy，A.J.、Sammito，M.D.和Read，R.J.（2022）。阿克塔·克里斯特。D类78，1-13科学网交叉参考 IUCr日志谷歌学者
 McNicholas，S.、Potterton，E.、Wilson，K.S.和Noble，M.E.M.（2011年）。阿克塔·克里斯特。D类67, 386–394. 科学网交叉参考中国科学院 IUCr日志谷歌学者
 Millán，C.，Keegan，R.M.，Pereira，J.，Sammito，M.D.，Simpkin，A.J.，McCoy，A.J..，Lupas，A.n.，Hartmann，M.D，Rigden，D.J.和Read，R.J.（2021）。蛋白质，89, 1752–1769. 公共医学谷歌学者
 Milán，C.，Sammito，M.&Usón，I.（2015）。IUCrJ大学，2，95–105科学网交叉参考公共医学 IUCr日志谷歌学者
 Mirdita，M.、Schütze，K.、Moriwaki，Y.、Heo，L.、Ovchinnikov，S.和Steinegger，M.（2022）。自然方法，19, 679–682. 科学网交叉参考中国科学院公共医学谷歌学者
 Oeffner，R.、Bunkóczi，G.和Read，R.（2012）。计算。结晶器。新闻。 三, 5–10. 谷歌学者
 Oeffner，R.D.、Afonine，P.V.、Millán，C.、Sammito，M.、Usón，I.、Read，R.J.和McCoy，A.J.（2018）。阿克塔·克里斯特。D类74, 245–255. 科学网交叉参考 IUCr日志谷歌学者
 Read，R.J.（1990）。阿克塔·克里斯特。A类46，900–912交叉参考中国科学院科学网 IUCr日志谷歌学者
 肖特·D、西蒙斯·K·T和贝克·D（1998）。程序。美国国家科学院。科学。美国，95, 11158–11162. 交叉参考中国科学院公共医学谷歌学者
 Terwilliger，T.C.，Poon，B.K.，Afonine，P.V.，Schlicksup，C.J.，Croll，T.I.，Millán，C.，Richardson，J.S.，Read，R.J.&Adams，P.D.（2022）。生物Rxiv, 2022.01.07.475350. 谷歌学者
 Thorn，A.和Sheldrick，G.M.（2013）。阿克塔·克里斯特。D类69, 2251–2256. 科学网交叉参考 IUCr日志谷歌学者
 Trabuco，L.G.、Villa，E.、Schreiner，E.、Harrison，C.B.和Schulten，K.（2009年）。方法，49, 174–180. 科学网交叉参考公共医学中国科学院谷歌学者
 Varadi，M.，Anyango，S.，Deshpande，M.、Nair，S.、Natassia，C.、Yordanova，G.、Yuan，D.、Stroe，O.、Wood，G.，Laydon，A.、Zhiídek，A.、Green，T.、Tunyasuvunakool，K.、Petersen，S.和Jumper，J.、Clancy，E.、Green、R.、Vora，A.、Lutfi，M.和Figurnov，M.美国（2022年）。核酸研究。 50，D439–D444科学网交叉参考中国科学院公共医学谷歌学者

这是一篇根据知识共享署名（CC-BY）许可它允许在任何介质中不受限制地使用、分发和复制，前提是引用了原始作者和来源。