2.定制字母折叠Colab笔记本到凤凰
谷歌DeepMind软件字母折叠可以在谷歌云计算平台上使用科拉布笔记本服务。这个字母折叠团队创建了字母折叠Colab笔记本和ColabFold公司团队创建了一个更简单的版本,名为冷折叠:字母折叠具有MMseqs系列2(米尔迪塔等。, 2022). 笔记本凤凰是进一步简化的ColabFold公司适合与一起使用的笔记本凤凰此外,它允许用户将其他模型作为模板字母折叠生成新预测模型时(特威利格等。, 2022). 笔记本从凤凰GUI,它在用户计算机上的默认web浏览器中打开它。
2.1. 怎么菲尼克斯进程预测模型作品
这个菲尼克斯进程预测模型该工具使用结构预测工具提供的不确定性估计B类-创建新伪模型的值(原子位移参数)字段-B类值,以删除模型的不确定部分并将模型分解为多个域。
这个B类-预测模型中的值字段可以表示三个可能值之一:实际值B类值(原子位移参数),位置误差的估计值(r.m.s.d.,见罗斯塔福尔德; 贝克等。,2021年)或pLDDT置信度,范围为0到1或0到100。
在菲尼克斯进程预测模型,位置误差估计值或置信值用于剪除最不可靠的残差,然后转换为B类剩余残留物的值。最后,这些残基被选择性地分组为域。
3.将误差估计值转换为B类值
位置误差估计值转换为B类使用标准公式(1)的值)3D r.m.s.位置变化之间的关系Δ和相应的B类值,
这个的应用B类该值的效果是,在对应于输入r.m.s.d.的三维高斯概率上涂抹原子的电子密度(Read,1990). 我们之前已经表明,使用这种B类如果误差估计是可靠的,那么在MR中使用模型的较不可靠部分的权重值会为预测模型增加相当大的价值(Bunkóczi等。, 2015; 克罗尔等。, 2019; 密兰等。, 2021).
3.1. 将pLDDT值转换为误差估计
因为字母折叠脚本可以根据pLDDT值是以分数还是百分比来报告进程预测模型脚本首先确保将它们设置为0到1的小数位数。用户可以明确指定比例;否则,将根据观测值的范围自动推断刻度。
然后将0到1范围内的pLDDT值转换为误差估计值Δ使用经验公式(贝克等。, 2021; 平沼等。,2021年),
这个经验公式产生与直觉一致的结果,估计的均方根误差接近25 φ(与随机折叠一致),pLDDT为0和0.45 λ表示pLDDT为1,类似于同一蛋白质不同晶体形式之间的坐标差异。pLDDT值0.7(下文建议将其作为丢弃低置信区域的默认阈值)对应于1.5的估计均方根误差 Å.
3.2. 从预测模型中剔除低置信区域
虽然通过降低预计只有中等误差的区域的权重,MR和对接的相当大的价值被添加到预测结构中,但我们发现通常最好完全删除非常低的置信区域。这有两个原因。首先,低置信度区域经常处于折叠不良的构象中,导致晶体填充中的冲突。其次,针对C的位置校准pLDDT和r.m.s.分数α原子。当预测准确时,类似的坐标误差可能适用于残留物中的其他原子,但当预测置信度较低时局部构象增加了其他原子的预期误差。包括超重的低置信残基会降低LLG评分;这最多会减慢计算速度,但最糟糕的是,找到清晰解决方案所需的信号可能会丢失。
中的默认阈值菲尼克斯进程预测模型是0.7的分数pLDDT值,换算为1.5的r.m.s.d.值 奥或到aB类值约为60 Å2。此阈值由用户控制。
4.将修剪后的模型拆分为域
当链内各域的相对方向不确定时,通常可以将预测结构划分为单独的刚体,这些刚体可以通过以下方式独立放置分子置换(晶体学)或通过对接(cryo-EM)。对修剪低置信度区域后剩余的链部分进行目视检查可以有效地识别紧致域,但自动化方法有助于结构确定管道。
中提供了两种方法菲尼克斯进程预测模型一种是基于仅使用结构信息找到紧凑域,而另一种是通过解析预测对齐误差(PAE)矩阵(对于字母折叠仅适用于型号)。
4.1. 从低分辨率模型表示中查找域
使用的方法是基于输入模型计算低分辨率贴图,然后识别该低分辨率贴图中可能对应于域的大斑点。低分辨率贴图是按照域_大小关键字(默认值15 Å). 对这张地图进行分析,以确定密度斑点。所使用的策略是在地图中找到一个高到足以不包含大量噪声的等高线级别(默认值至少是地图中最大密度的一半),并且低到足以具有多个区域。然后以不同的截止水平绘制低分辨率地图的轮廓,范围从地图中最大密度的一半到地图中的最大密度。对于每个截断,将标识地图中所有相邻区域,其中一个区域中的所有点都具有高于截断的值。然后选择产生最大数量唯一连续区域的截止点,并记录相应的连续区域。然后,通过将与现有区域相邻的所有点按顺序指定给该区域,将地图中的每个点指定给这些唯一区域之一,直到指定了所有点。指定所有区域后,每个Cα原子在字母折叠模型被分配给它所在的区域,导致域被表示为字母折叠模型,每个区域对应一个域。最后,调整残基到域的分配,以消除非常短的片段(默认为10个或更少的残基,通过将短片段移动到包含相邻残基的域中来完成)并确保可以分配给两个域中任一域的段放置在联系人数量最多的域中。
使用此方法时,建议调整获得的域数的方法是更改目标域大小(默认半径为15 Å). 或者,可以使用maximum_domains(最大域)关键字(默认为3)。
此方法通常适用于以下预测的模型字母折叠也适用于其他来源的模型,例如低温电磁结构。
4.2. 通过分析预测对齐误差(PAE)矩阵查找域
此方法分析由提供的PAE矩阵字母折叠并发现具有较小相互对齐误差的残差分组,这些残差分组通常对应于域。
请注意,PAE矩阵不是对称的,因为条目ij公司表示残差位置的预期误差j个当残留物我模型的残差叠加在真实结构中的相同残差上。如果残留物的局部主链构象我比残留物的局部主链构象更不确定j个,条目ij公司在矩阵中,将指示比条目更大的错误吉与此类似的是,一名水手在波涛汹涌的海面上驾驶着双筒望远镜,将双筒望远镜对准陆地上的灯塔。虽然水手经常会错过对灯塔的关注,但灯塔管理员很容易观察到船上的水手在波浪上上下浮动。这两个条目中较低的条目更好地指示了它们在空间中的相对位置的已知程度,因此,通过将所有非对角线条目对设置为两个值中较低者来预处理PAE矩阵。
通过对预处理的PAE矩阵进行社区聚类分析,识别出相互误差较小的残差分组。每个残差被视为图中的一个节点,并且在每对残差之间形成一条边,其中相互PAE低于c(c)(通常情况下c(c)= 5 Å); 边缘的权重为(PAE)−第页,通常情况下第页 = 1. 截止日期c(c)和权重指数第页用户可通过pae_自动化和pae_电源参数;可选地,可以根据C之间的距离进一步加权边缘α原子。然后使用中实现的Clauset–Newman–Moore贪婪模块化最大化算法对图进行分区网络X(哈格伯格等。, 2008; 克劳塞特等。, 2004).
在凤凰1.20,建议调整找到的域数的方法是更改pae_电源,值越大,域越多。在即将发布的Python 3版本中凤凰可以通过graph_resolution论证(在实施的文件中讨论网络X)值越高,域的数量就越多。使用maximum_domains(最大域)关键字如上所述。
4.3. 结构域大小和数目对分子替换的影响
MR成功的机会可以通过LLG(eLLG)的预期值来判断,可以从数据质量和范围、非对称单元由模型和模型预测的有效均方根误差(Oeffner等。, 2018). 如果多域模型具有相对于目标结构的大量域运动,则整个模型的有效均方根误差将远大于单个域的有效均方根误差。在这种情况下,必须将模型划分为单独的刚性域,这将产生更高的LLG值。考虑到eLLG取决于模型完整性的平方,对于单个域的大小有一个限制(取决于数据分辨率),并且在MR搜索中仍然会给出重要的信号。因此,建议如下:相位器(麦考伊等。, 2007)在MR计算之前,通知用户搜索组件的大小是否足以成功进行首次放置以及后续放置。
eLLG计算及其推导的策略取决于分配给模型的均方根误差。在…出现之前字母折叠从同系物获得的模型所需的坐标误差主要来自未知结构的序列恒等式(Hatti等。, 2020). 虽然我们还没有对字母折叠模型,迄今已有数十个模型的经验进程预测模型建议值为1 奥数是一个合理的起始估计数。
注意,如果进程预测模型表明字母折叠模型应划分为多个域,但相位器然后预测结构求解将非常困难,通过在MR测试的模型中包含较大的模型来测试相对领域方向确实正确的可能性可能会很有成效。
5.使用菲尼克斯进程预测模型
的典型命令行调用菲尼克斯进程预测模型如下所示:phenix.process_predicted_model my_model.pdb b_value_field_is=lddt pae_file=我的pae.json.
这将转换B类-中的值字段我的模型.pdb从pLDDT得分到B类值,修剪pLDDT小于0.7的残基,并写出一个新模型,其中包含与从PAE矩阵中识别的域相对应的单链(单独的链ID值)我的名字.json。可以通过命令查看其他可选参数的列表phenix.process_predirected_model--显示默认值.
这个菲尼克斯进程预测模型也可以使用凤凰图形用户界面。使用默认值可能会或可能不会生成所需数量的域。在这种情况下,建议尝试第4.1节中描述的参数的非默认值和4.2.
注意,对于多聚体预测,使用PAE矩阵的域解析不可用,一次只能处理一条链。
7.工作示例
7.2. 示例2:分子置换具有源自低分辨率blob的域
作为第二个测试用例,我们选择了PDB条目6j09年,的晶体结构属于流感嗜血杆菌巴马语(Ma等。, 2019). 该结构于2019年10月30日发布,因此在字母折叠培训数据。由于该结构由MR根据2007年发布的结构进行求解,人们可能预计预测的结构基本上是正确的,但内部域运动使这一点复杂化。数据包含12个 972次反射,分辨率达到3.0 Å.
333个残基的序列提交给字母折叠(通过凤凰Colab上述笔记本)。每个残基的相关pLDDT评分和PAE矩阵如图5所示.
| 图5 由菲尼克斯公司预测结构的笔记本字母折叠PDB条目的氨基酸序列6j09年(一)PAE矩阵,从蓝色到红色,用于预测从低到高的对齐误差。(b条)pLDDT(百分比标度)作为残数的函数。 |
使用非默认值域大小=19.0,菲尼克斯进程预测模型将预测模型分成三条链。图5所示的PAE矩阵(一)在视觉上暗示存在三个或四个域。然而,当菲尼克斯进程预测模型提供了该PAE矩阵,它没有将模型划分为单独的链。与前面的示例一样,我们没有研究在中使用PAE矩阵时,某些非默认参数集是否会产生三条链菲尼克斯进程预测模型.
8.讨论
将搜索模型分割为适用于MR的独立刚性碎片,在历史上一直是自动化的一个挑战,并且常常留给个别晶体学家的直觉。此外,使用远距离同源物进行阶段划分通常具有挑战性,通常需要对不同水平的模型截断进行多次试验才能找到可行的解决方案。自从字母折叠第二个挑战已基本消除:在分解成域之后,通常只需要删除最灵活和/或不确定的循环和尾部,就可以成功地进行阶段化。
这个菲尼克斯进程预测模型工具提供了将模型自动分解为域的基础。它是通用的,可以应用于将模型拆分为结构域,而不管模型是如何导出的。如果它是来自字母折叠它可以使用相关的PAE矩阵,而如果它是从不同的预测算法或X射线或低温电子显微镜等实验中导出的模型,它将使用模型本身的信息将其划分为域。根据模型中域之间的预期大小或距离,在特定情况下,对于给定模型,一种或另一种方法可能更可取。在任何情况下,自动分解成结构域通常会产生在MR中表现良好的片段。这允许整合到大分子结构溶液管道中。
除最普通的情况外,所有适用于MR的刚性碎片都不会对应于整个结构。MR成功后,典型的当前方法是将缺失的残留物追溯到残留物密度,通常需要多次重建/细化循环才能达到收敛。现代结构预测通常具有良好的局部几何形状,与大规模区域定位的实验结构、回路和尾部的布置以及偶尔出现的旋转仪误差不同。这允许一种潜在的更省时、更节能的方法,我们在这里已经探讨过了:使用MR解决方案结合置信加权约束,将完整模型的匹配部分引导到停靠位置,允许剩余结构的大部分自然沉降。在当前ISOLDE公司实现这允许“从头开始”重述PDB条目3现在在不到一天的时间里,在一个工作站上。
第7.1节示例中使用的两种蛋白质和7.2未构成的训练集的一部分字母折叠尽管最初用于求解它们的MR模型确实如此。然而,作为字母折叠实现蛋白质序列和生成的蛋白质结构之间的无硬编码对应,并且由于禁用了使用相关结构作为模板的选项,因此这些结构对于测试字母折叠以及预测模型对后续下游结构求解程序的适用性。
蛋白质结构AI预测的发展目前是一个活跃的研究领域,我们预计提供给菲尼克斯进程预测模型可能会随时间变化。
资金筹措信息
以下资金已获认可:威康信托首席研究奖学金(授予Randy J.Read第209407/Z/17/Z号);美国国立卫生研究院(Randy J.Read,Tom C.Terwilliger,批准号:P01GM063210)。
工具书类
Baek,M.、DiMaio,F.、Anishchenko,I.、Dauparas,J.、Ovchinnikov,S.、Lee,G.R.、Wang,J.,Cong,Q.、Kinch,L.N.、Schaeffer,R.D.、MilláN,C.、Park,H.、Adams,C.、Glassman,C.R.、DeGiovanni,A.、Pereira,J.H.、Rodrigues,A.V.、van Dijk,A.A.、Ebrecht,A.C.、Opperman,D.J.、Sagmeister,T.、Buhlheller,C.、Pavkov-Keller,T。,Rathinaswamy,M.K.,Dalwadi,U.,Yip,C.K.,Burke,J.E.,Garcia,K.C.,Grishin,N.V.,Adams,P.D.,Read,R.J.&Baker,D.(2021)。科学类,373, 871–876. 交叉参考 中国科学院 公共医学 谷歌学者
Barron,J.T.(2019)。2019年IEEE/CFF计算机视觉与模式识别会议(CVPR)第4326–4334页。皮斯卡塔韦:IEEE。 谷歌学者
Berman,H.、Henrick,K.和Nakamura,H.(2003)。自然结构。分子生物学。 10, 980. 科学网 交叉参考 谷歌学者
Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012)。阿克塔·克里斯特。D类68, 1622–1631. 科学网 交叉参考 IUCr日志 谷歌学者
Bunkóczi,G.、Wallner,B.和Read,R.J.(2015)。结构,23, 397–406. 科学网 公共医学 谷歌学者
陈,Z,李,Z,胡,X,谢,F,匡,S,詹,B,高,W,陈,X,高,S,李,Y,王,Y,钱,F,丁,C,甘,J,吉,C,徐,X,W,周,Z,黄,J,何,H,H,和李,J(2020)。高级科学。 7, 2000532. 交叉参考 谷歌学者
Clauset,A.、Newman,M.E.和Moore,C.(2004年)。物理学。版本E,70, 066111. 交叉参考 谷歌学者
Croll,T.I.&Read,R.J.(2021)。阿克塔·克里斯特。D类77, 438–446. 交叉参考 IUCr日志 谷歌学者
Croll,T.I.、Sammito,M.D.、Kryshtafovych,A.和Read,R.J.(2019年)。蛋白质,87, 1113–1127. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Hagberg,A.A.、Swart,P.J.和Schult,D.A.(2008)。第七届Python科学大会论文集(SciPy 2008)由G.Varoquaux、T.Vaught和J.Millman编辑,第11-15页谷歌学者
Hambarde,S.、Tsai,C.-L.、Pandita,R.K.、Bacolla,A.、Maitra,A.、Charaka,V.、Hunt,C.R.、Kumar,R.、Limbo,O.、Le Meur,R.,Chazin,W.J.、Tsutakawa,S.E.、Russell,P.、Schlacher,K.、Pandita,T.K.和Tainer,J.A.(2021年)。分子电池,81, 2989–3006. 交叉参考 中国科学院 公共医学 谷歌学者
Hatti,K.S.、McCoy,A.J.、Oeffner,R.D.、Sammito,M.D.和Read,R.J.(2020年)。阿克塔·克里斯特。D类76, 19–27. 科学网 交叉参考 IUCr日志 谷歌学者
Hiranuma,N.、Park,H.、Baek,M.、Anishchenko,I.、Dauparas,J.和Baker,D.(2021)。国家公社。 12, 1340. 科学网 交叉参考 公共医学 谷歌学者
Jumper,J.,Evans,R.,Pritzel,A.,Green,T.,Figurnov,M.,Ronneberger,O.,Tunyasuvunakool,K.,Bates,R.第页,M.,Berghammer,T.,Bodenstein,S.,Silver,D.,Vinyals,O.,Senior,A.W.,Kavukcuoglu,K.,Kohli,P.&Hassabis,D.(2021)。自然,596, 583–589. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Krissinel,E.和Henrick,K.(2004年)。阿克塔·克里斯特。D类60, 2256–2268. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Lee,C.,Hauenstein,A.,Fleming,J.,Gasper,W.,Engelke,V.,Sankaran,B.,Bernstein,S.&Huxford,T.(2011)。结构,19, 397–408. 交叉参考 中国科学院 公共医学 谷歌学者
Liebschner,D.,Afonine,P.V.,Baker,M.L.,Bunkóczi,G.,Chen,V.B.,Croll,T.I.,Hintze,B.,Hung,L.-W.,Jain,S.,McCoy,A.J.,Moriarty,N.W.,Oeffner,R.D.,Poon,B.K.,Prisant,M.G.,Read,R.J.,Richardson,J.S.,Richadson,D.C.,Sammito,M.D.,Sobolev,O.V.,Stockwell,D.H.,Terwilliger,T.C.,Urzhumtsev,A.G.,Videau,L。L.、Williams、C.J.和Adams,P.D.(2019年)。阿克塔·克里斯特。D类75, 861–877. 科学网 交叉参考 IUCr日志 谷歌学者
Ma,X.,Wang,Q.,Li,Y.,Tan,P.,Wu,H.,Wang。美国财务会计准则委员会J。 33, 14690–14702. 交叉参考 中国科学院 公共医学 谷歌学者
Mariani,V.、Biasini,M.、Barbato,A.和Schwede,T.(2013)。生物信息学,29, 2722–2728. 交叉参考 中国科学院 公共医学 谷歌学者
McCoy,A.J.、Grosse-Kunstleve,R.W.、Adams,P.D.、Winn,M.D.、Storoni,L.C.和Read,R.J.(2007年)。J.应用。克里斯特。 40, 658–674. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
McCoy,A.J.、Sammito,M.D.和Read,R.J.(2022)。阿克塔·克里斯特。D类78,1-13科学网 交叉参考 IUCr日志 谷歌学者
McNicholas,S.、Potterton,E.、Wilson,K.S.和Noble,M.E.M.(2011年)。阿克塔·克里斯特。D类67, 386–394. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Millán,C.,Keegan,R.M.,Pereira,J.,Sammito,M.D.,Simpkin,A.J.,McCoy,A.J..,Lupas,A.n.,Hartmann,M.D,Rigden,D.J.和Read,R.J.(2021)。蛋白质,89, 1752–1769. 公共医学 谷歌学者
Milán,C.,Sammito,M.&Usón,I.(2015)。IUCrJ大学,2,95–105科学网 交叉参考 公共医学 IUCr日志 谷歌学者
Mirdita,M.、Schütze,K.、Moriwaki,Y.、Heo,L.、Ovchinnikov,S.和Steinegger,M.(2022)。自然方法,19, 679–682. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Oeffner,R.、Bunkóczi,G.和Read,R.(2012)。计算。结晶器。新闻。 三, 5–10. 谷歌学者
Oeffner,R.D.、Afonine,P.V.、Millán,C.、Sammito,M.、Usón,I.、Read,R.J.和McCoy,A.J.(2018)。阿克塔·克里斯特。D类74, 245–255. 科学网 交叉参考 IUCr日志 谷歌学者
Read,R.J.(1990)。阿克塔·克里斯特。A类46,900–912交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
肖特·D、西蒙斯·K·T和贝克·D(1998)。程序。美国国家科学院。科学。美国,95, 11158–11162. 交叉参考 中国科学院 公共医学 谷歌学者
Terwilliger,T.C.,Poon,B.K.,Afonine,P.V.,Schlicksup,C.J.,Croll,T.I.,Millán,C.,Richardson,J.S.,Read,R.J.&Adams,P.D.(2022)。生物Rxiv, 2022.01.07.475350. 谷歌学者
Thorn,A.和Sheldrick,G.M.(2013)。阿克塔·克里斯特。D类69, 2251–2256. 科学网 交叉参考 IUCr日志 谷歌学者
Trabuco,L.G.、Villa,E.、Schreiner,E.、Harrison,C.B.和Schulten,K.(2009年)。方法,49, 174–180. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Varadi,M.,Anyango,S.,Deshpande,M.、Nair,S.、Natassia,C.、Yordanova,G.、Yuan,D.、Stroe,O.、Wood,G.,Laydon,A.、Zhiídek,A.、Green,T.、Tunyasuvunakool,K.、Petersen,S.和Jumper,J.、Clancy,E.、Green、R.、Vora,A.、Lutfi,M.和Figurnov,M.美国(2022年)。核酸研究。 50,D439–D444科学网 交叉参考 中国科学院 公共医学 谷歌学者
| 结构 生物学 |
编号:2059-7983
打开访问