研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标结构
生物学
国际标准编号:2059-7983

验证:使用增强的预测模型进行无模型阶段化ARCIMBOLDO_螺纹

十字标记徽标

巴塞罗那分子生物学研究所结晶方法(IBMB-CSIC),巴塞罗那科学园,Helix Building,Baldiri Reixac 15,08028 Barcelona,Spain,b条西班牙马德里西班牙国家研究委员会(CSIC)物理化学研究所“Rocasolano”结晶和结构生物学系,c(c)巴西圣保罗州博图卡图圣保罗州立大学生物科学研究所生物物理和药理学系,18618-689d日西班牙巴塞罗那Passeig Lluís Companys 23,08003,ICREA,InstitucióCatalana de Recerca i Estudis Avançats
*通信电子邮件:uson@ibmb.csic.es

英国利物浦大学综合生物学研究所S.Antonyuk编辑(收到日期:2022年6月20日; 2022年10月3日接受; 在线2022年10月20日)

结构预测与近同源物的实验结构的准确性相匹配,为分子置换阶段化。即使在由于区域的相对运动或预测不佳的区域而出现较大差异的预测中,也往往存在非常准确的区域。这些适用于成功实现基于碎片的阶段化阿西姆博尔多预测模型的特殊性在新的预测模型模式,使初步处理多余但无害。B类-从预测的LDDT或误差估计值进行值转换,去除非结构化多肽,将结构单元从域分层分解为局部折叠,并根据实验数据系统地探测模型,将确保模型在阶段中的最佳使用。同时,模型和立体化学在阶段化中的详尽使用,精炼验证引发了对晶体学模型偏差的担忧,以及关键地建立实验贡献的信息的必要性。因此,在其预测模型模式ARCIMBOLDO_螺纹将首先确定输入模型是否已经构成解决方案,或提供一个简单的解决方案相位器。否则,将定位提取的碎片。如果解决方案的布局显示出大量、明确区分和一致的探针,或者如果输入模型已经构成了解决方案,则将激活无模型验证。使用扩展SHELXE公司将省略部分解决方案播种阶段,并且其各自掩码之外的所有记录道都将合并到ALIXE公司,就一致性而言。此过程完全消除了分子置换搜索模型有利于从该模型得出的推断。就碎片而言,错误的起始假设阻碍了扩展。这个预测模型模式已经在不同的场景中进行了测试。

1.简介

字母折叠(跳线等。, 2021【Jumper,J.、Evans,R.、Pritzel,A.、Green,T.、Figurnov,M.、Ronneberger,O.、Tunyasuvunakool,K.、Bates,R.,Xiadek,A.、Potapenko,A.、Bridgeland,A.、Meyer,C.、Kohl,S.A.、Ballard,A.】。J.、Cowie,A.、Romera--Paredes,B.、Nikolov,S.、Jain,R.、Adler,J.、Back,T.、Petersen,S.和Reiman,D.、Clancy,E.、Zielinski,M.、Steinegger,M.和Pacholska,M.,Berghammer,T.,Bodenstein,S.,Silver,D.、Vinyals,O.、Senior,A.W.、Kavukcuoglu,K.、Kohli,P.和Hassabis,D.(2021年)。《自然》,596583-589。])如CASP13和CASP14(Kryshtafovich等。, 2019【Kryshtafovych,A.、Schwede,T.、Topf,M.、Fidelis,K.和Moult,J.(2019)。蛋白质,87,1011-1020。】). 什么时候?字母折叠罗斯塔福尔德预测是成功的,解决了晶体学问题相位问题通过分子置换促进(MR)(Baek等。, 2021【Baek,M.,DiMaio,F.,Anishchenko,I.,Dauparas,J.,Ovchinnikov,S.,Lee,G.R.,Wang,J,Cong,Q.,Kinch,L.N.,Schaeffer,R.D.,MilláN,C.,Park,H.,Adams,C.,Glassman,C.R.,DeGiovanni,A.,Pereira,J.H.,Rodrigues,A.V.,van Dijk,A.,Ebrecht,A.C.,Opperman,D。J.、Sagmeister,T.、Buhlheller,C.、Pavkov-Keller,T.,Rathina­swamy,M.K.、Dalwadi,U.、Yip,C.K.、Burke,J.E.、Garcia,K.C.、Grishin,N.V.、Adams,P.D.、Read,R.J.和Baker,D.(2021)。科学,373871-876。]; 佩雷拉等。, 2021【Pereira,J.、Simpkin,A.J.、Hartmann,M.D.、Rigden,D.J.、Keegan,R.M.和Lupas,A.N.(2021)。蛋白质,89,1687-1699。】; 密兰等。, 2021【Millán,C.,Keegan,R.M.,Pereira,J.,Sammito,M.D.,Simpkin,A.J.,McCoy,A.J..,Lupas,A.n.,Hartmann,M.D,Rigden,D.J.&Read,R.J.(2021)。蛋白质,89,1752-1769。】)前提是考虑到模型的特殊性。中央处理器4(优胜者等。, 2011[Winn,M.D.,Ballard,C.C.,Cowtan,K.D.,Dodson,E.J.,Emsley,P.,Evans,P.R.,Keegan,R.M.,Krissinel,E.B.,Leslie,A.G.W.,McCoy,A.,McNicholas,S.J.,Murshudov,G.N.,Pannu,N.S.,Potterton,E.A.,Powell,H.R.,Read,R.J.,Vagin,A.&Wilson,K.S.(2011),《基督学报》,D67,235-242。])调整了其程序并开发了新工具,以充分利用预测模型(麦考伊等。, 2022【McCoy,A.J.,Sammito,M.D.和Read,R.J.(2022)。晶体学报D78,1-13。】; 辛普金等。, 2022【Simpkin,A.J.,Caballero,I.,McNicholas,S.,Stevenson,K.,Sanchez Rodriguez,F.,Usón,I.、Rigden,D.J.&Keegan,R.M.(2022年)。准备中。】; 克里斯内尔等。, 2022[克里斯辛内尔,E.,列别捷夫,A.A.,乌斯基,V.,巴拉德,C.B.,基根,R.M.,科瓦列夫斯基,O.,尼科尔斯,R.A.,潘努,N.S.,斯科巴克,P.,贝里斯福德,J.,范多,M.,洛坎普,B.,沃迪尔,M。N.、McNicholas,S.、Lowe,E.、Triviño,J.、Cowtan,K.、Agirer,J.,Rigden,D.J.、UsóN,I.、Lamzin,V.、Tews,I.,Bricogne,G.、Leslie,A.G.W.和Brown,D.G.(2022年)。《水晶学报》。D78,1079-1089。]). 即使在预测模型中只有一部分与晶体中的结构密切相关的情况下,也可以利用碎片来识别这些部分并扩展部分解。阿西姆博尔多(罗德里格斯等。, 2009【罗德里格斯、D.D.、格罗斯、C.、希梅尔、S.、冈萨雷斯、C.、德伊拉杜亚、I.M.、贝克尔、S.谢尔德里克、G.M.和Usón,I.(2009)。《国家方法》,第6期,第651-653页。】)使用相位器(麦考伊等。, 2007【McCoy,A.J.,Grosse-Kunstleve,R.W.,Adams,P.D.,Winn,M.D.,Storoni,L.C.&Read,R.J.(2007),《应用结晶杂志》,第40期,第658-674页。】)密度修正(Sheldrick,2002[Sheldrick,G.M.(2002).Z.Kristallogr.217,644-650.])和地图追踪(Sheldrick,2010[Sheldrick,G.M.(2010),《水晶学报》,D66479-485.]; Thorn&Sheldrick,2013年【Thorn,A.和Sheldrick,G.M.(2013),《晶体学报》,D692251-2256。】; Usón&Sheldrick,2018年[Usón,I.&Sheldrick,G.M.(2018),《水晶学报》D74,106-116。])使用SHELXE公司.其他基于碎片的方法,例如联邦铁路管理局(Shrestha&Zhang,2015)【Shrestha,R.和Zhang,K.Y.J.(2015),《结晶学报》第71期,第304-312页。】),充足的(比比等。, 2012【Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012),《水晶学报》,D68,1622-1631。】)和BUMP先生(Keegan&Winn,2007年[Keegan,R.M.和Winn,M.D.(2007),《水晶学报》,D63,447-457.])结合密度修正,也可适当使用局部模型。

现代晶体学方法已经变得越来越一体化,并且在各个阶段都受到了先前知识的影响(乌森等。, 2021[Usón,I.,Ballard,C.C.,Keegan,R.M.&Read,R.J.(2021),《水晶学报》第77期,第129-130页。]). 在整个晶体学测定过程中广泛使用几乎完整的先前模型(Kovalevskiy等。, 2016【Kovalevskiy,O.、Nicholls,R.A.和Murshudov,G.N.(2016),《结晶学报》第72期,第1149-1161页。】)将理想立体化学作为验证实验结果的基本原则(威廉姆斯等。, 2018【Williams,C.J.,Headd,J.J.,Moriarty,N.W.,Prisant,M.G.,Videau,L.L.,Deis,L.N.,Verma,V.,Keedy,D.A.,Hintze,B.J.,Chen,V.B.,Jain,S.,Lewis,S.M.,Arendall,W.B.,Snoeyink,J.,Adams,P.D.,Lovell,S.C.,Richardson,J.S.&Richardson,J.S.(2018)。蛋白质科学,27293-315。】). 这应该引起关注,因为相位不是在分子置换而是采用模型假设。因此,晶体学模型偏差是一个已知且有充分记录的问题(Bhat,1988)【Bhat,T.N.(1988),《应用结晶杂志》,第21期,第279-281页。】; 布伦格尔,1992年【Brünger,A.T.(1992),《自然》,355,472-475。】; Kleywegt,2000年[Kleywegt,G.J.(2000),《晶体学报》,第56卷,第249-265页。]). 晶体学测定的首要目标应该是明确地确定模型以外的实验所提供的信息(特威利格等。, 2008【Terwilliger,T.C.,Grosse-Kunstleve,R.W.,Afonine,P.V.,Moriarty,N.W.;Adams,P.D.,Read,R.J.,Zwart,P.H.&Hung,L.W.(2008),《结晶学报》,D64,515-524.】). 基于片段的结构解决方案最初是作为从头算阶段化方法,依赖于一般假设,并根据正确假设将成功扩展到初始模型之外这一事实进行验证,从而提供独立信息。ARCIMBOLDO_螺纹(桑米托等。, 2014【Sammito,M.,Meindl,K.,de Ilarduya,I.M.,Millán,C.,Artola-Recolons,C.,Hermoso,J.A.&Usón,I.(2014年)。联邦公报281,4029-4045。】; 密兰等。, 2018【Millán,C.,Sammito,M.D.,McCoy,A.J.,Nascimento,A.F.Z.,Petrillo,G.,Oeffner,R.D.,Domínguez-Gil,T.,Hermoso,J.A.,Read,R.J.&Usón,I.(2018),《结晶学报》D74,290-304。】)从远程同源物中提取片段,并根据实验数据对其进行精炼,以确定这种成功的方法,并通过扩展来启动假设。即使是从完美模型中导出的片段,如果只采用它们的扩展而不采用起始假设本身,则可以实现无模型阶段化。目前的工作探索了这种无模型阶段化在工作流中的应用,其中包括预测模型ARCIMBOLDO_螺纹或直接从分子置换解决方案。新的实现还可以处理多元结构。考虑到一个全面的、高度准确的模型,定位独立片段是毫无意义的,但对其特征的本地验证仍然是有用的。无论遵循哪一条路线,在定位完整或部分模型之后,在我们的软件中组合由部分结构扩展而产生的轨迹,其中省略了起始结构ALIXE公司(密兰等。, 2020【Millán,C.,Jiménez,E.,Schuster,A.,Diederichs,K.&Usón,I.(2020),《水晶学报》D76,209-220。】; Milán、Sammito、Garcia-Ferrer等。, 2015[Millán,C.,Sammito,M.,Garcia Ferrer,I.,Goulas,T.,Sheldrick,G.M.和Usón,I.(2015)。晶体学报D711931-1945。]). 这在由预测模型生成的典型解决方案环境中尤其相关,其特征是多个明确区分的探针,而不是由远程同源物提供的稀缺正确解决方案。本工作描述了ARCIMBOLDO_螺纹用预测模型求解晶体结构,并引入无模型验证来探讨局部有效性阿西姆博尔多溶液或外部MR溶液。它的使用通过典型的测试用例进行了说明和讨论。

2.材料和方法

2.1. 正在计算设置

在本地HTCondor v.8.4.5(Tannenbaum)上运行结构解决方案和测试等。, 2001[Tannenbaum,T.、Wright,D.、Miller,K.和Livny,M.(2001)。Beowulf Cluster Computing with Linux,由T.Sterling编辑,第307-350页。剑桥:麻省理工学院出版社。])由160个节点组成的网格,总计225个GFlops和在具有128个内核的24核工作站上运行Linux的GB RAM(Intel Xeon CPU E5-2680 v.3)。

字母折叠预测是在两个具有以下特征的工作站上进行的:AMD Ryzen Thread Ripper 3975WX,Nvidia GeForce RTX 3090 24GB。字母折叠2是在一台带有Ubuntu 20.04.4 LTS操作系统的虚拟机上运行的,该操作系统使用主机64个内核中的48个内核和192个内核256中的GBGB RAM,也可在配备Intel Core i9-9980XE、GeForce GTX 1080 8的工作站上使用GB,64GB RAM,Debian 10(总线)。

2.2. 外部软件

相位器(麦考伊等。, 2007【McCoy,A.J.,Grosse-Kunstleve,R.W.,Adams,P.D.,Winn,M.D.,Storoni,L.C.&Read,R.J.(2007),《应用结晶杂志》,第40期,第658-674页。】)需要执行碎片模型的MR搜索。相位器2.8.x个来自的版本中央处理器4(优胜者等。, 2011[Winn,M.D.,Ballard,C.C.,Cowtan,K.D.,Dodson,E.J.,Emsley,P.,Evans,P.R.,Keegan,R.M.,Krissinel,E.B.,Leslie,A.G.W.,McCoy,A.,McNicholas,S.J.,Murshudov,G.N.,Pannu,N.S.,Potterton,E.A.,Powell,H.R.,Read,R.J.,Vagin,A.&Wilson,K.S.(2011),《基督学报》,D67,235-242。])和凤凰(利布施内尔等。, 2019[Liebschner,D.,Afonine,P.V.,Baker,M.L.,Bunkóczi,G.,Chen,V.B.,Croll,T.I.,Hintze,B.,Hung,L.-W.,Jain,S.,McCoy,A.J.,Moriarty,N.W.,Oeffner,R.D.,Poon,B.K.,Prisant,M.G.,Read,R.J.,Richardson,J.S.,Ricchardson,D.C.,Sammito,M.D.,Sobolev,O.V.,Stockwell,D.H.,Terwilliger,T.C.,Urzhumtsev,A.G.,Videau,L。L.、Williams、C.J.和Adams,P.D.(2019年)。《水晶学报》。D75,861-877。])使用了分布。

SHELXE公司(谢尔德里克,2010年[Sheldrick,G.M.(2010),《水晶学报》,D66479-485.])需要根据通量球算法提供密度修改(Sheldrick,2002[Sheldrick,G.M.(2002).Z.Kristallogr.217,644-650.])和SHELXE公司2022年版本用于阶段扩展和模型跟踪(Usón&Sheldrick,2022)[Usón,I.&Sheldrick,G.M.(2022).生物研究,2022.04.28.489939。]). 除了侧链跟踪之外,此版本还包含了跟踪期间启动模型映射区域的屏蔽(参数-V(V)).

2.3. 模型预测

字母折叠2通过谷歌合作笔记本在云中使用MMseqs系列2(米尔迪塔等。, 2022[Mirdita,M.,Schütze,K.,Moriwaki,Y.,Heo,L.,Ovchinnikov,S.&Steinegger,M.(2022).《自然方法》,19,679-682.])来自DeepMind(Jumper)的谷歌实验室笔记本等。, 2021【Jumper,J.、Evans,R.、Pritzel,A.、Green,T.、Figurnov,M.、Ronneberger,O.、Tunyasuvunakool,K.、Bates,R.,Xiadek,A.、Potapenko,A.、Bridgeland,A.、Meyer,C.、Kohl,S.A.、Ballard,A.】。J.、Cowie,A.、Romera--Paredes,B.、Nikolov,S.、Jain,R.、Adler,J.、Back,T.、Petersen,S.和Reiman,D.、Clancy,E.、Zielinski,M.、Steinegger,M.和Pacholska,M.,Berghammer,T.,Bodenstein,S.,Silver,D.、Vinyals,O.、Senior,A.W.、Kavukcuoglu,K.、Kohli,P.和Hassabis,D.(2021年)。《自然》,596583-589。])或直接从工作站上的本地安装中获取通过存储库分发的代码https://github.com/deepmind/alphafold网站(跳线等。, 2021【Jumper,J.、Evans,R.、Pritzel,A.、Green,T.、Figurnov,M.、Ronneberger,O.、Tunyasuvunakool,K.、Bates,R.,Xiadek,A.、Potapenko,A.、Bridgeland,A.、Meyer,C.、Kohl,S.A.、Ballard,A.】。J.、Cowie,A.、Romera--Paredes,B.、Nikolov,S.、Jain,R.、Adler,J.、Back,T.、Petersen,S.和Reiman,D.、Clancy,E.、Zielinski,M.、Steinegger,M.和Pacholska,M.,Berghammer,T.,Bodenstein,S.,Silver,D.、Vinyals,O.、Senior,A.W.、Kavukcuoglu,K.、Kohli,P.和Hassabis,D.(2021年)。《自然》,596583-589。]).罗斯塔福尔德已通过位于的服务器联机使用网址:https://robetta.bakerlab.org(贝克等。, 2021【Baek,M.,DiMaio,F.,Anishchenko,I.,Dauparas,J.,Ovchinnikov,S.,Lee,G.R.,Wang,J,Cong,Q.,Kinch,L.N.,Schaeffer,R.D.,MilláN,C.,Park,H.,Adams,C.,Glassman,C.R.,DeGiovanni,A.,Pereira,J.H.,Rodrigues,A.V.,van Dijk,A.,Ebrecht,A.C.,Opperman,D。J.、Sagmeister,T.、Buhlheller,C.、Pavkov-Keller,T.,Rathina­swamy,M.K.、Dalwadi,U.、Yip,C.K.、Burke,J.E.、Garcia,K.C.、Grishin,N.V.、Adams,P.D.、Read,R.J.和Baker,D.(2021)。科学,373871-876。]).

2.4. 优值和相位比较

在决策中使用的绩效数字,包括阿西姆博尔多本工作中描述的运行是相位器基于强度的LLG和Z轴-得分(Read&McCoy,2016[Read,R.J.&McCoy,A.J.(2016),《水晶学报》第72期,第375-387页。])、和相关系数观测和计算的归一化强度之间(CC;Fujinaga&Read,1987【Fujinaga,M.&Read,R.J.(1987),《应用结晶杂志》,第20期,第517-521页。】)计算依据SHELXE公司(谢尔德里克,2002年[Sheldrick,G.M.(2002).Z.Kristallogr.217,644-650.]).

为了组合部分记录道的相位集阿西姆博尔多使用ALIXE公司(密兰等。, 2020【Millán,C.,Jiménez,E.,Schuster,A.,Diederichs,K.&Usón,I.(2020),《水晶学报》D76,209-220。】). 计算两个指标来探测一致性:地图相关系数(mapCC;Lunin&Lunina,1996)【Lunin,V.Y.和Lunina,N.L.(1996),《晶体学报》A52,365-368。】)和加权平均数相位差(wMPD)。在本研究中,当wMPE(与真实相位的平均相位差)低于80°时,我们将引用非随机解。

[{\rm wMPD}={{textstyle\sum_{i=1}^{n} 周_{i} {textstyle\sum_{i=1}上的\Delta\varphi_{i}}^{n} w个_{i} }},\eqno(1)]

[{\rm wmapCC}[\varphi_1(h),\varphi_2(h)]={{textstyle\sum_{h\在S}w(h)|F^{\rm-obs}(h。\等式(2)]

2.5. 图形软件

模型和地图用库特版本0.8.7(Emsley等。, 2010[Emsley,P.,Lohkamp,B.,Scott,W.G.和Cowtan,K.(2010)。晶体学报,D66,486-501。]). 数字是用PyMOL公司分子图形系统(版本1.8;Schrödinger)和马特普洛特利布版本1.5.3(Hunter,2007[Hunter,J.D.(2007),《计算科学与工程》第9期,第90-95页。]).

2.6. 测试数据和预测模型

涵盖无模型验证各种用途的典型案例ARCIMBOLDO_螺纹描述了如何验证使用预测模型获得的已放置MR解或使用预测模型生成解。结构和模型如图1所示[链接]表1总结了它们的特点[链接].

表1
测试结构和模型

r.m.s.d.的计算公式为SUPERPOSE(叠加)(Krissinel&Henrick,2004)【Krissinel,E.&Henrick,K.(2004),《水晶学报》,D60,2256-2268。】). ASU,非对称单元。

结构 “空间”组 溶剂含量(%) 残留物数量 %α %β ASU中的链 分辨率(Ω) 模型生成 R.m.s.d.(λ)(对齐的残留物数量) pLDDT或误差估计
PDB条目5小时 P(P)6 60 642 78 13 1 2.2 字母折叠ColabDeepMind公司 1.4 (597) 95.1
AMIA(PDB条目8a42号) P(P)212121 46 638 57 34 1 1.2 字母折叠本地工作站 2.2 (603) 96.2
格利亚特 P(P)212121 40 295 50 38 2 1.35 AlphaFold Colab MMseqs公司2 0.7 (290) 90.2
TsaR(PDB条目3倍) C类2 54 305 57 36 2 1.85 字母折叠本地工作站 0.9 (291) 91.9
HheD2(PDB条目7b73号) P(P)212121 52 243 57 32 4 1.6 罗斯塔福尔德在线服务器 1.0(224) 1.8
PDB条目7比 P(P)2221 44 155 45 44 2 2.08 AlphaFold Colab MMseqs公司2 1.0 (149) 94.5
PDB条目7 q6吨 P(P)6522 70 130 82 13 1 2.05 AlphaFold Colab MMseqs公司2 0.5 (130) 97.8
PDB条目7syc公司 P(P)6122 61 141 34 57 1 2 AlphaFold Colab MMseqs公司2 0.5 (120) 89.5
PDB条目7伏4 P(P)21 48 286 55 35 2 2.1 AlphaFold Colab MMseqs公司2 0.7 (239) 90.3
AtzR(PDB条目7z7j型) P(P)41212 53 600 56 33 2 1.8 字母折叠本地工作站 4.7 (277) 92
[图1]
图1
排名最好的模型(蓝色)和最终结构(灰色)的叠加(左侧),以及由预测LDDT或每个位置的误差估计值(右侧)表示的模型质量。()PDB条目5小时(b条)AMIA公司。(c(c))格利亚特。(d日)沙皇。(e(电子))HheD2。((f))PDB条目7比()PDB条目7 q6吨(小时)PDB条目7syc公司()PDB条目7伏4(j个)AtzR公司。
2.6.1. PDB条目5小时

PDB条目5小时是来自铜绿假单胞菌(李等。, 2018【Lee,M.,Batuecas,M.T.,Tomoshige,S.,Domínguez-Gil,T.,Mahasenan,K.V.,Dik,D.A.,Hesek,D.,Milán,C.,Usón,I.,Lastochkin,E.,Hermoso,J.A.&Mobashery,S.(2018年),美国国家科学院院学报,115,4393-4398.】). 该结构最初是用ARCIMBOLDO_螺纹(密兰等。, 2018【Millán,C.,Sammito,M.D.,McCoy,A.J.,Nascimento,A.F.Z.,Petrillo,G.,Oeffner,R.D.,Domínguez-Gil,T.,Hermoso,J.A.,Read,R.J.&Usón,I.(2018),《结晶学报》D74,290-304。】)在球形模式的首次实施中,使用最佳评分模型(PDB条目1季度; van Asselt公司等。, 1999【Asselt,E.J.van,Thunnissen,A.-M.W.H.&Dijkstra,B.W.(1999),《分子生物学杂志》291,877-898.】)使用确定的HHpred公司(舍丁等。, 2005[Söding,J.,Biegert,A.&Lupas,A.N.(2005)。核酸研究33,W244-W248。])序列同源性为31%。最终的溶液实现了48%的CC,在七条链中追踪到563个残基。

2.6.2。AMIA公司

PDB条目第8页42晶体结构细菌脂蛋白。该结构最初用ARCIMBOLDO_螺纹从具有26%序列标识的模板开始。序列滑块(博尔赫斯等。, 2020[博尔赫斯,R.J.,梅恩德,K.,特里维尼奥,J.,桑米托,M.,麦地那,A.,Millán,C.,Alcorlo,M.、Hermoso,J.A.,Fontes,M.R.M.&Usón,I.(2020),《结晶学报》D76,221-237。])用于以合理的方式扩展带有侧链的起始部分聚胺模型,增加信号并揭示密度修改后的解决方案,并使用SHELXE公司.

2.6.3. 格利亚特

GLYAT是一种甘氨酸N个-酰基转移酶Bos金牛催化酰基-coA基团向甘氨酸分子的传递;该反应参与了外源物质的解毒,尤其是苯甲酸。该结构最初由MR用相位器使用预测模型罗斯塔福尔德(贝克等。, 2021【Baek,M.,DiMaio,F.,Anishchenko,I.,Dauparas,J.,Ovchinnikov,S.,Lee,G.R.,Wang,J,Cong,Q.,Kinch,L.N.,Schaeffer,R.D.,MilláN,C.,Park,H.,Adams,C.,Glassman,C.R.,DeGiovanni,A.,Pereira,J.H.,Rodrigues,A.V.,van Dijk,A.,Ebrecht,A.C.,Opperman,D。J.、Sagmeister,T.、Buhlheller,C.、Pavkov-Keller,T.,Rathina­swamy,M.K.、Dalwadi,U.、Yip,C.K.、Burke,J.E.、Garcia,K.C.、Grishin,N.V.、Adams,P.D.、Read,R.J.和Baker,D.(2021)。科学,373871-876。]).

2.6.4. 沙皇

PDB条目3英尺x平方米是TsaR,一种LysR型转录调节器(Monferrer等。, 2010【Monferrer,D.,Tralau,T.,Kertesz,M.A.,Dix,I.,Solá,M.&Usón,I.(2010),《微生物分子》75,1199-1214。】). 该结构最初由单个同晶置换具有反常散射(SIRAS)氙衍生物的实验相位SHELXD公司(Schneider&Sheldrick,2002年【Schneider,T.R.和Sheldrick,G.M.(2002),《水晶学报》D581772-1779。】)和RESOLVE(解决)(特威利格,2000年【Terwilliger,T.C.(2000),《水晶学报》,D56,965-972。】).

2.6.5. HheD2型

PDB条目7b73号是一种卤醇脱卤酶(Wessel等。, 2021【Wessel,J.、Petrillo,G.、Estevez-Gay,M.、Bosch,S.、Seeger,M.,Dijkman,W.P.、Iglesias-Fernández,J.,Hidalgo,A.、Usón,I.、Osuna,S.和Schallmey,A.(2021)。联邦公报第288卷,第4683-4701页。】). 该结构用ARCIMBOLDO_螺纹通过组合基于碎片的分子置换通过密度修改。

2.6.6. PDB条目7比

PDB条目7比是X射线结构大肠杆菌核糖核酸酶HI与锌的络合物2+(廖等。, 2022[廖,Z.,Oyama,T.,北川,Y.,Katayanagi,K.,Morikawa,K.&Oda,M.(2022),《结晶学报》D78,390-398.]). MR于2021年用相位器.

2.6.7. PDB条目7 q6吨

PDB条目7 q6吨对应于ATAD2的溴结构域和AZ13824374(Winter-Holt等。, 2022【Winter-Holt,J.J.,Bardelle,C.,Chiarparin,E.,Dale,I.L.,Davey,P.R.J.,Davies,N.L.,Denz,C.,Fillery,S.M.,Guérot,C.M.,Han,F.,Hughes,S.J.,Kulkarni,M.,Liu,Z.,Milbradt,A.,Moss,T.A.,Niu,H.,Patel,J.,Rabow,A.,Schimpl,M.331.】). MR于2021年用AMoRe公司(纳瓦扎,2001年[Navaza,J.(2001),《水晶学报》,D571367-1372.]).

2.6.8. PDB条目7syc公司

PDB条目7syc公司是一种核苷三磷酸焦磷酸水解酶,来自肺炎克雷伯菌该结构于2021年由MR解决MoRDa公司(Vagin&Lebedev,2015年【Vagin,A.和Lebedev,A.(2015),《水晶学报》A71,s19。】).

2.6.9. PDB条目7伏4

PDB条目7伏4是一个pimaricin I型PKS硫酯酶结构域(apo Pim TE;Zhou等。, 2022[周,Y.,Tao,W.,Qi,Z.,Wei,J.,Shi,T.,Kang,Q.,Zheng,J.、Zhao,Y.和Bai,L.(2022).美国化学学会目录12,762-776.]). MR于2021年用相位器.

2.6.10. AtzR公司

PDB条目7z7j型是AtzR,来自假单胞菌属.结构由确定ARCIMBOLDO_螺纹使用字母折叠模型(卡斯特尔维等。, 2022【Castellví,A.、Medina,A.,Petrillo,G.、Sagmeister,T.、Pavkov-Keller,T.,Govantes,F.、Diederichs,K.、Sammito,M.D.&Usón,I.(2022).生物研究,2022.04.12.488086.】).

2.7. 软件的分发

所有阿西姆博尔多程序通过中央处理器4套(Winn等。, 2011[Winn,M.D.,Ballard,C.C.,Cowtan,K.D.,Dodson,E.J.,Emsley,P.,Evans,P.R.,Keegan,R.M.,Krissinel,E.B.,Leslie,A.G.W.,McCoy,A.,McNicholas,S.J.,Murshudov,G.N.,Pannu,N.S.,Potterton,E.A.,Powell,H.R.,Read,R.J.,Vagin,A.&Wilson,K.S.(2011),《基督学报》,D67,235-242。])和通过PyPI(Python包索引)项目提供(https://pypi.org/project/arcimboldo网站/). 该软件受BSD 3条款许可。文档和教程可以在我们的网站上找到(https://chango.ibmb.csic.es/arcimboldo).

3.结果和讨论

这个ARCIMBOLDO_螺纹该程序已经过调整,以优化利用从预测模型而非同源物的实验结构中衍生的模板,同时系统地消除模型偏差。通过设置关键字激活预测模型真实的或选择预测模型模式,并对通过预测模型获得的MR解或直接对预测模型进行操作。它集成了无模型验证,还集成了一个新的通用功能来解决结构中的多个副本不对称单元。下面详细描述了该算法及其应用示例。

3.1.预测模型(_M)模式实现

该方法在中实现ARCIMBOLDO_螺纹球形模式,用Python 3编写,向后兼容Python2.7。当前版本支持高达2.5的X射线衍射数据一般情况下的Å分辨率和3.0线圈的分辨率。图2[链接]显示了预测模型模式,包括无模型验证。该过程从评估输入模型是否已经构成解决方案开始,或直接在相位器,在这种情况下,将跳过片段位置。无论哪种情况,都要进行模型准备,以消除非结构化和不连接区域,并设置B类值。然后用注释对模型进行进一步分解ALEPH公司(麦地那等。, 2020【Medina,A.,Triviño,J.,Borges,R.J.,Millán,C.,Usón,I.&Sammito,M.D.(2020),《结晶学报》第76期,193-208年。】)并在预期LLG引导下,在重叠的球体中进行分解相位器(欧夫纳等。, 2018[Oeffner,R.D.,Afonine,P.V.,Millán,C.,Sammito,M.,Usón,I.,Read,R.J.&McCoy,A.J.(2018)《晶体学报》D74245-255。]). 一个特殊性是注释将努力区分域,这些域将在球体生成过程中分离。如果需要,可以定位碎片,并且当解决方案的前景显示出大量明确区分的位置时,可以使用SHELXE公司通过密度修改和追踪将省略原始碎片。只有从每个片段派生的痕迹被保留并合并到互易空间具有ALIXE公司(密兰等。, 2020【Millán,C.,Jiménez,E.,Schuster,A.,Diederichs,K.&Usón,I.(2020),《水晶学报》D76,209-220。】). 生成的集群阶段将被扩展,直到获得完整的解决方案。如果结构是多聚体,并且第一次放置的扩展不足以提供解决方案,则将定位后续副本。

[图2]
图2
的工作流预测模型模式。ARCIMBOLDO_螺纹不管预测模型的来源如何,都会对其进行注释ALEPH公司用于进一步分解。它对输入的PDB条目进行初步评估,以通过计算的CC建立SHELXE公司它是否已经构成了一个近乎完整的解决方案,或者是否相位器很容易渲染一个。解决方案将被分解成碎片,但不必要的阶段化步骤将被跳过,直到验证开始。否则,碎片定位和评估将在通常情况下进行ARCIMBOLDO_螺纹工作流程。在多聚物结构中,可能需要通过多拷贝模式放置多个单体以获得完整的溶液。解决方案的评级依据相位器LLG和翻译Z轴-得分,SHELXE公司CC和一致性。如果获得的解很少或是边际解,则它们的组合ALIXE公司和扩展SHELXE公司将按以下方式继续ARCIMBOLDO_螺纹。如果歧视明确或提供的模型已经构成解决方案,则将进行扩展,强制系统地消除启动模型,以释放结构测定从偏见。所有片段都将进行扩展,在原始模型的区域中屏蔽地图,并只渲染该区域之外的痕迹。所有轨迹都将合并到互易空间新地图将被反复修改和跟踪。

3.2. 模型准备:模板的划分和注释

分子替换当使用预测模型时,通过包括替换编码为B类值[预测的LDDT(Mariani等。,2013年【Mariani,V.、Biasini,M.、Barbato,A.和Schwede,T.(2013)。生物信息学,29,2722-2728。】)或误差估计]B类值(Baek等。, 2021【Baek,M.,DiMaio,F.,Anishchenko,I.,Dauparas,J.,Ovchinnikov,S.,Lee,G.R.,Wang,J,Cong,Q.,Kinch,L.N.,Schaeffer,R.D.,MilláN,C.,Park,H.,Adams,C.,Glassman,C.R.,DeGiovanni,A.,Pereira,J.H.,Rodrigues,A.V.,van Dijk,A.,Ebrecht,A.C.,Opperman,D。J.、Sagmeister,T.、Buhlheller,C.、Pavkov-Keller,T.,Rathina­swamy,M.K.、Dalwadi,U.、Yip,C.K.、Burke,J.E.、Garcia,K.C.、Grishin,N.V.、Adams,P.D.、Read,R.J.和Baker,D.(2021)。科学,373871-876。]; 密兰等。, 2021【Millán,C.,Keegan,R.M.,Pereira,J.,Sammito,M.D.,Simpkin,A.J.,McCoy,A.J..,Lupas,A.n.,Hartmann,M.D,Rigden,D.J.&Read,R.J.(2021)。蛋白质,89,1752-1769。】)以及去除高于选定的pLDDT阈值或误差估计值的低置信度预测部分。

这个预测模型的模式ARCIMBOLDO_螺纹需要对预测模型进行特定和自动的准备,例如,可以从任何可用的预测器中生成预测模型字母折叠罗斯塔福尔德建模师(韦伯和萨利,2021年[Webb,B.&Sali,A.(2021)。《分子生物学方法》,2199,239-255。])或SWISS-模型(水屋等。, 2018【Waterhouse,A.、Bertoni,M.、Bienert,S.、Studer,G.、Tauriello,G.,Gumienny,R.、Heer,F.T.、de Beer,T.A.P.、Rempfer,C.、Bordoli,L.、Lepore,R.和Schwede,T.(2018)。核酸研究46,W296-W303。】),或可能已被其他程序预处理以用于晶体学。预测模型经过预处理、注释并分解为片段。阿西姆博尔多(Milán,Sammito&Usón,2015)[Millán,C.,Sammito,M.&Usón,I.(2015)。国际癌症研究所,295-105。]),我们的方法将不依赖于pLDDT,而是让实验数据选择和细化制备的具有可比性的立体化学可感输入片段。因此,它包括对B类因素,并通过ALEPH公司。在大多数情况下,极低的pLDDT或高误差估计值将对应于线圈区域或非结构化区域,这些区域将由ALEPH公司然而,在某些情况下,正确的区域可能与较低的预测分数相关联,从而低估了所产生的模型的质量。我们的方法不是使用pLDDT或误差估计的阈值,而是根据二级和三级构造并让测量数据探测局部模型的正确性并细化模型几何。

中的默认预处理ARCIMBOLDO_螺纹将侧链修剪为丙氨酸残基并设置公共B类值为25Å2对于所有原子,生成一个具有等效散射的片段模型库。当主链预测准确时,当前版本的深度学习蛋白质预测显示出较高的侧链准确性(Jumper等。, 2021【Jumper,J.、Evans,R.、Pritzel,A.、Green,T.、Figurnov,M.、Ronneberger,O.、Tunyasuvunakool,K.、Bates,R.,Xiadek,A.、Potapenko,A.、Bridgeland,A.、Meyer,C.、Kohl,S.A.、Ballard,A.】。J.、Cowie,A.、Romera--Paredes,B.、Nikolov,S.、Jain,R.、Adler,J.、Back,T.、Petersen,S.和Reiman,D.、Clancy,E.、Zielinski,M.、Steinegger,M.和Pacholska,M.,Berghammer,T.,Bodenstein,S.,Silver,D.、Vinyals,O.、Senior,A.W.、Kavukcuoglu,K.、Kohli,P.和Hassabis,D.(2021年)。《自然》,596583-589。]),因此默认情况下,将保留预测模型中的侧链。在这些模型中,H原子被移除,因为它们在X射线散射实验中被放置在不适当的距离上,有时命名的方式可能会导致其他程序将其解释为较重的元素,并且B类系数设置为25的公共值Å2用于主链和50Å2用于侧链。

二级和三级结构元素用ALEPH公司,依赖于从C的质心定义的特征向量之间的关系α所有重叠三肽的羰基O原子质心的原子。在这一步中,将删除低置信度预测的非结构化区域。影响二级结构元素注释的严格阈值已针对预测模型进行了优化。

分解成小而紧密的褶皱是由ALEPH公司通过社区聚类算法;这允许识别紧凑的刚性组来细化它们的相对旋转和平移。对于预测模型,执行层次分解以区分域。在生成片段时,将这两个标准结合起来,以分离域。

模型准备如图3所示[链接].模型处理的性能预测模型模式通过一组分子置换表2中总结了解决方案[链接]。结构解决方案是用相位器通过MR溶液对沉积结构的CC和wMPE,比较了有模型制备和无模型制备的预测模型的性能。在所有情况下,模型处理都会导致CC高于25%,从而可以识别何时将MR解决方案输入阿西姆博尔多用于验证。一般来说,CC随模型准备而增加,但当大量正确的线圈被移除时,该值可能会降低。

表2
使用预测模型(有和没有我们的模型准备)表征MR溶液的CC和wMPE

  无模型准备 带模型准备
PDB代码 科科斯群岛 wMPE(°) 科科斯群岛 wMPE(°)
7伏 19.5 52.8 25.6 47.5
7 q6吨 45.2 34.4 36.2 38.3
7syc公司 14.7 63.7 35.4 39.5
7伏4 15.7 58.4 27.3 45.9
[图3]
图3
模型准备方案。()将模型存放为灰色卡通。(b条)预测模型和由pLDDT值着色的侧链细节(底部),其中红色表示高精度,蓝色表示低精度。(c(c))预处理模型着色B类系数设置为25Å2用于主链和50Å2侧链原子和细节(底部)。(d日)中定义的注释和分解ALEPH公司:用于识别域的分层分解限制了球体生成。

3.3. 输入识别:MR解决方案或原始模型

ARCIMBOLDO_螺纹可用于验证使用预测模型获得的先前放置的MR解,或使用预测模型进行相位。如果预测模型模式被选中。当提供的模型包含与实验数据一致的CRYST1卡时,将在模型准备后作为可能的解决方案进行测试。如果相关系数根据模型计算的强度与实验数据之间的(CC)超过25%(表2[链接]),输入将被视为以前的解决方案。否则,输入将被视为未放置的模型。

3.4. 阶段化

初步MR搜索相位器如果预测模型显示出较高的精度,则使用完整的模型以避免不必要的计算。如果输入已经构成了一个解决方案,或者处理后的模型很容易呈现出一个,程序将继续进行无模型验证。否则ARCIMBOLDO_螺纹随后将针对预测模型运行优化的球体。

在任何一种情况下,都会提取eLLG通知的具有可比散射的等尺寸球形碎片库。中模型的注释和分解ALEPH公司将受到域估计的限制,并减少库以避免具有不相交区域或大空隙的模型,从而有效地分离域。碎片将与相位器并且解决方案将根据刚体后的LLG进行评级精细化,翻译Z轴-得分,SHELXE公司CC和相互一致性。

虽然远程同源物通常提供很少正确的部分解决方案,但在不正确的解决方案中,这些解决方案并不突出,预测模型倾向于显示大量、明确区分和一致的探针,如图4中的TsaR所示[链接]。考虑到这样的解决方案,无模型验证将在ARCIMBOLDO_螺纹工作流,强制系统删除启动模型以释放结构测定来自偏见。否则,如果获得很少或边际解,则它们的组合ALIXE公司和扩展SHELXE公司将按照标准进行ARCIMBOLDO_螺纹球面模式。

[图4]
图4
散点图显示LLG与平移的优值Z轴-在TsaR的情况下,部分解决方案的得分由旋转角的值聚类,代表了使用预测模型进行阶段划分时出现的典型景观。解决方案的正确性通过沉积结构的平均相位误差来衡量,表示为(), (b条)和(c(c))根据色阶。结构中包含两个副本非对称单元显示不同的构象,一个更接近搜索模型。()旋转星团包含大量可分辨且正确放置的碎片。(b条)旋转群集的解决方案不正确且边缘化。(c(c))旋转群集的解决方案不正确。(d日)所有集群的解决方案(不同颜色)清楚地将橙色集群分开,如().

3.5. 无模型验证

无模型验证可以从内部生成的许多部分解决方案开始阿西姆博尔多或者从一个完全不同的MR解,在这种情况下,放置的模型将被分割成以每个原子为中心的等尺寸球体。根据结构的大小,将生产出更多或更少的球体,并将进行覆盖整个结构的代表性选择。这些部分解决方案将在SHELXE公司,遮罩原始模型区域中的贴图,并仅在此区域外渲染轨迹。所有一致的记录道都将合并到互易空间新地图将被反复修改和跟踪。此过程完全消除了分子置换搜索模型有利于从该模型推导出的推论,从而消除了模型的偏差。在碎片的情况下,错误的起始假设阻碍了扩展。

3.6.阿西姆博尔多多拷贝

如果没有从放置单个副本得到解决方案,并且非对称单元已知包含搜索模型的多聚体,将启动多副本搜索。为了避免部分解决方案的组合增长,优先排序涉及搜索放置片段子集的第二个副本,仅限于旋转和平移函数,然后是打包过滤器,这是非常快速的步骤。然后,在翻译搜索中,根据它们的LLG对所有探针进行排序。只有顶部探针被发送到耗时的刚性体精炼和扩展步骤。在以下情况下非对称单元已知包含模板的两个以上副本,每个探测的所有预期副本都将放在扩展步骤之前。

LysR型转录调节器AtzR(PDB条目)的测试案例说明了这种方法7z7j型),其中包含两份300个残留物非对称单元(卡斯特尔维等。, 2022【Castellví,A.、Medina,A.,Petrillo,G.、Sagmeister,T.、Pavkov-Keller,T.,Govantes,F.、Diederichs,K.、Sammito,M.D.&Usón,I.(2022).生物研究,2022.04.12.488086.】). 这个字母折叠预测得出了一个总体置信度为92%的模型。一旦解决,叠加显示了晶体结构和4.7预测之间的r.m.s.d对于277个对齐的残留物,为。

成功分阶段使用此模型的一个副本ARCIMBOLDO_螺纹将取决于参数化。对需要放置两个副本的运行进行了回顾性分析,量化了探针在所有阶段通过wMPE针对最终优化结构的正确性。如果是PDB条目7z7j型,在定位第一个拷贝后,尽管存在正确的位置,但没有一个探针被显著的优点所区分。特别是,160个探针中有10个是wMPE在67°到80°之间的溶液。他们的LLG和Z轴-分数并没有将他们与随机放置区分开来,他们会被排在第81位或以下(图5[链接]). 在基于第二个片段的平移搜索的优先化步骤之后,可以根据得分最高的优点数字(LLG=242和Z轴-得分=17;图5[链接]b条). 刚体精炼顶部解的展开揭示了经过三次密度修正和自动追踪后的最终结构。该溶液的CC为35%,wMPE为45°,共有600个残留物,其中343个残留。

[图5]
图5
多副本模式下的模型优先级阿西姆博尔多.之后订购的已放置部分模型的绘图()放置和刚体精炼第一个碎片的(b条)第二个碎片的旋转和平移。这个x个轴表示放置模型的优先级顺序。色标根据其wMPE值指示模型的正确性。

多拷贝模式已被证明在解决之前未知结构中有效,该结构是来自大肠杆菌(PDB条目8a39号). 来自属于的晶体的数据空间组 C类收集到2个,分辨率为2.1奥(罗哈斯·阿尔图夫等。, 2011[Rojas-Altuve,A.,Carrasco-López,C.,Hernández-Rocamora,V.M.,Sanz,J.M.&Hermoso,J.A.(2011),《水晶学报》第67期,第1278-1280页。]). 这个非对称单元根据细胞成分分析,该卷可能含有四份327-氨基酸单体。因此,解决该结构的运行被参数化,以定位四个副本的片段。根据第二个片段的位置进行优先排序步骤后,第三个和第四个拷贝的位置继续进行扩展SHELXE公司构建带有侧链的完整模型。出乎意料的是,解决方案显示,该结构在不对称单元中只包含三个单体,而不是四个单体。

4.测试用例的讨论

按照图2所述程序进行的测试用例[链接]呈现了表3中总结的结果[链接]前五个问题用碎片解决ARCIMBOLDO_螺纹,而其余案件则由外部解决分子置换具有相位器并在阿西姆博尔多这些案例用于开发工作流并导出默认参数化。验证后的解决方案是通过广泛的参数化实现的,无论是通过碎片阶段路线还是在MR解决方案的碎片分解之后。所有或部分预测模型的准确性导致,在省略程序和众多正确解决方案的后续阶段聚类后,集合的MPE比远程同源片段簇低20°。在PDB进入的情况下5小时例如,使用来自遥远同源物的片段(PDB条目1季度)与阿利克斯为64°,而从预测模型中删除原始片段后得到的痕迹组合显示wMPE为40°。总的来说,随着密度的进一步修改和模型的建立,验证步骤后的最终解决方案相当完整SHELXE公司改进了解决方案。除非阻止,否则会激活侧链跟踪,因为序列是从模型导出的。除模型跟踪外,显示的结果与最终采用的默认值相对应阿西姆博尔多程序可以由用户修改。搜索片段相对于真实结构的估计r.m.s.d.通常低于远程同源序列,因此降低到0.8Å. 模型分解和内部精炼在中回转顶针台阶(McCoy等。, 2018【McCoy,A.J.,Oeffner,R.D.,Millán,C.,Sammito,M.,Usón,I.&Read,R.J.(2018),《结晶学报》第74期,第279-289页。】)进一步降低到0.6Å. eLLG目标值60被用作定义球体大小的默认值,除非模板的大小不支持它,在这种情况下,它会在内部降低。

表3
无模型相位测试的优值

最佳wMPE片段是指忽略模型之前的探测。对于省略原始模型后生成的记录道,获得了最佳的wMPE记录道。wMPE集群ALIXE公司是为了在模型省略后组合一致的解决方案的最佳阶段集。wMPE扩展是指最终解决方案。所有运行时都对应于第2节中描述的24核工作站[链接].

结构 尺寸(氨基酸),模板/探针 最佳wMPE(°),碎片/痕迹 wMPE集群ALIXE公司(°) 组合记录道数量 CC膨胀(%) wMPE膨胀(°) 运行时间(分钟)
PDB条目5欧姆 393/91–95 52/53 39 40 45 28 312
AMIA(PDB条目8a42号) 335/88–92年 62/49 38 40 48 19 723
格利亚特 192/90–94 57/43 33 40 37 25 1020
TsaR(PDB条目3倍) 202/84–88 59/52 42 40 44 32 161
HheD2(PDB条目7b73号) 159/106–110 66/66 48 40 39 24 655
PDB条目7伏 208/69–73 51/62 53 126 31 50 44
PDB条目7 q6吨 83/32–36 45/49 31 58 46 28 15
PDB条目7syc公司 98/37–41 32/37 29 83 44 27 39
PDB条目7伏4 337/99–103 52/56 46 66 38 39 84
†内置侧链跟踪的模型SHELXE公司.

5预测模型(_M)带螺旋线圈的模式

线圈结构对相位调整造成了特殊困难,相位调整源于衍射数据的调制(卡巴列罗等。, 2021[卡巴列罗,I.、萨米托,M.D.、阿芬妮,P.V.、乌森,I.,里德,R.J.和麦考伊,A.J.(2021),《结晶学报》第77期,第131-141页。]),导致不正确的部分解决方案显示出较高的优点线圈模式在中实现ARCIMBOLDO_LITE公司,它使用理想的多胺α-helices引入了一些特定的功能来克服这个问题,包括一个基于表面解决方案和人工生成解决方案之间的评分区分的验证程序(Caballero等。, 2018【Caballero,I.,Sammito,M.,Millán,C.,Lebedev,A.,Soler,n.&Usón,I.(2018),《水晶学报》第74期,194-204年。】). 在生成的备选方案中引发了模仿错误解决方案中发现的偏差的扰动。这些对最佳解决方案进行反证的尝试构成了我们第一次实施的验证,在螺旋线圈的情况下,这些尝试构成了识别正确解决方案的最佳方法,将其与恶意放置区分开来。如果预测的线圈结构代表单个螺旋线圈模式为ARCIMBOLDO_LITE公司与模型螺旋线相比预测模型模式为ARCIMBOLDO_螺纹然而,多元预测可以用作中的搜索模型ARCIMBOLDO_螺纹,保留其专门的验证,而不是一般的无模型程序。当两者都发生时卷取线圈预测模型模式被激活,ARCIMBOLDO_螺纹将遵循预测模型的模型准备,但最终解决方案的线圈验证将与ARCIMBOLDO_LITE公司,它将考虑线圈结构典型数据中的调制。

6.结束语

新的高精度字母折叠罗斯塔福尔德预测对大分子晶体学测定的进行方式有直接影响。成功的预测可以简化启动阶段的确定,前提是有效地解决了此类模型的特殊性。然而,在解释实验测定的所有阶段使用模型会引入模型偏差,并且需要将从实验中获得的知识分离到模型之外。ARCIMBOLDO_螺纹在实施its时满足这两个需求预测模型模式。它处理预测模型,而不考虑其成因或之前的预处理,并分离域。如果由于模型重要部分的失败而导致确定具有挑战性,则扩展到几乎完整的结构将验证初始假设。如果模型接近最终结构,系统地消除用于生成扩展的所有片段将局部探测实验解决方案的每个部分。尽管预测模型具有正确的序列和侧链,但在验证过程结束时,没有任何东西直接来自模型,而只是来自扩展步骤后在模型碎片外部可以获得的,从而导致“无模型”阶段化。

脚注

这些作者贡献均等;所有作者都对本文的工作做出了广泛贡献。

资金筹措信息

我们感谢西班牙MICINN/AEI/FEDER/UE通过向IU提供PGC2018-101370-B-100项目、向JH提供PID2020-115331GB-I00项目、向EJ提供奖学金(PRE2019-087953)以及向AM提供与Maria de Maeztu结构生物学卓越单元(MDM2014-0435-01)相关的奖学金(BES-2017-080368)提供的支持。感谢STFC-UK/CCP4“将方法集成到CCP4软件发行版ARCIMBOLDO_LOW的协议”的支持。

工具书类

第一次引用Asselt,E.J.van,Thunnissen,A.-M.W.H.&Dijkstra,B.W.(1999)。分子生物学杂志。 291, 877–898. 科学网 公共医学 谷歌学者
第一次引用Baek,M.、DiMaio,F.、Anishchenko,I.、Dauparas,J.、Ovchinnikov,S.、Lee,G.R.、Wang,J.,Cong,Q.、Kinch,L.N.、Schaeffer,R.D.、MilláN,C.、Park,H.、Adams,C.、Glassman,C.R.、DeGiovanni,A.、Pereira,J.H.、Rodrigues,A.V.、van Dijk,A.A.、Ebrecht,A.C.、Opperman,D.J.、Sagmeister,T.、Buhlheller,C.、Pavkov-Keller,T。,Rathina­swamy,M.K.,Dalwadi,U.,Yip,C.K.,Burke,J.E.,Garcia,K.C.,Grishin,N.V.,Adams,P.D.,Read,R.J.&Baker,D.(2021)。科学类373, 871–876. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Bhat,T.N.(1988)。J.应用。克里斯特。 21, 279–281. 交叉参考 科学网 IUCr日志 谷歌学者
第一次引用Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012)。《水晶学报》。D类68, 1622–1631. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Borges,R.J.、Meindl,K.、Triviño,J.、Sammito,M.、Medina,A.、Milán,C.、Alcorlo,M.,Hermoso,J.A.、Fontes,M.R.M.和Usón,I.(2020年)。《水晶学报》。D类76, 221–237. 交叉参考 IUCr日志 谷歌学者
第一次引用Brünger,A.T.(1992)。自然355, 472–475. 公共医学 科学网 谷歌学者
第一次引用Caballero,I.、Sammito,M.、Millán,C.、Lebedev,A.、Soler,n.和Usón,I.(2018)。《水晶学报》。D类74, 194–204. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Caballero,I.、Sammito,M.D.、Afonine,P.V.、Usón,I.和Read,R.J.&McCoy,A.J.(2021)。《水晶学报》。D类77, 131–141. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Castellví,A.、Medina,A.,Petrillo,G.、Sagmeister,T.、Pavkov-Keller,T.,Govantes,F.、Diederichs,K.、Sammito,M.D.和Usón,I.(2022)。生物Rxiv, 2022.04.12.488086. 谷歌学者
第一次引用Emsley,P.、Lohkamp,B.、Scott,W.G.和Cowtan,K.(2010年)。《水晶学报》。D类66, 486–501. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Fujinaga,M.和Read,R.J.(1987年)。J.应用。克里斯特。 20,第517页至第521页交叉参考 科学网 IUCr日志 谷歌学者
第一次引用Hunter,J.D.(2007)。计算。科学。工程师。 9, 90–95. 科学网 交叉参考 谷歌学者
第一次引用Jumper,J.,Evans,R.,Pritzel,A.,Green,T.,Figurnov,M.,Ronneberger,O.,Tunyasuvunakool,K.,Bates,R.第页,M.,Berghammer,T.,Bodenstein,S.,Silver,D.,Vinyals,O.,Senior,A.W.,Kavukcuoglu,K.,Kohli,P.&Hassabis,D.(2021)。自然596, 583–589. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Keegan,R.M.和Winn,M.D.(2007年)。《水晶学报》。D类63, 447–457. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Kleywegt,G.J.(2000)。《水晶学报》。D类56, 249–265. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Kovalevskiy,O.、Nicholls,R.A.和Murshudov,G.N.(2016)。《水晶学报》。D类72, 1149–1161. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Krissinel,E.和Henrick,K.(2004年)。《水晶学报》。D类60, 2256–2268. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Krissinel,E.、Lebedev,A.A.、Uski,V.、Ballard,C.B.、Keegan,R.M.、Kovalevskiy,O.、Nicholls,R.A.、Pannu,N.S.、Skubák,P.、Berrisford,J.、Fando,M.、Lohkamp,B.、Wojdyr,M.,Simpkin,A.J.、Thomas,J.M.H.、Oliver,C.、Vonrhein,C.、Chojnowski,G.、Basle,A.、Purkis,A.、Isupov,M.N.、McNicholas,S.、Lowe,E.、TriviñO,J.,Cowtan,K.、Agire,J.、Rigden,D.J.、Usón,I.、Lamzin,V.、Tews,I.,Bricogne,G.、Leslie,A.G.W.和Brown,D.G.(2022)。《水晶学报》。D类78, 1079–1089. 交叉参考 IUCr日志 谷歌学者
第一次引用Kryshtafovych,A.、Schwede,T.、Topf,M.、Fidelis,K.和Moult,J.(2019年)。蛋白质87, 1011–1020. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Lee,M.、Batuecas,M.T.、Tomoshige,S.、Domínguez-Gil,T.、Mahasenan,K.V.、Dik,D.A.、Hesek,D.、Milán,C.、Usón,I.、Lastochkin,E.、Hermoso,J.A.和Mobashery,S.(2018年)。程序。美国国家科学院。科学。美国115, 4393–4398. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Liao,Z.,Oyama,T.,Kitagawa,Y.,Katayanagi,K.,Morikawa,K.&Oda,M.(2022)。《水晶学报》。D类78, 390–398. 交叉参考 IUCr日志 谷歌学者
第一次引用Liebschner,D.,Afonine,P.V.,Baker,M.L.,Bunkóczi,G.,Chen,V.B.,Croll,T.I.,Hintze,B.,Hung,L.-W.,Jain,S.,McCoy,A.J.,Moriarty,N.W.,Oeffner,R.D.,Poon,B.K.,Prisant,M.G.,Read,R.J.,Richardson,J.S.,Richadson,D.C.,Sammito,M.D.,Sobolev,O.V.,Stockwell,D.H.,Terwilliger,T.C.,Urzhumtsev,A.G.,Videau,L。L.、Williams、C.J.和Adams,P.D.(2019年)。《水晶学报》。D类75, 861–877. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Lunin,V.Y.和Lunina,N.L.(1996)。《水晶学报》。一个52, 365–368. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Mariani,V.、Biasini,M.、Barbato,A.和Schwede,T.(2013)。生物信息学29, 2722–2728. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用McCoy,A.J.、Grosse-Kunstleve,R.W.、Adams,P.D.、Winn,M.D.、Storoni,L.C.和Read,R.J.(2007年)。J.应用。克里斯特。 40, 658–674. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用McCoy,A.J.、Oeffner,R.D.、Millán,C.、Sammito,M.、Usón,I.&Read,R.J.(2018)。《水晶学报》。D类74,279–289页科学网 交叉参考 IUCr日志 谷歌学者
第一次引用McCoy,A.J.、Sammito,M.D.和Read,R.J.(2022)。《水晶学报》。D类78, 1–13. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Medina,A.、Triviño,J.、Borges,R.J.、Milán,C.、Usón,I.和Sammito,M.D.(2020年)。《水晶学报》。D类76, 193–208. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Milán,C.,Jiménez,E.,Schuster,A.,Diederichs,K.&Usón,I.(2020年)。《水晶学报》。D类76, 209–220. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Millán,C.,Keegan,R.M.,Pereira,J.,Sammito,M.D.,Simpkin,A.J.,McCoy,A.J..,Lupas,A.n.,Hartmann,M.D,Rigden,D.J.和Read,R.J.(2021)。蛋白质89, 1752–1769. 科学网 公共医学 谷歌学者
第一次引用Milán,C.、Sammito,M.、Garcia-Ferrer,I.、Goulas,T.、Sheldrick,G.M.和Usón,I.(2015)。《水晶学报》。D类71, 1931–1945. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Milán,C.,Sammito,M.&Usón,I.(2015)。IUCrJ大学2,95–105科学网 交叉参考 公共医学 IUCr日志 谷歌学者
第一次引用Milán,C.,Sammito,M.D.,McCoy,A.J.,Nascimento,A.F.Z.,Petrillo,G.,Oeffner,R.D.,Domínguez-Gil,T.,Hermoso,J.A.,Read,R.J.&Usón,I.(2018年)。《水晶学报》。D类74, 290–304. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Mirdita,M.、Schütze,K.、Moriwaki,Y.、Heo,L.、Ovchinnikov,S.和Steinegger,M.(2022)。自然方法19, 679–682. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Monferrer,D.,Tralau,T.,Kertesz,M.A.,Dix,I.,Solá,M.&Usón,I.(2010年)。摩尔微生物。 75, 1199–1214. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Navaza,J.(2001年)。《水晶学报》。D类57, 1367–1372. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Oeffner,R.D.、Afonine,P.V.、Millán,C.、Sammito,M.、Usón,I.、Read,R.J.和McCoy,A.J.(2018)。《水晶学报》。D类74, 245–255. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Pereira,J.、Simpkin,A.J.、Hartmann,M.D.、Rigden,D.J.、Keegan,R.M.和Lupas,A.N.(2021年)。蛋白质89,1687年至1699年科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Read,R.J.和McCoy,A.J.(2016)。《水晶学报》。D类72, 375–387. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用罗德里格斯(Rodríguez,D.D.)、格罗斯(Grosse,C.)、希梅尔(Himmel,S.)、冈萨雷斯(González,C.),德伊拉杜亚(de Ilarduya,I.M.)、贝克尔(Becker,S.,Sheldrick,G.M.&Usón,I.(2009)。自然方法6, 651–653. 科学网 公共医学 谷歌学者
第一次引用Rojas-Altuve,A.、Carrasco-López,C.、Hernández-Rocamora,V.M.、Sanz,J.M.和Hermoso,J.A.(2011年)。《水晶学报》。F类67, 1278–1280. 交叉参考 IUCr日志 谷歌学者
第一次引用Sammito,M.、Meindl,K.、de Ilarduya,I.M.、Millán,C.、Artola-Recolons,C.、Hermoso,J.A.和Usón,I.(2014)。FEBS J公司。 281, 4029–4045. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Schneider,T.R.和Sheldrick,G.M.(2002)。《水晶学报》。D类58, 1772–1779. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Sheldrick,G.M.(2002)。Z.克里斯塔洛格。 217, 644–650. 科学网 交叉参考 中国科学院 谷歌学者
第一次引用Sheldrick,G.M.(2010年)。《水晶学报》。D类66, 479–485. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Shrestha,R.和Zhang,K.Y.J.(2015)。《水晶学报》。D类71, 304–312. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Simpkin,A.J.、Caballero,I.、McNicholas,S.、Stevenson,K.、Sanchez Rodriguez,F.、Usón,I.,Rigden,D.J.和Keegan,R.M.(2022)。正在准备中。 谷歌学者
第一次引用Söding,J.、Biegert,A.和Lupas,A.N.(2005)。核酸研究。 33,W244–W248科学网 公共医学 谷歌学者
第一次引用Tannenbaum,T.、Wright,D.、Miller,K.和Livny,M.(2001)。Beowulf集群计算与Linux由T.Sterling编辑,第307-350页。剑桥:麻省理工学院出版社。 谷歌学者
第一次引用Terwilliger,T.C.(2000)。《水晶学报》。D类56,965–972页科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.、Grosse-Kunstleve,R.W.、Afonine,P.V.、Moriarty,N.W.,Adams,P.D.、Read,R.J.、Zwart,P.H.和Hung,L.W.(2008)。《水晶学报》。D类64, 515–524. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Thorn,A.和Sheldrick,G.M.(2013)。《水晶学报》。D类69, 2251–2256. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Usón,I.、Ballard,C.C.、Keegan,R.M.和Read,R.J.(2021)。《水晶学报》。D类77, 129–130. 交叉参考 IUCr日志 谷歌学者
第一次引用Usón,I.&Sheldrick,G.M.(2018)。《水晶学报》。D类74, 106–116. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Usón,I.和Sheldrick,G.M.(2022)。生物Rxiv, 2022.04.28.489939. 谷歌学者
第一次引用Vagin,A.和Lebedev,A.(2015)。《水晶学报》。一个71,第19节科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Waterhouse,A.、Bertoni,M.、Bienert,S.、Studer,G.、Tauriello,G.,Gumienny,R.、Heer,F.T.、de Beer,T.A.P.、Rempfer,C.、Bordoli,L.、Lepore,R.和Schwede,T.(2018)。核酸研究。 46,W296–W303科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Webb,B.&Sali,A.(2021年)。方法分子生物学。 2199, 239–255. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Wessel,J.、Petrillo,G.、Estevez–Gay,M.、Bosch,S.、Seeger,M.、Dijkman,W.P.、Iglesias Fernández,J.、Hidalgo,A.、Usón,I.、Osuna,S.和Schallmey,A.(2021)。FEBS J公司。 288, 4683–4701. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Williams,C.J.,Head,J.J.,Moriarty,N.W.,Prisant,M.G.,Videau,L.L.,Deis,L.N.,Verma,V.,Keedy,D.A.,Hintze,B.J.,Chen,V.B.,Jain,S.,Lewis,S.M.,Arendall,W.B.,Snoeyink,J.,Adams,P.,Lovell,S.C.,Richardson,J.S.&Richardson.S.(2018)。蛋白质科学。 27, 293–315. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Winn,M.D.,Ballard,C.C.,Cowtan,K.D.,Dodson,E.J.,Emsley,P.,Evans,P.R.,Keegan,R.M.,Krissinel,E.B.,Leslie,A.G.W.,McCoy,A.,McNicholas,S.J.,Murshudov,G.N.,Pannu,N.S.,Potterton,E.A.,Powell,H.R.、Read,R.J.、Vagin,A.&Wilson,K.S.(2011)。《水晶学报》。D类67, 235–242. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Winter-Holt,J.J.、Bardelle,C.、Chiarparin,E.、Dale,I.L.、Davey,P.R.J.、Davies,N.L.、Denz,C.、Fillery,S.M.、Guérot,C.M.、Han,F.、Hughes,S.J.、Kulkarni,M.、Liu,Z.、Milbradt,A.、Moss,T.A.、Niu,H.、Patel,J.、Rabow,A.A.、Schimpl、Shi,J.,Sun,D.、Yang,D.和Guichard,S.(2022)。医学化学杂志。 65, 3306–3331. 中国科学院 公共医学 谷歌学者
第一次引用周毅、陶伟、齐毅、魏坚、石涛、康强、郑洁、赵毅、白立中(2022)。ACS目录。 12,762–776页交叉参考 中国科学院 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标结构
生物学
国际标准编号:2059-7983