研究论文\(第5em段)

期刊徽标结构
生物学
国际标准编号:2059-7983

分子替换使用数据库中的结构预测

十字标记_颜色_方形_文本.svg

英国利物浦L69 7ZB利物浦大学综合生物学研究所b条英国迪德科特OX11 0FA哈维尔研究中心卢瑟福德·阿普尔顿实验室STFC
*通信电子邮件:drigden@liverpool.ac.uk

(2019年7月22日收到; 2019年10月12日接受; 2019年11月19日在线)

分子替换(MR)是解决相位问题在大分子晶体学中。如果缺乏合适的同源物排除了常规MR,一种选择是使用生物信息学预测目标结构。在没有同源模板的情况下,这种建模称为从头算从头开始建模。最近,由于在许多情况下从进化协方差分析得出的残差接触预测的可用性,这种模型的准确性已经显著提高。协方差辅助从头算代表结构上没有特征的Pfam家族的模型现在可以在数据库中大规模使用,这可能是PDB作为搜索模型来源的一个有价值且易于访问的补充。这里,非常规MR管道充足的用于探索GREMLIN和PconsFam数据库中结构预测的价值。测试了这些以不同方式处理的沉积预测是否能够解决随后沉积的PDB条目的结构。结果令人鼓舞:27例GREMLIN病例中有9例得到解决,目标长度为109–355个残基,分辨率范围为1.4–2.9º,目标-模型共享序列一致性低至20%。中的集群和截断方法充足的事实证明,这对大多数成功至关重要。对于PconsFam数据库中的整体低质量结构预测,使用罗塞塔充足的管道被证明是最好的方法,它可以从单结构矿床中生成集合搜索模型。最后,可以看出充足的-从GREMLIN矿床获得的搜索模型具有足够高的质量,可供序列相关MR管道选择辛巴德总的来说,这些结果有助于为优化使用不断扩展的数据库指明方向从头算结构预测。

1.简介

高分子晶体学需要相位信息源来补充测量的衍射强度,从而求解结构。虽然有实验方法,但获取相位信息的最常用方法是分子置换(MR)。MR涉及搜索模型在非对称单元,通常通过连续的旋转和平移步骤,从而提供近似的相位信息,与测量的衍射数据一起,可以计算初始电子密度图(Rossmann&Blow,1962【Rossmann,M.G.和Blow,D.M.(1962),《水晶学报》,第15期,第24-31页。】).

传统的MR通常使用目标蛋白的同源结构作为搜索模型,通常需要经过一些手动或自动编辑。编辑的目的是删除序列比较中显示的在同源和目标之间存在差异的环或侧链,或者是灵活的,因此容易在已知和未知结构中采用不同的构象(Schwarzenbacher等人。, 2004【Schwarzenbacher,R.、Godzik,A.、Grzechnik,S.K.和Jaroszewski,L.(2004),《结晶学报》,第60期,第1229-1236页。】; Stein,2008年[Stein,N.(2008),《应用结晶杂志》,第41期,第641-643页。]; Bunkóczi&Read,2011年【Bunkóczi,G.&Read,R.J.(2011),《水晶学报》,D67,303-312。】; 列别杰夫等人。, 2008[Lebedev,A.A.、Vagin,A.和Murshudov,G.N.(2008),《水晶学报》,D64,33-39。]). 随着目标-搜索模型关系变得越来越远,传统MR变得更加困难,因此,结构往往差异更大。因此,通过对远同源结构进行非平凡的处理,已经付出了巨大的努力来推动传统MR的边界(Bunkóczi&Read,2011)[Bunkóczi,G.和Read,R.J.(2011)。晶体学报,D67,303-312。]; 里格登等人。, 2018[Rigden,D.J.,Thomas,J.M.H.,Simkovic,F.,Simpkin,A.,Winn,M.D.,Mayans,O.&Keegan,R.M.(2018),《结晶学报》第74期,第183-193页。]; 萨米托等人。2014年【Sammito,M.,Meindl,K.,de Ilarduya,I.M.,Millán,C.,Artola-Recolons,C.,Hermoso,J.A.&Usón,I.(2014年)。联邦公报281,4029-4045。】)和/或它们的有利叠加作为集合搜索模型(莱希等人。, 1992[Leahy,D.J.,Axel,R.&Hendrickson,W.A.(1992)。《细胞》,第68期,第1145-1162页。]; 亚当斯等人。, 2010【Adams,P.D.,Afonine,P.V.,Bunkóczi,G.,Chen,V.B.,Davis,I.W.,Echols,N.,Headd,J.J.,Hung,L.-W.,Kapral,G.J.,Grosse-Kunstleve,R.W.,McCoy,A.J.,Moriarty,N.W.,Oeffner,R.,Read,R.J.,Richardson,D.C.,Richards,J.S.,Terwilliger,T.C.&Zwart,P.H.(2010),《水晶学报》D66,213-221。】; 基冈等人。, 2018【Keegan,R.M.,McNicholas,S.J.,Thomas,J.M.H.,Simpkin,A.J.,Simkovic,F.,Uski,V.,Ballard,C.C.,Winn,M.D.,Wilson,K.S.&Rigden,D.J.(2018),《结晶学报》第74期,第167-182页。】). 集成搜索模型与最大似然使用的评分方法相位器(麦考伊,2004年【McCoy,A.J.(2004),《晶体学报》,D60,2169-2183。】; 麦考伊等人。, 2007【McCoy,A.J.、Grosse Kunstleve,R.W.、Adams,P.D.、Winn,M.D.、Storoni,L.C.和Read,R.J.(2007)。《应用结晶》杂志,第40658-674页。】). 选择同源物作为搜索模型通常通过蛋白质数据库的序列同源性搜索来进行(PDB;wwPDB Consortium,2018[wwPDB Consortium(2018).核酸研究47,D520-D528.]),但序列和结构相似性之间的不完美相关性(例如在可以采用多种构象的蛋白质家族中)意味着还需要对PDB或衍生数据库进行大规模的序列相关筛选(Hatti等人。, 2016[Hatti,K.,Gulati,A.,Srinivasan,N.&Murthy,M.R.N.(2016),《结晶学报》第72期,第1081-1089页。]; 斯托克斯-里兹和斯利兹,2010年【Stokes-Rees,I.&Sliz,P.(2010),美国国家科学院院刊,107,21476-21481。】; 辛普金等人。, 2018【Simpkin,A.J.,Simkovic,F.,Thomas,J.M.H.,Savko,M.,Lebedev,A.,Uski,V.,Ballard,C.,Wojdyr,M.、Wu,R.,Sanishvili,R.、Xu,Y.,Lisa,M.-N.,Buschiazo,A.,Shepard,W.,Rigden,D.J.&Keegan,R.M.(2018),《结晶学报》第74期,第595-605页。】).

在传统MR的边界之外,对于非常遥远的同源物甚至新的褶皱,已经开发出非传统的MR方法。它们利用了搜索模型的其他来源,例如理想的规则二级结构元素或图案(罗德里格斯等人。, 2012【罗德里格斯·D、桑米托·M、迈恩德·K、德伊拉杜亚·I·M、波特拉茨·M、谢尔德里克·G·M和乌森·I(2012),《水晶学报》,D68,336-343。】),反复出现的第三纪褶皱样式(Sammito等人。, 2013【Sammito,M.、Milán,C.、Rodríguez,D.D.、de Ilarduya,I.M.、Meindl,K.、de Marino,I.、Petrillo,G.、Buey,R.M.、de Pereda,J.M.、Zeth,K.,Sheldrick,G.M.和Usón,I.(2013)。《自然方法》,第10期,第1099-1101页。】)或从头算型号(Bibby等人。, 2012【Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012),《水晶学报》,D68,1622-1631。】; 基冈等人。, 2015【Keegan,R.M.、Bibby,J.、Thomas,J.,Xu,D.、Zhang,Y.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2015),《结晶学报》第71期,第338-343页。】; 辛科维奇等人。, 2016[Simkovic,F.,Thomas,J.M.H.,Keegan,R.M.,Winn,M.D.,Mayans,O.&Rigden,D.J.(2016),国际癌症研究联合会,3,259-270。]).从头算模型是可以根据序列单独获得的结构预测,与PDB中同源物的结构信息无关。项目使用的第一种广泛成功的方法罗塞塔(矮子等人。, 1998[肖特·D、西蒙斯·K·T和贝克·D(1998)。美国国家科学院院刊,95,11158-11162。]; Leaver-Fay公司等人。, 2011[Leaver-Fay,A.,Tyka,M.,Lewis,S.M.,Lange,O.F.,Thompson,J.,Jacak,R.,Kaufman,K.,Renfrew,P.D.,Smith,C.A.,Shefler,W.,Davis,I.W.,Cooper,S.,Treuille,A.,Mandell,D.J.,Richter,F.,Ban,Y.E.,Fleishman,S.J.,Corn,J.E.,Kim,D.E.,Lyskov,S。J.、Karanicolas,J.、Das,R.、Meiler,J.,Korteme,T.、Gray,J.和Kuhlman,B.、Baker,D.和Bradley,P.(2011年)。方法酶制剂。487, 545-574.])以及夸克(徐和张,2012[Xu,D.&Zhang,Y.(2012).蛋白质,80,1715-1735.]),使用蒙特卡罗算法从无关蛋白质的片段构建结构,对搜索空间进行采样,并使用复杂的搜索函数识别具有实验蛋白质结构特征的结构。使用的早期工作从头算模型(Qian等人。, 2007[钱,B.,拉曼,S.,达斯,R.,布拉德利,P.,麦考伊,A.J.,里德,R.J.&贝克,D.(2007)。《自然》(伦敦),450,259-264。]; 里格登等人。, 2008[Rigden,D.J.、Keegan,R.M.和Winn,M.D.(2008),《水晶学报》,D641288-1291。])启发了充足的管道使用罗塞塔特别是建模(Bibby等人。, 2012【Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012),《水晶学报》,D68,1622-1631。】). 然而,它的实用性受到了可以精确建模的蛋白质大小的限制,当时大约有120个残基,以及富含蛋白质的模型质量较差的限制β-结构,与α-螺旋蛋白(Bibby等人。, 2012【Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012),《水晶学报》,D68,1622-1631。】).

最近,分子内和分子间残基接触预测的可用性,来源于深度蛋白质序列比对的进化协方差分析(Morcos等人。, 2011【Morcos,F.,Pagnani,A.,Lunt,B.,Bertolino,A.,Marks,D.S.,Sander,C.,Zecchina,R.,Onuchic,J.N.,Hwa,T.&Weigt,M.(2011),美国国家科学院院刊,108,E1293-E1301。】),彻底改变了结构生物信息学(de Oliveira&Deane,2017【Oliveira,S.de&Deane,C.(2017),F1000号决议第6、1224页。】)对结构生物学有许多启示(辛科维奇等人。, 2017[Simkovic,F.,Ovchinnikov,S.,Baker,D.&Rigden,D.J.(2017年),IUCrJ,4,291-300。]). 人们立即意识到,高质量的接触预测将使折叠成为可能从头算大得多的蛋白质(马克等人。, 2011[Marks,D.S.,Colwell,L.J.,Sheridan,R.,Hopf,T.A.,Pagnani,A.,Zecchina,R.&Sander,C.(2011).公共科学图书馆·综合,6,e28766.]). 事实上,对于超过200个残基的球状蛋白,很快就得到了相当准确的折叠预测(Marks等人。, 2011[Marks,D.S.,Colwell,L.J.,Sheridan,R.,Hopf,T.A.,Pagnani,A.,Zecchina,R.&Sander,C.(2011),公共科学图书馆一期,6,e28766.])以及含有500多个残基的跨膜螺旋蛋白(Hopf等人。, 2012【Hopf,T.A.,Colwell,L.J.,Sheridan,R.,Rost,B.,Sander,C.&Marks,D.S.(2012)。细胞,149,1607-1621。】). 几个组使用中实现的距离几何结构预测方法中枢神经系统(布伦格等人。, 1998【Brünger,A.T.、Adams,P.D.、Clore,G.M.、DeLano,W.L.、Gros,P.、Grosse-Kunstleve,R.W.、Jiang,J.-S.、Kuszewski,J.、Nilges,M.、Pannu,N.S.、Read,R.J.、Rice,L.M.,Simonson,T.和Warren,G.L.(1998),《晶体学报》D54,905-921。】; Brunger,2007年【Brunger,A.T.(2007),《自然协议》,第2期,2728-2733页。】),但其他人继续使用片段组装方法,通过利用宏基因组数据库深化可用于靶点的序列比对,从而获得更准确的接触预测,获得了特别令人印象深刻的结果(Ovchinnikov等人。, 2017[Ovchinnikov,S.,Park,H.,Varghese,N.,Huang,P.-S,Pavlopoulos,G.A.,Kim,D.E.,Kamisetty,H.,Kyrpides,N.C.和Baker,D.(2017)。科学,355,294-298。]).

随着接触辅助技术的迅速发展从头算建模方法,一些研究小组考虑使用Pfam(El-Gebali)生成结构预测以覆盖蛋白质序列空间等人。, 2018[El Gebali,S.、Mistry,J.、Bateman,A.、Eddy,S.R.、Luciani,A.、Potter,S.C.、Qureshi,M.、Richardson,L.J.、Salazar,G.A.、Smart,A.、Sonnhammer,E.L.L.、Hirsch,L.、Paladin,L.、Piovesan,D.、Tosatto,S.C.E.和Finn,R.D.(2019)。核酸研究47,D351-D360。])作为蛋白质家族的方便定义。其中最突出的是GREMLIN数据库(Ovchinnikov等人。, 2017[Ovchinnikov,S.、Park,H.、Varghese,N.、Huang,P.-S.、Pavlopoulos,G.A.、Kim,D.E.、Kamisetty,H.,Kyrpides,N.C.和Baker,D.(2017),《科学》,355,294-298。]),其中包含614个Pfam系列的代表,这些代表来自复杂的迭代建模罗塞塔,以及PconsFam数据库(Lamb等人。, 2019【Lamb,J.,Jarmolinska,A.I.,Michel,M.,Menendez-Hurtado,D.,Sulkowska,J.I.&Elofsson,A.(2019),《分子生物学杂志》431,2442-2448。】)它涵盖了大量的蛋白质家族,即13617个,但获得模型的速度更快。由于这些模型代表了Pfam家族,通常有数千个成员,因此它们为许多蛋白质提供了一定程度的结构信息:例如,GREMLIN的作者计算出,他们的模型预测的TM-scores大于0.65(其中TM-score大于0.5被视为正确的折叠预测;Zhang&Skolnick,2004【Zhang,Y.和Skolnick,J.(2004a)。蛋白质,57,702-710。】; Xu&Zhang,2010年[Xu,J.&Zhang,Y.(2010).生物信息学,26,889-895.])在UniRef100中覆盖了近50万个序列(Suzek等人。, 2007【Suzek,B.E.、Huang,H.、McGarvey,P.、Mazumder,R.和Wu,C.H.(2007)。生物信息学,231282-1288。】). 因此,随着模型变得越来越准确,特别是随着它们在不久的将来可能在重要的蛋白质序列数据库中变得越来越容易访问,对其MR潜力的探索是及时的。这里,我们展示了充足的MR管道提供了一种从GREMLIN和PconsFam数据库中的条目准备搜索模型的有效方法。前者使用为本地生产开发的相同协议直接进行集群和截断从头算模型:与直接使用沉积结构预测相比,这解决了更多的结构问题。PconsFam数据库中的单一沉积结构预测最好通过以下方式处理罗塞塔可以方便地在充足的流水线,通过对结果进行聚类和截断来组成集合搜索模型(图1[链接]). 在序列相关MR流水线中使用数据库衍生搜索集成的初步探索辛巴德(辛普金等人。, 2018【Simpkin,A.J.,Simkovic,F.,Thomas,J.M.H.,Savko,M.,Lebedev,A.,Uski,V.,Ballard,C.,Wojdyr,M.、Wu,R.,Sanishvili,R.、Xu,Y.,Lisa,M.-N.,Buschiazo,A.,Shepard,W.,Rigden,D.J.&Keegan,R.M.(2018),《结晶学报》第74期,第595-605页。】)还介绍了。

[图1]
图1
流程图显示了处理之前从GREMLIN和PconsFam获得的搜索模型的方法充足的充足的单模模式。每种方法的相对成功用绿色、橙色或红色表示,其中绿色表示更成功的方法,红色表示不太成功的方法。

2.方法

2.1. 测试集选择

病例选自GREMLIN数据库(Ovchinnikov等人。, 2017[Ovchinnikov,S.、Park,H.、Varghese,N.、Huang,P.-S.、Pavlopoulos,G.A.、Kim,D.E.、Kamisetty,H.,Kyrpides,N.C.和Baker,D.(2017),《科学》,355,294-298。]),其中包含614个蛋白质中每个蛋白质的30个结构预测,每个蛋白质代表一个Pfam家族(El-Gebali等人。, 2018【El-Gebali,S.、Mistry,J.、Bateman,A.、Eddy,S.R.、Luciani,A.、Potter,S.C.、Qureshi,M.、Richardson,L.J.、Salazar,G.A.、Smart,A.、Sonnhammer,E.L.、Hirsh,L.、Paladin,L.,Piovesan,D.、Tosatto,S.C.E.和Finn,R.D.(2019)。核酸研究47,D351-D360。】)结构上没有特征(Pfam数据库在建模时没有记录到家庭条目中的实验确定结构)。在数据库发布时,已确定了六个家庭的结构。通过挖掘Pfam数据库中与614个家庭相关的结构,确定了2017年1月至2018年12月期间结构特征化后建模的30个家庭。总共36个(补充表S1). 其中,有九个被排除,因为只有衍射数据的分辨率大于3A(一个案例),或者模型的质量太差(九个案例)。建模不良被定义为导致模型(以每个蛋白质沉积的30个结构中的第一个结构表示)产生TM-核(Zhang&Skolnick,2004【Zhang,Y.和Skolnick,J.(2004a)。蛋白质,57,702-710。】),标准化为目标结构或模型,均<0.5:这些值表明未正确建模整体褶皱(Xu&Zhang,2010[Xu,J.&Zhang,Y.(2010).生物信息学,26,889-895.]). 我们询问剩下的27例患者(表1[链接])可以使用数据库中保存的模型结果进行求解。

表1
年试验的27个测试案例的结果充足的使用GREMLIN模型

【方案一】

PconsFam数据库(Lamb等人。, 2019【Lamb,J.,Jarmolinska,A.I.,Michel,M.,Menendez-Hurtado,D.,Sulkowska,J.I.&Elofsson,A.(2019),《分子生物学杂志》431,2442-2448。】)包含13 617个蛋白质的单结构预测,同样每个都代表一个Pfam家族。除了处理新的褶皱外,它还包含了结构特征明确的家族模型。上述27例中的22例可从PconsFam数据库中获得。然而,22人中只有6人通过了TM-score>0.5标准,其中一人(PDB条目4xb6型)没有尝试,因为模型相当差(TM评分为0.55)非对称单元。由于合适的PconsFam模型的数量相当少,因此也对选定的其他家族进行了实验,已知PconsFam数据库中有高质量的模型。这些是Ras系列(PF00071),在该系列中,模型用于尝试解决PDB中作为入口沉积的结构1yzq(伊兹克)(分辨率1.78º)和DUF305系列(PF03713;PDB条目5ffa公司; 1.50Ω分辨率)。

2.2. 搜索模型生成

对于27个GREMLIN测试案例,为每个案例存储的30个结构预测被用作直接输入充足的v.1.4.6英寸中央对手方清算所4 v.7.0.68(优胜者等人。, 2011[Winn,M.D.,Ballard,C.C.,Cowtan,K.D.,Dodson,E.J.,Emsley,P.,Evans,P.R.,Keegan,R.M.,Krissinel,E.B.,Leslie,A.G.W.,McCoy,A.,McNicholas,S.J.,Murshudov,G.N.,Pannu,N.S.,Potterton,E.A.,Powell,H.R.,Read,R.J.,Vagin,A.&Wilson,K.S.(2011),《基督学报》,D67,235-242。]). 当前的默认处理选项用于搜索模型合成:即前十个选项中的每一个防喷器(Zhang&Skolnick,2004)b条[Zhang,Y.&Skolnick,J.(2004b).计算化学杂志.25,865-871.])集群,分20步逐步截断,从100%(未截断)降至剩余的5%左右,子集群(Bibby等人。, 2012【Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012),《水晶学报》,D68,1622-1631。】)使用1或3°半径并移除所有侧链以离开多胺搜索模型。模型被截断成尽可能接近所需百分比间隔的容器,但由于蛋白质序列是可变长度的离散实体,因此它们并不总是可以均匀地划分成所需容器。当报告截断仓的实际大小时,仓的大小可能与理想的百分比值有一点不同。

为了进行比较,还进行了两次尝试:所有30个结构预测都直接呈现给相位器作为一个整体,单个“最终模型”的单独数据库中的条目在充足的单结构模式(里格登等人。, 2018[Rigden,D.J.,Thomas,J.M.H.,Simkovic,F.,Simpkin,A.,Winn,M.D.,Mayans,O.&Keegan,R.M.(2018),《结晶学报》第74期,第183-193页。])使用VoroMQA公司(Olechnović&Venclovas,2017年[Olechnovič,K.和Venclovas,C.(2017)。蛋白质,8511131-1145。])提供超过20个阈值的连续质量分数。指定保留侧链或编辑聚丙氨酸,以便为每种情况导出40个搜索模型。

由于PconsFam数据库仅包含每个Pfam家族的单个模型,因此尝试了三种方法。首先,在充足的使用上面的单结构模式执行,使用VoroMQA公司蛋白质结构质量预测。其次,罗塞塔以PconsFam模型为基础进行改造。这种方法以前用于核磁共振谱系综,并被证明可以提高性能。使用-nmr重塑标记原因充足的为了将输入结构理想化,这里使用PconsFam模型,然后使用提供的目标序列将结果重新建模为许多新结构,以片段相关的方式对构象空间进行采样。片段库是从罗贝塔服务器(Kim等人。, 2004【Kim,D.E.,Chivian,D.&Baker,D.(2004)。核酸研究32,W526-W531。】)选择了“排除同系物”选项,以便重塑不受目标结构或同系物的任何知识的影响。这里,从每个PconsFam模型导出了100个结构,并给出了充足的用于如上所述的聚类和截断。第三,对于选定的目标,使用康科德(德格罗等人。, 1997【Groot,B.L.de,van Aalten,D.M.F.,Scheek,R.M.,Amadei,A.,Vriend,G.&Berendsen,H.J.C.(1997)。蛋白质,29,240-251。】)如前所述(Rigden等人。, 2018[Rigden,D.J.,Thomas,J.M.H.,Simkovic,F.,Simpkin,A.,Winn,M.D.,Mayans,O.&Keegan,R.M.(2018),《结晶学报》第74期,第183-193页。]). 简而言之,CONCOORD公司从给定结构中提取约束,然后使用距离几何方法构建一组不同于原始结构但遵守导出约束的变体结构。使用此过程,填充不太好的区域(如循环)在生成的导数结构中显示出结构差异,因此,通过充足的算法会被截断。

2.3. 分子替换

充足的管道,BUMP先生(基冈等人。, 2018【Keegan,R.M.,McNicholas,S.J.,Thomas,J.M.H.,Simpkin,A.J.,Simkovic,F.,Uski,V.,Ballard,C.C.,Winn,M.D.,Wilson,K.S.&Rigden,D.J.(2018),《结晶学报》第74期,第167-182页。】)使用测试搜索模型相位器v.2.8.2(麦考伊等人。, 2007【McCoy,A.J.、Grosse Kunstleve,R.W.、Adams,P.D.、Winn,M.D.、Storoni,L.C.和Read,R.J.(2007)。《应用结晶》杂志,第40658-674页。】; Read&McCoy,2016年[Read,R.J.&McCoy,A.J.(2016),《水晶学报》第72期,第375-387页。]). 默认值充足的-使用了0.1°的估计r.m.s.d.误差,但该值由内部调整相位器与整体的内部结构可变性不一致。成功被认为是一个产生地图的位置相关系数(CC)为0.25或更高,使用phenix.get_map_cc_mtz_pdb(亚当斯等人。, 2010【Adams,P.D.,Afonine,P.V.,Bunkóczi,G.,Chen,V.B.,Davis,I.W.,Echols,N.,Headd,J.J.,Hung,L.-W.,Kapral,G.J.,Grosse-Kunstleve,R.W.,McCoy,A.J.,Moriarty,N.W.,Oeffner,R.,Read,R.J.,Richardson,D.C.,Richards,J.S.,Terwilliger,T.C.&Zwart,P.H.(2010),《水晶学报》D66,213-221。】). 所有这些病例在使用SHELXE公司(Thorn&Sheldrick,2013)【Thorn,A.和Sheldrick,G.M.(2013),《晶体学报》,D692251-2256。】),只有PDB条目例外5uw2型其衍射数据仅为2.9º分辨率,得分略低,为24.8分。所有这些解决方案都可以细化为R(右)自由的小于0.45,只使用海盗(Cowtan,2006年【Cowtan,K.(2006),《水晶学报》,D621002-1011。】)加REFMAC公司(穆尔舒多夫等人。, 2011[Murshudov,G.N.,Skubák,P.,Lebedev,A.A.,Pannu,N.S.,Steiner,R.A.,Nicholls,R.A.,Winn,M.D.,Long,F.和Vagin,A.A.(2011)。晶体学报,D67,355-367。])默认操作中内置的协议充足的或者,必要时(对于PDB条目5个月5uw2型),通过直接精炼相位器放置REFMAC公司(穆尔舒多夫等人。, 2011[Murshudov,G.N.,Skubák,P.,Lebedev,A.A.,Pannu,N.S.,Steiner,R.A.,Nicholls,R.A.,Winn,M.D.,Long,F.和Vagin,A.A.(2011)。晶体学报,D67,355-367。])或手动建模。为了进行比较,我们尝试使用理想螺旋模式来解决所有27个问题充足的带有相位器每个搜索模型的时间限制为24小时。

2.4.辛巴德

辛巴德是一种MR管道,使用旋转功能筛选大型结构数据库(Simpkin等人。, 2018【Simpkin,A.J.,Simkovic,F.,Thomas,J.M.H.,Savko,M.,Lebedev,A.,Uski,V.,Ballard,C.,Wojdyr,M.、Wu,R.,Sanishvili,R.、Xu,Y.,Lisa,M.-N.,Buschiazo,A.,Shepard,W.,Rigden,D.J.&Keegan,R.M.(2018),《结晶学报》第74期,第595-605页。】).辛巴德最近已修改为在中运行类似增强的快速旋转功能相位器(辛普金等人。, 2019[Simpkin,A.J.,Simkovic,F.,Thomas,J.M.H.,Savko,M.,Lebedev,A.,Uski,V.,Ballard,C.,Wojdyr,M。https://dx.doi.org/10.107/S2059798319015031。]). 这增加了管道的灵敏度,也允许用集合代替单个搜索模型。这个MoRDa公司(Vagin&Lebedev,2015年【Vagin,A.和Lebedev,A.(2015),《水晶学报》A71,s19。】)集成数据库辛巴德通常针对的被修改为包括充足的-从GREMLIN数据库中的模型导出的信号群。初步实验表明,旋转函数不够敏感,无法识别这些不良模型,因此辛巴德已修改为在中运行类似增强的快速翻译搜索相位器(麦考伊等人。, 2005【McCoy,A.J.,Grosse-Kunstleve,R.W.,Storoni,L.C.&Read,R.J.(2005),《结晶学报》D61,458-464.】)但只能在旋转函数中确定最佳方向。在这项工作中,针对MR和精细化,与之前出版的作品中按轮换得分排名前200的解决方案相反。

3.结果和讨论

3.1. 使用GREMLIN数据库中的模型

研究的27个案例包括许多具有挑战性的案例,因为模型和目标之间的结构偏差相对较高,和/或不对称装置:只有八个箱子里有一条链子非对称单元。当GREMLIN结构预测提供给充足的对于其默认的聚类和截断方法,27个案例中的9个得到了解决(补充表S1). 这九种情况包括四种跨膜螺旋蛋白、一种球形螺旋蛋白和四种混合折叠蛋白。因此,成功跨越了所有折叠类,但数字太小,无法表明某些类型的蛋白质是否特别(不)有利。总体上,最终成功的结构预测可视为中等质量,在C上的均方根误差为1.5–2.8ºα原子(TM-核0.63–0.84)与目标。解决的情况包括112–355个残基的长度范围和1.35–2.85º的分辨率范围。

在大多数情况下,给定Pfam家族的建模成员与最终结构特征的成员密切相关(>90%共享序列身份)。然而,有三个例外。第一个是PDB条目5立方英尺,的晶体结构属于沼泽红假单胞菌PduL,用磷酸丙酰基转移酶模型求解巨大芽孢杆菌(Pfam PF06130,UniProt D5DKA5),与之仅共享49%的序列同源性。第二个是PDB条目5月5日,结构超嗜热菌甘油-3-磷酸酰基转移酶,其中模型来自枯草杆菌(Pfam PF02660,UniProt Q45064)与靶基因的序列同源性仅为36%。最引人注目的是PDB的加入5毫升,磷酸二氢甘露糖合成酶的结构,其中未表征的GtrA家族蛋白的模型来自枯草杆菌(Pfam PF04138,UniProt O31821)与靶基因的序列同源性仅为20%。当考虑到这些相对遥远的同源物的成功时,值得记住的是,对于整个超家族中共享的特征,强烈影响建模的协方差信号将最强。这很可能有助于生成用于解决超家族目标的模型。然而,GREMLIN结构预测也确实来源于全原子、完全序列感知的方案,该方案有望对同源蛋白做出真正不同的预测。因此,令人鼓舞的是,结构预测可以解决相当遥远的同源目标。在这里提到的三个案例中,GREMLIN预测的二级结构与目标的二级架构非常匹配(补充图S1–S3).

如预期,在非对称单元解决的频率较低,但充足的PDB条目成功5节(两条链条)和PDB入口5uw2型(三条链条)。由于一些目标包含多个域,因此搜索模型有时仅表示目标的一部分。PDB条目就是这样5毫升,其中可用模型为123个残基长,但求解了352个残基的结构。

这九个案例的解决难易程度,以成功的搜索模型集成的比例表示,差异很大。用于PDB条目第5版170个搜索模型中有132个(78%)成功,而PDB条目成功5节成功率为6/132(4.5%)。PDB条目第5版使用包含11–100%起始模型残留物的搜索模型进行求解,而其他模型的求解范围较窄:PDB条目为27–41%5毫升例如。最短的成功搜索模型包含模型(PDB条目)起始结构(19个残基)的7%5兹比). 该目标是大肠杆菌脂蛋白二酰基甘油转移酶是一种长度为300个残基的完整膜酶,测定分辨率为1.6℃。7%的成功搜索模型包含一对反平行螺旋线。给定目标的成功搜索模型往往来自不同的集群,但包含最多输入30个模型的集群1并不总是成功的:PDB条目5立方英尺例如,仅使用从集群2和集群3派生的搜索模型进行求解。总的来说,结果表明,聚类和截断方法在充足的对从沉积模型导出的系综的许多非平凡编辑进行集中采样,是处理这些结构的合适策略。

需要在充足的两种简单的基线方法的较差性能说明了最佳性能。当使用分别提供给GREMLIN数据库中集合的每个蛋白质的顶层模型时,使用VoroMQA公司质量测量产生一系列截断导数,只有两种情况得到解决,PDB条目5毫升第5版其次,当30个结构作为一个整体呈现给相位器直接解决了一个案件。成功的案例是PDB进入第5版其中,整体中的模型与真实结构相比的r.m.s.d.介于1.59到2.30Ω之间(TM核为0.4到0.87)。

毫无疑问,所展示的成功涵盖了使用基于碎片的方法可能替代解决的目标(罗德里格斯等人。, 2009【罗德里格斯、D.D.、格罗斯、C.、希梅尔、S.、冈萨雷斯、C.、德伊拉杜亚、I.M.、贝克尔、S.谢尔德里克、G.M.和Usón,I.(2009)。《自然方法》,第6期,第651-653页。】; Jenkins,2018年【Jenkins,H.T.(2018),《水晶学报》D74,205-214。】). 虽然简单的理想螺旋模式充足的表现相对较差,只解决三个目标,更复杂的方法可能表现得更好,特别是在衍射数据分辨率较高、富含螺旋成分和/或较小的情况下非对称单元内容。因此,需要解决的更具挑战性的案例包括PDB条目5立方英尺,很大程度上β-包含两个~200-残留链的结构,PDB入口5瓦2,衍射分辨率仅为2.9º,PDB入口5节,其中衍射数据的分辨率为1.65º,但非对称单元含有510个残留物。图2[链接]举例说明,在这三种情况下,最成功的搜索模型只被适度截断到起始结构的54%、70%或80%,这表明正确的总体折叠预测很重要(另请参见补充图S4–S6). 相比之下,PDB条目的最佳搜索模型5azb公司(图2[链接])只包含初始结构的12%,成功需要将其截断到33%以下(补充图S7). 这一观察结果证明了抽样的重要性充足的在很大范围内截断。

[图2]
图2
()从GREMLIN数据库中获得的PF01790(品红色)的30个模型与结晶结构、PDB条目一致5azb公司(彩虹从N端的蓝色到C端的红色)。(b条)表现最好的充足的-衍生系综(品红色),通过将簇1截短至12%(33个残基)而衍生,与结晶结构对齐,PDB条目5兹比(彩虹)。(c)从GREMLIN数据库中获得的PF02470(品红色)的30个模型与结晶结构、PDB条目对齐5uw2型(彩虹)。(d日)表现最好的充足的-导出系综(洋红),通过将簇2截断到80%(96个残基)导出,与晶体结构,PDB条目5uw2型(彩虹)。(e(电子))从GREMLIN数据库中获得的PF03883(品红色)的30个模型与结晶结构、PDB条目对齐5节(彩虹)。((f))表现最好的充足的-衍生系综(洋红),通过将簇1截断至54%(137个残基)而衍生,与结晶结构、PDB入口对齐5节(彩虹)。()从GREMLIN数据库中获得的PF06130(品红色)的30个模型与结晶结构、PDB条目一致5立方英尺(彩虹)。(小时)表现最好的充足的-衍生系综(品红色),通过将簇3截断至70%(138个残基)而衍生,与结晶结构、PDB入口对齐5立方英尺(彩虹)。

3.2. 使用PconsFam数据库中的模型

应用相同的TM核心阈值0.5,表明预测褶皱大致正确(Xu&Zhang,2010[Xu,J.&Zhang,Y.(2010).生物信息学,26,889-895.]),在上述27个家庭中,只有5个家庭的PconsFam结构预测足以进行MR试验。PconsFam仅包含Pfam结构域代表性蛋白质的单结构预测。因此采用了三种不同的策略:根据局部模型质量预测从VoroMQA公司服务器,使用距离几何方法生成信号群CONCOORD公司罗塞塔以PconsFam沉积为起点进行重塑。

最简单的方法是根据预期质量分数编辑单个模型,但未能解决五个目标中的任何一个。罗塞塔在五个PDB条目中,有两个条目的重塑是成功的5×j55azb公司它们都是跨膜螺旋蛋白。PDB条目5×j5用49个搜索模型中的两个进行求解,这两个搜索模型是从包含23或41个残基的第一个簇中截短的集合。这个SHELXE公司跟踪使用自动重建海盗充足的管道到最终R(右)自由的值为28–29%。更大的搜索模型c1_23_r3_polyAla(其中c1表示从簇1导出,23表示保留了23%的初始模型,r3表示3º子簇半径,polyAla表示侧链处理)包含目标结构的大多数C端三螺旋子域,预测更准确(图3[链接]). PDB条目5azb公司通过生成的200个搜索模型进行求解。它来源于第七个簇并被截断,直到包含57个残基,主要由四个跨膜螺旋的部分组成。同样,自动化重建产生了R(右)自由的占29%。这两种情况都没有通过更简单、耗时更少的集成生成方法来解决CONCOORD公司.

[图3]
图3
()PF02660(品红色)的PconsFam模型与结晶结构、PDB入口对齐5jx5码(彩虹)。(b条)未经授权的充足的合奏(洋红丝带),如下罗塞塔重塑,与结晶结构对齐,PDB入口5jx5码(彩虹)。(c)被截断的充足的罗塞塔-PF02660(品红色)的PconsFam模型的改型版本与结晶结构、PDB入口对齐5jx5码(彩虹)。

为了进一步探索将PconsFam模型转换为成功搜索模型的方法,对Ras蛋白进行了一些试验(Pfam加入PF00071;PDB条目1yzq(伊兹克))和DUF305(PF03713;PDB条目5ffa公司). 对于这些,高质量的结构预测可用TM-scores分别为0.85和0.76,并使用罗塞塔重塑。Ras结构通过生成的175个搜索模型集合中的29个进行了求解,这些集合源自簇1、2、3或7,包含53–170个残基(170个残余物是模型的完整大小),并对其进行跟踪和精炼R(右)自由的值低至33%充足的管道。DUF305结构用175个搜索模型集合中的18个解算。这些来源于簇2、簇3、簇6或簇7,包含79到143个残基,并自动追踪和精炼至R(右)自由的值低至33%(表2)。[链接]

表2
试验的七个测试用例的结果充足的通过Rosetta重塑PconsFam模型

【方案二】

有趣的是,CONCOORD公司-导出的系综可以解决Ras结构,但不能解决DUF305情况。在成功运行的过程中,在总共生成的400个搜索模型集合中,有7个是成功的,它们来自集群5、7、8或9,包含原始模型的50–75%,对应79–119个残基。虽然来自不同的集群,但成功的搜索模型在丢弃建模不太准确的回路,但保留捕获良好的二级结构元素的核心褶皱方面相似(图4[链接]).

[图4]
图4
()PF00071(品红色)的PconsFam模型与结晶结构、PDB入口对齐1年(彩虹)。(b条)一个未加密的充足的合奏(洋红丝带),如下康科德与结晶结构对齐,PDB入口1yzq(伊兹克)(彩虹)。(c)充足的CONCOORD公司PF00071(品红色)的衍生物与结晶结构对齐,PDB条目1yzq(伊兹克)(彩虹)。

有几个因素可能有助于罗塞塔改造方法与单个PconsFam模型进行了比较。最明显的是,重塑靶标序列可以使结构更接近靶标,尤其是在靶标和PconsFam沉积之间的序列一致性较低的情况下。这将结合使用复杂的能量函数罗塞塔(阿尔福德等人。, 2017[Alford,R.F.,Leaver-Fay,A.,Jeliazkov,J.R.,O'Meara,M.J.,DiMaio,F.P.,Park,H.,Shapovalov,M.V.,Renfrew,P.D.,Mulligan,V.K.,Kappel),而不是使用更简单的函数CONFOLD公司PconsFam(Adhikari)中的结构构建算法等人。, 2015[Adhikari,B.,Bhattacharya,D.,Cao,R.和Cheng,J.(2015)。蛋白质,831436-1449。]),以可能实现更准确的建模,PconsFam结构可以通过罗塞塔步骤。其次,基于协方差信息引导的距离几何方法的建模,如PconsFam中的建模,通常会导致局部主干几何结构较差的结果。通过在中运行基于碎片的重塑,主干几何结构可能会得到改进罗塞塔最后,正如已经确立的那样(钱等人。, 2007[钱,B.,拉曼,S.,达斯,R.,布拉德利,P.,麦考伊,A.J.,里德,R.J.&贝克,D.(2007)。《自然》(伦敦),450,259-264。]; 里格登等人。, 2008[Rigden,D.J.、Keegan,R.M.和Winn,M.D.(2008),《水晶学报》,D641288-1291。])通过对重构产生的多个结构进行比较,可以推断质量,从而能够截断到更精确的建模核心区域。补充表S3显示了PconsFam模型和罗塞塔源自它们的结构。

结果证实,根据Ramachandran图统计数据和总体G公司-在主干二面体上计算的因子,正值表示质量更好。然而,这些表明罗塞塔通常不会对PconsFam模型进行改进:事实上,在四种情况中,有三种情况下,模型的平均正确性(以TM-scores衡量)比PconsFam启动模型差。在起步结构质量较差的地方,似乎罗塞塔基于碎片的构象探索可以有效地展开结构。未来试图防止这种情况发生的选项可能包括施加进化协方差衍生的接触预测或更广义的约束,以将结构保持在起始模型附近。然而充足的基于聚类的协议可以容忍输入集之间的一些展开结构。

总的来说,结果表明,简单编辑单结构PconsFam模型不太可能将其转换为成功的搜索模型。然而,如果正确捕获了整个褶皱,罗塞塔用随后的聚类和截断进行重构以生成集合是有效的。这种方法明显优于CONCOORD公司用于集成生成。

3.3.辛巴德和从数据库派生的搜索模型

辛巴德是一个序列相关的MR管道,它尝试使用晶格搜索、已知污染物结构的精选数据库搜索和/或从MoRDa公司数据库。自从最近的发展辛巴德(辛普金等人。, 2019[Simpkin,A.J.,Simkovic,F.,Thomas,J.M.H.,Savko,M.,Lebedev,A.,Uski,V.,Ballard,C.,Wojdyr,M。https://dx.doi.org/10.107/S2059798319015031。])通过使用相位器代替原件AMoRe公司通过使用集合搜索模型,我们测试了截断的搜索模型集合是否来源于成功的GREMLIN数据库充足的也可以在辛巴德.

大规模成功MoRDa公司屏幕可以通过两种方式出现辛巴德首先,如果测试的搜索模型生成相位器RFZ足够高(>7),通常表示精确的旋转,然后立即在完整MR协议中进行试验,试验成功(R(右)值低于0.45和/或LLG>120和TFZ>8)将导致终止辛巴德没有测试任何剩余的搜索模型。或者,如果没有搜索模型达到RFZ阈值,则在所有搜索模型的旋转功能屏幕的末尾,对具有最高RFZ分数的200进行全MR试验。

GREMLIN结构预测最多具有中等精度,需要大量处理才能成功。因此,我们首先评估了他们是否会对RFZ值进行打分,从而有可能全面进入前200名MoRDa公司+GREMLIN跑步。补充表S4显示了由生成的截断搜索模型范围获得的RFZ值范围充足的对于成功解决的案例。总的来说,结果有些令人失望:没有一个搜索模型集合的RFZ大于6.11。尽管已满辛巴德没有运行,经验表明这些值不太可能放置搜索模型集合,即使那些最终成功的充足的,位列前200名。因此,他们永远不会进行完整的MR步骤。

为了提高辛巴德进一步,我们尝试添加相位器在旋转搜索中,平移功能只针对排名靠前的方向。我们推断,放置搜索模型将提高良好搜索模型的信噪比。初步结果表明,这种方法效果良好:例如,PDB条目的搜索模型集合5×j5LLG和TFZ的得分分别高达90.35分和7.68分,而PDB参赛的合奏第5版LLG和TFZ得分分别高达147.32和13.05。这些值表示成功。

的一个版本辛巴德其中数据库,在本例中MoRDa公司以GREMLIN衍生系综为补充,利用旋转函数结合快速平移函数进行筛选,然后生成快速平移函数。作为原则证明,这在PDB条目中进行了测试5分贝由于观察到TFZ得分较高。这取得了明显的成功充足的在前200名中报告的信号群(c1_74_r3_polyAla、c1_t89_r3_PolyAla1、c1_t74_r1_polyAla-1、c1_t79_r1_polyAla、c1_t84_r3.polyAla和c1_t100_r3_colyAl),最佳示例如图5所示[链接].

[图5]
图5
的交叉立体视图充足的合奏(c1_t74_r3_polyAla),在辛巴德搜索与结晶结构对齐的PF09819(品红色),PDB条目第5版(彩虹从N端的蓝色到C端的红色)。

当然,附加的翻译功能可以增加辛巴德,但这将在一定程度上通过更频繁的提前终止来弥补,因为可以提高灵敏度,从而选择好的搜索模型。

4.结论

蛋白质同源模型的数据库历史悠久(基弗等人。, 2009【Kiefer,F.、Arnold,K.、Künzli,M.、Bordoli,L.和Schwede,T.(2009)。核酸研究37,D387-D392。】; Pieper公司等人。2014年【Pieper,U.、Webb,B.M.、Dong,G.Q.、Schneidman-Duhovny,D.、Fan,H.、Kim,S.J.、Khuri,N.、Spill,Y.G.、Weinkam,P.、Hammel,M.、Tainer,J.A.、Nilges,M.和Sali,A.(2014)。核酸研究42,D336-D346。】; Guex&Peitsch,1997年【Guex,N.和Peitsch,M.C.(1997)。电泳,18,2714-2723。】)最近在蛋白质模型门户(Haas)的支持下等人。, 2013【Haas,J.、Roth,S.、Arnold,K.、Kiefer,F.、Schmidt,T.、Bordoli,L.和Schwede,T.(2013)。数据库,2013年,bat031。】)和同源模型已用于MR(例如,参见Horsefield等人。, 2008【Horsefield,R.、Nordén,K.、Fellert,M.、Backmark,A.、Törnroth-Horsfield,S.、Terwisscha van Scheltinga,A.C.、Kvassman,J.、Kjellbom,P.、Johanson,U.和Neutze,R.(2008)。美国国家科学院学报,105,13327-13332。】; 荣格(Jung)等人。, 2011【Jung,J.,Kim,J.-K.,Yeom,S.-J.,Ahn,Y.-J.、Oh,D.-K.和Kang,L.-W.(2011),《应用微生物生物技术》90,517-527.】). 然而,我们不知道同源性模型,更不用说从头算模型,从数据库下载,已用作搜索模型。这些新结果表明,最近出现的从头算代表Pfam家族的模型,其结构与PDB中储存的任何蛋白质都有很大不同,它已经包含了可以通过MR解决这些家族蛋白质结构的信息充足的应考虑GREMLIN和PconsFam数据库中可用模型的质量。我们收集了36例代表Pfam家族的病例,这些病例在GREMLIN建模时没有结构特征,但随后被存放在PDB中。其中,27个具有正确折叠的GREMLIN模型(TM得分>0.5),而PconsFam数据库的这一数字只有5个。这一观察结果可能与GREMLIN数据库背后更复杂的建模协议及其对宏基因组数据的利用有关,以提高驱动建模的接触预测质量(Ovchinnikov等人。, 2017[Ovchinnikov,S.、Park,H.、Varghese,N.、Huang,P.-S.、Pavlopoulos,G.A.、Kim,D.E.、Kamisetty,H.,Kyrpides,N.C.和Baker,D.(2017),《科学》,355,294-298。]). 然而,在这些不同的组合中,MR的成功率实际上是相当的:在27种GREMLIN衍生搜索模型中有9种,在5种PconsFam中有2种。TM-scores低至0.64的GREMLIN预测可以成功,而五个样本中两个成功的PconsFam病例基于TM-score为0.80和0.69的结构预测;对于额外的PconsFam病例(Ras和DUF305),这些值分别为0.85和0.76。总的来说,结果表明,为了取得成功,模型得分应该略高于TM-score>0.5的正确折叠标准。PconsFam数据库目前的优势在于其覆盖范围,但更简单的建模协议可能意味着其预测的平均质量低于GREMLIN内容。用户当前可以通过查看Pcons(Lundsröm)来评估PconsFam模型的可能模型质量等人。, 2001【Lundsröm,J.,Rychlewski,L.,Bujnicki,J.&Elofsson,A.(2001),《蛋白质科学》第10期,第2354-2362页。】)或ProQ3D(Uziela等人。, 2017【Uziela,K.、Menéndez Hurtado,D.、Shu,N.、Wallner,B.和Elofsson,A.(2017)。生物信息学,33,1578-1580。】)模型质量分数,或执行接触预测的基础对齐深度(有效序列数)。

的要求罗塞塔一些PconsFam模型成功的重构方法可能会引起这样的评论:用户可以简单地生成自己的模型,而不是使用数据库中的模型。然而,PconsFam和GREMLIN等数据库包含使用最新接触预测导出的模型,在后一种情况下,还包含复杂的定制和迭代建模管道。对于晶体学家来说,无论是在内部还是外部,都要重述这些方法充足的当然,在计算技能和基础设施方面比这里概述的相对快速(10个核上大约80分钟)的重构方法要求更高。

总之,这些结果表明从头算存储在在线数据库中的结构预测已经具有足够的质量来形成成功的MR搜索模型的基础。毫无疑问,这里提到的一些目标可以用复杂的基于碎片的方法替代解决(罗德里格斯等人。, 2009【罗德里格斯、D.D.、格罗斯、C.、希梅尔、S.、冈萨雷斯、C.、德伊拉杜亚、I.M.、贝克尔、S.谢尔德里克、G.M.和Usón,I.(2009)。《自然方法》,第6期,第651-653页。】; 詹金斯,2018【Jenkins,H.T.(2018),《水晶学报》D74,205-214。】),但是充足的方便地提供了一个统一的框架来尝试解决这种情况(通常是更高的分辨率和更高的螺旋含量,例如。图2[链接])以及较难的情况(图2b条–2d日[链接])其中高质量的建模是关键,并且包含几乎整个褶皱的适度编辑的搜索模型成功。然而,目前的证据表明,为了获得最佳性能,需要进行非平凡的处理,以将单个模型转换为集合,并从集合中消除不准确的区域,从而保留更好的建模核心区域。这些从头算模型是使用协方差驱动方法计算的,有时表示结构上没有特征化的蛋白质的大家族。在撰写本文时,GREMLIN数据库的覆盖范围要小得多,但有计划与Pfam数据库(El-Gebali等人。, 2018【El-Gebali,S.、Mistry,J.、Bateman,A.、Eddy,S.R.、Luciani,A.、Potter,S.C.、Qureshi,M.、Richardson,L.J.、Salazar,G.A.、Smart,A.、Sonnhammer,E.L.、Hirsh,L.、Paladin,L.,Piovesan,D.、Tosatto,S.C.E.和Finn,R.D.(2019)。核酸研究47,D351-D360。】)并将后者用作传播覆盖更多蛋白质序列空间的模型的手段。当序列数据库的扩展允许改进接触预测并因此进行更好的建模时,将定期重新计算此类模型(R.Finn,个人通信)。这些计划与从诸如Genome3D(Lewis等人。, 2013[Lewis,T.E.,Sillitoe,I.,Andreeva,A.,Blundell,T.L.,Buchan,D.W.,Chothia,C.,Cuff,A.,Dana,J.M.,Filippis,I.、Gough,J.、Hunter,S.、Jones,D.T.,Kelley,L.A.,Kleywegt,G.J.,Minneci,F.,Mitchell,A.,Murzin,A.G.,Ochoa-Montañ,B.,Rackham,o.J.,Smith,J.,Sternberg,M.J.,Velanka,S.,Yeats,C.&Orengo,C.(2013)《核酸研究》41,D499-D507。])并在InterPro数据库中提供(Mitchell等人。, 2019[Mitchell,A.L.,Attwood,T.K.,Babbitt,P.C.,Blum,M.,Bork,P.,Bridge,A.,Brown,S.D.,Chang,H.Y.,El-Gebali,S.,Fraser,M.I.,Gough,J.,Haft,D.R.,Huang,H.,Letunic,I.,Lopez,R.,Luciani,A.,Madeira,F.,Marchler-Bauer,A.,Mi,H,Natale,D.A.,Necci,M.、Nuka,G.,Orengo,C.,Pandurangan,A。P.、Paysan-Lafosse,T.、Pesseat,S.、Potter,S.C.、Qureshi,M.A.、Rawlings,N.D.、Redaschi,N.、Richardson,L.J.、Rivoire,C.、Salazar,G.A.、Sangrador-Vegas,A.、Sigrist,C.J.A.、Sillitoe,I.、Sutton,G.、Thanki,N.,Thomas,P.D.、Tosatto,S.C.E.、Y.和Finn,R.D.(2019)。核酸研究47,D351-D360。]; R.Finn,个人沟通)。在不久的将来,这些数据库将有助于访问日益可用的高质量模型从头算-基于或同源。因此,它们将越来越被视为对作为MR搜索模型来源的PDB的有价值的补充。

5.相关文献

本文的支持信息中引用了以下参考文献:Kabsch&Sander(1983【Kabsch,W.和Sander,C.(1983)。生物聚合物,222577-2637。】)、汤普森等人。(2002年[Thompson,J.D.,Gibson,T.J.&Higgins,D.G.(2002),《生物信息学当代协议》第2.3单元。])、Waterhouse等人。(2009【Waterhouse,A.M.、Procter,J.B.、Martin,D.M.、Clamp,M.和Barton,G.J.(2009)。生物信息学,251189-1191。】)和Zhang&Skolnick(2005)【Zhang,Y.和Skolnick,J.(2005)。核酸研究33,2302-2309。】).

支持信息


资金筹措信息

这项工作得到了BBSRC拨款BB/L009544/1“CCP4拨款续期2014-2019:问题驱动的晶体数据收集和高级结构解决方案”的支持。FS在工作时得到了BBSRC DTP博士奖学金的支持。

工具书类

第一次引用Adams,P.D.、Afonine,P.V.、Bunkóczi,G.、Chen,V.B.、Davis,I.W.、Echols,N.、Headd,J.J.、Hung,L.-W.、Kapral,G.J.、Grosse-Kunstleve,R.W.、McCoy,A.J.、Moriarty,N.W.、Oeffner,R.、Read,R.J.、Richardson,D.C.、Richards,J.S.、Terwilliger,T.C.和Zwart,P.H.(2010)。《水晶学报》。D类66, 213–221. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Adhikari,B.、Bhattacharya,D.、Cao,R.和Cheng,J.(2015)。蛋白质,83, 1436–1449. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Alford,R.F.,Leaver-Fay,A.,Jeliazkov,J.R.,O'Meara,M.J.,DiMaio,F.P.,Park,H.,Shapovalov,M.V.,Renfrew,P.D.,Mulligan,V.K.,Kappel,K.,Labonte,J.W.,Pacella,M.S.,Bonneau,R.,Bradley,P.,Dunbrack,R.L.Jr,Das,R.、Baker,D.,Kuhlman,B.,Korteme,T.&Gray,J.(2017)。化学杂志。理论计算。 13, 3031–3048. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Bibby,J.、Keegan,R.M.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2012)。《水晶学报》。D类68, 1622–1631. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Brunger,A.T.(2007)。自然协议。 2, 2728–2733. 科学网 交叉参考 中国科学院 谷歌学者
第一次引用Brünger,A.T.,Adams,P.D.,Clore,G.M.,DeLano,W.L.,Gros,P.,Grosse-Kunstleve,R.W.,Jiang,J.-S.,Kuszewski,J.,Nilges,M.,Pannu,N.S.,Read,R.J.,Rice,L.M.,Simonson,T.&Warren,G.L.(1998)。《水晶学报》。D类54, 905–921. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Bunkóczi,G.&Read,R.J.(2011)。《水晶学报》。D类67,303–312科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Cowtan,K.(2006)。《水晶学报》。D类62, 1002–1011. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用El-Gebali,S.、Mistry,J.、Bateman,A.、Eddy,S.R.、Luciani,A.、Potter,S.C.、Qureshi,M.、Richardson,L.J.、Salazar,G.A.、Smart,A.、Sonnhammer,E.L.、Hirsh,L.、Paladin,L.,Piovesan,D.、Tosatto,S.C.E.和Finn,R.D.(2019年)。核酸研究。 47,D351–D360公共医学 谷歌学者
第一次引用Groot,B.L.de,van Aalten,D.M.F.,Scheek,R.M.,Amadei,A.,Vriend,G.&Berendsen,H.J.C.(1997)。蛋白质,29, 240–251. 公共医学 谷歌学者
第一次引用Guex,N.和Peitsch,M.C.(1997年)。电泳,18, 2714–2723. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Haas,J.、Roth,S.、Arnold,K.、Kiefer,F.、Schmidt,T.、Bordoli,L.和Schwede,T.(2013)。数据库,2013,bat031交叉参考 公共医学 谷歌学者
第一次引用Hatti,K.、Gulati,A.、Srinivasan,N.和Murthy,M.R.N.(2016)。《水晶学报》。D类72, 1081–1089. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Hopf,T.A.、Colwell,L.J.、Sheridan,R.、Rost,B.、Sander,C.和Marks,D.S.(2012年)。单元格,149,1607年至1621年科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Horsefield,R.、Nordén,K.、Fellert,M.、Backmark,A.、Törnroth-Horsfield,S.、Terwisscha van Schetinga,A.C.、Kvassman,J.、Kjellbom,P.、Johanson,U.和Neutze,R.(2008)。程序。美国国家科学院。科学。美国,105, 13327–13332. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Jenkins,H.T.(2018)。《水晶学报》。D类74, 205–214. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Jung,J.、Kim,J.-K、Yeom,S.-J、Ahn,Y.-J、Oh,D.-K和Kang,L.-W(2011)。申请。微生物。生物技术。 90, 517–527. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Kabsch,W.&Sander,C.(1983年)。生物聚合物,22, 2577–2637. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Keegan,R.M.、Bibby,J.、Thomas,J.和Xu,D.、Zhang,Y.、Mayans,O.、Winn,M.D.和Rigden,D.J.(2015)。《水晶学报》。D类71, 338–343. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Keegan,R.M.、McNicholas,S.J.、Thomas,J.M.H.、Simpkin,A.J.、Simkovic,F.、Uski,V.、Ballard,C.C.、Winn,M.D.、Wilson,K.S.和Rigden,D.J.(2018年)。《水晶学报》。D类74, 167–182. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Kiefer,F.、Arnold,K.、Künzli,M.、Bordoli,L.和Schwede,T.(2009年)。核酸研究。 37,D387–D392科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Kim,D.E.,Chivian,D.&Baker,D.(2004)。核酸研究。 32,W526–W531科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Lamb,J.、Jarmolinska,A.I.、Michel,M.、Menendez-Hurtado,D.、Sulkowska,J.I.和Elofsson,A.(2019)。分子生物学杂志。 431, 2442–2448. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Leahy,D.J.、Axel,R.和Hendrickson,W.A.(1992年)。单元格,68, 1145–1162. 交叉参考 公共医学 中国科学院 科学网 谷歌学者
第一次引用Leaver-Fay,A.,Tyka,M.,Lewis,S.M.,Lange,O.F.,Thompson,J.,Jacak,R.,Kaufman,K.,Renfrew,P.D.,Smith,C.A.,Shefler,W.,Davis,I.W.,Cooper,S.,Treuille,A.,Mandell,D.J.,Richter,F.,Ban,Y.,Fleishman,S.J.,Corn,J.E.,Kim,D.E.,Lyskov,S。,Das,R.,Meiler,J.,Korteme,T.,Gray,J.J.,Kuhlman,B.,Baker,D.&Bradley,P.(2011)。方法酶制剂。 487, 545–574. 中国科学院 公共医学 谷歌学者
第一次引用Lebedev,A.A.、Vagin,A.和Murshudov,G.N.(2008)。《水晶学报》。D类64, 33–39. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Lewis,T.E.,Sillitoe,I.,Andreeva,A.,Blundell,T.L.,Buchan,D.W.,Chothia,C.,Cuff,A.,Dana,J.M.,Filippis,I.,Gough,J.,Hunter,S.,Jones,D.T.,Kelley,L.A.,Kleywegt,G.J.,Minneci,F.,Mitchell,A.,Murzin,A.G.,Ochoa Montaño,B.,Rackham,o.J.,Smith,J.,Sternberg,M.J.,Velankar,S.,Yeats,C.&Orengo,C.(2013)。核酸研究。 41,D499–D507交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Lundsröm,J.、Rychlewski,L.、Bujnicki,J.和Elofsson,A.(2001)。蛋白质科学。 10, 2354–2362. 公共医学 谷歌学者
第一次引用Marks,D.S.、Colwell,L.J.、Sheridan,R.、Hopf,T.A.、Pagnani,A.、Zecchina,R.和Sander,C.(2011)。公共科学图书馆一号,6,第18766页科学网 交叉参考 公共医学 谷歌学者
第一次引用McCoy,A.J.(2004)。《水晶学报》。D类60, 2169–2183. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用McCoy,A.J.、Grosse-Kunstleve,R.W.、Adams,P.D.、Winn,M.D.、Storoni,L.C.和Read,R.J.(2007年)。J.应用。克里斯特。 40, 658–674. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用McCoy,A.J.、Grosse-Kunstleve,R.W.、Storoni,L.C.和Read,R.J.(2005)。《水晶学报》。D类61, 458–464. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Mitchell,A.L.,Attwood,T.K.,Babbit,P.C.,Blum,M.,Bork,P.,Bridge,A.,Brown,S.D.,Chang,H.Y.,El-Gebali,S.,Fraser,M.I.,Gough,J.,Haft,D.R.,Huang,H.,Letunic,I.,Lopez,R.,Luciani,A.,Madeira,F.,Marchler-Bauer,A.,Mi,H,Natale,D.A.,Necci,M.、Nuka,G.,Orengo,C.,Pandurangan,A.P.,Paysan-Lafosse,T.,Pesseat,S.、Potter,S.C.、Qureshi,M.A.、Rawlings,N.D.、Redaschi,N.、Richardson,L.J.、Rivoire,C.、Salazar,G.A.、Sangrador-Vegas,A.、Sigrist,C.J.A.、Sillitoe,I.、Sutton,G.G.G..、Thanki,N.,Thomas,P.D.、Tosatto,S.C.E.、Yong&Finn,R.D.(2019年)。核酸研究。 47,D351–D360交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Morcos,F.、Pagnani,A.、Lunt,B.、Bertolino,A.、Marks,D.S.、Sander,C.、Zecchina,R.、Onuchic,J.N.、Hwa,T.和Weigt,M.(2011)。程序。美国国家科学院。科学。美国,108,E1293–E1301科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Murshudov,G.N.、Skubák,P.、Lebedev,A.A.、Pannu,N.S.、Steiner,R.A.、Nicholls,R.A、Winn,M.D.、Long,F.&Vagin,A.(2011)。《水晶学报》。D类67, 355–367. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Olechnović,K.和Venclovas,C.(2017年)。蛋白质,85, 1131–1145. 公共医学 谷歌学者
第一次引用Oliveira,S.de&Deane,C.(2017)。F1000研究。 6,第1224页谷歌学者
第一次引用Ovchinnikov,S.、Park,H.、Varghese,N.、Huang,P.-S.、Pavlopoulos,G.A.、Kim,D.E.、Kamisetty,H.,Kyrpides,N.C.和Baker,D.(2017)。科学类,355, 294–298. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Pieper,U.、Webb,B.M.、Dong,G.Q.、Schneidman-Duhovny,D.、Fan,H.、Kim,S.J.、Khuri,N.、Spill,Y.G.、Weinkam,P.、Hammel,M.、Tainer,J.A.、Nilges,M.和Sali,A.(2014年)。核酸研究。 42,D336–D346科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Qian,B.、Raman,S.、Das,R.、Bradley,P.、McCoy,A.J.、Read,R.J.和Baker,D.(2007)。自然(伦敦),450, 259–264. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Read,R.J.和McCoy,A.J.(2016)。《水晶学报》。D类72, 375–387. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Rigden,D.J.、Keegan,R.M.和Winn,M.D.(2008)。《水晶学报》。D类64, 1288–1291. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Rigden,D.J.、Thomas,J.M.H.、Simkovic,F.、Simpkin,A.、Winn,M.D.、Mayans,O.&Keegan,R.M.(2018年)。《水晶学报》。D类74, 183–193. 交叉参考 IUCr日志 谷歌学者
第一次引用罗德里格斯(Rodríguez,D.)、桑米托(Sammito,M.)、迈恩德(Meindl,K.)、德伊拉杜亚(de Ilarduya,I.M.)和波特拉茨(Potratz,M.,Sheldrick,G.M.&Usón,I.)(2012年)。《水晶学报》。D类68, 336–343. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用罗德里格斯(Rodríguez,D.D.)、格罗斯(Grosse,C.)、希梅尔(Himmel,S.)、冈萨雷斯(González,C.),德伊拉杜亚(de Ilarduya,I.M.)、贝克尔(Becker,S.,Sheldrick,G.M.&Usón,I.(2009)。自然方法,6, 651–653. 科学网 公共医学 谷歌学者
第一次引用Rossmann,M.G.和Blow,D.M.(1962)。《水晶学报》。 15, 24–31. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Sammito,M.、Meindl,K.、de Ilarduya,I.M.、Millán,C.、Artola-Recolons,C.、Hermoso,J.A.和Usón,I.(2014)。FEBS J公司。 281, 4029–4045. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Sammito,M.、Millán,C.、Rodríguez,D.D.、de Ilarduya,I.M.、Meindl,K.、de Marino,I.、Petrillo,G.、Buey,R.M.、de Pereda,J.M.、Zeth,K.、Sheldrick,G.M.和Usón,I.(2013)。自然方法,10, 1099–1101. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Schwarzenbacher,R.、Godzik,A.、Grzechnik,S.K.和Jaroszewski,L.(2004)。《水晶学报》。D类60, 1229–1236. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Shortle,D.、Simons,K.T.和Baker,D.(1998年)。程序。美国国家科学院。科学。美国,95,11158–11162科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Simkovic,F.、Ovchinnikov,S.、Baker,D.和Rigden,D.J.(2017年)。IUCrJ大学,4, 291–300. 科学网 交叉参考 中国科学院 公共医学 IUCr日志 谷歌学者
第一次引用Simkovic,F.、Thomas,J.M.H.、Keegan,R.M.、Winn,M.D.、Mayans,O.和Rigden,D.J.(2016)。IUCrJ大学,, 259–270. 科学网 交叉参考 中国科学院 公共医学 IUCr日志 谷歌学者
第一次引用Simpkin,A.J.、Simkovic,F.、Thomas,J.M.H.、Savko,M.、Lebedev,A.、Uski,V.、Ballard,C.、Wojdyr,M.,Shepard,W.、Rigden,D.J.和Keegan,R.M.(2019年)。《水晶学报》。D类75. https://dx.doi.org/10.107/S2059798319015031。 谷歌学者
第一次引用Simpkin,A.J.、Simkovic,F.、Thomas,J.M.H.、Savko,M.、Lebedev,A.、Uski,V.、Ballard,C.、Wojdyr,M.、Wu,R.、Sanishvili,R.、Xu,Y.、Lisa,M.-N.、Buschiazzo,A.、Shepard,W.、Rigden,D.J.和Keegan,R.M.(2018)。《水晶学报》。D类74, 595–605. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Stein,N.(2008)。J.应用。克里斯特。 41, 641–643. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Stokes-Rees,I.&Sliz,P.(2010年)。程序。美国国家科学院。科学。美国,107, 21476–21481. 科学网 中国科学院 公共医学 谷歌学者
第一次引用Suzek,B.E.、Huang,H.、McGarvey,P.、Mazumder,R.和Wu,C.H.(2007年)。生物信息学,23, 1282–1288. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用汤普森,J.D.、吉布森,T.J.和希金斯,D.G.(2002)。货币。协议。生物信息学,第2.3单元谷歌学者
第一次引用Thorn,A.和Sheldrick,G.M.(2013)。《水晶学报》。D类69, 2251–2256. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Uziela,K.、Menéndez Hurtado,D.、Shu,N.、Wallner,B.和Elofsson,A.(2017)。生物信息学,33, 1578–1580. 中国科学院 公共医学 谷歌学者
第一次引用Vagin,A.和Lebedev,A.(2015)。《水晶学报》。A类71第19节科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Waterhouse,A.M.、Procter,J.B.、Martin,D.M.、Clamp,M.和Barton,G.J.(2009年)。生物信息学,25, 1189–1191. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Winn,M.D.,Ballard,C.C.,Cowtan,K.D.,Dodson,E.J.,Emsley,P.,Evans,P.R.,Keegan,R.M.,Krissinel,E.B.,Leslie,A.G.W.,McCoy,A.,McNicholas,S.J.,Murshudov,G.N.,Pannu,N.S.,Potterton,E.A.,Powell,H.R.、Read,R.J.、Vagin,A.&Wilson,K.S.(2011)。《水晶学报》。D类67, 235–242. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用wwPDB联盟(2018)。核酸研究。 47,D520–D528谷歌学者
第一次引用Xu,D.和Zhang,Y.(2012)。蛋白质,80, 1715–1735. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Xu,J.和Zhang,Y.(2010)。生物信息学,26,889–895科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Zhang,Y.和Skolnick,J.(2004)).蛋白质,57, 702–710. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Zhang,Y.和Skolnick,J.(2004)b条).J.计算。化学。 25, 865–871. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Zhang,Y.和Skolnick,J.(2005)。核酸研究。 33, 2302–2309. 科学网 交叉参考 公共医学 中国科学院 谷歌学者

这是一篇开放获取的文章,根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标结构
生物学
国际标准编号:2059-7983