研究论文\(第5em段)

期刊徽标结构
生物学
国际标准编号:2059-7983

PDB_REDO公司:建设性验证,而不仅仅是查找错误

荷兰癌症研究所生物化学系,Plesmanlaan 121,1066 CX阿姆斯特丹,荷兰b条英国剑桥CB2 0QH分子生物学MRC实验室结构研究部
*通信电子邮件:r.joosten@nki.nl

(2011年8月3日收到; 2011年12月18日接受; 2012年3月16日在线)

的发展PDB_REDO公司提出了在一个独特的决策框架内结合重新细化和重建来改进PDB中的结构的程序。PDB_REDO公司使用各种现有的和定制的软件模块来选择最佳的精炼协议(例如各向异性、各向同性或整体B类-因子精细化,TLS模型)并优化几何结构数据重定义权重。接下来,在最后一轮优化之前,它继续重建侧链和肽平面。PDB_REDO公司完全自动工作,无需晶体学专家干预。该管道在12000个PDB条目上进行了测试,绝大多数测试案例都在晶体学标准方面得到了改进,例如R(右)自由的根据广泛接受的几何验证标准PDB_REDO公司有助于将PDB中的其他“静态”结构更新为现代晶体学标准。公开可用的PDB_REDO公司数据库提供了更好的模型统计信息,并有助于精炼和验证目标。

1.简介

1.1. 验证

晶体实验和随后的定相、建模和精炼(希望)最终得到一个三维结构模型,该模型既符合实验X射线数据,也符合我们对大分子化学的先前知识。验证有助于指导这一过程,并使晶体学家能够生成适合生物解释的高质量结构模型。自20世纪90年代初以来,验证软件程序就已可用(拉斯科夫斯基等。, 1993[Laskowski,R.A.,MacArthur,M.W.,Moss,D.S.&Thornton,J.M.(1993),《应用结晶杂志》,第26期,第283-291页。]; 发动机罩等。, 1996[Hooft,R.W.,Vriend,G.,Sander,C.&Abola,E.(1996),《自然》(伦敦),381272.]; 戴维斯等。, 2004【Davis,I.W.,Murray,L.W.,Richardson,J.S.和Richardson,D.C.(2004)。核酸研究32,W615-W619。】). 这些检查了晶体(或其他)结构的许多方面,通常着重于大分子,特别是蛋白质。核酸结构的验证也可用,例如摩尔概率(陈)等。, 2010【Chen,V.B.、Arendall,W.B.、Headd,J.J.、Keedy,D.A.、Immormino,R.M.、Kapral,G.J.,Murray,L.W.、Richardson,J.S.和Richardsson,D.C.(2010),《晶体学报》,D66,12-21。】; 理查森等。, 2008【Richardson,J.S.等人(2008)。RNA,14,465-481。结构,19,1395-1412。】). 其他化学实体的验证软件也可用,例如PDB护理(Lütteke&von der Lieth,2004)【Lütteke,T.&von der Lieth,C.W.(2004)。BMC生物信息学,5,69。】)的碳水化合物WASP公司(Nayal和Di Cera,1996年【Nayal,M.和Di Cera,E.(1996),《分子生物学杂志》256、228-234。】)用于金属离子。还可以通过图形化建模软件直接使用各种验证工具,例如O(运行)(琼斯)等。, 1991【Jones,T.A.、Zou,J.Y.、Cowan,S.W.和Kjeldgaard,M.(1991),《水晶学报》A47,110-119。】)和库特(Emsley和Cowtan,2004年【Emsley,P.&Cowtan,K.(2004),《水晶学报》,D60,2126-2132。】; 埃姆斯利等。2010【Emsley,P.、Lohkamp,B.、Scott,W.G.和Cowtan,K.(2010),《水晶学报》D66、486-501。】).

在最终确定晶体结构时,可以建设性地使用验证来检测模型中的异常,晶体学家可以删除异常或确认其真实性,通过确保有足够的(实验)证据证明存在这种异常的模型。这一过程有许多复杂之处。例如,较大的总键长偏差通常由错误或错误的约束设置引起;然而,它们也可能是单元间参数实验测定中的错误导致的,不应通过加强约束而应通过更新单元间参数来解决。

大多数验证工具侧重于识别离群值:基于我们对大分子结构日益增长的经验知识的统计测量,残留物与已知结构中的其他残留物不同。关注异常值是明智的,因为这些残差很可能是有趣的,也可能是错误的建模,但这会让模型的其余部分失去注意力。当没有异常值被视为确认模型是最优的时,这就成为了一个问题。侧链转子流量计就是一个很好的例子:没有(或很少)离群值并不意味着所有转子流量计相对于实验数据都是最优的。

1.2. 结构沉积后的验证

在晶体结构最终确定、沉积在PDB中并释放后,原子坐标就固定下来了。蛋白质数据库(伯恩斯坦等。, 1977[Bernstein,F.C.,Koetzle,T.F.,Williams,G.J.,Meyer,E.F.,Brice,M.D.,Rodgers,J.R.,Kennard,O.,Shimanouchi,T.&Tasumi,M.(1977),《分子生物学杂志》,第112期,第535-542页。]; 伯曼等。, 2003【Berman,H.、Henrick,K.和Nakamura,H.(2003),《自然结构生物学》,第10期,第980页。】)是一个历史档案,不会更改原子坐标,尽管它们的注释可能会更新(亨里克等。, 2008[Henrick,K.等人(2008),《核酸研究》36,D426-D433。])应对储户和用户不断变化的需求。PDB中结构模型的静态性质具有许多含义。显而易见的结果是,已有几十年历史的模型往往缺乏现代晶体学软件所提供的准确性和精确性,同时也缺乏建设性验证的好处,而在构建这些旧模型时,这些验证要么缺乏,要么不够“成熟”。这样,PDB的用户通常可以访问按现代标准来看不太理想的模型。此外,一个不太明显的后果是,即使用户验证现有的PDB条目或使用现成的验证报告,例如PDB报告数据库(Hooft等。, 1996[Hoopt,R.W.,Vriend,G.,Sander,C.和Abola,E.E.(1996)。《自然》(伦敦),381272。]; Joosten和te Beek等。, 2011【Joosten,R.P.,te Beek,T.A.,Krieger,E.,Hekkelman,M.L.,Hoof,R.W.,Schneider,R.,Sander,C.&Vriend,G.(2011),核酸研究39,D411-D419。】),验证不再具有建设性:任何发现的异常都不会导致结构模型的改进,因为大多数PDB用户在使用之前都不具备使结构更好的晶体学专业知识。在这种情况下,当有更好验证结果的替代方案可用时,验证可能导致彻底拒绝结构模型。这种情况不仅影响PDB中较旧的模型,这些模型的积累速度较慢(过去三年中进入PDB的晶体结构比其前三十年多):现在提交的模型在几年内将只是一个旧模型,由于晶体学方法仍在以可观的速度改进。

1.3.PDB_REDO公司

为了使PDB模型保持最新,我们决定将一些最新的晶体学方法应用于所有PDB条目,这些条目的实验X射线数据可用(Joosten,Salzemann等。, 2009【Joosten,R.P.,Salzemann,J.等人(2009),《应用结晶杂志》第42期,第376-384页。】)并创建了PDB_REDO公司软件管道,从PDB获取原子坐标和X射线数据,并在中重新定义结构模型REFMAC公司(穆尔舒多夫等。, 1997【Murshudov,G.N.,Vagin,A.A.&Dodson,E.J.(1997),《结晶学报》D53,240-255。】, 2011【Murshudov,G.N.,Skubák,P.,Lebedev,A.A.,Pannu,N.S.,Steiner,R.A.,Nicholls,R.A..,Winn,M.D.,Long,F.&Vagin,A.A..(2011),《晶体学报》,D67,355-367。】). 为了处理数以万计的PDB条目,重点放在了自动化上,这意味着要处理PDB(当时)仍然存在的问题,即坐标和反射文件的注释不一致。自动化最重要的优点是它允许我们优化X射线数据和几何约束之间的权重,即使对于单个结构模型,这也是一项需要手工完成的大量工作。在我们的重新定义中,我们一直使用TLS模型来模拟各向异性原子运动(Schomaker&Trueblood,1968)[Schomaker,V.&Trueblood,K.N.(1968),《水晶学报》,B24,63-76。]; 等。, 2001[Winn,M.D.、Isupov,M.N.和Murshudov,G.N.(2001),《结晶学报》D57122-133。])最近才被用于大分子晶体学,因此使用了精炼用于所有PDB条目。由此产生的结构模型在以下方面显示出了改进R(右)自由的(布伦格,1992年【Brünger,A.T.(1992),《自然》(伦敦),355,472-475。】)模型验证表明,总体模型质量估计值(如Ramachandran图(Ramachandran等。, 1963[Ramachandran,G.N.,Ramakrishnan,C.&Sasisekharan,V.(1963),《分子生物学杂志》第7期,第95-99页。])Z轴分数,它将每个残基的主链扭转角与高质量蛋白质结构模型(Hooft)中残基类型和二级结构特定分布的组合进行比较等。, 1997【Hooft,R.W.,Sander,C.&Vriend,G.(1997),《计算应用生物科学》第13期,第425-430页。】)以及原子碰撞或碰撞的数量。一个值得注意的结果是,最近的PDB条目也有所改善,尽管在大多数情况下,这种改善没有旧的PDB条目那么大或那么常见。

通过PDB_REDO公司数据库(Joosten&Vriend,2007【Joosten,R.P.&Vriend,G.(2007),《科学》,317195-196。】)是朝着沉积结构模型结构验证的建设性形式迈出的第一步。然而,很明显,我们使用的方法无法解决结构模型中的局部拟合误差和其他问题(Joosten,Womack等。, 2009【Joosten,R.P.,Womack,T.,Vriend,G.&Bricogne,G.(2009),《水晶学报》D65,176-185。】). 需要一种更全面的方法,其中包括真实空间模型重建。

1.4. 真实空间重建

结构模型的真实空间拟合和重建部分的算法已经存在了几十年(Diamond,1971[戴蒙德·R(1971),《水晶学报》,A27,436-452.]; 琼斯,1978年[琼斯·T·A(1978),《应用结晶杂志》,第11期,第268-272页。]). 问题在于决定怎样它们应该被应用并且哪里在结构中。典型的方法是使用分子图形手动更新结构模型,手边有验证报告。程序哎呀(Kleywegt&Jones,1996)【Kleywegt,G.J.&Jones,T.A.(1996),《晶体学报》,D52,829-832。】)通过自动化哪里部分问题:它使用了来自的验证结果O(运行)(琼斯)等。, 1991[Jones,T.A.,Zou,J.Y.,Cowan,S.W.&Kjeldgaard,M.(1991),《水晶学报》A47,110-119.])和WHAT_检查(发动机罩等。, 1996[Hooft,R.W.,Vriend,G.,Sander,C.&Abola,E.(1996),《自然》(伦敦),381272.])并将其转换为“宏”O(运行)这将使用户自动浏览结构模型的标记部分。类似的实现可用于接口摩尔浓度(陈)等。, 2010【Chen,V.B.、Arendall,W.B.、Headd,J.J.、Keedy,D.A.、Immormino,R.M.、Kapral,G.J.、Murray,L.W.、Richardson,J.S.和Richardson,D.C.(2010)。晶体学报D66,12-21。】)带有库特(埃姆斯利等。, 2010【Emsley,P.、Lohkamp,B.、Scott,W.G.和Cowtan,K.(2010),《水晶学报》D66、486-501。】). 解决怎样部分问题仍然是结构验证中的一个挑战:发现异常通常比理解其原因更容易。

我们最近描述了两个程序(翻盖SideAide公司)使用结合了哪里怎样在单一决策框架内等。, 2011【Joosten,R.P.,Joosten.,K.,Cohen,S.X.,Vriend,G.&Perrakis,A.(2011).生物信息学,27,3392-3398.】). 不是仅仅通过重建验证程序标记的模型部分来改进晶体结构,而是重建和验证每个残留物的主链和侧链;如果重建导致对晶体学图的拟合得到改进,则使用新的构象更新模型。这种方法不是专门寻找错误,而是关注结构模型的可改进特征,因此与基于验证的方法相比,它对结构模型的覆盖范围要大得多。这些算法是完全自动化的,计算量不太大,因此我们可以将它们合并到PDB重做管道。

自动化的主要挑战在于决策。决策及其优先顺序通常基于统计数据,但也基于个人偏好、经验或直觉,甚至基于教条原则。许多决定都是在不知不觉中做出的,例如通过对许多参数应用默认值。完全自动化的软件管道需要将所有这些决策形式化为一组封闭的规则。在这里,我们讨论PDB_REDO公司作为一个决策框架,展示了我们面临的选择以及我们如何解决这些选择,并对12000个PDB条目进行了广泛测试。

2.方法

表1描述了模型优化决策过程中使用的不同模型质量度量[链接]文本中讨论了程序中使用的软件程序,并在表2中进行了总结[链接].

表1
模型质量指标

公制 描述
R(右) 标准R(右)因子,R(右)=[\textstyle\sum_{hkl}\big||F_{rm obs}(hkl)|-m|F_}\rm calc}(hkl)|\big|/][\textstyle\sum_{hkl}|F_{rm obs}(hkl)|],其中小时,k个米勒指数反射和是一个比例因子。与下标标头一起使用,计算、TLS§,共同,复杂††而且很简单††.
R(右)自由的 喜欢R(右),但根据反射数据的子集进行计算(Brünger,1992【Brünger,A.T.(1992),《自然》(伦敦),355,472-475。】). 下标:head,计算、TLS§,共同,复杂††,简单††和最终‡‡.
R(右)比率 预期的R(右)自由的/R(右)用于聚合细化(挠痒痒等。, 1998【Tickle,I.J.、Laskowski,R.A.和Moss,D.S.(1998),《水晶学报》D54、547-557。】).
R(右)w个 加权R(右)因素,R(右)w个=[\{\textstyle\sum_{hkl}周_{hkl}[F_{\rm obs}(hkl)-F_{\rma计算}(hkl)]^{2}/][\text样式\sum_{hkl}周_{hkl}F_{\rm obs}(hkl)^{2}]\}^{1/2}](汉密尔顿,1965年【汉密尔顿,W.C.(1965),《水晶学报》,第18期,第502-510页。】),其中w个香港特别行政区是单个反射的权重。下标:复杂、简单。
R(右)自由,w 加权自由R(右)因素。下标:复杂、简单。
σ(R(右)自由的) 估计的标准偏差R(右)自由的:R(右)自由的/[2(测试集反射数)]1/2.下标:calc(Tickle等。, 2000【Tickle,I.J.,Laskowski,R.A.&Moss,D.S.(2000),《水晶学报》D56,442-450。】).
R(右)自由,unb 预期的R(右)自由的对于收敛的无偏求精(挠痒痒等。, 1998【Tickle,I.J.、Laskowski,R.A.和Moss,D.S.(1998),《水晶学报》D54、547-557。】):R(右)自由,unb=R(右)×R(右)比率.下标:计算。
Z轴分数 Z轴= (x个模型x个目标)/σ(x个),其中x个是一个度量,如债券长度和σ(x个)是其标准偏差。
Z轴(R(右)自由的) 这个R(右)自由的 Z轴分数§§:Z轴(R(右)自由的) = (R(右)自由,unbR(右)自由的)/σ(R(右)自由的). 下标:calc,complex。
R(右)自由,最大 允许的最大值R(右)自由的值计算方式选择器.
配合(ρ) 一组原子的加权平均拟合具有平均位移U型到地图的网格点x个:WM=[\textstyle\sum{\rm区域}\rho({\bf x}_g)t({\b x}_{g})/][\textstyle\sum_{rm区域}t({\bf x}_{g})];t吨(x个) =[\textstyle\sum_{a\在a}\exp\{-[(||{\bf x}_a-{\bf-x}_g||^{2})/(r^{2}_{\rm原子}+U)]-0.01[(||{\bfx}_a-{\bf x}_g|^{2})/(r^{2}_{\rm原子}+U)]^{4}\}],其中第页原子是原子的半径x个是原子的位置等。, 2011【Joosten,R.P.,Joosten.,K.,Cohen,S.X.,Vriend,G.&Perrakis,A.(2011).生物信息学,27,3392-3398.】).
B类威尔逊 威尔逊家族B类因素。
有效值。Z轴(债券) 根-平方Z轴的分数n个与……的债券Z轴分数Z轴:均方根值。Z轴(债券)=[[(1/n)\textstyle\sum^{无}_{i=1}Z_{i}^{2}]^{1/2}].下标:calc、co、wcori¶¶、wcfin†††.
有效值。Z轴(角度) 类似于r.m.s。Z轴(键),但计算键角偏差。下标:calc、co、wcori、wcfin。
†从输入PDB文件的标题中提取。
计算依据REFMAC公司之前精细化。
§TLS期间计算精细化在里面REFMAC公司重置后直接B类因素。
¶用作的截止值选择器.
††Complex是指具有最多(B类-与因子相关)的参数,并且对模型来说很简单。
计算公式REFMAC公司决赛之后精细化。
§§交换条款是为了补偿R(右)自由的.
¶¶计算依据WHAT_检查用于输入PDB文件。
††根据WHAT_检查用于最终模型。

表2
中的程序PDB_REDO公司管道

程序 软件套件 应用于PDB_REDO公司
汽提塔 PDB_REDO公司 删除不需要的原子并编辑PDB文件中的LINK记录
Cif公司2到岸价 PDB_REDO公司 检查并标准化mmCIF文件中的反射数据
提取器 PDB_REDO公司 从PDB文件中提取结构模型和优化的描述
装配工 PDB重做 比较R(右)因素
凯龙 PDB_REDO公司 修复手性错误
B选择 PDB_REDO公司 选择B类-因子模型复杂性
选取器 PDB_REDO公司 从集合中选择最佳细化
离心机 PDB_REDO公司 清除水
SideAide公司 PDB_REDO公司 Real-space重建侧链并添加缺失的侧链
翻盖 PDB_REDO公司 翻转肽平面
要做什么 PDB_REDO公司 分析WHAT_检查的报告SideAide公司
REFMAC公司 中央对手方清算所4 执行往复空间细化
TLSANL公司 中央对手方清算所4 检查TLS组定义并转换总数B类残差系数
成本加保险费、运费2MTZ公司 中央对手方清算所4 将反射数据从mmCIF转换为MTZ格式
MTZ公司2各种各样 中央对手方清算所4 将反射数据从MTZ转换为mmCIF格式
CTRUNCATE公司 中央对手方清算所4 将反射强度转换为振幅
MTZUTILS公司 科科斯群岛第4页 操作MTZ文件
计算机辅助设计 中央对手方清算所4 合并MTZ文件
独特 中央对手方清算所4 创建给定单元间参数和分辨率的所有可能反射
自由旗帜 中央对手方清算所4 创建并完成R(右)自由的设置
SFCHECK(SF检查) 中央对手方清算所4 计算完整性、孪生分数和B类威尔逊
决策支持计划 指定二级结构
Umf转换器 PDB护理 验证结构模型中的碳水化合物
WHAT_检查 如果…怎么办 验证结构模型
Pd输出2html格式 如果…怎么办 转换WHAT_检查验证报告到html
YASARA结构 亚萨拉 创建用于结果可视化的场景

2.1. 这个PDB_REDO公司管道

这个PDB_REDO公司软件管道使用带有沉积晶体结构坐标的PDB文件和包含X射线衍射数据的相关反射文件。

2.1.1. 衍射数据的准备(CIF文件)

反射文件标准化为Cif2cif公司(索兹曼·乔斯顿等。, 2009【Joosten,R.P.,Salzemann,J.等人(2009),《应用结晶杂志》第42期,第376-384页。】),它写出米勒指数和每个反射的振幅(如果未给定振幅,则为强度)。σ值和R(右)自由的-如果可用,则会写出set标志。仅使用反射文件中的第一个数据集。以下是一些基本的健全性测试。

  • (i) 如果将具有负值的反射标记为振幅,则会拒绝这些反射,但如果它们是强度,则会保留这些反射。

  • (ii)如果σ给定值,测试集合的信息内容。如果所有值都相同,则σ值不能用于优化中的缩放目的。个人σ0.0值重置为最高值σ数据集中的值。

  • (iii)R(右)自由的集合已验证,如下所述(§[链接]2.2.1).

然后,使用来自中央对手方清算所4套房(优胜者等。, 2011【Winn,M.D.等人(2011),《结晶学报》,D67,235-242。】). 强度转换为振幅使用CTRUNCATE公司,它处理负强度(French&Wilson,1978【French,S.&Wilson,K.(1978),《结晶学报》,A34,517-525。】). 这个B类威尔逊计算公式为SFCHECK(SF检查)(迷茫等。, 1999【Vaguine,A.A.、Richelle,J.和Wodak,S.J.(1999),《水晶学报》第55期,191-205年。】).SFCHECK(SF检查)也用于检查数据完整性和检查是否存在孪生。
2.1.2. 坐标准备(PDB文件)

使用解析PDB文件提取器提取单元尺寸,空间组,参与化学相互作用的水和特殊残留物(如PDB标题中的LINK记录所示)。关于的参数精炼也在此阶段提取:R(右)因子和R(右)自由的从PDB标题(R(右),R(右)自由,头部)TLS组选择和张量,以及溶剂模型的类型。程序从PDB文件中删除了以下记录汽提塔,主要是为了确保为精细化:显式H原子,占位<0.01的原子,多余的O原子碳水化合物,如果检测到PDB护理、未知配体(UNL)、C以外的侧链原子β对于未知残基(UNK)、对称LINK和SSBOND记录、LINK记录中包含原子距离的字段、未知原子(UNX)和元素X的任何其他原子,因为无法指定散射因子。

2.1.3. 计算模型质量的基线值

原始结构使用进行验证WHAT_检查.REFMAC公司然后使用(没有任何细化)来计算R(右)计算R(右)游离,钙分五个步骤。

  • (i) 首先解决“TLS歧义”:B类模型的因子是“总”还是“剩余”?为了确定,尝试运行带有和不带TLS模型(如果可用)的程序,并使用提供最低R(右)计算被选中。

  • (ii)如果计算的R(右)因子(R(右)计算)以及从PDB文件头中提取的(R(右))大于5%(R(右)计算R(右)>5%),并且通过SFCHECK(SF检查),然后REFMAC公司以孪生方式运行。

  • (iii)如果上述差异仍然存在,则尝试进行刚体细化。

  • (iv)如果超过5%的差异仍然存在,则尝试五个TLS细化周期(仅当从PDB文件头提取TLS张量时),以试图处理TLS张量的可能损坏。

  • (v) 如果在这些步骤之后,报告的度量值和计算的度量值之间的差异超过10%,则确定此PDB条目和PDB_REDO公司管道过早停止。

尚未包含在中的化合物的新限制文件REFMAC公司字典(Vagin等。, 2004【Vagin,A.A.,Steiner,R.A.,Lebedev,A.A,Potterton,L.,McNicholas,S.,Long,F.&Murshudov,G.N.(2004),《结晶学报》,D60,2184-2195。】)自动生成。的最终值R(右)计算R(右)游离,钙再加上R(右)比率,R(右)游离、unb、calc,Z轴(R(右)游离,钙),均方根。Z轴(债券)计算和r.m.s。Z轴(角度)计算用作进一步的基线值精细化。
2.1.4. 重新定义

充分利用精炼英寸REFMAC公司,许多参数需要优化。在原件中PDB_REDO公司我们只优化了几何约束权重。尽管在新版本的REFMAC公司,我们发现我们的搜索方法可以有优势。我们使用几何重量优化,还系统地探索了许多其他的精细化战略,如下所示。

  • (i) 如果SFCHECK(SF检查)发现孪晶分数>5%,则孪晶评估为REFMAC公司.如果REFMAC公司使用查找孪生运算符R(右)合并<44%和孪生分数>7%,使用孪生目标函数进行细化。

  • (ii)四种不同的B类-评估因子模型:各向异性B类各向同性因子B类TLS各向同性因子B类无TLS的因素和一个总体因素B类TLS的系数。下面讨论了最佳算法的选择。

    • (1) 如果确定各向异性B类无法使用因子,通过重置所有原子来测试TLS细化的可能性B类因素到B类威尔逊(或平均值B类分辨率为4º或更差时的系数)并计算R(右)TLS公司R(右)免费,TLS,然后单独进行TLS细化。尽可能测试多个TLS模型:一个简单的模型,每条链有一个TLS组,从PDB头中提取的TLS模型,以及任何其他由用户提供的TLS模块(例如,从TLSMD公司; Painter&Merritt,2006年【Painter,J.&Merritt,E.A.(2006),《水晶学报》,D62,439-450。】). 最佳TLS模型的选择算法也在§[链接]3.如果TLS精细化减少R(右)自由的关于R(右)免费,TLS,输出TLS模型将按原样用于进一步细化。

    • (2) 如果是个人B类使用因子时B类-因素限制(保持相邻B类因子相似)通过执行最多七个不同值的网格搜索进行优化。对于每个重量精炼使用自动几何约束权重执行。§2.2.4中讨论了最佳权重的选择算法[链接].

做出所有这些选择后,将执行实际的重新定义。骑氢模型总是用于从范德瓦尔斯约束中获得最佳效益。本地NCS约束(Murshudov等。, 2011【Murshudov,G.N.,Skubák,P.,Lebedev,A.A.,Pannu,N.S.,Steiner,R.A.,Nicholls,R.A..,Winn,M.D.,Long,F.&Vagin,A.A..(2011),《晶体学报》,D67,355-367。】)在适用时使用,而不管数据分辨率如何。在重新定义中,最多使用七种不同的几何约束权重,这意味着将从多个候选模型中选择最终模型;§2.2.4中也讨论了选择算法[链接].

我们以前的PDB_REDO公司结果表明,重新定义可以通过使几何约束权重分辨率的搜索空间依赖而受益。我们通过将每个输入模型分配到六个不同类别中的一个来实现这一点(表3[链接])基于数据的分辨率和每个原子的X射线反射数。后者很重要,因为在给定的数据分辨率下,每个原子的反射次数随溶剂含量而变化很大:例如,在3.0°分辨率下,观察到每个原子的反射率值在1.9到7.8之间。除了分配几何约束权重搜索空间外,“分辨率”类别还用于确定B类-因子约束权重搜索空间和“凝胶体”约束的应用(Murshudov等。, 2011【Murshudov,G.N.,Skubák,P.,Lebedev,A.A.,Pannu,N.S.,Steiner,R.A.,Nicholls,R.A..,Winn,M.D.,Long,F.&Vagin,A.A..(2011),《晶体学报》,D67,355-367。】),我们使用它来稳定属于两个最低分辨率类别(“vlow”和“xlow”)的结构的重新细化。

表3
结构模型类别

  截止值
类别 每个原子的反射 数据分辨率
xlow(左) 每原子反射<1.0 分辨率≥5.00Ω
vlow(流量) 1.0≤每原子反射<2.5 3.50Ω≤分辨率<5.00Ω
低的 2.80Ω≤分辨率<3.50Ω
中等的 1.70Ω≤分辨率<2.80Ω
高的 1.20Ω≤分辨率<1.70Ω
原子的 分辨率<1.20Ω
†每个原子的反射优先于数据分辨率。
在这些类别中,仅使用分辨率截止值。
2.1.5. 正在重建

重新定义的结果是一个具有新(差异)电子密度图的结构模型。这些映射用于通过四个步骤重建结构模型。

  • (i) 程序离心机去除所有加权平均密度较低的水毫发o(o)数据流c(c)映射[fit(ρ) < 0.37]. PDB_REDO公司进行了优化,以最小化假阳性率,确保不删除应保留的水域;然而,水的去除和最终添加仍然是一个需要未来发展的主要领域。

  • (ii)计划翻盖(乔斯顿、乔斯顿等。, 2011[Joosten,R.P.、Joosten,K.、Cohen,S.X.、Vriend,G.和Perrakis,A.(2011)。生物信息学,273392-3398。])用于翻转模型中肽平面的方向,如果这提高了肽的拟合度,则按重要性排序毫发o(o) − 数据流c(c)氧气位置的地图,2百万英尺o(o)数据流c(c)整个肽图以及两种配合和几何形状的组合,同时保持或改善与Ramachandran图(Ramachandrin等。, 1963[Ramachandran,G.N.,Ramakrishnan,C.&Sasisekharan,V.(1963),《分子生物学杂志》第7期,第95-99页。])所涉及的两种残留物。

  • (iii)侧链在旋转体构象中重建,然后精炼在实际空间中,通过程序SideAide公司(乔斯顿、乔斯顿等。, 2011【Joosten,R.P.,Joosten.,K.,Cohen,S.X.,Vriend,G.&Perrakis,A.(2011).生物信息学,27,3392-3398.】)如果这提高了与2的匹配度毫发o(o)数据流c(c)地图。添加了缺失的侧链。在这个过程中,错误地构建在侧链位置的水分子被移除。

  • (iv)模型通过WHAT_检查结果用于单独的SideAide公司运行翻转His、Asn和Gln侧链以改善氢键,翻转Asp、Glu、Phe和Tyr侧链以标准化χ2角度(χ对于Glu),未搅拌混合NArg中的原子用于标准化几何结构并最终修复(管理)手性C中的错误βThr、Ile和Val的原子以及Cγ亮氨酸原子。需要第二次侧链重建运行来修复前一步骤中未重建的侧链。

重建步骤(ii)、(iii)和(iv)中只包括“原子”、“高”、“中”和“低”类别中的结构,因为地图通常不够清晰,无法在无监督的情况下重建“vlow”和“xlow”类别。

重建的模型在中进行了细化雷夫马克最后一次。更新TLS模型(如果使用),然后是约束细化与之前建立的精炼参数,但具有三种不同的几何约束权重:重新定义的最佳权重、稍紧的约束权重和稍松的约束权重。最终模型是使用重新定义中使用的相同选择算法选择的。

2.1.6. 最终输出

最终模型通过验证WHAT_检查.验证分数和R(右)R(右)自由的值组合为PDB_REDO公司数据库和可用于数据挖掘的未格式化文件。创建了三维场景,显示模型原子被原子运动着色,较暖的颜色表示相对于原始结构模型原子位移增加(图1[链接])和TLS基团着色的模型原子。这些场景可以在免费的查看器版本中可视化亚萨拉(克里格等。, 2002【Krieger,E.、Koraimann,G.和Vriend,G.(2002)。蛋白质,47,393-402。】). 用于的插件库特(埃姆斯利等。, 2010【Emsley,P.、Lohkamp,B.、Scott,W.G.和Cowtan,K.(2010),《水晶学报》D66、486-501。】)可以下载并可视化PDB重做优化的结构模型及其电子密度图。

[图1]
图1
亚萨拉显示对PDB条目所做更改的场景二进制幅度键控(西尔维安等。, 2006【Silvian,L.,Jin,P.,Carmillo,P.、Boriack-Sjodin,P.A.、Pelletier,C.、Rushe,M.、Gong,B.、Sah,D.、Pepinsky,B.和Rossomando,A.(2006)。生物化学,45,6801-6812。】)由PDB_REDO公司原子被原子位移着色,较暖的颜色表示较大的位移。()以原子为球体的结构模型概述。灰色原子是由SideAide公司. (b条)原子位移最大的残渣(ArgA类85)前(左)后PDB重做。侧链移动到完全不同的旋转异构体。(c(c))Leu112中的旋转异构体变化导致C的大位移δ原子,而Cγ原子几乎没有移动。(d日)他的A类32,带有典型的侧链翻转颜色。在新的构象中,侧链与硫酸盐形成氢键(橙色细杆)A类504和水A类508

2.2. 中的决策算法PDB重做

为了能够应用PDB_REDO公司对于整个PDB,有必要创建决策算法,以便在没有监督或用户输入的情况下优化结构模型时,能够处理许多可用的选择。在这里,我们展示了五种主要决策算法的开发结果。

2.2.1. 使用R(右)自由的设置

介绍R(右)自由的公制(Brünger,1992【Brünger,A.T.(1992),《自然》(伦敦),355,472-475。】)是高分子晶体学中的一个重要步骤,因为它有助于检测模型的过拟合和过定义。然而,直到20世纪90年代中期,许多结构都在没有使用R(右)自由的.妥善处理R(右)自由的因此,集合对于结构模型优化至关重要;PDB_REDO公司处理R(右)自由的使用以下过程设置。

  • (i) 的大小R(右)自由的设置已选中。如果大于工作集,则会交换集。这个R(右)自由的如果集合包含所有反射的25%以上或少于500个反射,则该集合将被拒绝。

  • (ii)如果R(右)自由的集合不可用,它是使用5%的反射创建的,但在这种情况下R(右)游离,钙被视为“有偏见”。如果该集包含少于1000个反射,则自由集的反射百分比将增加到最大10%。

  • (iii)测试是否R(右)自由的套装真的是“免费”的,尝试确保它以前没有用于细化。这个R(右)游离,钙如果以下情况适用,则被视为“有偏见”。

    • (1) 一个新的R(右)自由的集合是在上述步骤中创建的。

    • (2)R(右)自由的小于R(右)(R(右)游离,钙<R(右)计算).

    • (3)R(右)游离,钙远低于预期R(右)自由,计算,unb[Z轴(R(右)游离,钙) > 10.0].

    • (4) 两者之间的差异R(右)游离,钙R(右)计算比预期小得多[R(右)游离,钙R(右)计算< 0.33 × (R(右)自由,头部R(右))].

  • (iv)如果R(右)自由,计算有偏差,不用作结构优化的基线值。R(右)游离、钙、unb而是使用。同时精细化通过增加精炼循环和通过重置原子B类因素到B类威尔逊。当精炼汇聚新事物R(右)自由的值再次被视为“自由”。

2.2.2. 选择B类-因子模型

原子位移因子,通常称为B类因子,可以参数化以表示各种详细程度:各向异性B类因子需要每个原子九个参数,各向同性B类因素四和一个B类所有原子的因子只有三个。PDB_REDO公司我们指定B类-因子模型基于每个原子的X射线反射数(RPA),使用以下连续标准。

  • (i) 如果原子参数包括各向异性B类因子是双重超定的,使用各向异性B类因素(RPA>18)。

  • (ii)如果反射仍比包括各向异性在内的参数多50%B类因子(18>RPA>13.5)原子B类系数设置为B类威尔逊以及使用各向同性和各向异性的两种细化B类使用自动几何约束权重和默认值运行因子B类-因素约束。程序b选择(见下文)用于选择最佳B类-因子模型。

  • (iii)如果每个原子有三个以上的反射(13.5>RPA>3)各向同性B类使用因子。

  • (iv)如果每个原子的反射少于三次(RPA<3),则首先优化TLS模型。TLS模型和自动几何约束加权用于各向同性的细化B类因素和紧密性B类-因子约束和整体细化B类仅因子;b选择然后用来挑选最好的B类-因子模型。

  • (v) 如果无法使用TLS(例如因为它在细化中不稳定)然后各向同性B类使用因子。

制作B类-更详细的因子模型为结构模型添加了大量额外参数。这通常会导致R(右)因素,但也在R(右)自由的(巴基等。, 1996【巴基·A、兰津·V·S和威尔逊·K·S(1996),《结晶学报》D52、641-646。】). 因此R(右)自由的无法用于决定是否需要更详细的B类-因子模型是可以接受的。汉密尔顿试验(汉密尔顿,1965【汉密尔顿,W.C.(1965),《水晶学报》,第18期,第502-510页。】; 巴基等。, 1996【巴基·A、兰津·V·S和威尔逊·K·S(1996),《结晶学报》D52、641-646。】)提供了一种方法,通过查看R(右)w个R(右)自由,w简单模型和更复杂模型的值。这种方法的问题是自由度简单模型和复杂模型的数量必须已知,这需要知道实验数据点和模型参数的数量以及模型约束的有效数量。后一个数字可以描述为约束装置的绝对数量乘以重量w个。的值w个尚不清楚,但最近实施了汉密尔顿测试(Merritt,2012【Merritt,E.A.(2012),《晶体学报》D68,468-477。】)通过建立一个范围来规避这个问题w个1模型和模型中的基本约束w个2然后检查所有可能的值。程序b选择使用此方法和其他标准来决定B类-连续步骤的因子模型。
  • (i) 如果较复杂模型的加权值高于较简单模型(R(右)自由、w、复合>R(右)免费、免费、简单)使用了更简单的模型。

  • (ii)所有可能的组合w个1w个2用于汉密尔顿测试。然后计算得出可接受结果的测试百分比(其中“可接受”意味着更复杂的模型是合适的)。如果接受的哈密尔顿试验少于30%,则使用更简单的模型。如果95%以上的哈密尔顿测试是可接受的,则使用更复杂的模型。

  • (iii)如果上述步骤不确定(可接受的测试在30%到95%之间),则通过寻找过度定义的迹象来检查复杂模型,如果Z轴的分数R(右)自由的太低了[Z轴(R(右)自由的)复杂的< −3.0]. 如果Z轴(R(右)自由的)复杂的无法可靠计算(当R(右)比率计算失败)我们检查R(右)自由的R(右)复杂模型:如果这大于截止值(R(右)自由、复杂R(右)复杂的>截止,其中截止各向异性为4%B类系数和6%(各向同性)B类然后使用更简单的模型。最后,如果R(右)自由的R(右)复杂模型的因子是简单模型的两倍多[(R(右)免费,复杂的R(右)复杂的) > 2.0 × (R(右)免费,简单的R(右)简单的)]则使用更简单的模型。否则,我们认为没有过度定义的迹象,并且使用了更复杂的模型。

2.2.3. 选择数量精炼循环

大量雷夫马克 精炼运行以尝试不同的参数;因此,内部精炼周期成为优化模型所需时间的重要因素。根据我们的经验REFMAC公司,我们使用一组经验规则来指定精炼循环。

  • (i) 对于刚体细化,我们在尝试复制R(右)PDB标题中报告的系数,R(右)(参见§2.2.2[链接]). 刚体精炼也用于1990年之前的“遗留”结构模型;在这种情况下,使用了15个周期,因为较旧的结构模型可能距离收敛更远。

  • (ii)对于TLS精细化,我们用五个周期进行复制R(右)(见§2.2.2[链接]),十个周期用于优化TLS模型(15个周期用于“遗留”模型),五个周期用于最终模型优化。

  • (iii)在重新定义期间,默认使用20个循环。如果未使用TLS模型,则会引入五个附加循环。在新的R(右)自由的创建时使用了30个循环,最后在使用各向异性时B类由于各向异性,因此使用了因子40个周期精炼收敛需要更长的时间。对于“传统”模型,默认使用50个周期,使用各向异性时使用60个周期B类因素。

  • (iv)选择B类-因子模型和权重,在决定单个各向同性时,我们使用与重新定义中相同的循环数B类因素或一个约束B类因素。用于确定各向同性和各向异性B类使用因子50个循环。最后,使用十个循环来优化B类-TLS模型的因子约束权重和未使用TLS模型时的15个周期。

2.2.4. 从一组精炼结果

TLS模型优化,B类-因子约束权重优化、重新定义和最终精炼需要从一组精炼结果。程序选择器选择最适合实验数据的模型,同时最小化过度定义的风险。为此,还考虑了启动结构的质量。选取器使用以下过程。

  • (i) 首先,我们建立R(右)有限公司R(右)免费,合作作为截止值,取决于所讨论模型的来源。R(右)TLS公司R(右)免费,TLS如果模型源自TLS模型优化细化,则使用;R(右)计算R(右)游离,钙用于所有其他情况。如果R(右)游离,钙被认为是“有偏见的”R(右)游离、unb、calc使用而不是R(右)游离,钙.

  • (ii)类似地,均方根。Z轴(债券)有限公司和r.m.s。Z轴(角度)有限公司被建立为几何截止值。默认截止值为1.0,但值增加到r.m.s。Z轴(债券)计算和r.m.s。Z轴(角度)计算如果这些值大于1.0,则分别为。

  • (iii)对于每个精炼条件,Z轴(R(右)自由的)σ(R(右)自由的)已计算。从这些值中R(右)自由的已计算[R(右)自由,最大,=R(右)×R(右)比率+ 3.5 ×σ(R(右)自由的)].R(右)自由,最大,然后设置为R(右)自由,最大,以及(R(右)+6%),以确保R(右)R(右)自由的不太大。最后,R(右)自由,最大,设置为以下值中的较高者R(右)自由,最大,以及(R(右)免费,合作/R(右)有限公司×R(右))处理具有高初始值的结构R(右)自由的/R(右)比率。

  • (iv)确定截止值后,如果模型指标超过预设限值[r.m.s.,则拒绝任何模型。Z轴(债券)>有效值。Z轴(债券)有限公司,均方根。Z轴(角度)>均方根值。Z轴(角度)有限公司,R(右)免费,>R(右)自由,最大,,R(右)免费的,>R(右)免费,合作). 对于“vlow”和“xlow”类别中的结构R(右)自由的R(右)模型拒绝也考虑了该因素[(R(右)免费,R(右)) > 2.0 × (R(右)免费,合作R(右)有限公司)].

  • (v) 最后,从剩余条件中选择最佳细化。自由似然(LL)最小的模型自由的)和最低的R(右)自由的已选中。如果这两个模型不同Z轴(R(右)自由的)最终被选中。

中的算法选择器拒绝所有改进,如果没有一项通过既定标准PDB_REDO公司管道也相应地进行了调整。取决于评估的细化集选择器,TLS可能无法在中进一步使用精炼B类-因子约束权重可以设置为REFMAC公司违约。如果重新定义后的评估没有产生更好的模型,则在后续的重建步骤和最终步骤中使用原始结构精炼通过几何约束的自动加权来执行。
2.2.5. 选择不用于重建的原子

重建的前三个步骤是全面的,因此默认情况下会考虑所有残留物。负选择适用于“特殊”残留物,对于这些残留物而言,自动无监督重建风险太大或不需要。

  • (i)离心机忽略LINK中涉及的所有水(参见§2.1.2[链接]).

  • (ii)佩普弗利普忽略主链N或主链O原子参与连接的所有残基。二级结构元素中间的残留物,由决策支持计划(Kabsch和Sander,1983年【Kabsch,W.和Sander,C.(1983)。生物聚合物,222577-2637。】),不太可能出现翻转。为了加快肽翻转,它们也被忽略了。

  • (iii)SideAide公司忽略LINK记录中涉及的所有侧链以及具有多个构象的所有侧环。

最后的重建步骤使用基于WHAT_检查验证报告。然而,上面的否定选择仍然适用。

2.3. 评估数据集

我们尝试使用沉积的X射线衍射数据(>53000)优化所有PDB条目,以便将其包含在PDB_REDO公司数据库。由于各种问题,目前不到900个PDB条目(<2%)无法使用。这些缺失条目的原因列在为什么不数据库注释服务器(Joosten,te Beek等。, 2011【Joosten,R.P.,te Beek,T.A.,Krieger,E.,Hekkelman,M.L.,Hoof,R.W.,Schneider,R.,Sander,C.&Vriend,G.(2011),核酸研究39,D411-D419。】). 将构筑物排除在PDB_REDO公司数据库如下。

  • (i) 原子坐标并不能描述整个非对称单位。由于PDB格式的限制,PDB条目在多个文件上分割的情况大多如此。

  • (ii)否R(右)系数在PDB标题中给出,无法从文献中恢复。这主要是未定义的低分辨率组件的问题。

  • (iii)R(右)系数不能复制到报告值的10个百分点以内。这可能是由于我们当前方法的局限性造成的,但也可能是由于部分缺失数据或沉积了错误的实验数据。

  • (四)结构是通过中子、纤维或粉末衍射等“其他”衍射方法确定的。

  • (v) 该模型仅包含Cα原子。

在这里,我们讨论了基于PDB的随机子集获得的结果,该随机子集由1995年至2010年间沉积的12000个结构模型组成。

3.结果和讨论

3.1. 高通量测试

新的PDB_REDO公司我们使用12000个PDB条目的评估数据集测试了该管道。表4[链接]显示了原始PDB条目、重新定义的结构模型以及最终重新定义和重建的结构模型中数据集的结构质量度量的摘要。平均而言R(右)自由的为1.8%,相对显著提高6.4σ(R(右)自由的). 共移除了7万多个未满足要求的氢键供体或受体以及31万多个原子凸点。超过200000个错误的水分子被移除,57000个之前缺失的侧链被构建。平均而言,每秒钟模型只需要一个肽翻转(仍约占7000个错误模型肽类总计)。这些尝试中最不常见的修复是显式的手性苏氨酸、缬氨酸和异亮氨酸C的固定β原子和亮氨酸Cγ原子,在整个数据集中只应用了12次。

表4
模型质量度量的整体数据集平均值

公制 PDB条目 重新定义的模型 最终模型
R(右)(%) 19.8 18.3 18.4
R(右)自由的(%) 24 22 22.2
拉马钱德兰阴谋 −1.30 −0.66 −0.61
侧链转子分离器 −1.21 −0.69 −0.24
粗填料 −0.24 −0.16 −0.12
精细包装 −0.97 −0.85 −0.70
原子碰撞数 108 78 82
未满足的氢键供体/受体数量 43 37 37
†从PDB标题中提取的值。
模型常态Z轴分数来自检查内容(_C)关于500+个高分辨率结构模型的测试集。值越高越好。

为了更好地了解PDB_REDO公司在单个PDB条目上,我们为结构质量指标绘制了“交通灯”图(图2[链接]). 每个图表都显示了根据不同的度量标准,在重新定义和重建之后,结构模型变得更好、保持不变或变得更差的百分比。根据使用的度量标准,31-75%的模型在重新定义方面得到了改进,45-86%的模型在包括重建在内的全面优化方面得到了改善。最大的改进是R(右)自由的在侧链旋转加速器和Ramachandran图中Z轴分数(Hooft等。, 1997【Hooft,R.W.,Sander,C.&Vriend,G.(1997),《计算应用生物科学》第13期,第425-430页。】). 前两个是明确优化的,这样的结果是意料之中的。然而,拉马钱德兰地块的改善是一个独立的指标,其改善尤其令人鼓舞。Ramachandran图中主干扭转角的典型分布由以下公式得出空间位阻;因此,拉马钱德兰情节的改进Z轴得分很可能是由于在细化,执行适当的空间位阻。拉马钱德兰阴谋的变化Z轴分数很大程度上取决于分辨率(图3[链接]),使用PDB_REDO公司在低于2.0°的分辨率下具有更强的影响。这在一定程度上是由于Z轴分数(在较低分辨率下有更大的改进空间),但骑骑氢原子也可能发挥重要作用,因为在较低的分辨率下不使用骑骑H原子是(现在仍然是)常见的做法精致。考虑到骑骑氢原子不会给精细化,但一定要添加额外的约束,或者从另一个角度来看,使现有的范德瓦尔斯约束更加有效。这导致有效数据参数比的提高,这在低分辨率下尤其重要。

[图2]
图2
12000个结构模型的重新定义(左栏)和完全模型优化(重新定义和重建;右栏)后结构模型质量指标变化的交通灯图。绿色条表示改进的结构模型,红色条表示恶化的模型。模型被视为相同(黄色条),如果|ΔR(右)自由的| ≤ 2σ(R(右)自由的), |ΔZ轴得分|≤0.1(对于Ramachandran图、旋转床、粗包装和细包装)|Δ(凸起数量)|≤10或|Δ(未满足的氢键供体/受体数量)|≤2。
[图3]
图3
Ramachandran阴谋的盒须阴谋Z轴原始PDB条目(白色)的分数(越高越好)和完全优化的PDB_REDO公司0.2º分辨率箱中的模型(灰色);每个箱子的大小在条形图中给出。一个严重异常值,PDB条目第2章第3节(雅赫等。, 2005【Jauch,R.、Jäkel,S.、Netter,C.、Schreiter,K.、Aicher,B.、Jä的ckle,H.&Wahl,M.C.(2005),《结构》,第13期,第1559-1568页。】),是由中与TLS相关的错误导致的PDB_REDO公司。使用最新版本的PDB_REDO公司,决赛Z轴得分为-1.1。

这个PDB_REDO公司管道现在包含部分模型重建,而不仅仅是其第一个实现中的重新定义。重建的附加值,结合第二轮精细化,通过比较重新定义的结构模型和最终结构模型中的分布,可以看出。在大多数情况下,重建和额外精炼增加了改进模型的比例。然而,有趣的是,根据一些标准,新的步骤也增加了模型恶化的比例:这在以下方面最为明显R(右)自由的以及原子碰撞的数量(根据这些标准,所有模型中有6%的模型变得更糟)。

对于以下情况R(右)自由的然而,有一个相当简单的解释。如果在第一次重新定义之后PDB_REDO公司无法找到最佳精炼设置后,仍使用自动几何约束权重重建和细化模型。这很可能解释了为什么模型较差的百分比R(右)自由的重新定义和重建模型集的增加。事实上,72%的车型最终表现更差R(右)自由的,我们一开始就没有找到一个好的重新定义设置。这与我们在所有测试用例中发现的11%形成了鲜明对比(顺便提一下,这是对第一个版本中33%的巨大改进PDB_REDO公司). 图4清楚地说明了成功重新定义所带来的差异[链接]。在重新定义成功的情况下,除五个结构外,其他所有结构最终都具有更好的自由度R(右)最后的因素。在重新优化失败的情况下,即使R(右)自由的无论分辨率如何,都会平均提高,许多结构最终会有更高的分辨率R(右)自由的而不是记录在起始PDB文件的头中。这意味着管道的进一步开发应侧重于更好地处理这个问题或尽可能避免这个问题。后者可以通过增加约束的数量来实现,例如通过以更高的分辨率应用果冻身体约束或通过扩展限制重量搜索空间。最近,对散装固体掩模参数(探头尺寸和收缩系数)进行了优化,这也可能会改善再细化结果。12%的案件最终结果增加R(右)自由的最初计算的R(右)自由的显著高于R(右)自由的在PDB标题中报告[R(右)游离,钙> 5σ(R(右)自由的)计算+R(右)自由,头部]而对于总数据集,这是5%。正在复制R(右)众所周知,这些因素是一个具有挑战性的问题(克莱维特等。, 2004【Kleywegt,G.J.,Harris,M.R.,Zou,J.,Taylor,T.C.,Wählby,A.&Jones,T.A.(2004),《结晶学报》,D60,2240-2249。】; 阿富汗等。, 2010【Afonine,P.V.,Grosse-Kunstleve,R.W.,Chen,V.B.,Headd,J.J.,Moriarty,N.W.,Richardson,J.S.,Richards,D.C.,Urzhumtsev,A.,Zwart,P.H.&Adams,P.D.(2010),《应用结晶杂志》第43期,第669-676页。】)许多问题都可以归结为缺乏对原文的了解精炼参数,例如关于散装溶剂的处理。因为新的PDB条目的注释已经大大改进,我们现在可以进行调整提取器以获得原始文件的更详细描述精炼设置。这些共同表明,部分问题恶化R(右)自由的部分是人为的。

[图4]
图4
方框和胡须图R(右)自由的从PDB标题中提取,用于完全优化PDB重做0.2º分辨率箱中的模型;每个箱子的大小在条形图中给出。数据分为两个子集:首次重新定义成功的模型(10662个模型;左图)和失败的车型(1338款;右图)。如果重新定义成功R(右)自由的提高了整个分辨率范围。用新版本的PDB_REDO公司:PDB条目1盎司(詹姆斯等。, 2003[James,L.C.,Roversi,P.&Tawfik,D.S.(2003),《科学》,299,1362-1367。])已从中删除PDB重做因为R(右)无法复制,第2章第3节(雅赫等。, 2005【Jauch,R.、Jäkel,S.、Netter,C.、Schreiter,K.、Aicher,B.、Jä的ckle,H.&Wahl,M.C.(2005),《结构》,第13期,第1559-1568页。】)和1个u74(康等。, 2004【Kang,S.A.,Marjavaara,P.J.&Crane,B.R.(2004),《美国化学学会期刊》126,10836-10837。】)不再是离群值2立方英尺(秋叶等。, 2005[Akiba,T.、Ishii,N.、Rashid,N.,Morikawa,M.、Imanaka,T.和Harata,K.(2005)。核酸研究33,3412-3423。])和2bx5个(詹姆斯等。, 2007[James,L.C.,Jones,P.C.,McCoy,A.,Tennent,G.A.,Pepys,M.B.,Famm,K.&Winter,G.(2007),《分子生物学杂志》367,603-608。])无法再成功重新定义,将进行进一步调查。如果初始重新定义失败,R(右)自由的通常随着许多严重异常值的增加而增加。

中的劣化R(右)自由的并不意味着模型在所有其他质量指标方面变得更差。事实上,这种情况非常罕见,仅出现在测试集的0.5%(58个结构)中(图4[链接]); 三个或三个以上指标的劣化仍然很少见,并且发生在6%的测试集中。相反,所有模型质量指标的改进发生在16%(1934个结构)的结构中(图4[链接])而在评估集中85%的结构中出现了三个或更多质量指标的改进(图5[链接]).

[图5]
图5
作为模型质量度量数量的函数的测试集中结构的百分比(见图2[链接])改善(灰色;左侧)或恶化(黑色;右侧)的。85%的结构在三个或更多指标中得到改善,而只有6%的结构在3个或更多的指标中恶化。

3.2. 更具建设性的验证

在高通量测试期间PDB_REDO公司在现有的PDB条目上,遇到了800多个可修复的错误,并报告给了PDB。尽管大多数注释问题都很小,但当结构模型用于自动计算研究时,这些错误可能会带来毁灭性的后果。大多数问题在短时间内得到解决,为所有PDB用户解决了问题,而不仅仅是为PDB_REDO公司.

3.3. 见解

3.3.1. 正在进行的开发

这里显示的结果令人鼓舞,但也表明仍有很大的改进空间。例如,图1中的硫酸根离子[链接](d日)被扭曲,这可以追溯到S原子的手性体积约束问题。在现实化学中,O原子是等价的,而硫不是手性的。然而,O原子在计算上是不同的(它们有不同的名称),这使得硫在精致。这意味着硫酸盐中任何两个O原子的交换都会反转硫的手性。手性体积约束现在错误地推动精炼以提高手性体积,导致分子扭曲。我们目前正在测试一种新工具,称为希隆,修复了这些计算手性问题。长期来看,化学手性还应通过重命名化合物或重建化合物来解决问题(原子坐标与残留物名称不匹配)。但是,只有自动获得有关化合物化学性质的可靠信息时,才能执行此操作,并涉及到PDB中配体条目的构造性验证问题,这可能是一项更重要但也更复杂的任务。

这个精炼具有NCS约束的结构模型的REFMAC公司并在中实现PDB_REDO公司不幸的是,使用此选项通常需要手动干预,因为在PDB文件中描述严格NCS的所谓MTRIX记录经常会出现注释错误。我们正在研究一种决策算法,能够正确处理此类情况。

我们目前的重建工具可以改进,以支持非经典氨基酸,如甲基化赖氨酸。此外,更实质性的骨干重建,例如通过建造缺失或定义不清的许多残留物,是进一步改进的目标PDB_REDO公司增加侧链和主链延伸的多重构象是一个额外的挑战。

由于我们正在积极改变结构模型,优化结果的表示变得更加重要。我们目前使用的分子场景来自亚萨拉以突出显示模型中的更改,但这需要安装软件,一次只能显示一件事。一种方法,如Proteopedia(Hodis等。, 2008【Hodis,E.,Prilusky,J.,Martz,E.,Silman,I.,Moult,J.&Sussman,J.L.(2008),《基因组生物学》9,R121。】; Prilusky公司等。, 2011【Prilusky,J.,Hodis,E.,Canner,D.,Decatur,W.A.,Oberholser,K.,Martz,E.,Berchanski,A.,Harel,M.&Sussman,J.L.(2011),《生物结构杂志》175,244-252。】)可以更加灵活,并且可以在web浏览器中直接显示结果。这样的工具可以让我们突出显示肽类被翻转的或被移走的水。

当前模型质量Z轴分数是可靠的衡量标准,但与在摩尔概率(陈)等。, 2010【Chen,V.B.、Arendall,W.B.、Headd,J.J.、Keedy,D.A.、Immormino,R.M.、Kapral,G.J.,Murray,L.W.、Richardson,J.S.和Richardsson,D.C.(2010),《晶体学报》,D66,12-21。】); 除了明显的优势外,百分位数分数还有一些不对称分布的警告。此外,我们在报告中使用的颠簸的绝对数量可能会导致误解,原因很简单,因为它没有说明颠簸程度。这可能导致误导性结果:就绝对值而言,原子重叠为0.05°的十个凹凸比重叠为0.5°的单个凹凸更糟糕,尽管前者可能是次优约束的结果,而后者可能是拟合误差的结果。应制定新的颠簸度量标准。与实验数据拟合的局部度量尚未包括在PDB_REDO公司管道和应添加。

在不久的将来,PDB验证工作组提出的简短验证报告(阅读等。, 2012[Read,R.J.等人(2012),《结构》,第19期,第1395-1412页。])很可能成为首选的展示方式PDB_REDO公司结果。本报告中建议采用的相关指标(以及PDB中正在开发的指标)可以并且应该通过比较来实施PDB_REDO公司结构既与平均PDB结构相比较,也与平均结构相比较PDB_REDO公司结构。

3.3.2. 使用PDB_REDO公司

这个PDB_REDO公司管道还可以用于在任何实验室最终确定结构的过程中优化结构。我们现在定期雇佣PDB_REDO公司在我们的实验室中,通常是为了优化接近完整的模型,但有时早于之后分子替换。软件可从下载http://www.cmbi.ru.nl/pdb_redo用于自己的实验室(例如,参见彭等。, 2010[彭玉华、库玛、M.S.、廖家胜、吴家胜、萧家勇、林家胜、林家卫、连云浩、陈家卫、徐家卫、赵家胜、黄家福、吕家卫、谢家卫、吴家卫(2010)。化学药物化学,第5期,1707-1716页。]; 等。, 2011【Guan,R.,Ma,L.-C.,Leonard,P.G.,Amer,B.R.,Sridharan,H.,Zhao,C.,Krug,R.M.&Montelione,G.T.(2011).美国国家科学院院刊,108,13468-13473.】)不可否认,它的安装并不简单,目前有几个系统依赖项。我们还正在开发PDB_REDO公司web服务器,它将提供更用户友好的方式来使用PDB重做管道在不久的将来。

我们鼓励使用PDB_REDO公司因为它可以改进构造模型及其解释。还必须注意的是PDB_REDO公司追逐移动目标:与PDB车型不同PDB_REDO公司数据库模型并不是静态的,最终必须全部被包含新方法进步的新版本所取代或补充。

中的单个条目PDB_REDO公司数据库(http://www.cmbi.ru.nl/pdb_redo)可用于任何结构生物学研究,例如同源建模(van der Wijst等。, 2010[van der Wijst,J.,Glaudemans,B.,Venselaar,H.,Nair,A.V.,Forst,A.L.,Hoenderop,J.G.&Bindels,R.J.(2010),《生物化学杂志》285,171-178。]; 弗吕克等。, 2011【Flueck,C.E.、Pandey,A.V.、Dick,B.、Camats,N.、Fernandez-Cancio,M.、Clemente,M.和Gussinye,M.,Carrascosa,A.、Mullis,P.E.和Audi,L.(2011),公共科学图书馆·综合,6,e20178。】). 重要的是,模型集合也可以用作结构模型统计分析的同质处理数据集。例如,Ramachandran绘图质量(图3[链接])或平均有效值。Z轴(角度)(图6[链接])分布在PDB_REDO公司与PDB中的明显不同。这些分布可用于定义新的精炼选择可靠水分子或构建(更严格)验证标准的目标和新标准(Kota等。, 2011[Kota,P.,Ding,F.,Ramachandran,S.&Dokholyan,N.V.(2011).生物信息学,272209-2215.]). 在充分发挥PDB_REDO公司可以为社区释放。

[图6]
图6
与目标值的总键角偏差以平方根表示Z轴分数(计算依据WHAT_检查). 每个点是0.2º分辨率箱中所有值的平均值。仅使用初始重新定义成功的模型。PDB中的值(wcori;实线)呈下降趋势,降至1.9º,然后趋于平稳;中完全优化后的值PDB_REDO公司(wcfin;虚线)遵循下降趋势至2.7º,然后增加。键长偏差(未显示)遵循相同的趋势。

4.结论

结构模型验证的自然和建设性后续行动是根据验证结果改进模型,这是合格的X射线晶体学家目前的常见做法。改进模型的过程仍然需要晶体学家做出许多决定。The PDB_REDO公司管道联合收割机精炼以及使用能够自主优化结构模型的决策框架进行模型重建。它使“建设性验证”成为可能,而无需人工干预。这对于PDB中的结构模型尤其重要,否则这些模型将永远不会更新。应用PDB重做12000个随机PDB条目的流水线显示,大多数PDB条目都可以根据普遍接受的质量标准进行改进。这种改进取决于分辨率:分辨率越低,改进越大。真实空间模型重建对于重新定义,特别是改进几何目标具有实质性的附加价值。改进模型的限制因素似乎是寻找最佳精炼参数,还可以将重建范围扩展到主链的更大部分并添加多个构象。最后一个障碍可能是统一和可靠的水模型,最后一个(但决不是最不重要的)是PDB范围内的其他大分子(核酸和碳水化合物)以及与蛋白质结构结合的各种异类化合物(配体)的重建。

致谢

作者感谢国家计算设施基金会(NCF)在荷兰科学研究组织(NWO)的资助下使用超级计算机设施。RPJ由NWO的Veni赠款支持(722.011.011)。

工具书类

第一次引用Afonine,P.V.、Grosse-Kunstleve,R.W.、Chen,V.B.、Headd,J.J.、Moriarty,N.W.、Richardson,J.S.、Richards,D.C.、Urzhumtsev,A.、Zwart,P.H.和Adams,P.D.(2010年)。J.应用。克里斯特。 43, 669–676. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Akiba,T.、Ishii,N.、Rashid,N.、Morikawa,M.、Imanaka,T.和Harata,K.(2005年)。核酸研究。 33, 3412–3423. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Bacchi,A.、Lamzin,V.S.和Wilson,K.S.(1996年)。《水晶学报》。D类52, 641–646. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Berman,H.、Henrick,K.和Nakamura,H.(2003)。自然结构。生物。 10, 980. 科学网 交叉参考 公共医学 谷歌学者
第一次引用Bernstein,F.C.,Koetzle,T.F.,Williams,G.J.,Meyer,E.F.,Brice,M.D.,Rodgers,J.R.,Kennard,O.,Shimanouchi,T.&Tasumi,M.(1977年)。分子生物学杂志。 112, 535–542. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Brünger,A.T.(1992)。自然(伦敦),355, 472–475. 公共医学 科学网 谷歌学者
第一次引用Chen,V.B.、Arendall,W.B.、Headd,J.J.、Keedy,D.A.、Immormino,R.M.、Kapral,G.J.,Murray,L.W.、Richardson,J.S.和Richardsson,D.C.(2010)。《水晶学报》。D类66, 12–21. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Davis,I.W.、Murray,L.W.和Richardson,J.S.&Richardson-D.C.(2004)。核酸研究。 32,W615–W619科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Diamond,R.(1971)。《水晶学报》。A类27, 436–452. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Emsley,P.和Cowtan,K.(2004年)。《水晶学报》。D类60, 2126–2132. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Emsley,P.、Lohkamp,B.、Scott,W.G.和Cowtan,K.(2010年)。《水晶学报》。D类66, 486–501. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Flueck,C.E.、Pandey,A.V.、Dick,B.、Camats,N.、Fernandez-Cancio,M.、Clemente,M.和Gussinye,M.,Carrascosa,A.、Mullis,P.E.和Audi,L.(2011年)。公共科学图书馆一号,6,e20178公共医学 谷歌学者
第一次引用French,S.&Wilson,K.(1978年)。《水晶学报》。A类34, 517–525. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Guan,R.、Ma,L.-C.、Leonard,P.G.、Amer,B.R.、Sridharan,H.、Zhao,C.、Krug,R.M.和Montelione,G.T.(2011年)。程序。美国国家科学院。科学。美国,108, 13468–13473. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Hamilton,W.C.(1965年)。《水晶学报》。 18, 502–510. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用亨里克·K·。等。(2008).核酸研究。 36,D426–D433科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Hodis,E.,Prilusky,J.,Martz,E.,Silman,I.,Moult,J.&Sussman,J.L.(2008)。基因组生物学。 9,R121交叉参考 公共医学 谷歌学者
第一次引用Hooft,R.W.,Sander,C.&Vriend,G.(1997)。计算。申请。Biosci公司。 13, 425–430. 中国科学院 公共医学 科学网 谷歌学者
第一次引用Hooft,R.W.、Vriend,G.、Sander,C.和Abola,E.E.(1996)。自然(伦敦),381, 272. 交叉参考 公共医学 科学网 谷歌学者
第一次引用James,L.C.,Jones,P.C.,McCoy,A.,Tennent,G.A.,Pepys,M.B.,Famm,K.&Winter,G.(2007)。分子生物学杂志。 367, 603–608. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用James,L.C.、Roversi,P.和Tawfik,D.S.(2003年)。科学类,299, 1362–1367. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Jauch,R.、Jäkel,S.、Netter,C.、Schreiter,K.、Aicher,B.、Jáckle,H.&Wahl,M.C.(2005)。结构,13, 1559–1568. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用琼斯·T·A(1978)。J.应用。克里斯特。 11, 268–272. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Jones,T.A.、Zou,J.Y.、Cowan,S.W.和Kjeldgaard,M.(1991)。《水晶学报》。A类47, 110–119. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Jooston,R.P.、Joosten,K.、Cohen,S.X.、Vriend,G.和Perrakis,A.(2011年)。生物信息学,27, 3392–3398. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Joosten,R.P.,Salzemann,J。等。(2009).J.应用。克里斯特。 42, 376–384. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Joosten,R.P.,te Beek,T.A.,Krieger,E.,Hekkelman,M.L.,Hoof,R.W.,Schneider,R.,Sander,C.&Vriend,G.(2011)。核酸研究。 39,D411–D419科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Joosten,R.P.和Vriend,G.(2007)。科学类,317, 195–196. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Joosten,R.P.、Womack,T.、Vriend,G.和Bricogne,G.(2009年)。《水晶学报》。D类65, 176–185. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Kabsch,W.&Sander,C.(1983年)。生物聚合物,22, 2577–2637. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Kang,S.A.、Marjavaara,P.J.和Crane,B.R.(2004)。美国化学杂志。Soc公司。 126, 10836–10837. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Kleywegt,G.J.、Harris,M.R.、Zou,J.、Taylor,T.C.、Wählby,A.和Jones,T.A.(2004)。《水晶学报》。D类60, 2240–2249. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Kleywegt,G.J.&Jones,T.A.(1996年)。《水晶学报》。D类52, 829–832. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Kota,P.、Ding,F.、Ramachandran,S.和Dokholyan,N.V.(2011年)。生物信息学,27, 2209–2215. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Krieger,E.、Koraimann,G.和Vriend,G.(2002年)。蛋白质,47, 393–402. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Laskowski,R.A.、MacArthur,M.W.、Moss,D.S.和Thornton,J.M.(1993)。J.应用。克里斯特。 26, 283–291. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Lütteke,T.和von der Lieth,C.W.(2004)。BMC生物信息学,5, 69. 谷歌学者
第一次引用Merritt,E.A.(2012年)。《水晶学报》。D类68, 468–477. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Murshudov,G.N.、Skubák,P.、Lebedev,A.A.、Pannu,N.S.、Steiner,R.A.、Nicholls,R.A.、Winn,M.D.、Long,F.和Vagin,A.A.(2011年)。《水晶学报》。D类67, 355–367. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Murshudov,G.N.、Vagin,A.A.和Dodson,E.J.(1997)。《水晶学报》。D类53, 240–255. 交叉参考 中国科学院 科学网 IUCr日志 谷歌学者
第一次引用Nayal,M.和Di Cera,E.(1996年)。分子生物学杂志。 256, 228–234. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Painter,J.&Merritt,E.A.(2006年)。《水晶学报》。D类62, 439–450. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用彭玉华、库玛、M.S.、廖建生、吴建生、肖华英、林建华、林伟华、连志伟、陈晓霞、徐建华、赵永生、黄建富、吕平、谢海平、吴建英(2010)。化学医药化学,5, 1707–1716. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Prilusky,J.、Hodis,E.、Canner,D.、Decatur,W.A.、Oberholser,K.、Martz,E.、Berchanski,A.、Harel,M.和Sussman,J.L.(2011年)。J.结构。生物。 175, 244–252. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Ramachandran,G.N.、Ramakrishnan,C.和Sasisekharan,V.(1963年)。分子生物学杂志。 7, 95–99. 交叉参考 公共医学 中国科学院 科学网 谷歌学者
第一次引用里德·R·J。等。(2012).结构,19, 1395–1412. 交叉参考 谷歌学者
第一次引用J.S.理查森。等。(2008).核糖核酸,14, 465–481.结构,19, 1395–1412. 谷歌学者
第一次引用Schomaker,V.&Trueblood,K.N.(1968年)。《水晶学报》。B类24, 63–76. 交叉参考 中国科学院 IUCr日志 科学网 谷歌学者
第一次引用Silvian,L.、Jin,P.、Carmillo,P.,Boriack-Sjodin,P.A.、Pelletier,C.、Rushe,M.、Gong,B.、Sah,D.、Pepinsky,B.和Rossomando,A.(2006年)。生物化学,45, 6801–6812. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Tickle,I.J.、Laskowski,R.A.和Moss,D.S.(1998年)。《水晶学报》。D类54, 547–557. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Tickle,I.J.、Laskowski,R.A.和Moss,D.S.(2000年)。《水晶学报》。D类56, 442–450. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Vagin,A.A.、Steiner,R.A.、Lebedev,A.B.、Potterton,L.、McNicholas,S.、Long,F.和Murshudov,G.N.(2004)。《水晶学报》。D类60, 2184–2195. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Vaguine,A.A.、Richelle,J.和Wodak,S.J.(1999)。《水晶学报》。D类55, 191–205. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用van der Wijst,J.、Glaudemans,B.、Venselaar,H.、Nair,A.V.、Forst,A.L.、Hoendrop,J.G.和Bindels,R.J.(2010年)。生物学杂志。化学。 285, 171–178. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用医学博士温恩。等。(2011).《水晶学报》。D类67, 235–242. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Winn,M.D.、Isupov,M.N.和Murshudov,G.N.(2001年)。《水晶学报》。D类57, 122–133. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可证它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标结构
生物学
国际标准编号:2059-7983