研究论文\(\def\h填{\hskip5em}\def\hfil{\hski p3em}\def\eqno#1{\hfil{#1}}\)

期刊徽标生物
结晶学
国际标准编号:1399-0047

Brickworx公司将反复出现的RNA和DNA结构基序构建成中、低分辨率的电子密度图

十字标记_颜色_方形_文本.svg

波兰华沙Trojdena 4,02-109,国际分子与细胞生物学研究所,b条波兰华沙Banacha 2,02-097,华沙大学数学、信息学和力学学院c(c)波兰波兹南Umultowska 89,61-614,Adam Mickiewicz大学生物系分子生物学和生物技术研究所
*通信电子邮件:gchojnowski@genesilico.pl

(2014年8月26日收到; 2015年1月8日接受; 在线2015年2月26日)

Brickworx公司是一个生成晶体结构使用包括双链螺旋的循环基序的核酸分子模型。在第一步中,该程序搜索可能对应于磷酸盐基团的电子密度峰值;它还可以考虑用户提供的磷酸盐组位置。随后,将P原子的三维模式与核酸片段数据库进行比较,找到了双链螺旋模体(a-RNA或B-DNA)在单位单元格。如果目标结构是RNA,则螺旋片段将进一步延伸,并带有来自包含单链片段的片段库的重复RNA基序。最后,将匹配的基序在真实空间中进行合并和细化,以找到最可能的构象,包括序列与电子密度图的拟合。这个Brickworx公司程序可以下载,也可以作为web服务器在https://iimcb.genesilico.pl/brickworx.

1.简介

实验确定的核酸分子结构的数量,包括核酸-蛋白质复合物,随着最近的发现和对核酸类超出了它们的蛋白质编码能力。特别是,已发现非编码RNA(ncRNAs)参与了从基因转录调控到化学反应催化的许多细胞过程(Cech&Steitz,2014)【Cech,T.R.&Steitz,J.(2014)。细胞,157,77-94。】). 许多具有结构特征的ncRNAs形成紧凑、功能性、三维结构,决定其功能,其方式与数十年来研究蛋白质的序列-结构-功能关系类似(Doudna,2000【Doudna,J.(2000),《自然结构生物学》,第7期,第954-956页。】).

一般来说,研究大分子结构的方法是X射线晶体学(Ke&Doudna,2004【Ke,A.和Doudna,J.(2004)。方法,34,408-414。】). 然而,与蛋白质结晶学不同,核酸结晶学仍然缺乏足够的方法来促进直接的晶体结构确定过程。特别是,自动构建晶体结构实验电子密度图模型的开发明显不足核酸类而不是蛋白质。确定决赛的关键一步晶体结构该模型是对电子密度图的解释。手动程序通常耗时且容易出错,因为晶体学家必须根据原子模型直观地解释三维电子密度的特征。自动建模计算机程序可以大大加快结构确定过程,并有助于将建模中的错误数量降至最低(Hattne&Lamzin,2008[Hattne,J.和Lamzin,V.S.(2008),《结晶学报》,D64,834-842。]). 如果晶体中含有核酸。这种晶体衍射很差,因此很难直观地解释相应的电子密度图。目前,已有几个免费的程序可用于构建核酸结构的初始模型。这些包括鹦鹉螺(获胜者等。, 2011【Winn,M.D.等人(2011),《结晶学报》,D67,235-242。】; 考坦,2012年【Cowtan,K.(2012),CCP4 Newsl.Protein Crystallogr.48,贡献6.】),的ARP协议/弯曲DNA/RNA建模模块(Hattne&Lamzin,2008[Hattne,J.和Lamzin,V.S.(2008),《结晶学报》,D64,834-842。]),phenix.find_helices_strands公司phenix.build_rna螺旋(特威利格,2010年【Terwilliger,T.C.(2010),《水晶学报》,D66,268-275。】),仅在真实空间中操作。也有可用于迭代模型构建的程序,包括精细化: LAFIRE公司(山下等。, 2013【山下康成、周瑜、田中一、姚明(2013),《结晶学报》D691171-1179。】)和菲尼克斯汽车(特威利格等。, 2008【Terwilliger,T.C.、Grosse-Kunstleve,R.W.、Afonine,P.V.、Moriarty,N.W.,Zwart,P.H.、Hung,L.W.和Read,R.J.&Adams,P.D.(2008),《结晶学报》,D64,61-69。】). 还开发了一些方法来促进手动建模,例如R起重机(基廷和派尔,2010年【Keating,K.S.&Pyle,A.M.(2010),美国国家科学院院刊,107,8177-8182。】)和库特(埃姆斯利等。, 2010【Emsley,P.、Lohkamp,B.、Scott,W.G.和Cowtan,K.(2010),《水晶学报》D66、486-501。】)

鹦鹉螺ARP协议/弯曲需要确定磷酸和碱基或糖环的位置,以准确地分配单链多核苷酸片段的骨架构象晶体结构模型。然而,检测碱基通常比检测磷酸盐困难得多,尤其是在低分辨率下(Hattne&Lamzin,2008[Hattne,J.和Lamzin,V.S.(2008),《结晶学报》,D64,834-842。]; Gruene&Sheldrick,2011年【Gruene,T.和Sheldrick,G.M.(2011),《水晶学报》A67,1-8。】). 相反,phenix.find_helices_strands公司phenix.build_rna螺旋使用卷积搜索在非对称单元其中可以放置A-RNA或B-DNA螺旋(后者程序专门构建RNA模型)。这种方法在低分辨率和低质量地图上给出了合理的结果。然而,可用的实现只能构建常规的双链模型。

在这项工作中,描述了一种在电子密度图中构建大型循环核酸基序(包括双链螺旋)的新方法。与其他可用方法不同,在我们的方法中,如果只能检测到一小部分磷酸盐基团位置,则可以在电子密度图中构建一个正确放置的完整基序。

2.材料和方法

2.1. 用作基准的参考结构

为了训练支持向量机(SVM)分类器晶体结构以3.0至4.0的分辨率求解的蛋白质–RNA复合物模型使用非冗余的包含RNA的三维结构集来选择?(Leontis和Zirbel,2012【Leontis,N.B.&Zirbel,C.L.(2012),《RNA 3D结构分析与预测》,N.Leontis&E.Westhof编辑,第281-298页。柏林,海德堡:施普林格。]). 如果没有给定的衍射数据晶体结构,从相应的等价类中选择具有实验数据的结构。最后,晶体结构描述为“保守优化”的模型从PDB_REDO公司服务器(Joosten等。, 2012【Joosten,R.P.,Jooston,K.,Murshudov,G.N.&Perrakis,A.(2012),《水晶学报》D68,484-496。】)以及二进制MTZ格式的相应实验衍射数据。该组包含70个结构;PDB代码的完整列表作为支持信息提供。

虽然分类器是在低分辨率结构上训练的,但所有的测试都是在一组晶体结构模型以中高分辨率求解。因此,在基准测试期间,将构建在模拟地图中的模型与高质量参考结构进行了比较,模拟地图具有部分随机模型阶段。

使用RCSB PDB(Bernstein)选择基准结构集等。, 1977[Bernstein,F.C.,Koetzle,T.F.,Williams,G.J.,Meyer,E.F.,Brice,M.D.,Rodgers,J.R.,Kennard,O.,Shimanouchi,T.&Tasumi,M.(1977),《欧洲生物化学杂志》,第80、319-324页。])搜索服务(截至2014年7月26日)。晶体结构描述为“保守优化”的模型以及MTZ格式的实验衍射数据从PDB_REDO公司服务器(Joosten等。, 2012【Joosten,R.P.,Jooston,K.,Murshudov,G.N.&Perrakis,A.(2012),《水晶学报》D68,484-496。】). Uppsala Electron Density Server(Kleywegt)标注为不可靠的条目等。, 2004【Kleywegt,G.J.,Harris,M.R.,Zou,J.,Taylor,T.C.,Wählby,A.&Jones,T.A.(2004),《结晶学报》,D60,2240-2249。】)已从集合中删除。没有至少两个连续Watson–Crick碱基对的结构[使用3DNA软件(Lu&Olson,2008[Lu,X.-J.&Olson,W.K.(2008),《自然协议》,第3期,第1213-1227页。])和RNA Bricks数据库(Chojnowski等。, 2014【Chojnowski,G.、Walen,T.和Bujnicki,J.M.(2014)。核酸研究42,D123-D131。】)分别针对DNA和RNA)和分离的PDB条目被删除。最终测试包含50个纯DNA结构(从1187个中随机选择)、50个蛋白质-DNA复合物结构(540个条目的随机子集)、62个RNA-蛋白质复合物和31个纯RNA结构。测试集结构的完整列表作为支持信息提供。

2.2. RNA和DNA模体集

A-RNA和B-DNA结构模型使用3DNA(Lu&Olson,2008年[Lu,X.-J.&Olson,W.K.(2008),《自然原论》第3卷,1213-1227页。]). 从RNA Bricks数据库(Chojnowski)中提取RNA重复基序的坐标等。, 2014【Chojnowski,G.、Walen,T.和Bujnicki,J.M.(2014)。核酸研究42,D123-D131。】). 截至2014年8月8日,该集合包含2199个RNA片段,用户可以在每次发布RNA Bricks数据库时进行更新。然而,在基准测试期间,为每个测试结构分别选择了一组用于建模的RNA基序。对于给定的结构,所有来自结构的基序都定义为类似于包含RNA的三维结构的非冗余集合中的查询(Leontis和Zirbel,2012【Leontis,N.B.&Zirbel,C.L.(2012),《RNA 3D结构分析与预测》,N.Leontis&E.Westhof编辑,第281-298页。柏林,海德堡:施普林格。])被排除在外。

2.3. 模拟低质量和低分辨率电子密度图

作为基准的电子密度图是根据观察到的振幅生成的,并调整到所需的分辨率,以及有偏差的模型衍生相位。根据计算晶体学工具箱(cctbx公司)图书馆(格罗塞·库斯特里夫等。2002年【Grosse-Kunstleve,R.W.,Sauter,N.K.,Moriarty,N.W.&Adams,P.D.(2002),《应用结晶杂志》第35期,第126-136页。】). 它包括对一部分中心反射相位进行反演,并向无中心反射相位添加均匀分布的随机噪声。结果中报告的优值和平均相位差数字直接从有偏差的数据中计算得出。

对于每个参考结构,使用修剪到2.5、3.0、3.5和4.0的结构因子振幅生成地图奥分辨率。此外,对于每个分辨率,计算了三组偏置相位,平均相位差(相对于参考结构的计算值)分别为18、35和54°,对应的优值分别为0.92、0.75和0.50。对于每个测试集结构,总共生成了12个不同质量和分辨率的地图。对于基准,总共使用了2316个不同的电子密度图,这些电子密度图是使用193个参考结构进行计算的。

2.4. 磷酸盐检测算法

2.4.1. 电子密度峰值搜索和参数化

对于每个晶体结构来自训练集的模型,有偏差的阶段(F类光突发事件φ计算)计算并归一化电子密度图。因此,所有地图的标准偏差和平均值分别为1和0。接下来,在中实现了峰值搜索过程cctbx公司在不允许两个峰值接近4.0的约束条件下执行Å相互连接。最后,按照Knuspr公司项目(Gruene&Sheldrick,2011年【Gruene,T.和Sheldrick,G.M.(2011),《水晶学报》A67,1-8。】). 针对峰值中心周围的电子密度图体素计算以下参数。

  • (i) 2.5以内的体素等级平均强度峰中心的ω。每个峰值都会被分配一个分数(从0到1),根据较弱的峰值数量对峰值进行排名。

  • (ii)半径为1.56的球体上直径相对的地图点之间的相关系数从山峰中心开始。对于四面体形状的峰,应为负值。

  • (iii)(λ1λ)/λ2,其中λλ2λ1≥0是为体素强度计算的特征值。这些类似于刚体的主惯性矩,用于区分四面体对称性(磷酸盐组)的峰值和平面物体(例如底座)。分解矩阵是为2.5内的贴图体素计算的惯性矩张量用相应的图值加权的峰值中心的ω。

最后,将参数映射到(0,1)范围,以便比较不同晶体的特征。

2.4.2. 训练支持向量机分类器

使用上述定义的低分辨率蛋白质–RNA复合物结构集训练支持向量机分类器。首先,在图中选择最强的峰,并使用§[链接]2.4.1. 接下来,根据它们与参考中任何磷酸基团的P原子的距离,将峰分为两类晶体结构模型。发现峰值接近1.5对P原子的π被标记为正确的碰撞,其余的峰被标记为噪声。最初,使用分层子抽样五倍交叉验证程序确定产生最大完整性的最佳SVM模型参数集。分类器的最终版本是在一个完整的训练集上使用一组最佳的模型参数进行训练的。

2.5. 基于磷酸的核酸片段匹配

基于磷酸盐的匹配算法的输入是一组假定的P原子(P)和一个RNA或DNA三维基序(M)。任务是找到一组刚性变换,将M叠加到P上,其r.M.s.d.低于给定阈值。

首先,从M中选取所有可能的P原子三元组,并将其叠加到集合P中的所有类似三元组上(支持信息§S4)。将获得的变换应用于完整模体M,匹配的质量通过叠加后P和M中最接近的P原子对的r.M.s.d.进行评分。通过使用近似最近邻库中实现的KD-Trees方法,我们实现的计算成本得以降低(网址:https://www.cs.umd.edu/~安装/ANN/). 随着P和r.m.s.d.阈值的大小,计算时间和合理解的数量增长非常快(补充图S37;支持信息§S4中给出了时间复杂性估计)。因此,在我们的实现中,每次找到合理的解决方案时,都会依次删除P中的点,并且r.m.s.d.阈值从0.5逐渐增加到1.0Å. 此外,对于非常大的结构(例如核糖体)非对称单元被分成几个盒子,盒子里的P原子数量少于1000个,这些盒子被单独处理。的计算时间Brickworx公司作为检测到的P原子数量的函数,如补充图S38所示。

2.6. 模型质量评估

所有晶体结构基准测试期间构建的模型与从PDB_REDO公司服务器。判断给定核苷酸残基是否正确构建的一般规则改编自Gruene&Sheldrick(2011)【Gruene,T.和Sheldrick,G.M.(2011),《水晶学报》A67,1-8。】). 根据作者的建议,我们还引入了一个稍微宽松的、基本类型独立的标准,该标准应该更适合评估低分辨率构建的模型。总共考虑了三种不同的验证规则。

  • (1)仅磷酸盐位置。如果离参考结构(包括对称配对)最近的P原子距离在1.5以内,则假定的P原子位置被认为是正确的Å.

  • (2)核苷酸位置。如果P和C1′原子位置均小于1.5和1.0,则认为核苷酸位置正确分别从参考结构(或其任何对称配对物)的核苷酸对应原子中提取出。

  • (3)核苷酸位置和碱基类型。如果参考结构中的核苷酸(或其任何对称配对物)(i)相应的P原子在1.5以内,则认为核苷酸构建正确距离,(ii)相应的C1′原子距离在1.0以内Δ和(iii)嘌呤(C1′、C2、C4、C5、C6、N1、N3和O2)或嘧啶(C1′,C2,C4,C5,C6,C8,N1,N3,N7和N9)共有的原子的根平方偏差小于1.0Å.

添加第三条规则是因为有时程序会错误分配基本类型,但在其他方面会正确地适合主干。严格的标准要求满足所有三点,而宽松的标准只要求满足前两点。

2.7. 使用的软件和Brickworx公司实施

Brickworx公司所有实用程序都是用Python 2.7和C++实现的,广泛使用了计算晶体学工具箱(cctbx公司)v.2013_07_05_0005(格罗西-昆斯特里夫等。2002年【Grosse-Kunstleve,R.W.,Sauter,N.K.,Moriarty,N.W.&Adams,P.D.(2002),《应用结晶杂志》第35期,第126-136页。】)近似最近邻库v.1.1和LEMON库v.1.3.1(Dezső等。, 2011[Dezső,B.,Jüttner,A.&Kovács,P.(2011).电子.注释.理论.计算科学.264,23-45.]). SVM分类器是使用科学知识学习套件v.0.14.1。web服务器界面是在Django框架中开发的(https://djangoproject.com)第1.6版。对于基准,DNA/RNA建模模块来自ARP协议/弯曲v.7.4补丁2,鹦鹉螺v.0.4和phenix.find_helices_strands公司phenix.build_rna螺旋在中可用菲尼克斯v.1.9-1692(亚当斯等。, 2010【Adams,P.D.等人(2010),《水晶学报》,D66,213-221。】)使用了。

2.8. 实验电子密度图

Brickworx公司测试了两个晶体结构衍射数据与实验相的模型已存放在PDB中。一个模型是第二组内含子结构(PDB条目每小时30磅)在3.1求解分辨率(Toor等。, 2008【Toor,N.,Keating,K.S.,Taylor,S.D.&Pyle,A.M.(2008),《科学》,第320、77-82页。】). 使用Yb确定该结构的相3+以及铱六胺衍生物,产生了高质量的实验电子密度图。用于测试的第二个结构是赖氨酸核糖开关(PDB入口3d0单位)在2.8求解分辨率(Garst等。, 2008【Garst,A.D.,Héroux,A.,Rambo,R.P.&Batey,R.T.(2008),《生物化学杂志》283,22347-22351。】)使用铱衍生物。在这两种情况下,模型都直接构建到实验阶段图中。

3.结果

3.1. 项目概述

Brickworx公司需要一个带有结构系数振幅和相位的(二进制)MTZ文件(图1[链接]). 该程序能够在支持向量机分类器的帮助下预测P原子的位置,还可以接受用户指定的P原子位置。在后一种情况下,程序可以从PDB格式的用户定义文件中读取P原子位置。由于输入P原子位置的质量对程序的成功使用至关重要,因此在困难的情况下应手动修改预测模式。用户还必须指定目标结构是RNA还是DNA。这是确定用于建立初始模型的正确双螺旋几何结构所必需的。此外,如果目标分子是RNA,Brickworx公司此外,还将尝试构建从RNA Bricks数据库中衍生的非螺旋重复基序。On输出Brickworx公司提供了PDB格式的两个文件:预测的P-atom模式(如果适用)和全原子表示的模型。

[图1]
图1
Brickworx公司算法流程图。
3.1.1. 构建核酸模型

建模的每一环节都从检测地图中假定的磷酸盐开始(图1[链接]). 接下来,磷酸盐模式被还原为非对称单元在基于磷酸盐的核酸片段匹配的初始步骤中,使用缓冲区提高找到匹配三联体的概率。随后,使用每个原子的完整晶体学环境。

3.1.2. 构建双螺旋(A-RNA和B-DNA)

首先,找到了模型双螺旋P原子和目标P原子图案的初始匹配(参见§[链接]2获取详细信息)。这一步产生了很大一部分假阳性溶液,这些溶液根据电子密度的拟合质量被过滤掉。用原子中心处的插值贴图值之和对匹配进行评分。在具有二级结构约束的实际空间中,对得分最高的十个解进行了进一步细化。期间精细化,对每个W–C碱基对的两个等构变体进行测试,以找到最适合电子密度图的变体。等位碱基对显示出几乎相同的C1′-C1′距离,并且它们的糖苷键以相同的方式定向,并且可以在磷酸糖骨架几何形状没有显著变化的情况下相互替换(Leontis等。2002年【Leontis,N.B.、Stombaugh,J.和Westhof,E.(2002)。核酸研究30,3497-3531。】). 最后,使用实空间相关系数选择0.5或以上的目标地图。对于四个和三个碱基对的双绞线螺旋模型,重复该过程。

3.1.3. 构建自定义RNA循环

如果靶结构是RNA,则在第一步中匹配的双螺旋片段用重复的RNA环基序进一步扩增。首先,将基序的所有侧翼W–C碱基对叠加在匹配茎中的末端碱基对上。接下来,根据P原子位置对初始匹配进行微调。与前一步类似,十个最佳匹配在实空间中通过二级结构约束(包括定义为ClaRNA; 瓦伦等。, 2014[Waleń,T.,Chojnowski,G.,Gierski,P.和Bujnicki,J.M.(2014)。核酸研究42,e151。]). 对检测到的碱基对的所有等构变体进行测试,以找到最适合输入电子密度的变体。最后,一组对称-唯一核苷酸带有实空间相关系数选择0.6以上的目标映射进行输出。

3.2.Brickworx公司磷酸盐检测算法基准

在中实现的磷酸盐组检测算法的质量Brickworx公司Knuspr公司(Gruene&Sheldrick,2011年【Gruene,T.和Sheldrick,G.M.(2011),《水晶学报》A67,1-8。】). 对于测试集中的每个映射,使用两个程序检测P原子模式,并与参考结构进行比较。估计了描述预测质量的两个参数:精度,定义为预测的正确P原子的分数(参见§[链接]2)和完整性,定义为正确预测的参考结构磷酸盐的分数。对于每对映射参数(分辨率和平均相位误差),估计给定参考结构类型(DNA、DNA与蛋白质、RNA或RNA与蛋白质)的两个预测质量参数的平均值。

对于所有引用结构类型Brickworx公司预测比来自Knuspr公司(图2[链接]和补充图S1–S12)。对于低分辨率和较大的平均相位误差,差异较大。相比之下,这两种预测方法的精度是可比较的,无论晶体结构构图和地图质量。此外,对于含有蛋白质成分的结构,这两种方法的预测质量明显较差(例如,参见补充图S1和S7)。

[图2]
图2
完整性()和精度(b条)在Knuspr公司Brickworx公司(分别为红线和绿线)。图中显示的结果基于仅RNA结构的计算图,平均相位误差和优值分别为35°和0.75。

3.3.Brickworx公司核酸结构基准

在中实现的多核苷酸模型构建算法的质量Brickworx公司ARP协议/弯曲(Hattne&Lamzin,2008)[Hattne,J.和Lamzin,V.S.(2008),《结晶学报》,D64,834-842。]),鹦鹉螺(Cowtan,2012年【Cowtan,K.(2012),CCP4 Newsl.Protein Crystallogr.48,贡献6.】),phenix.find_helices_strands公司phenix.build_rna螺旋(仅含RNA结构)(Terwilliger,2010【Terwilliger,T.C.(2010),《水晶学报》,D66,268-275。】). 测试集模型中的每个图都是使用这两种方法中的任何一种构建的,并使用Gruene&Sheldrick(2011)中定义的严格标准与参考结构进行比较[Gruene,T.&Sheldrick,G.M.(2011),《水晶学报》A67,1-8。])或不测试模型中的基类型是否与参考结构一致的宽松方案(参见§[链接]2获取详细信息)。引入宽松计划主要是因为以下事实鹦鹉螺设计上不适合基类型。对每组地图参数(分辨率和平均相位误差)和参考结构类型(DNA、DNA与蛋白质、RNA和RNA与蛋白质)的预测平均精度和完整性进行了评估。

3.3.1. 核酸结构

对于大多数RNA-only和DNA-only参考结构类型,Brickworx公司在大多数情况下,比其他方法产生更高的完整性和精度(图3[链接]以及补充图S13–S18和S19–S24)。有两个例外。对于分辨率为3.0的地图Ω及以上,平均相位误差相对较低,为18°ARP协议/弯曲DNA/RNA建模模块比任何测试方法都具有更好的精度。此外,phenix.build_rna螺旋对较大相位误差的敏感性较弱。在平均相位误差为56°的地图的完整性方面,该方法明显优于其他工具。然而,应该注意的是phenix.build_rna螺旋精度低于Brickworx公司.

[图3]
图3
完整性()和精度(b条)中实现的建模算法Brickworx公司ARP协议/弯曲鹦鹉螺phenix.find_helices_strands公司phenix.build_rna螺旋(分别为红色、绿色、蓝色、黑色和灰色线条)。输出模型中仅计算了P和C1′原子位置。图中显示的结果基于仅RNA结构的计算图,平均相位误差和优值分别为35°和0.75。
3.3.2. 蛋白质-核酸复合物

对于RNA-蛋白质和DNA-蛋白质复合物,Brickworx公司性能优于鹦鹉螺phenix.find_helices_strands公司对于所有测试的数据集。它的完整性比ARP协议/弯曲如果平均相位误差超过18°且分辨率低于3.0奥(图4[链接]和补充图S25–S36)。ARP协议/弯曲然而,对于以中高分辨率(高于3.0)计算的数据集,模型具有更好的精度?)平均相位误差为18°(图5[链接]). 最后,对于RNA–蛋白质复合物结构,使用phenix.build_rna螺旋覆盖最大比例的地图参考结构,平均相位误差为58°。另一方面,使用Brickworx公司显示出明显更高的精度。

[图4]
图4
完整性()和精度(b条)中实现的建模算法Brickworx公司ARP协议/弯曲鹦鹉螺phenix.find_helices_strands公司phenix.build_rna_helices公司(分别为红色、绿色、蓝色、黑色和灰色线条)。输出模型中仅计算了P和C1′原子位置。图中的结果基于蛋白质–RNA复合物的计算图,平均相位误差和优值分别为35°和0.75。
[图5]
图5
完整性()和精度(b条)中实现的建模算法Brickworx公司ARP协议/弯曲鹦鹉螺phenix.find_helices_strands公司phenix.build_rna螺旋(分别为红色、绿色、蓝色、黑色和灰色线条)。模型质量根据严格的标准(包括基础类型和位置)进行评估。图中的结果基于蛋白质–RNA复合物的计算图,平均相位误差和优值分别为35°和0.75。

3.4. 实验相位图测试

在这项工作中,我们试图提出详细的基准Brickworx公司这将减少测试用例选择的主观性。因此,模拟数据集涵盖了广泛的结构类型、分辨率和相位信息质量。这种方法提供了测试方法的平均性能数据,这在其他研究中很少有报道。给出了两个实验图的详细基准结果。

对于使用实验地图的测试,我们使用了Brickworx公司具有一整套重复的RNA基序。基准结果汇编见补充表S1和S2。这两个模型都是使用Web服务器版本的Brickworx公司.计算时间为20和7min分别分析II组内含子和赖氨酸核糖开关图谱。

3.4.1. 第二组内含子

关键的一步Brickworx公司算法是检测单位单元格。这些后来被用来指导将双螺旋碎片构建成地图。在第二组内含子图中,Brickworx公司正确检测到388个P原子位置中的234个(参见§[链接]2.5获取详细信息),精度高达75%。这产生了一个高质量的模型,覆盖了大部分已发布的坐标(图6[链接]). 该模型由233个部分组成核苷酸,其中179个(77%)核苷酸位置正确,占参考结构的46%。此外,119核苷酸具有正确预测的基本类型(参见§[链接]2.5,了解模型评估程序的详细说明)。

[图6]
图6
发布坐标(蓝色)和使用建立的晶体结构模型的比较Brickworx公司(红色)。()来自II组内含子IC子域(Toor)的GCGA四环等。, 2008【Toor,N.,Keating,K.S.,Taylor,S.D.&Pyle,A.M.(2008),《科学》,第320、77-82页。】). 模型被拟合到实验阶段图(3.1分辨率)显示为3.0σ.模型由一个由3个DNA(Lu&Olson,2008年[Lu,X.-J.&Olson,W.K.(2008),《自然协议》,第3期,第1213-1227页。])和从SSU中提取的四环(PDB条目第1页33). (b条)赖氨酸核糖开关(Garst)中的sarcin-ricin基序等。, 2008【Garst,A.D.,Héroux,A.,Rambo,R.P.&Batey,R.T.(2008),《生物化学杂志》283,22347-22351。】)安装到实验相位图中(2.8分辨率)显示为1.8σ从LSU结构中提取匹配的基序(PDB条目第3页第62页)并通过使用定义的二级结构约束在实际空间中进一步细化ClaRNA(瓦伦等。, 2014【Waleñ,T.、Chojnowski,G.、Gierski,P.和Bujnicki,J.M.(2014)。核酸研究42,e151。】).

与其他方法相比,ARP协议/弯曲能够构建涵盖参考结构最大部分的模型。从234核苷酸,84(36%)个核苷酸位置正确,25(11%)个碱基类型正确。相反,phenix.build_rna螺旋返回了一个正确构建比例最高的模型核苷酸:72核苷酸114个(63%)被正确放置,45个(40%)也有正确预测的碱基类型。详细的基准结果见补充表S1。

必须强调的是,所呈现的模型是使用最终的Web服务器版本Brickworx公司具有一整套RNA基序。因此,结果模型中的许多重复基序最初是从第二组内含子的其他模型中提取的(例如PDB条目4一汽)这显然有失偏颇。另一方面,Brickworx公司与单独使用a-RNA模型的任何其他测试方法相比,能够构建更完整的模型(补充表S1)。

3.4.2. 赖氨酸核糖开关

赖氨酸-核糖开关实验图谱的质量明显低于II组内含子的质量。这反映在磷酸盐检测程序的结果中。Brickworx公司能够在参考结构中正确检测161个磷酸基团中的61个,精确度相对较低,为22%。因此,最终模型包括51个核苷酸,其中41个(80%)具有正确的位置,13个(25%)具有正确预测的碱基类型。这些分别占参考结构的25%和8%。

使用其他方法获得的结果证实了该测试用例的难度。最佳模型来自phenix.build_rna_helices公司由64人组成核苷酸总计:37(61%)核苷酸有正确的位置和18(28%)有正确的基础类型。这些分别占参考结构的23%和11%。详细的基准结果见补充表S2。

与前面的例子相反,赖氨酸核糖开关模型使用Brickworx公司不包含来自相关结构的任何图案。程序发现的最大的非螺旋基序,即sarcin–ricin环(图6[链接]),最初是从LSU结构中提取的(PDB条目3j62号).

4.讨论

4.1. 磷酸盐检测步骤对建模过程至关重要

对于Brickworx公司磷酸基团位置的检测对于将碎片构建到电子密度图中至关重要。尽管该程序可以处理相对较大数量的假阳性,但正确预测的数量应该很大。因此,我们实现了自己的程序,基于支持向量机分类器识别电子密度图中的磷酸基团。分类器经过训练,以牺牲精度为代价,提供高完整性的预测。根据§[链接]3,该方法以低至4.0的分辨率正确识别了80%以上的参考结构磷酸基团当符号值较高时为[链接]和补充图S1–S12)。然而,对于低质量的地图,它仍然可以正确识别30%的参考结构磷酸基团。这足以建造超过10%的参考结构核苷酸在其他建模方法没有返回结果的情况下正确。

这个Brickworx公司建筑物特征晶体结构的模型核酸类在单波长的情况下,从磷酸盐组位置开始可能特别有用反常色散基于P原子异常信号(P-SAD)的方法。这种相位技术产生了P原子在单位单元格。 Brickworx公司可用于仅发现部分P原子且相应的电子密度图难以解释的情况。

4.2.Brickworx公司需要在晶体中存在双链RNA/DNA螺旋

在空间中近似匹配两组点的一般问题在计算上是昂贵的。在我们的方法中,由于使用了有效的数据结构(KD树)和算法(图匹配),因此可以减少计算时间。即使如此,它也可以用于在合理的时间内找到几个模型的初始匹配。为此,独特循环碎片的总数(超过2000个)大得令人望而却步。因此,在Brickworx公司RNA双螺旋首先被拟合到电子密度图中,然后用于找到环基序的正确位置。

规则的双链螺旋在核酸结构中相对常见。使用3DN(公称直径)我们发现,沉积在PDB中的84%的蛋白质-RNA复合物、95%的仅RNA结构、91%的仅DNA结构和92%的蛋白质-DNA复合物(截至2014年8月1日)至少含有A或B构象的单双螺旋。

4.3.Brickworx公司能够建立模型核酸类与蛋白质复合

晶体中蛋白质组分的存在容易影响在Brickworx公司(图2[链接]和图S11)。然而,该程序可以处理相对较大比例的错误磷酸盐组预测,因此结构中存在蛋白质不会影响核酸建模过程的成功率。在这种情况下Brickworx公司可与其他两个基准程序进行比较。然而,必须提到的是,无论晶体中是否存在蛋白质成分Brickworx公司与其他两个基准程序相比,这些模型在中等分辨率和高分辨率下具有可比性。

4.4。Brickworx公司以低分辨率构建模型

Brickworx公司适合RNA和DNA的完整片段三级构造由六个或六个以上组成的核苷酸电子密度图。使用二级结构约束对碎片进行进一步细化,从而使一组核苷酸即使在分辨率很低的情况下,也会发现基序中的一部分残基分辨率很低。在中实现的类似方法phenix.build_rna螺旋当相位质量非常低时,无论数据集分辨率如何,都会生成正确的模型。然而,这种方法目前只适用于RNA结构,并且只能构建双链螺旋。相比之下,其他经过测试的程序,如鹦鹉螺ARP协议/弯曲依靠寻找电子密度的局部特征(磷酸盐和碱或糖环)将它们合并成一个连续的链。当这两个部分都可以在地图中轻松解析时,此方法效果最佳。另一方面,鹦鹉螺ARP协议/弯曲可以建造纯单股结构,这在我们的方法中目前是不可能的。

5.结论

Brickworx公司通过将循环结构模体拟合到电子密度图中,可以建立核酸晶体结构的模型。程序和ARP协议/弯曲鹦鹉螺phenix.find_helices_strands公司phenix.build_rna螺旋使用一组193个高分辨率和中分辨率的2000多张电子密度图进行了比较晶体结构模型。根据测试结果,Brickworx公司模型的完整性和质量与ARP协议/弯曲在中等分辨率下,当核酸特征在地图中很容易看到时。然而,在低分辨率下Brickworx公司可以用正确构建的更大比例来构建涵盖目标结构更大比例的模型核苷酸。该程序还可以为平均相位误差超过50°的数据集建立模型,这可能与phenix.build_rna螺旋用于RNA结构,但很少用于其他方法。Brickworx公司模型也有很大一部分核苷酸即使没有考虑目标序列信息,也使用适当的基类型构建。

本研究的结果表明Brickworx公司为未来发展提供了合适的基础。特别是,我们计划使用序列信息来搜索连接程序所拟合模体的单链片段的构象。然而,在当前版本中,Brickworx公司可能已经为手动和自动建模方法提供了有价值的、高质量的启动模型。

支持信息


致谢

首先,我们要感谢计算结晶学工具箱为高级晶体计算提供优秀且免费可用的库的开发人员。如果没有他们的努力Brickworx公司根本不可能。我们还要感谢Matthias Bochtler、Wayne Dawson、Stanisław Dunin-Horkawicz和Piotr Bentkowski对手稿的批判性阅读、宝贵的意见和建议。我们还要感谢Honorata Czapiñska、Marcin Nowotny和Vincent Olieric为我们提供基准数据。这项工作得到了国家科学中心(NCN;2011/01/D/NZ1/00212 to GC)的支持。JMB得到了欧洲研究理事会(ERC;StG向JMB授予RNA+P=123D)和波兰科学基金会(FNP)的“波兰理念”奖学金的支持。Bujnicki实验室计算服务器的开发和维护得到了波兰科学和高等教育部(MNiSW,向JMB授予POIG.03.00-00-003/09)的支持

工具书类

第一次引用P.D.亚当斯。等。(2010).阿克塔·克里斯特。D类66,213–221科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Bernstein,F.C.,Koetzle,T.F.,Williams,G.J.,Meyer,E.F.,Brice,M.D.,Rodgers,J.R.,Kennard,O.,Shimanouchi,T.&Tasumi,M.(1977年)。欧洲生物化学杂志。 80, 319–324. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
第一次引用Cech,T.R.和Steitz,J.(2014)。单元格157, 77–94. 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Chojnowski,G.、Walen,T.和Bujnicki,J.M.(2014)。核酸研究。 42,D123–D131交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Cowtan,K.(2012年)。CCP4新闻。蛋白质结晶仪。 48,贡献6谷歌学者
第一次引用Dezső,B.,Jüttner,A.&Kovács,P.(2011)。电子。注释Theor。计算。科学。 264, 23–45. 谷歌学者
第一次引用Doudna,J.(2000)。自然结构。生物。 7, 954–956. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Emsley,P.、Lohkamp,B.、Scott,W.G.和Cowtan,K.(2010年)。阿克塔·克里斯特。D类66, 486–501. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Garst,A.D.、Héroux,A.、Rambo,R.P.和Batey,R.T.(2008)。生物学杂志。化学。 283, 22347–22351. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Grosse-Kunstleve,R.W.,Sauter,N.K.,Moriarty,N.W.和Adams,P.D.(2002)。J.应用。克里斯特。 35, 126–136. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Gruene,T.和Sheldrick,G.M.(2011年)。阿克塔·克里斯特。A类67, 1–8. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Hattne,J.和Lamzin,V.S.(2008)。阿克塔·克里斯特。D类64, 834–842. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Jooston,R.P.、Joosten,K.、Murshudov,G.N.和Perrakis,A.(2012年)。阿克塔·克里斯特。D类68, 484–496. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Ke,A.和Doudna,J.(2004)。方法34, 408–414. 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Keating,K.S.和Pyle,A.M.(2010年)。程序。美国国家科学院。科学。美国107, 8177–8182. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
第一次引用Kleywegt,G.J.、Harris,M.R.、Zou,J.、Taylor,T.C.、Wählby,A.和Jones,T.A.(2004)。阿克塔·克里斯特。D类60, 2240–2249. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Leontis,N.B.、Stombaugh,J.和Westhof,E.(2002年)。核酸研究。 30, 3497–3531. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Leontis,N.B.和Zirbel,C.L.(2012年)。RNA三维结构分析与预测由N.Leontis&E.Westhof编辑,第281-298页。柏林,海德堡:施普林格。 谷歌学者
第一次引用Lu,X.-J.&Olson,W.K.(2008年)。自然协议。 , 1213–1227. 科学网 交叉参考 中国科学院 谷歌学者
第一次引用Terwilliger,T.C.(2010)。阿克塔·克里斯特。D类66, 268–275. 科学网 交叉参考 IUCr日志 谷歌学者
第一次引用Terwilliger,T.C.、Grosse-Kunstleve,R.W.、Afonine,P.V.、Moriarty,N.W.,Zwart,P.H.、Hung,L.-W.、Read,R.J.和Adams,P.D.(2008)。阿克塔·克里斯特。D类64, 61–69. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Toor,N.、Keating,K.S.、Taylor,S.D.和Pyle,A.M.(2008)。科学类320, 77–82. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
第一次引用Waleñ,T.、Chojnowski,G.、Gierski,P.和Bujnicki,J.M.(2014)。核酸研究。 42,e151公共医学 谷歌学者
第一次引用医学博士温恩。等。(2011).阿克塔·克里斯特。D类67, 235–242. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
第一次引用Yamashita,K.、Zhou,Y.、Tanaka,I.和Yao,M.(2013)。阿克塔·克里斯特。D类69, 1171–1179. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者

这是一篇根据知识共享署名(CC-BY)许可它允许在任何介质中不受限制地使用、分发和复制,前提是引用了原始作者和来源。

期刊徽标生物
结晶学
国际标准编号:1399-0047