2.材料和方法
2.3. 模拟低质量和低分辨率电子密度图
作为基准的电子密度图是根据观察到的振幅生成的,并调整到所需的分辨率,以及有偏差的模型衍生相位。根据计算晶体学工具箱(cctbx公司)图书馆(格罗塞·库斯特里夫等。2002年). 它包括对一部分中心反射相位进行反演,并向无中心反射相位添加均匀分布的随机噪声。结果中报告的优值和平均相位差数字直接从有偏差的数据中计算得出。
对于每个参考结构,使用修剪到2.5、3.0、3.5和4.0的结构因子振幅生成地图 奥分辨率。此外,对于每个分辨率,计算了三组偏置相位,平均相位差(相对于参考结构的计算值)分别为18、35和54°,对应的优值分别为0.92、0.75和0.50。对于每个测试集结构,总共生成了12个不同质量和分辨率的地图。对于基准,总共使用了2316个不同的电子密度图,这些电子密度图是使用193个参考结构进行计算的。
2.4. 磷酸盐检测算法
2.4.1. 电子密度峰值搜索和参数化
对于每个晶体结构来自训练集的模型,有偏差的阶段(F类光突发事件,φ计算)计算并归一化电子密度图。因此,所有地图的标准偏差和平均值分别为1和0。接下来,在中实现了峰值搜索过程cctbx公司在不允许两个峰值接近4.0的约束条件下执行 Å相互连接。最后,按照Knuspr公司项目(Gruene&Sheldrick,2011年). 针对峰值中心周围的电子密度图体素计算以下参数。
(i) 2.5以内的体素等级平均强度 峰中心的ω。每个峰值都会被分配一个分数(从0到1),根据较弱的峰值数量对峰值进行排名。 (ii)半径为1.56的球体上直径相对的地图点之间的相关系数 从山峰中心开始。对于四面体形状的峰,应为负值。 (iii)(λ1−λ三)/λ2,其中λ三≥λ2≥λ1≥0是为体素强度计算的特征值。这些类似于刚体的主惯性矩,用于区分四面体对称性(磷酸盐组)的峰值和平面物体(例如底座)。分解矩阵是为2.5内的贴图体素计算的惯性矩张量 用相应的图值加权的峰值中心的ω。
|
最后,将参数映射到(0,1)范围,以便比较不同晶体的特征。
2.4.2. 训练支持向量机分类器
使用上述定义的低分辨率蛋白质–RNA复合物结构集训练支持向量机分类器。首先,在图中选择最强的峰,并使用§2.4.1. 接下来,根据它们与参考中任何磷酸基团的P原子的距离,将峰分为两类晶体结构模型。发现峰值接近1.5 对P原子的π被标记为正确的碰撞,其余的峰被标记为噪声。最初,使用分层子抽样五倍交叉验证程序确定产生最大完整性的最佳SVM模型参数集。分类器的最终版本是在一个完整的训练集上使用一组最佳的模型参数进行训练的。
2.5. 基于磷酸的核酸片段匹配
基于磷酸盐的匹配算法的输入是一组假定的P原子(P)和一个RNA或DNA三维基序(M)。任务是找到一组刚性变换,将M叠加到P上,其r.M.s.d.低于给定阈值。
首先,从M中选取所有可能的P原子三元组,并将其叠加到集合P中的所有类似三元组上(支持信息§S4)。将获得的变换应用于完整模体M,匹配的质量通过叠加后P和M中最接近的P原子对的r.M.s.d.进行评分。通过使用近似最近邻库中实现的KD-Trees方法,我们实现的计算成本得以降低(网址:https://www.cs.umd.edu/~安装/ANN/). 随着P和r.m.s.d.阈值的大小,计算时间和合理解的数量增长非常快(补充图S37;支持信息§S4中给出了时间复杂性估计)。因此,在我们的实现中,每次找到合理的解决方案时,都会依次删除P中的点,并且r.m.s.d.阈值从0.5逐渐增加到1.0 Å. 此外,对于非常大的结构(例如核糖体)非对称单元被分成几个盒子,盒子里的P原子数量少于1000个,这些盒子被单独处理。的计算时间Brickworx公司作为检测到的P原子数量的函数,如补充图S38所示。
2.6. 模型质量评估
所有晶体结构基准测试期间构建的模型与从PDB_REDO公司服务器。判断给定核苷酸残基是否正确构建的一般规则改编自Gruene&Sheldrick(2011)). 根据作者的建议,我们还引入了一个稍微宽松的、基本类型独立的标准,该标准应该更适合评估低分辨率构建的模型。总共考虑了三种不同的验证规则。
(1)仅磷酸盐位置。如果离参考结构(包括对称配对)最近的P原子距离在1.5以内,则假定的P原子位置被认为是正确的 Å. (2)核苷酸位置。如果P和C1′原子位置均小于1.5和1.0,则认为核苷酸位置正确 分别从参考结构(或其任何对称配对物)的核苷酸对应原子中提取出。 (3)核苷酸位置和碱基类型。如果参考结构中的核苷酸(或其任何对称配对物)(i)相应的P原子在1.5以内,则认为核苷酸构建正确 距离,(ii)相应的C1′原子距离在1.0以内 Δ和(iii)嘌呤(C1′、C2、C4、C5、C6、N1、N3和O2)或嘧啶(C1′,C2,C4,C5,C6,C8,N1,N3,N7和N9)共有的原子的根平方偏差小于1.0 Å.
|
添加第三条规则是因为有时程序会错误分配基本类型,但在其他方面会正确地适合主干。严格的标准要求满足所有三点,而宽松的标准只要求满足前两点。 2.8. 实验电子密度图
Brickworx公司测试了两个晶体结构衍射数据与实验相的模型已存放在PDB中。一个模型是第二组内含子结构(PDB条目每小时30磅)在3.1求解 分辨率(Toor等。, 2008). 使用Yb确定该结构的相3+以及铱六胺衍生物,产生了高质量的实验电子密度图。用于测试的第二个结构是赖氨酸核糖开关(PDB入口3d0单位)在2.8求解 分辨率(Garst等。, 2008)使用铱衍生物。在这两种情况下,模型都直接构建到实验阶段图中。
3.结果
3.1. 项目概述
Brickworx公司需要一个带有结构系数振幅和相位的(二进制)MTZ文件(图1). 该程序能够在支持向量机分类器的帮助下预测P原子的位置,还可以接受用户指定的P原子位置。在后一种情况下,程序可以从PDB格式的用户定义文件中读取P原子位置。由于输入P原子位置的质量对程序的成功使用至关重要,因此在困难的情况下应手动修改预测模式。用户还必须指定目标结构是RNA还是DNA。这是确定用于建立初始模型的正确双螺旋几何结构所必需的。此外,如果目标分子是RNA,Brickworx公司此外,还将尝试构建从RNA Bricks数据库中衍生的非螺旋重复基序。On输出Brickworx公司提供了PDB格式的两个文件:预测的P-atom模式(如果适用)和全原子表示的模型。
| 图1 Brickworx公司算法流程图。 |
3.1.1. 构建核酸模型
建模的每一环节都从检测地图中假定的磷酸盐开始(图1). 接下来,磷酸盐模式被还原为非对称单元在基于磷酸盐的核酸片段匹配的初始步骤中,使用缓冲区提高找到匹配三联体的概率。随后,使用每个原子的完整晶体学环境。
3.1.2. 构建双螺旋(A-RNA和B-DNA)
首先,找到了模型双螺旋P原子和目标P原子图案的初始匹配(参见§2获取详细信息)。这一步产生了很大一部分假阳性溶液,这些溶液根据电子密度的拟合质量被过滤掉。用原子中心处的插值贴图值之和对匹配进行评分。在具有二级结构约束的实际空间中,对得分最高的十个解进行了进一步细化。期间精细化,对每个W–C碱基对的两个等构变体进行测试,以找到最适合电子密度图的变体。等位碱基对显示出几乎相同的C1′-C1′距离,并且它们的糖苷键以相同的方式定向,并且可以在磷酸糖骨架几何形状没有显著变化的情况下相互替换(Leontis等。2002年). 最后,使用实空间相关系数选择0.5或以上的目标地图。对于四个和三个碱基对的双绞线螺旋模型,重复该过程。
3.1.3. 构建自定义RNA循环
如果靶结构是RNA,则在第一步中匹配的双螺旋片段用重复的RNA环基序进一步扩增。首先,将基序的所有侧翼W–C碱基对叠加在匹配茎中的末端碱基对上。接下来,根据P原子位置对初始匹配进行微调。与前一步类似,十个最佳匹配在实空间中通过二级结构约束(包括定义为ClaRNA; 瓦伦等。, 2014). 对检测到的碱基对的所有等构变体进行测试,以找到最适合输入电子密度的变体。最后,一组对称-唯一核苷酸带有实空间相关系数选择0.6以上的目标映射进行输出。
3.4. 实验相位图测试
在这项工作中,我们试图提出详细的基准Brickworx公司这将减少测试用例选择的主观性。因此,模拟数据集涵盖了广泛的结构类型、分辨率和相位信息质量。这种方法提供了测试方法的平均性能数据,这在其他研究中很少有报道。给出了两个实验图的详细基准结果。
对于使用实验地图的测试,我们使用了Brickworx公司具有一整套重复的RNA基序。基准结果汇编见补充表S1和S2。这两个模型都是使用Web服务器版本的Brickworx公司.计算时间为20和7 min分别分析II组内含子和赖氨酸核糖开关图谱。
3.4.2. 赖氨酸核糖开关
赖氨酸-核糖开关实验图谱的质量明显低于II组内含子的质量。这反映在磷酸盐检测程序的结果中。Brickworx公司能够在参考结构中正确检测161个磷酸基团中的61个,精确度相对较低,为22%。因此,最终模型包括51个核苷酸,其中41个(80%)具有正确的位置,13个(25%)具有正确预测的碱基类型。这些分别占参考结构的25%和8%。
使用其他方法获得的结果证实了该测试用例的难度。最佳模型来自phenix.build_rna_helices公司由64人组成核苷酸总计:37(61%)核苷酸有正确的位置和18(28%)有正确的基础类型。这些分别占参考结构的23%和11%。详细的基准结果见补充表S2。
与前面的例子相反,赖氨酸核糖开关模型使用Brickworx公司不包含来自相关结构的任何图案。程序发现的最大的非螺旋基序,即sarcin–ricin环(图6),最初是从LSU结构中提取的(PDB条目3j62号).
4.讨论
4.1. 磷酸盐检测步骤对建模过程至关重要
对于Brickworx公司磷酸基团位置的检测对于将碎片构建到电子密度图中至关重要。尽管该程序可以处理相对较大数量的假阳性,但正确预测的数量应该很大。因此,我们实现了自己的程序,基于支持向量机分类器识别电子密度图中的磷酸基团。分类器经过训练,以牺牲精度为代价,提供高完整性的预测。根据§3,该方法以低至4.0的分辨率正确识别了80%以上的参考结构磷酸基团 当符号值较高时为和补充图S1–S12)。然而,对于低质量的地图,它仍然可以正确识别30%的参考结构磷酸基团。这足以建造超过10%的参考结构核苷酸在其他建模方法没有返回结果的情况下正确。
这个Brickworx公司建筑物特征晶体结构的模型核酸类在单波长的情况下,从磷酸盐组位置开始可能特别有用反常色散基于P原子异常信号(P-SAD)的方法。这种相位技术产生了P原子在单位单元格。 Brickworx公司可用于仅发现部分P原子且相应的电子密度图难以解释的情况。
4.2.Brickworx公司需要在晶体中存在双链RNA/DNA螺旋
在空间中近似匹配两组点的一般问题在计算上是昂贵的。在我们的方法中,由于使用了有效的数据结构(KD树)和算法(图匹配),因此可以减少计算时间。即使如此,它也可以用于在合理的时间内找到几个模型的初始匹配。为此,独特循环碎片的总数(超过2000个)大得令人望而却步。因此,在Brickworx公司RNA双螺旋首先被拟合到电子密度图中,然后用于找到环基序的正确位置。
规则的双链螺旋在核酸结构中相对常见。使用3DN(公称直径)我们发现,沉积在PDB中的84%的蛋白质-RNA复合物、95%的仅RNA结构、91%的仅DNA结构和92%的蛋白质-DNA复合物(截至2014年8月1日)至少含有A或B构象的单双螺旋。
4.3.Brickworx公司能够建立模型核酸类与蛋白质复合
晶体中蛋白质组分的存在容易影响在Brickworx公司(图2和图S11)。然而,该程序可以处理相对较大比例的错误磷酸盐组预测,因此结构中存在蛋白质不会影响核酸建模过程的成功率。在这种情况下Brickworx公司可与其他两个基准程序进行比较。然而,必须提到的是,无论晶体中是否存在蛋白质成分Brickworx公司与其他两个基准程序相比,这些模型在中等分辨率和高分辨率下具有可比性。
4.4。Brickworx公司以低分辨率构建模型
Brickworx公司适合RNA和DNA的完整片段三级构造由六个或六个以上组成的核苷酸电子密度图。使用二级结构约束对碎片进行进一步细化,从而使一组核苷酸即使在分辨率很低的情况下,也会发现基序中的一部分残基分辨率很低。在中实现的类似方法phenix.build_rna螺旋当相位质量非常低时,无论数据集分辨率如何,都会生成正确的模型。然而,这种方法目前只适用于RNA结构,并且只能构建双链螺旋。相比之下,其他经过测试的程序,如鹦鹉螺和ARP协议/弯曲依靠寻找电子密度的局部特征(磷酸盐和碱或糖环)将它们合并成一个连续的链。当这两个部分都可以在地图中轻松解析时,此方法效果最佳。另一方面,鹦鹉螺和ARP协议/弯曲可以建造纯单股结构,这在我们的方法中目前是不可能的。
5.结论
Brickworx公司通过将循环结构模体拟合到电子密度图中,可以建立核酸晶体结构的模型。程序和ARP协议/弯曲,鹦鹉螺,phenix.find_helices_strands公司或phenix.build_rna螺旋使用一组193个高分辨率和中分辨率的2000多张电子密度图进行了比较晶体结构模型。根据测试结果,Brickworx公司模型的完整性和质量与ARP协议/弯曲在中等分辨率下,当核酸特征在地图中很容易看到时。然而,在低分辨率下Brickworx公司可以用正确构建的更大比例来构建涵盖目标结构更大比例的模型核苷酸。该程序还可以为平均相位误差超过50°的数据集建立模型,这可能与phenix.build_rna螺旋用于RNA结构,但很少用于其他方法。Brickworx公司模型也有很大一部分核苷酸即使没有考虑目标序列信息,也使用适当的基类型构建。
本研究的结果表明Brickworx公司为未来发展提供了合适的基础。特别是,我们计划使用序列信息来搜索连接程序所拟合模体的单链片段的构象。然而,在当前版本中,Brickworx公司可能已经为手动和自动建模方法提供了有价值的、高质量的启动模型。
致谢
首先,我们要感谢计算结晶学工具箱为高级晶体计算提供优秀且免费可用的库的开发人员。如果没有他们的努力Brickworx公司根本不可能。我们还要感谢Matthias Bochtler、Wayne Dawson、Stanisław Dunin-Horkawicz和Piotr Bentkowski对手稿的批判性阅读、宝贵的意见和建议。我们还要感谢Honorata Czapiñska、Marcin Nowotny和Vincent Olieric为我们提供基准数据。这项工作得到了国家科学中心(NCN;2011/01/D/NZ1/00212 to GC)的支持。JMB得到了欧洲研究理事会(ERC;StG向JMB授予RNA+P=123D)和波兰科学基金会(FNP)的“波兰理念”奖学金的支持。Bujnicki实验室计算服务器的开发和维护得到了波兰科学和高等教育部(MNiSW,向JMB授予POIG.03.00-00-003/09)的支持
工具书类
P.D.亚当斯。等。(2010).阿克塔·克里斯特。D类66,213–221科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Bernstein,F.C.,Koetzle,T.F.,Williams,G.J.,Meyer,E.F.,Brice,M.D.,Rodgers,J.R.,Kennard,O.,Shimanouchi,T.&Tasumi,M.(1977年)。欧洲生物化学杂志。 80, 319–324. 交叉参考 中国科学院 公共医学 科学网 谷歌学者
Cech,T.R.和Steitz,J.(2014)。单元格,157, 77–94. 交叉参考 中国科学院 公共医学 谷歌学者
Chojnowski,G.、Walen,T.和Bujnicki,J.M.(2014)。核酸研究。 42,D123–D131交叉参考 中国科学院 公共医学 谷歌学者
Cowtan,K.(2012年)。CCP4新闻。蛋白质结晶仪。 48,贡献6谷歌学者
Dezső,B.,Jüttner,A.&Kovács,P.(2011)。电子。注释Theor。计算。科学。 264, 23–45. 谷歌学者
Doudna,J.(2000)。自然结构。生物。 7, 954–956. 交叉参考 公共医学 中国科学院 谷歌学者
Emsley,P.、Lohkamp,B.、Scott,W.G.和Cowtan,K.(2010年)。阿克塔·克里斯特。D类66, 486–501. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Garst,A.D.、Héroux,A.、Rambo,R.P.和Batey,R.T.(2008)。生物学杂志。化学。 283, 22347–22351. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Grosse-Kunstleve,R.W.,Sauter,N.K.,Moriarty,N.W.和Adams,P.D.(2002)。J.应用。克里斯特。 35, 126–136. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Gruene,T.和Sheldrick,G.M.(2011年)。阿克塔·克里斯特。A类67, 1–8. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Hattne,J.和Lamzin,V.S.(2008)。阿克塔·克里斯特。D类64, 834–842. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Jooston,R.P.、Joosten,K.、Murshudov,G.N.和Perrakis,A.(2012年)。阿克塔·克里斯特。D类68, 484–496. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Ke,A.和Doudna,J.(2004)。方法,34, 408–414. 交叉参考 公共医学 中国科学院 谷歌学者
Keating,K.S.和Pyle,A.M.(2010年)。程序。美国国家科学院。科学。美国,107, 8177–8182. 科学网 交叉参考 中国科学院 公共医学 谷歌学者
Kleywegt,G.J.、Harris,M.R.、Zou,J.、Taylor,T.C.、Wählby,A.和Jones,T.A.(2004)。阿克塔·克里斯特。D类60, 2240–2249. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Leontis,N.B.、Stombaugh,J.和Westhof,E.(2002年)。核酸研究。 30, 3497–3531. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Leontis,N.B.和Zirbel,C.L.(2012年)。RNA三维结构分析与预测由N.Leontis&E.Westhof编辑,第281-298页。柏林,海德堡:施普林格。 谷歌学者
Lu,X.-J.&Olson,W.K.(2008年)。自然协议。 三, 1213–1227. 科学网 交叉参考 中国科学院 谷歌学者
Terwilliger,T.C.(2010)。阿克塔·克里斯特。D类66, 268–275. 科学网 交叉参考 IUCr日志 谷歌学者
Terwilliger,T.C.、Grosse-Kunstleve,R.W.、Afonine,P.V.、Moriarty,N.W.,Zwart,P.H.、Hung,L.-W.、Read,R.J.和Adams,P.D.(2008)。阿克塔·克里斯特。D类64, 61–69. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Toor,N.、Keating,K.S.、Taylor,S.D.和Pyle,A.M.(2008)。科学类,320, 77–82. 科学网 交叉参考 公共医学 中国科学院 谷歌学者
Waleñ,T.、Chojnowski,G.、Gierski,P.和Bujnicki,J.M.(2014)。核酸研究。 42,e151公共医学 谷歌学者
医学博士温恩。等。(2011).阿克塔·克里斯特。D类67, 235–242. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
Yamashita,K.、Zhou,Y.、Tanaka,I.和Yao,M.(2013)。阿克塔·克里斯特。D类69, 1171–1179. 科学网 交叉参考 中国科学院 IUCr日志 谷歌学者
| 生物 结晶学 |
国际标准编号:1399-0047
打开访问