跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
美国国家科学院院刊。2007年9月11日;104(37): 14664–14669.
2007年8月28日在线发布。 数字对象标识:10.1073/pnas.0703836104
PMCID公司:项目经理1955458
PMID:17726102

自动化从头开始天然类RNA三级结构的预测

关联数据

补充资料

摘要

RNA三级结构预测几乎完全基于从系统发育协变异分析中得出的碱基配对约束。我们在这里描述了一种补充方法,该方法受罗塞塔低分辨率蛋白质结构预测方法的启发,在不使用进化信息的情况下,为给定的RNA序列寻找最低能量的三级结构。在20个已知结构和长度≈30 nt的RNA序列的基准测试中,新方法重现了90%以上的Watson–Crick碱基对,与二级结构预测方法的准确性相当。在超过一半的情况下,前五个模型中至少有一个与本机结构一致,在主干上优于4Årmsd。最重要的是,该方法重述了本机结构中三分之一以上的非Watson–Crick碱基对。模型中再现的非经典特征包括“剪切”碱基对、碱基三联体和伪结的串联堆栈。在前五种模型都不是天然结构的情况下,与天然结构相似的高能构象仍然经常取样,但没有分配低能量。这些结果表明,能量函数的适度改进,以及系统发育协方差信息的结合,可以对更大和更复杂的RNA链进行可靠和准确的结构预测。

关键词:从头计算,基于能量,片段组装,核酸,罗塞塔

RNA分子的生物学作用范围从携带简单信息到感知、修饰和创造大量生物分子(1). 后一项任务通常需要获得复杂的三维结构,长期以来人们一直注意到预测稳定的结构化RNA分子折叠的问题应该比蛋白质的类似难题容易得多(2). 有限的化学相似侧链字母表可以确保获得每个核苷酸的常见构象和首选相互作用的相当完整的图片。此外,二次结构预测算法的准确性()有效地将RNA折叠问题简化为一个确定非Watson–Crick碱基对和连接规范Watson-Crick双螺旋的主干轨迹的问题。最近在对基本布线相互作用进行仔细分类方面取得了许多进展(46)和主干构象(7,8). 随着这些见解和进展,已经开发了几个强大的软件包来模拟RNA三级折叠(参见参考文献。915; 在参考文献中进行了审查。).

每种RNA折叠预测算法的成功都依赖于利用实验数据、进化信息和专家用户的交互输入来选择和定位最终模型中的非经典三级特征。然而,原则上,可以通过最小化每个链构型的自由能来预测RNA的三级结构。事实上,广泛使用的RNA二级结构预测方法是建立在RNA结构的“热力学假设”之上的(16). 这种纯粹基于能量的三级结构预测可能还没有尝试过,因为担心有足够的构象采样和足够准确的能量函数用于非经典RNA相互作用。

在本研究中,我们探索了一种基于能量的全自动RNA三级结构预测方法,其灵感来自Rosetta低分辨率蛋白质结构预测方法。基于知识的能量函数指导的RNA片段组装(FARNA)考虑了实验确定的RNA结构中的骨架构象偏好和侧链相互作用偏好。FARNA方法是从头开始方法是指系统发育信息、二级结构预测、实验数据和直接同源物的结构不作为方法的输入。我们对20个小RNA序列提出了该方法的初始基准。结果表明,该方法有效地对原生结构中的正则和非正则特征进行了采样和频繁选择。我们发现,大约一半的测试集都能很好地概括和区分本机结构,而几乎整个测试集都可以对近本机结构进行采样。最重要的是,超过三分之一的非经典碱基对(定义RNA三级基序的关键相互作用)在基准中得到了恢复。

结果

生物聚合物的三级结构预测需要一种有效的方法来有效地采样似是而非的构象,并需要一个近似折叠物理基础的能量函数。我们首先描述了一种片段组装策略,它大大简化了构象采样,然后描述了一个简单能量函数的组成部分来指导采样。为了说明这种方法,我们描述了这些成分如何为一个小型模型系统(带有GCAA四环的发夹)提供精确的全原子结构。然后,我们描述了将这种自动化方法应用于更大的RNA序列基准的结果。最后,我们讨论了将该方法扩展到更高分辨率和更长序列的前景。

从RNA结构中组装子片段以限制构象空间。

乍一看,RNA折叠似乎涉及“天文数字”的构象,类似于勒文塔尔的蛋白质折叠悖论。每个残基有七个扭转角和一个可变形的核糖环,一个小的12-残基RNA链可用的构象空间包含近一百个维度。即使每个扭角只假设两个势能状态,也有≈1028在扭转角之间没有相关性的情况下进行潜在构象搜索。然而,在现实中,由于糖环的共价闭合,每个核苷酸内以及相邻核苷酸之间的原子重叠受到强烈的空间位阻惩罚,因此对取样核苷酸扭转角集有很大的限制(参见,例如,参考文献。17以及其他物理/化学因素,如核苷酸间氢键。在这项研究中,我们通过假设已知RNA结构中观察到的给定三核苷酸序列的构象分布与折叠过程中序列采样的构象有合理的近似值,按照罗塞塔蛋白质结构预测中使用的方法,对这些序列依赖性贡献进行建模(18). 该方法以直接的经验方式捕获局部构象相关性,包括侧链和主干自由度之间的相关性。

在以下基准中从头开始蛋白质折叠算法,必须非常小心,避免与进化相关的蛋白质污染片段库。在RNA案例中,通过从含有2700多个核糖体亚基的单晶结构中提取片段,可以很方便地避免这个问题死海盐盒菌[1FFK(飞行高度表)(19)]. 由于RNA的四字母字母表有限(这里进一步简化为两个字母的嘧啶/嘌呤碱性标签,以使片段库多样化),这个单一来源仍然为任何新RNA序列的每个位置提供>300个潜在的三残基片段。相对于分离的RNA链采样的内容,由于核糖体中的RNA/蛋白质相互作用,文库可能富含不同的非经典构象[参见,例如,在存在和不存在蛋白质的情况下对DNA双螺旋构象的研究(20)]. 我们注意到,用于蛋白质结构预测的肽片段类似地取自与不同伙伴相互作用的分子,包括配体、核酸和其他蛋白质。

推导RNA三级结构的基于知识的能量函数。

为了指导构象取样,需要一个能量函数来编码物理相互作用,这对稳定RNA三级结构最为重要,具有合理的准确性,并且分辨率适合于分子表示。蛋白质结构预测(18),本文中使用的RNA能量函数包括一个弱支持紧致性的术语(与回转半径成比例)和一个惩罚原子之间空间碰撞的术语[参见方法支持信息(SI)图5]. 势的其余项是专门为RNA相互作用设计的。

甚至在获得长折叠RNA链的最早晶体结构之前,碱基配对和碱基堆积就被认为是稳定天然核酸结构的关键相互作用。考虑到它们的影响,人们对包括双链DNA在内的分子的三维结构做出了惊人的预测(21)并转移RNA(22). 为了以内部一致的方式捕获这些重要的交互作用,我们开发了基于知识的基本发射潜力和基本封装潜力,类似于Sykes和Levit提出的潜力(6). 特别是,与原子细节中的氢键建模不同,电势具有粗粒度形式,其分辨率选择与离散碎片组装提供的粗分辨率相匹配。

在每个底座上设置坐标系(图1A类),原点位于基重原子的质心x个轴穿过N1原子(嘌呤)或N3原子(嘧啶)的Watson–Crick边z垂直于基面的轴。核糖体晶体结构1FFK中的碱基对通常具有共面碱(|Δz(z)|<3Å),其质心彼此靠近(Δx个2+Δ2<8). 为了对观测到的配对几何体进行编码,我们构造了一个低分辨率的基于知识的相互作用势,该相互作用势与发现Δ的频率的对数成正比x个和Δ核糖体晶体结构中的碱基构型。

保存图片、插图等的外部文件。对象名称为zpq0340773430001.jpg

RNA片段组装的简单能量函数。(A类)在一个底座上设置坐标系,以定义电位。(B类)Δ的分布x个, Δ核糖体晶体结构中腺苷残基附近尿苷残基的坐标,用2-Å高斯滤波器平滑。该分布的对数为以下方面提供了基于知识的潜力从头开始RNA结构预测。腺苷三个不同边缘(Watson–Crick、Hoogsteen和sugar)的相互作用对应于地图中由虚线和负线划分的三个部分的位置x个轴。(C类D类)基面之间的角度分布(C类)和基面的相对错开(D类)对于在大核糖体晶体结构中观察到的碱基对(蓝色)和无共面性和有共面性的模型(分别为灰色和红色)。

例如,在相对于腺苷碱的给定位置找到尿嘧啶碱的自由能如所示图1B类,具有所述的全部基极引线电位SI图6这种电位编码了腺苷与胡格斯汀、糖和沃森-克里克边可能相互作用的几何结构和相对强度(4,6); 每种类型的交互都可以在中看到图1B类所产生的电势必然是近似的,因为它忽略了相邻碱基对之间的相关性,这些相关性决定了在核糖体中观察到的分布。原则上,从双重熔炼实验中获得的大量基础燃烧能量数据(16,23)也可以用于校准这种潜力,如二级结构预测算法。然而,关于非Watson–Crick相互作用的热力学数据的稀缺性,以及将实验能量分解为碱基堆积、碱基配对和熵组分的模糊性,导致我们采取了一种简单的基于知识的方法,类似于长期用于蛋白质结构预测的策略(18,24,25)并由碱基相互配对的数量明显有限的方式支持(4,6).

单独使用上述碱基配对电位会导致不共面的配对。因此,我们包括了依赖于基础(Δz(z)在里面图1A类)以及两条基法线的点积(cosθ)。这些项是根据1FFK中这些值的分布与一组没有任何此类共面性项的碎片组装诱饵的对数比得出的(参见图1 C类D类SI图7). 添加这些项使模型分布与核糖体晶体结构中的分布很好地一致(比较图1 C类D类).

最后,除了这种基本布线潜力x个2+2<4和3Å<|Δz(z)|<6.2Å将获得−1 kT的奖金,作为堆叠的奖励。实际上,将这一潜力的权重减半或加倍对结果几乎没有影响(数据未显示)。

在模型系统上进行碎片组装蒙特卡罗测试。

我们给出了由一个简单的能量函数(缩写为“FARNA”)指导的Monte Carlo片段组装的整体自动化程序,该函数用于RNA片段组装。本节说明了上述每个能量成分的添加如何有助于FARNA改进对小型模型系统的预测。该系统是一个12-残基序列GGGCGCAAGCCU,形成一个短而稳定的发夹,由GCAA四环覆盖,并通过核磁共振光谱进行了很好的表征[图2; (26)].

保存图片、插图等的外部文件。对象名称为zpq0340773430002.jpg

FARNA发现小RNA发夹的天然结构(A类)在不受任何能量项(灰色)影响的情况下,通过5000次蒙特卡罗碎片组装循环生成的模型之间的rmsd直方图(在C4′原子上计算),并在能量函数中连续添加以下项:转动半径(青色);空间惩罚(品红);Watson–棒球术语中的板球部分(蓝色);碱基配对和碱基堆叠的钩边和糖边组件(绿色);和共面性术语(红色)。(B类)发夹的本征结构[NMR系综1ZIH的第一个模型(26)]. (C–E类)利用旋转半径项和空间惩罚模拟得到的最低能量结构(C类),加上Watson–棒球赛中的板球项目(D类),和全能量函数(E类). 突出显示了在天然结构中形成剪切碱基对的残基G5和A8。在本图和下图中,着色方案显示了主干的彩虹着色(卡通);腺苷、胞苷、鸟苷和尿苷碱分别为橙色、绿色、蓝色和红色。中讨论的残留物结果用较粗的线条渲染。用Pymol(Delano Scientific)制备的分子图。

图2A类显示了从完全延伸链开始的蒙特卡罗碎片组装(灰线)产生的构象的本征状态的主干rmsd直方图(通过C4′原子计算)。值得注意的是,通过使用与链的回转半径成比例的术语来支持压实,会产生一部分可测量的模型,其整体形状与原生状态相似,与原生状态的rmsd<4Å(图中的青色线图2A类). 此外,不允许RNA原子之间的碰撞产生更像天然构象的构象,最有可能的rmsd提高到4Å(洋红色线图2A类; 看见图2C类). 在这个群体中,大约千分之一的构象具有接近原子重溶的主干轨迹(rmsd<2Å)。这远远高于≈10的频率−28从上面给出的朴素估计中可以看出,并证明了骨架构象偏好、类属压实和立体构型在支持天然构象方面的力量。

仅包括碱基配对势的Watson–Crick边缘成分,就使几乎整个种群向类天然结构发生了戏剧性的转变(rmsd<4Å;见中的蓝线图2A类). 最低能量构象几乎无法与自然状态区分开来(图2C类). 这些模型不仅再现了茎中的四个标准碱基对,还再现了“剪切”G-A碱基对(蓝色和橙色碱基图2 B–E类)和循环的堆叠模式。尽管没有可能直接支持糖边/胡格斯汀边G-A相互作用和碱基堆积的术语,但由于核糖体衍生文库中存在的四环的构象偏好,天然构象仍然被选择。包含数据库衍生的sugarbedge和Hoogsteen-edge基本布线组件和基础堆叠项会略微改善总体(中的绿线图2A类). 通过包括有利于两个相互作用的碱基对(图2A类; 看见图2E类).

碎片组装蒙特卡罗基准。

简单发夹模型系统的结果是否推广到其他RNA序列?我们在20个结构稳定的不同序列的基准上测试了FARNA(27)已经以高分辨率进行了实验表征,如表1这些RNA结构包含非Watson–Crick碱基对、三联体和不寻常的主干轨迹,大多数长度小于30个残基,以确保合理采样。由于高分辨率晶体学求解的RNA单链结构数据库较小,基准包括核磁共振求解的案例以及涉及多个链的多个晶体学案例。在一些多链情况下,已知分离的链会单独形成替代的单链结构,但在晶体学取样的高效浓度下会重新排列成低聚物络合物(2831). 为了避免对单体构型进行取样,单个链间碱基对的相对刚体方向(参见表1)在模拟中保持不变,类似于最近开发的在蛋白质中加强β链配对的程序(32). 然后,我们评估了其他规范和非规范特征的后续重述。

表1。

20个RNA分子的基准

偏微分方程方法伦恩配对剪切本地*
集群中心
最低RMS模型
模型
厕所NWC公司BUL公司RMS(有效值)厕所NWC公司BUL公司RMS(有效值)厕所NWC公司BUL公司
157D(157D)X射线247–181210202.9610201.15102053679
1A4D型核磁共振4112716.4811103.434028949
1CSL公司X射线2812–1413924.039222.2682145441
1DQF公司X射线199–1099012.759011.3190166481
1ESY公司核磁共振19643.986101.4461069103
1I9X公司X射线2613–141312024.4612001.93120251267
1J6S型X射线24024013.990502.17013046815
1KD5码X射线2210–12116603.584101.610059896
1KKA(千卡)核磁共振17504.145102.0850081492
1个L2XX射线27853.887103.1171047958
1百万香港元X射线321–26, 14–3112, 26104010.531003.8310038179
第9季度AX射线276606.116202.655048817
1QWA(质量加权平均值)核磁共振218123.716002.0160065977
1台XJRX射线461399.8210406.25111224646
1个字核磁共振124101.714101.03410117104
255D(255D)X射线2412–131210201.6810201.31102054701
283天X射线2412–13128402.618401.6582053062
28个SP核磁共振287613.20702.316046034
2A43型X射线267444.934112.7960149972
2F88型核磁共振3413223.6313102.41100036664
总计1548925142324131347
频率。1110.920.360.160.850.380.28

对于多链靶点,配对柱是指在整个模拟过程中由Watson–Crick碱基对(从核糖体晶体结构1FFK中提取)连接的残基(参见,例如,参考。33),“切割”列指的是新链开始之前的残留物。RMS指天然结构的rmsd(单位:埃),通过C4′原子计算得出。所示的聚类中心是聚类所有模型中能量最低的1%时获得的五个最佳聚类中心(就重述的非Watson–Crick碱基对的数量而言)。WC,本地Watson–Crick碱基对的数量(此处包括G-U摆动对);NWC,本地非Watson–Crick碱基对的数量;BUL,模型中概括的自然膨胀残基数;Len,残留物数量。

*对于NMR模型,系综的第一个模型被用作rmsd计算的参考状态。

对于1J6S,假设配对不是Watson–Crick配对,而是取自天然晶体结构的sugared/Watson-Crickedge G-U配对(残基1、14、8、13和7、20之间)。这个四链复合体的切割点分别为6、12和18。

总行和频率行不包括模拟过程中假设的将多链复合物结合在一起的碱基对(见配对列)。

我们首先讨论模型的总体准确性,然后描述单个示例。RNA结构的评估需要对两种基本布线模式进行分析(4,5)和骨架构象(7,8). 本机Watson–Crick和非Watson-Crick碱基对的数量以及到本机状态的主干rmsd如所示表1关于由片段组装生成的五个最大模型簇中最好的一个(类似于评估蛋白质结构预测时使用的程序;请参阅方法). 我们首先注意到,大多数Watson–Crick碱基对(92%)都是针对基准中五种模型中最好的一种进行了重述;评估顶级集群中心,而不是五个中心中最好的,会将这个值降低到86%。FARNA的这些比率与这组最先进的二级结构预测算法的比率相当,例如,使用Unafold的比率为94%(16). 这种精确的二级结构可能会产生极好的全局主干形状,因为预测为A型双螺旋的建模区域非常简单。事实上,20个基准序列中的11个的FARNA模型在4.00Å的主干rmsd内与本国一致(表1),如果只考虑构成Watson–Crick碱基对的残基子集,则更加一致(SI表2).

天然RNA结构最有趣的特征是非经典骨架构象和非Watson–Crick碱基对,但预测这些特征很困难,通常需要人类检测筛选出的系统发育协方差的签名(,5,22,33). 因此,令人鼓舞的是,自动FARNA方法为20个基准序列中的13个非经典区域找到了准确的构象(SI表2). 然而,低rmsd值可以通过具有不正确碱基相互作用的RNA构象来实现(例如,参见表1)或者在多链情况下可以部分地遵循所假设的配对。因此,这个FARNA基准的最重要结果是准确预测本地非经典碱基对,包括每个碱基对中两个碱基边相互作用的信息,其显著速率为36%(表1).

非典型特征的准确预测。

图3A类显示了在本机结构283D中观察到的四个非经典G-a和a-a碱基对的堆栈示例(31)这在FARNA模型中得到了准确的概括。FARNA与该模型的收敛性尤其值得注意,因为在碎片组装期间,没有施加这种双重结构的对称性。此外,已知每条链单独形成稳定的GAAA-四环夹发夹(31)(参见,例如。,图2B类)事实上,FARNA在建模单链时复制了这种替代结构(数据未显示;另请参阅图3C类).

保存图片、插图等的外部文件。对象名称为zpq0340773430003.jpg

五大FARNA集群中心中的佼佼者(左侧每个面板中)和本地结构(赖特每个面板中),用于包含G-a和a-a非Watson–Crick碱基配对的内环的弯曲RNA螺旋[283D(31)] (A类); HIV-1 PSI RNA包装信号的干环SL2(34)] (B类); 来自的域5滨海白痢第二组内含子[2F88(35)] (C类); 甜菜西黄病毒[1L2X移码RNA假结(39)] (D类). (A类B类)显示非经典碱基对的放大叠加(本机为白色;模型为彩色)(下部).

两个相邻核苷酸碱基配对的平台基序通常作为RNA相互作用的介质出现在RNA结构中。图3B类显示了一个A-U平台的示例,该A-U平台是HIV PSI封装信号的茎环SL2的NMR结构1ESY中A-U-A碱基三联体的一部分(34). FARNA模型再现了这种三胞胎图案以及由此产生的螺旋的局部扭曲。这个碱基三重态的原子分辨率细节,如氢键和潜在的配位水(34)可能需要对RNA构象和能量学进行描述,比当前的蒙特卡罗片段运动和粗粒化潜能更精细。结构顶部的核苷酸似乎被FARNA错误地建模为堆叠的,而不是像NMR结构中那样被引导到溶液中;然而,主链构象被很好地模拟,核磁共振系综在该区域显示出很大的构象变化。

FARNA为所有核苷酸寻找碱基配对或碱基堆叠伙伴的配对趋势并不是绝对的规则。图3C类显示了来自II组内含子[2F88的域5的NMR结构(35)]. 在结构的中间有一个“洞”,在那里,股线不会在螺旋线上形成碱基对。此外,在同一区域观察同源分子结构的不同构象(3538)表明该地区在解决方案中是动态的。FARNA模型使该区域的碱基适当地不成对,并准确预测结构的其他部分,包括GAAA四环。

最后,我们研究了FARNA对非平凡主干轨迹建模的能力。到目前为止讨论的测试RNA分子是发夹或双螺旋,由于非经典相互作用而扭曲。更复杂的结构通常涉及>40 nt,超出了我们目前的采样能力(请参阅讨论). 然而,在较小的RNA分子中,伪结是具有复杂拓扑结构的反复出现的基序,通常包括单链折叠成由环连接的两个同轴螺旋,如图3D类[1个L2X(39)]. FARNA方法通过环残基和螺旋的Watson–Crick碱基对之间形成的非经典碱基对,概括了这种骨架构象。

当前方法的局限性:采样还是能量函数?

在FARNA基准中,二十个RNA序列中有九个的模型不是天然的,rmsd到天然状态>4.00Å。蒙特卡罗预测方法的失败通常可以追溯到其内在成分、构象采样和能量函数中的一个或两个方面的缺陷。

采样不良的一个特征是蒙特卡罗运动无法找到能量低于已知参考状态的构象。检查能量与rmsd图(如图所示SI图8)立即强调了当前采样策略无法找到任何能量低于本机结构的模型的三种情况。采样不足的一个潜在原因可能仅仅是搜索构象空间的计算周期数不足。例如,1J6S,一个复杂的四倍体相互作用网络可能会阻碍这个24-nt基序的有效构象采样。其他两个例子,1A4D和1XJR,是我们测试集中最大的序列,长度分别为41和46个残基。因此,更全面或更有效的抽样可能会成功地重述这些案例的原生结构。

其余六个问题案例涉及能量低于本机结构的非本机FARNA模型,指出了指导蒙特卡罗程序的简单能量函数中的不精确性。然而,在每一种情况下,FARNA生产的≈50000个模型的人口中都包含至少一个结构(通常是多个结构),其主干rmsd位于本土4.00Å以内(表1SI图8和9). 因此,假设的能源景观确实包含这些近自然结构作为局部最小值。这些构象可以通过碎片组装程序实现,但访问频率不够,或者能量不够低,无法被选为最后五个候选簇中心之一。

图4从HIV-1 Rev应答元件(RRE)高亲和力位点(1CSL)的晶体结构中显示了这种情况的示例;图4 居中). FARNA集群中心(图4 左侧)无法预测天然结构中的两个突起核苷酸中的一个。一方面,晶体结构可能反映出非生理构造;核磁共振实验表明,在其他分子的晶体结构中膨胀的未配对核苷酸在溶液中堆积成螺旋状(比较参考文献。4041并比较参考文献。4243; 另请参见SI图10例如,晶体接触会影响“弯钩图案”及其FARNA预测)。另一方面,核磁共振研究中RRE高亲和力位点图4支撑晶体结构中观察到的两个凸起(44,45). FARNA人口中确实存在这些隆起(图4 赖特),但它们的能量没有星团中心那么低。对FARNA来说,膨胀核苷酸的预测不足似乎是一个普遍问题(表1)并且可以通过包括侧链熵和稳定这种骨架扭结的束缚水分子在内的更现实的能量函数来改善。

保存图片、插图等的外部文件。对象名称为zpq0340773430004.jpg

五大FARNA集群中心中的佼佼者(左侧),本机结构(居中),以及从FARNA总种群中获得非Watson–Crick碱基对的最佳恢复模型(赖特)HIV-1 Rev反应元件高亲和力位点[1CSL(52)]. 中讨论的残留物结果用较粗的线条渲染。

讨论

对RNA高精度预测方法的展望。

根据这些初步结果,预测小于40 nt的RNA分子结构的基本瓶颈似乎不是构象取样,而是开发更复杂的能量函数。本文提出的能量函数已经允许对本征结构和碱基对进行采样,因此问题变得容易处理,需要从数千种构象中进行选择,而不是从理论上可能的天文数字的结构中进行选择。

我们认为,添加一些细粒度能量项可能足以解决这个问题。目前,静电术语尚未建模。使用泊松-玻尔兹曼计算或基于知识的近似值,将为反离子大气的这些一般效应提供近似能量(46); 与金属离子的直接相互作用可以通过蛋白质设计中水的旋转体取样方法进行处理(47). 显式氢键也未建模。一种取向依赖的氢键电位[用于蛋白质(47)]对局部水位置进行显式采样可以取代当前粗粒度的基板电位,并可以对目前被忽略的2′-OH和磷酸盐氢键进行建模。每一种增加都可能需要持续最小化RNA链的扭转自由度,而不是FARNA中使用的粗片段移动。然而,这种高分辨率最小化的计算费用是合理的,因为FARNA的一个初始阶段可以用来传递一批已经包含类似天然(但评分不准确)构象的起始构象。目前的罗塞塔蛋白质结构预测方法也有类似的原理(48,49).

最后,最有趣的功能RNA分子,包括核酶和核糖开关,由长度超过40 nt的序列组成,其结构涉及多个双螺旋之间的相互作用。然而,FARNA使用的蒙特卡罗采样比枚举采样策略的计算效率更高(14),当序列长度超过40 nt时,FARNA仍然难以进行足够的采样(SI图9). 代码的进一步优化可能会允许对这些大型构造进行更多数量级的采样。然而,更一般地说,我们建议用二级结构预测算法给出的潜在Watson–Crick碱基对来播种这些碎片组装模拟()这将是限制FARNA需要探索的构象空间的有力策略。此外,将来自系统发育协方差的约束与从头开始本文提出的方法为推断最大RNA的功能结构提供了令人兴奋的前景。

我们提出了一种基于简单能量函数指导的FARNA的RNA结构建模的全自动算法。即使在这第一次研究中,20个RNA分子的典型和非经典特征也分别以92%和36%的显著比率被重新描述。测试集中较小的RNA以高于4Å的分辨率被准确复制。在剩余的情况下,我们鼓励发现,通过这种方法,这种近本征结构仍然以相当高的频率进行采样。

我们在RNA建模方面的努力在很大程度上受到了来自大型活跃领域的见解的指导从头开始蛋白质结构预测。蛋白质领域的一个重要步骤是出版了“诱饵集”,它挑战了研究人员寻找能量函数和精炼策略,以有力区分天然类结构和非天然结构。本着这种精神,我们正在免费提供我们研究中的“诱饵”数量,希望其他研究人员能够加入到对RNA结构更精确和复杂的能量函数的研究中来。

对小分子RNA进行盲、准确的结构预测,完全依赖于自由能的最小化,似乎是可行的。一旦遇到这一挑战,建模工作(可能将从头开始本文描述的策略和系统发育信息)成为大型核酶、核糖开关和蛋白质/RNA复合物的诱人可能性。

方法

碎片库。

对于目标RNA序列的每个位置,一个三核苷酸扭角(α、β、δ、γ、ε、ζ、χ和糖折叠幅度)的库;参见例如,参考文献。50)从1FFK的三个核苷酸片段中提取,根据嘧啶和嘌呤的模式匹配靶点。对于1例1Q9A(辣椒素/蓖麻毒素环),在选择这个扭转文库之前,从1FFK结构中删除了同源序列(残基2684–2710)。

能量函数。

能量函数是六项之和。第一个术语有利于实验RNA结构中的紧凑构象,是旋转半径(单位为Å),重量为1 kT/\8491»。第二项惩罚每个核苷酸上几个代表性原子之间的空间碰撞,空间半径根据原子间核糖体晶体结构1FFK中观察到的第三最小距离推断j,类似于用于推导蛋白质的罗塞塔低分辨率能量函数的标准;看见SI图5能量函数的第三个分量是一个依赖于坐标Δ的基极电位x个和Δ(请参见图1SI图6). 能量函数的第四和第五分量加强配对基的共面性,并依赖于变量Δz(z)和θ如所示图1A类(请参见SI图7). 最后一个组件奖励基础堆叠,如中所述结果.

碎片组件。

使用扩展链初始化模拟。理想的键长和键角取自核酸数据库网站(http://ndbserver.rutgers.edu/standards/ideal_geometries.html). 在每个蒙特卡罗步骤中,在链中选择一个随机位置,用随机选择的片段中的扭转替换三个残基的扭转;根据经典的大都会标准(参见,例如,参考文献。51). 在1000个没有能量函数的随机片段插入的初始“加热”周期后,使用RNA能量函数进行50000个片段插入,共面性项上的权重分别设置为模拟的前三分之一、第二三分之一和最后三分之一的零、半权重和全权重。在Macintosh Intel 2 GHz处理器上生成30-nt RNA的单个模型大约需要45秒,与低分辨率的计算费用类似从头开始可比长度蛋白质的结构预测(18). 分布式计算网络使碎片插入数量增加了10倍,达到500000罗塞塔@家,对较大RNA的模型质量产生轻微改善;这些运行的数据显示在表1用3Å两两rmsd阈值对≈50000模型的最佳1%能量进行聚类,并对最大的五个聚类进行评估。

程序和能量函数是作为Rosetta的一部分实现的,其源代码和可执行文件可免费提供给学术用户http://faulty.washington.edu/rhiju/FARNA/FARNA_decoys.tgz.

补充材料

支持信息:

致谢

我们感谢Phil Bradley和Jim Havranek对Rosetta、Mike Tyka和John Karanicolas中核酸表示的建议,感谢他们对手稿的有益评论,感谢Keith Laidig和Chance Reschke对计算资源的出色管理,感谢罗塞塔@家用于快速测试提出的想法(顶级用户列于SI表3). 我们感谢美国国立卫生研究院、霍华德·休斯医学基金会和简·科芬·查尔兹奖学金(发给R.D.)的资助。

缩写

法尔纳核糖核酸的片段组装。

脚注

作者声明没有利益冲突。

这篇文章是PNAS直接提交的。

本文包含在线支持信息,网址为www.pnas.org/cgi/content/full/0703836104/DC1.

工具书类

1Gesteland RF、Cech TR、Atkins JF。RNA世界:现代RNA的本质暗示了一个益生RNA世界。纽约州冷泉港:冷泉港实验室出版社;2006[谷歌学者]
2Tinoco I,Jr,Bustamante C。分子生物学杂志。1999;293:271–281.[公共医学][谷歌学者]
三。Shapiro BA、Yingling YG、Kasprzak W、Bindewald E。当前操作结构生物。2007;17:157–165.[公共医学][谷歌学者]
4.Leontis NB和Westhof E。RNA。2001;7:499–512. [PMC免费文章][公共医学][谷歌学者]
5Lescoute A、Leontis NB、Massire C、Westhof E。核酸研究。2005;33:2395–2409. [PMC免费文章][公共医学][谷歌学者]
6Sykes MT、Levit M。分子生物学杂志。2005;351:26–38. [PMC免费文章][公共医学][谷歌学者]
7Murray LJ、Arendall WB、3rd、Richardson DC、Richards JS。美国国家科学院程序。2003;100:13904–13909. [PMC免费文章][公共医学][谷歌学者]
8Duarte CM、Wadley LM、Pyle AM。核酸研究。2003;31:4755–4761. [PMC免费文章][公共医学][谷歌学者]
9.Wang R、Alexander RW、VanLoock M、Vladimirov S、Bukhtiyarov Y、Harvery SC、Cooperman BS。分子生物学杂志。1999;286:521–540.[公共医学][谷歌学者]
10.Macke T,案例D.In:核酸的分子模型。Leontis NB,Santa Lucia JJ,编辑。华盛顿特区:Am Chem Soc;1998年,第379–393页。[谷歌学者]
11Zwieb C、Müller F。核酸交响乐系列。1997;36:69–71.[公共医学][谷歌学者]
12.Massire C、Westhof E。J Mol图形模型。1998;16:197–205. 255–7.[公共医学][谷歌学者]
13.Jossinet F,Westhof E。生物信息学。2005;21:3320–3321.[公共医学][谷歌学者]
14F大调。科学与工程计算。2003;5:44–53. [谷歌学者]
15Yingling YG,Shapiro BA。J Mol图形模型。2006;25:261–274.[公共医学][谷歌学者]
16Mathews DH、Sabina J、Zuker M、Turner DH。分子生物学杂志。1999;288:911–940.[公共医学][谷歌学者]
17.Murthy VL、Srinivasan R、Draper DE、Rose GD。分子生物学杂志。1999;291:313–327.[公共医学][谷歌学者]
18Simons KT、Kooperberg C、Huang E、Baker D。分子生物学杂志。1997;268:209–225.[公共医学][谷歌学者]
19.Ban N、Nissen P、Hansen J、Moore PB、Steitz TA。科学。2000;289:905–920.[公共医学][谷歌学者]
20Olson WK、Gorin AA、Lu XJ、Hock LM、Zhurkin VB。美国国家科学院程序。1998;95:11163–11168. [PMC免费文章][公共医学][谷歌学者]
21Watson JD,Crick FH。自然。1953;171:737–738.[公共医学][谷歌学者]
22莱维特·M。自然。1969;224:759–763.[公共医学][谷歌学者]
23Xia T、Santa Lucia JJ、Burkard ME、Kierzek R、Schroeder SJ、Jiao X、Cox C、Turner DH。生物化学。1998;37:14719–14735.[公共医学][谷歌学者]
24巴哈一世杰尼根RL。当前操作结构生物。1996;6:195–209.[公共医学][谷歌学者]
25Zhang Y,Skolnick J。美国国家科学院程序。2004;101:7594–7599. [PMC免费文章][公共医学][谷歌学者]
26Jucker FM、Heus HA、Yip PF、Moors EH、Pardi A。分子生物学杂志。1996;264:968–980.[公共医学][谷歌学者]
27苏内尔·J·。趋势Genet。1997;13:206–207.[公共医学][谷歌学者]
28Leonard GA、McAuley-Hecht KE、Ebel S、Lough DM、Brown T、Hunter WN。结构(伦敦)1994;2:483–494.[公共医学][谷歌学者]
29Szep S、Wang J、Moore PB。RNA。2003;9:44–51. [PMC免费文章][公共医学][谷歌学者]
30.Holbrook SR、Cheong C、Tinoco I,Jr、Kim SH。自然。1991;353:579–581.[公共医学][谷歌学者]
31Baeyens KJ、De Bondt HL、Pardi A、Holbrook SR。美国国家科学院程序。1996;93:12851–12855. [PMC免费文章][公共医学][谷歌学者]
32布拉德利·P、贝克·D。蛋白质。2006;65:922–929.[公共医学][谷歌学者]
33Lehnert V、Jaeger L、Michel F、Westhof E。化学生物。1996;:993–1009.[公共医学][谷歌学者]
34Amarasinghe GK、De Guzman RN、Turner RB、Summers MF。分子生物学杂志。2000;299:145–156.[公共医学][谷歌学者]
35Seetharaman M,Eldho NV,Padgett RA,Dayie KT。RNA。2006;12:235–247. [PMC免费文章][公共医学][谷歌学者]
36张磊,Doudna JA。科学。2002;295:2084–2088.[公共医学][谷歌学者]
37Sashital DG、Cornilescu G、McManus CJ、Brow DA、Butcher SE。自然结构分子生物学。2004;11:1237–1242.[公共医学][谷歌学者]
38Sigel RK、Sashital DG、Abramovitz DL、Palmer AG、Butcher SE、Pyle AM。自然结构分子生物学。2004;11:187–192.[公共医学][谷歌学者]
39.Egli M、Minasov G、Su L、Rich A。美国国家科学院程序。2002;99:4302–4307. [PMC免费文章][公共医学][谷歌学者]
40Joshua-Tor L、Rabinovich D、Hope H、Frolow F、Appella E、Sussman JL。自然。1988;334:82–84.[公共医学][谷歌学者]
41.Patel DJ、Kozlowski SA、Marky LA、Rice JA、Broka C、Itakura K、Breslauer KJ。生物化学。1982;21:445–451.[公共医学][谷歌学者]
42Miller M、Harrison RW、Wlodawer A、Appella E、Sussman JL。自然。1988;334:85–86.[公共医学][谷歌学者]
43Roy S、Sklenar V、Appella E、Cohen JS。生物聚合物。1987;26:2041–2052.[公共医学][谷歌学者]
44Battister JL、Mao H、Rao NS、Tan R、Muhandram DR、Kay LE、Frankel AD、Williamson JR。科学。1996;273:1547–1551.[公共医学][谷歌学者]
45Peterson RD,Feigon J。分子生物学杂志。1996;264:863–877.[公共医学][谷歌学者]
46伍德森公司。当前操作化学生物。2005;9:104–109.[公共医学][谷歌学者]
47Jiang L、Kuhlman B、Korteme T、Baker D。蛋白质。2005;58:893–904.[公共医学][谷歌学者]
48Bradley P、Misura KM、Baker D。科学。2005;309:1868–1871.[公共医学][谷歌学者]
49Das R、Qian B、Raman VS、Vernon R、Thompson J、Bradley P、Khare S、Tyka MD、Bhat D、Shefler W等。蛋白质。2007新闻界。[公共医学][谷歌学者]
50弗吉尼亚州布鲁姆菲尔德,克罗瑟斯DM,小蒂诺科I。核酸:结构、性质和功能。加州索萨利托:大学科学图书;1999[谷歌学者]
51Press WH、Teukolsky SA、Vetterling WT、Flannery BP。C语言中的数字配方:科学计算的艺术。英国剑桥:剑桥大学出版社;1995[谷歌学者]
52Ippolito JA、Steitz TA。分子生物学杂志。2000;295:711–717.[公共医学][谷歌学者]

文章来自美国国家科学院院刊由以下人员提供美国国家科学院