对折的

几十年来,自由能最小化方法一直是单序列RNA二级结构预测的主流策略。近年来,随机上下文无关文法(SCFGs)已成为RNA结构建模的另一种概率方法。与基于物理的方法不同,SCFGs依赖于数千个实验测量的热力学参数,SCFGs使用全自动统计学习算法来推导模型参数。然而,尽管如此,概率方法并没有取代自由能最小化方法作为二次结构预测的选择工具,因为目前最好的scfg的精度还没有达到最好的物理模型的精度。CONTRAfold是一种基于条件对数线性模型(CLLMs)的二级结构预测方法,它是一类灵活的概率模型,通过区分训练和特征丰富的评分来推广SCFGs。通过整合典型热力学模型中发现的大多数特征,CONTRAfold实现了迄今为止最高的单序列预测精度,优于目前可用的概率和物理基础技术。因此,我们的结果缩小了概率模型和热力学模型之间的差距,证明统计学习过程为RNA二级结构预测提供了一种有效的替代方法。