介绍
假尿苷(5-ribosyluracil,缩写为希腊字母Ψ)是最常见的RNA(核糖核酸)修饰,几乎在所有生命王国中都有发现。1最近的研究表明,Ψ存在于各种类型的RNA中,例如tRNA(转移RNA)、mRNA(信使RNA)、snRNA(小核RNA)、noRNA(小核仁RNA)和rRNA(核糖体RNA)。2如所示,Ψ是尿苷的异构体,由高度保守的假尿苷合成酶催化,该合成酶将尿苷残基的碱从其糖中分离出来,然后将其沿N3-C6轴“旋转”180°,然后将碱的5个碳重新附着到糖的1’-碳。三
图中显示了假尿苷(Ψ)的改性。它的形成是由Ψ合酶催化的。
近年来,Ψ修饰的分子功能才刚刚被揭示出来。例如,Ψ修饰在tRNA结构的稳定中起着不可或缺的作用,2,三,4它在负责基因调控的剪接体RNA中也有显著作用。Ψ修饰存在于与RNA-RNA或RNA-蛋白相互作用有关的区域,以促进剪接体的组装和反应,从而产生活性mRNA,例如AU/AC内含子剪接。2,三,5此外,已经证明,将Ψ并入mRNA中可能会提高翻译效率并降低RNA-合法的先天免疫反应。6尽管在揭示Ψ修饰的作用方面取得了很大进展,但对大多数RNA系统来说,其生物学功能和作用机制仍不明确。因此,转录组中Ψ修饰位点的信息对于深入揭示相关生物学原理至关重要。
通过使用高通量技术,如Ψ-Seq,7Ψ修饰在转录组中的分布已被表征智人,小M、和酿酒酵母.7,8,9,10但这些技术对于全基因组分析来说既耗时又昂贵。面对快速增长的测序基因组数量,迫切需要开发计算方法来及时获取此类信息。
实际上,李已经做出了努力等.11最近在这方面。这些作者提出了一种称为PPUS的预测因子,用于识别PUS特异性假尿苷位点。PPUS预测器,11然而,只能在智人和酿酒酵母此外,它的准确性肯定需要提高,这可以通过考虑核苷酸的化学性质来实现。
本研究旨在开发一种新的、更强大的预测因子,用于识别成功率较高且能够覆盖更多物种的Ψ改性位点。
为了开发一个具有清晰逻辑和广泛实用价值的预测器,让我们遵循五步指南12最近的一系列出版物(参见,例如,参考文献。13,14,15,16,17,18,19,20,21):(i)如何构造或选择有效的基准数据集来训练和测试预测器;(ii)如何用一个有效的数学表达式来表示生物序列样本,该表达式能够真实地反映生物序列样本与待预测目标的本质相关性;(iii)如何引入或开发强大的算法(或引擎)来操作预测;(iv)如何适当地进行交叉验证,以客观估计其预期准确性;(v) 如何建立一个用户友好的、公众可以访问的网络服务器。下面,我们将逐一讨论上述五个步骤。
结果
正如引言中提到的,在开发有用的预测工具的五个重要步骤中,其中之一是如何客观评估其预期成功率。12为了解决这个问题,需要考虑以下两个因素:一是应该采用什么指标来反映预测者的成功率;另一个是应该使用什么测试方法来推导度量率。下面,我们将解决这两个问题。
定量测量预测器质量的指标
以下四个指标通常用于衡量预测值的质量:(i)总体准确度或Acc;(ii)马修相关系数或MCC;(iii)灵敏度或Sn;和(iv)特异性或特异性。22不幸的是,这四个指标的传统公式并不直观,大多数实验科学家感到很难理解它们,特别是对于MCC指标。然而,有趣的是,如果使用周的符号和推导来研究信号肽,23上述四个指标可以表述如下13,24:
(1)
哪里N个+代表所调查的真实Ψ-位点RNA样本的总数,而被错误预测为假Ψ位点RNA样品的真Ψ位点含RNA样品的数量;N个−假Ψ位点RNA样本总数,而错误预测为真Ψ位点RNA样品的假ψ位点RNA样本数量。
根据方程式1,可以清楚地看到以下内容。什么时候?这意味着没有一个真正的Ψ-位点RNA样本被错误地预测为假样本,我们的灵敏度Sn=1。什么时候?这意味着所有真Ψ-位点RNA样本都被错误地预测为假样本,我们的灵敏度Sn=0。同样,当也就是说,没有一个假Ψ位点RNA样本被错误地预测为真,我们的特异性为Sp=1;然而这意味着所有假Ψ位点RNA样本都被错误地预测为真样本,我们的特异性Sp=0。什么时候?也就是说,阳性数据集中的真Ψ-位点RNA样本和阴性数据集中的假Ψ-部位RNA样本均未被错误预测,我们的总体准确度为Acc=1和MCC=1;什么时候和也就是说,阳性数据集中所有真Ψ-位点RNA样本和阴性数据集中所有假Ψ-部位RNA样本的预测都是错误的,我们的总准确度Acc=0,MCC=-1;然而,当和Acc=0.5和MCC=0表示不比随机猜测更好。从上面的讨论中我们可以看出,方程1的公式使敏感性、特异性、总体准确性和Mathew相关系数的含义更加直观和易于理解,特别是对于MCC的含义,正如许多研究人员在一系列近期出版物中同意并采纳的那样(参见,例如,参考文献。14,17,25,26,27,28,29,30). 注意,在方程式1中的四个指标中,最重要的是Acc和MCC,因为前者反映了预测值的总体准确性,而latte反映了其稳定性。度量Sn和Sp用于从两个不同的角度测量预测器,并且它们相互约束。31
然而,需要指出的是,方程1中定义的方程组仅对单标签系统有效。对于在系统生物学中出现得越来越频繁的多标签系统32,33,34和系统医学,35如参考文献所述,需要一套完全不同的度量标准。36.
通过刀切试验进行验证
定义了一组好的评估指标后,接下来的事情是应该使用什么验证方法来导出指标值。
在统计预测中,通常使用以下三种交叉验证方法来推导预测器的度量值:独立数据集测试、子抽样(或K倍交叉验证)测试和折刀测试。37然而,在这三种测试中,折刀测试被认为是最不武断的,对于参考文献中阐明的给定基准数据集,它总是能够产生独特的结果。12并由其中的等式28–32证明。因此,折刀试验已得到广泛认可,并越来越多地被研究人员用于检查各种预测因子的质量(参见,例如,参考文献。38,39,40,41,42,43,44,45,46). 因此,折刀试验也用于检查当前研究中提出的模型的性能。在折刀试验期间,基准数据集中的每个RNA样本依次被挑选出来作为一个独立的测试样本,所有规则参数都被计算出来,而不包括被识别的参数。
对基准数据集进行折刀测试得到的结果对于智人(参见方程式1以及补充信息S1)由提供
(2)
那个在上对于酿酒酵母(请参见补充信息S2)由
(3)
还有那个对于小M(请参见补充信息S3)由提供
(4)
讨论
与现有预测值的比较
据我们所知,PPUS公司11是迄今为止唯一可用于鉴定RNA序列中Ψ位点的预测因子。应该指出,等式4中给出的结果超出了PPUS公司11因为它可以用于识别来自智人和酿酒酵母物种,但不是来自小M.
对于以下情况智人和酿酒酵母然而,如果没有PPUS公司。幸运的是,就像iRNA-PseU基因预测器,PPUS公司还有一个web服务器预测器,它可以通过两个预测器在同一个独立数据集上的性能进行比较。
为了实现这一点,我们构建了两个独立的数据集和对于智人和酿酒酵母分别是。中没有样本发生在基准数据集中; 中没有样本发生在基准数据集中有关两个独立数据集中的详细序列,请参见补充信息S4和补充信息S5分别是。
在中列出是使用的web服务器获得的结果PPUS公司11和的iRNA-PseU基因关于物种的两个独立数据集智人和酿酒酵母分别是。从表中我们可以看到以下内容。(i) 通过iRNA-PseU基因显著高于PPUS公司,表明所提出的预测器与对应的预测器相比不仅更准确,而且更稳定。(ii)Sn和Sp之间的间隙由PPUS公司11比那要大得多iRNA-PseU基因。这种极度倾斜的外形由PPUS公司这意味着其预测结果包含许多假阳性或假阴性以及大量噪声。正如“定量测量预测器质量的指标”一节中所提到的,Sn和Sp是相互制约的。31因此,只使用两者中的一个进行比较是没有意义的。有意义的比较应该基于它们组合的结果,即MCC。
表1
在独立数据集上执行时,新预测器与现有预测器的比较智人(补充信息S4)和的酿酒酵母(补充信息S5)分别为
为了进一步证明其在实际应用中的威力iRNA-PseU基因在面包酵母基因组。在这样一个独立的RNA序列上获得的结果如下所示,为了便于比较相应的实验结果7还显示了通过伪Seq技术获得的结果。从图中可以看出,在六个已知的Ψ站点中,有五个被正确识别为iRNA-PseU基因再次证明了iRNA-PseU基因对于Ψ站点识别来说确实很有希望。
预测结果之间的比较iRNA-PseU基因以及对来自染色体XII的200nt(从452168到452367)基因组区域的实验结果酿酒酵母。顶部面板显示由以下公式计算的概率值iRNA-PseU基因中间的面板显示了使用伪Seq技术确定的实验结果,其中六个已知Ψ位置用红色矩形突出显示。7蓝色虚线显示了预测结果与实验结果之间的一致性。下部面板显示相对基因组坐标。
图形分析
为什么提出的方法会如此成功?要给出一个简单的答案来解决这个问题并不容易。幸运的是,许多生物系统及其复杂的关系可以通过直观的图形方法来揭示,例如在研究酶催化反应时,47,48,49蛋白质折叠动力学和折叠速率,50抑制HIV-1逆转录酶,51,52药物代谢系统,53分析大规模生物序列,54最近使用了文祥图或图形55分析蛋白质相互作用。56
为了提供关于新提出方法的性能的直观图表,接收机工作特性(ROC)57,58已被利用。在ROC图中,垂直坐标表示真阳性率(灵敏度),而水平坐标表示假阳性率(1-特异性)。最好的预测方法将产生一个坐标为(0,1)的点,表示100%的敏感性,0个假阳性率或100%的特异性。57,58因此,(0,1)点也称为完美分类。一个完全随机的猜测会给出一个从点(0,0)到(1,1)的对角线上的点。ROC曲线下的面积,也称为AUROC,通常用于指示二进制分类器的性能质量:AUROC的值0.5相当于随机预测,而AUROC中的1代表完美预测。因此,为了客观评估iRNA-PseU基因为了确定Ψ位点,我们绘制了ROC曲线并报告了如图所示,AUROC为iRNA-PseU基因在确定Ψ位置时,对于智人,小M、和酿酒酵母基因组。
显示性能的图形说明iRNA-PseU基因通过接收机的工作特性曲线。
此外,为了深入分析不同特征对Ψ位点鉴定的贡献,我们建立了两个模型:一个基于核苷酸化学性质,另一个基于核酸密度。验证结果如所示其中,橙色、绿色和蓝色直方图分别表示基于核苷酸密度、核苷酸化学性质及其组合训练的模型的准确度得分。如图所示,核苷酸化学性质(绿色)对Ψ位点识别的贡献大于核苷酸密度(橙色),但后者在预测中确实起到了补充作用,如蓝色直方图所反映的,该直方图高于蓝色和橙色直方图。由于假尿苷是由需要识别和结合特定基因组区域的Ψ合成酶催化的,上述发现表明核苷酸的化学性质可能与合成酶和RNA序列之间的相互作用密切相关。
深入分析三种模型的贡献:橙色直方图表示基于核苷酸密度训练的模型在识别Ψ位点时获得的准确度得分;绿色的是基于核苷酸化学性质的;通过梳理以上两种模型,蓝色代表这一点。有关更多说明,请参阅正文。
结论
预计该预测因子将成为一种非常有用的高通量工具,用于识别基因组分析中的Ψ位点,或者至少对现有的PPUS预测因子起到补充作用11用于基因组分析。
材料和方法
基准数据集。为了便于后面的描述,我们使用以下方案表示RNA样本
(5)
中心在哪里表示“尿苷”,下标ξ是一个整数,代表来自中心的ξ-th上游核苷酸ξ-th下游核苷酸等。(2ξ+1)-元组RNA样本可进一步分为以下两类:
(6)
哪里表示经实验证实中心尿苷可通过Ψ修饰转化为假尿苷的RNA样品,中心尿苷不是这样的RNA样本,符号∈表示集合论中的“成员”。
在文献中,基准数据集通常由训练数据集和独立测试数据集组成:前者用于训练模型,而后者用于测试模型。但正如一次全面审查中指出的那样,59如果模型是通过折刀试验或子抽样(K-fold)交叉验证进行评估的,那么根本没有必要人为地将基准数据集分为两部分,因为这样得到的结果实际上是来自许多不同独立数据集测试的组合。因此,基准数据集S公司对于当前研究,可以表述为
(7)
其中正子集仅包含真Ψ位点的RNA样本;负子集仅包含假Ψ位点的RNA样本;和U型表示集合论中“联合”的符号。
因为RNA样本的长度为2ξ+1(见方程5),具有不同ξ值的基准数据集将包含具有不同核苷酸数量的RNA片段,如下所示
(8)
具有实验验证的Ψ位点的RNA序列智人,小M和酿酒酵母已从RMBase下载。60为这三个物种构建基准数据集的详细程序如下:(i)如参考文献所述。61,沿着每个相关的RNA序列滑动(2ξ+1)-元组核苷酸窗口()和收集到的仅是那些中心有尿苷(U)的RNA片段(见等式5)。(ii)如果RNA的上游或下游小于ξ或大于L(左)–ξ (L(左)是RNA的长度),缺失的核苷酸被其镜像填充(). (iii)如果RNA样本的中心被实验证实为Ψ位点,则由此获得的RNA样本被视为阳性样本;否则,就是负数。(iv)使用CD-HIT软件,62进一步对上述样本进行筛选,以筛选出那些与同类中任何其他样本具有≥60%成对序列同一性的样本,因为包含许多高度相似样本的数据集将缺乏统计代表性。12(v) 由此获得的阴性样品的数量将大大大于阳性样品的数量;为了避免这样一个倾斜的数据集造成的偏差,15采用随机选取的方法,使负子集与正子集具有相同的大小。25(vi)通过上述程序收集的样本长度将取决于ξ的值,然而,初步试验表明,当ξ=10时,对于智人或小M,而ξ=15,对于酿酒酵母(请参见). 因此,在分析来自智人或小M而在分析来自酿酒酵母.
示意图显示了如何沿着RNA序列使用灵活的缩放窗口来收集潜在的Ψ-位点序列样本。
示意图显示的镜像(一)5'RNA末端片段,以及(b条)3'RNA末端片段。符号∏代表一面镜子,真正的RNA片段用蓝色表示,而它的镜像用红色表示。
直方图显示了所建议的预测器在识别不同ξ值的Ψ位置时获得的总体精度。以下各项的准确性智人或小Mξ=10时达到峰值,而对于酿酒酵母ξ=15时达到峰值。
经过上述六个步骤,我们最终获得了三个基准数据集,如下所示
(9)
哪里,、和并表示基准数据集智人,酿酒酵母、和小M分别是。RNA样本和每个由21个核苷酸组成,而每个由31个核苷酸形成。子集,、和包含495、314和472个阳性样本,而子集,、和分别含有495、314和472个阴性样品。
三个基准数据集的详细序列如下所示补充信息S1、补充信息S2、和补充信息S3分别是。
RNA序列样本的表示。随着后基因组时代产生的生物序列的爆炸式增长,计算生物学中最具挑战性的问题之一是如何用离散模型或向量来构建生物序列,同时还要在很大程度上保持其关键模式或序列顺序信息。这是因为几乎所有现有的机器学习算法都是为了处理向量而不是序列样本而开发的,正如最近的一篇综述中所阐述的那样。63不幸的是,在离散模型中定义的向量可能会完全丢失所有序列序信息或序列模式特征。为了克服蛋白质/肽和DNA/RNA序列的这种问题,伪氨基酸组成(PseAAC)64,65,66,67,68,69和伪核苷酸组成(PseKNC)70,71,72,73分别介绍了。自引入以来,PseAAC已广泛应用于计算蛋白质组学(请参阅长列表或引用的参考文献12,74)PseKNC已越来越多地用于计算基因组学。75最近,建立了一个名为“Pse-in-One”的网络服务器,用于生成DNA/RNA和蛋白质/肽序列的各种伪组分模式。76
根据最近的一项研究,75RNA序列样本的PseKNC的一般形式可以表示为
(10)
哪里T型是一个转置运算符,而下标Z是一个整数,其值以及分量u个(u个= 1, 2, ...,Z轴)将取决于如何从RNA序列样本中提取所需信息。为了使方程式10能够涵盖RNA样本的局部位点信息及其全局序列模式特征,下面让我们使用核苷酸化学性质和核苷酸密度来定义其中的成分。
核苷酸的化学性质。RNA由四种核苷酸组成:腺苷(A)、鸟苷(G)、胞苷(C)和尿苷(U)。每个核苷酸都有自己的化学结构和内部结合特征。A和G有两个环,而C和U只有一个环(). 当形成二级或三级结构时,G和C之间的氢键比A和U之间的强(). 此外,根据化学官能团,A和C可以归类为氨基,而G和U可以归类为酮基。因此,这四种核苷酸可以分为三个不同的组,如.
图示显示成对核酸残基的结构。左侧面板是通过两个氢键相互结合的A-U对;右侧面板是具有三个氢键的G-C对。
为了将这些化学性质特征纳入RNA样本的表示中,类似于研究HIV蛋白质中密码子用法的方法77和大肠杆菌蛋白质,78让我们制定我-等式5中的第th个核苷酸由
(11)
哪里79
(12)
因此,根据,核苷酸A可以表示为(1,1,1),C表示为(0,1,0),G表示为(1,0,0),U表示为(0,0,1)。
核苷酸密度。为了结合核苷酸的局部出现频率及其在RNA序列中的分布,让我们引入以下方程式
(13)
哪里d日我是核苷酸的密度N个我在位置我RNA序列,是相关滑动子串的长度,我相应定位器的序列位置,以及
(14)
例如,假设一个RNA序列“AGCGUAAC”。在位置1、6和7处,“A”的密度分别为1(1/1)、0.33(2/6)、0.43(3/7)。位置3和8处的“C”密度分别为0.33(1/3)和0.25(2/8)。在位置2和4处,“G”的密度分别为0.5(1/2)和0.5(2/4)。位置5处的“U”密度为0.2(1/5)。
伪核苷酸组成(PseKNC)。通过整合核苷酸化学性质(方程式11)和核苷酸频率信息(方程式13),我们得出
(15)
因此,RNA序列“AGCGUAAC”中的核苷酸可以由以下八组数字连续表示:(1,1,1、1)、(1,0,0,0.5)、(0,1,0、0.33)、(l,0,0.5)、(0,0,1,0.2)、(1,1,1,0.33),(1,1,0.43)和(0,1,0,0.25)。
或者,根据PseKNC的公式(见方程式10),我们有
(16)
这意味着8元组核苷酸示例可以由8×4=32-D(维)PseKNC载体表示。因此或可以用21×4=84-D向量表示31×4=124-D矢量(见方程式9和后续文本)。
支持向量机(SVM)。支持向量机作为一种基于统计学习理论的机器学习算法,在生物信息学领域得到了广泛而成功的应用16,80,81和计算生物学。13,14,15,26,82SVM的基本思想是将输入数据转换为高维特征空间,然后确定最优的分离超平面。
有关支持向量机的简要公式及其工作原理,请参阅论文83,84; 有关SVM的更多详细信息,请参阅专著。85
在当前的研究中,LibSVM包3.18用于实现SVM,可以从网址:http://www.csie.ntu.edu.tw/~cjlin/libsvm/由于径向基核函数(RBF)在训练过程中的有效性和速度,本文使用RBF来获得最佳分类超平面。在SVM操作引擎中,正则化参数C类和内核宽度参数γ通过使用网格搜索方法的优化程序进行了优化,定义如下
(17)
通过上述程序获得的预测器称为iRNA-PseU基因其中,“i”代表“识别”,“Pse”代表“伪”,“U”代表“尿苷”。
Web服务器和用户指南。正如大多数实验科学家所要求的那样iRNA-PseU基因已建立。此外,为了最大限度地方便用户使用,下面我们将提供一个web服务器的分步指南,通过该指南,用户可以很容易地获得他们想要的结果,而无需经过详细的数学方程式。
第2步。通过检查相应的开放圆来选择有机体或物种。键入或复制/粘贴查询RNA序列到输入序列应为FASTA格式。有关FASTA格式的RNA序列示例,请单击例子按钮位于输入框正上方。
步骤3。单击提交按钮查看预测结果。例如,如果使用来自智人物种例子窗口作为输入并检查智人按钮,单击提交按钮,您将在电脑屏幕上看到以下内容。(i) 第一个查询序列包括5个U(尿苷)残基,其中11位的残基可以修改为假尿苷(Ψ位)。(ii)第二查询序列包括3个U残基,其中任何U残基都不能被修改为伪尿苷。(iii)第三个查询序列包括7个U残基,其中位于21位的U残基可以修改为假尿苷。所有这些结果与实验观察完全一致。注释:要获得预期的预测准确性,物种按钮必须与查询序列的来源一致:如果查询序列来自智人,检查智人按钮;从小M,检查小M按钮;从酿酒酵母,检查酿酒酵母按钮。
步骤4。单击数据按钮下载用于训练和测试iRNA-PseU基因预测器。
步骤5。单击引用按钮查找记录详细开发和算法的相关论文iRNA-卫星。
补充材料
信息S1。基准数据集对于智人.信息S2。基准数据集对于酿酒酵母.信息S3。基准数据集对于小M.信息S4。独立数据集对于智人.信息S5。独立数据集对于酿酒酵母.