跳到主要内容
访问密钥 NCBI主页 MyNCBI主页 主要内容 主导航
摩尔热核酸。2016年7月;5(7):e332。
2016年7月5日在线发布。 数字对象标识:10.1038/mtna.2016.37
预防性维修识别码:PMC5330936型
PMID:28427142

iRNA-PseU:识别RNA假尿苷位点

魏晨,1,2,* 华堂, 静叶,1 郝琳,2,4,*郭振洲2,5,*

关联数据

补充资料

摘要

作为最丰富的核糖核酸修饰后的假尿苷在许多生物过程中发挥着重要作用。这种修饰发生在尿苷位点,由假尿苷合成酶催化,几乎在所有的核糖核酸,包括转账核糖核酸,信使核糖核酸、小核仁或核仁核糖核酸和核糖体核糖核酸因此,它对基础研究和药物开发的重要性不言而喻。尽管已经开发了一些检测假尿苷位点的实验技术,但它们既耗时又昂贵。面对核糖核酸在后基因组时代的序列,我们面临着通过计算方法解决问题的挑战:对于没有特征化的核糖核酸序列,我们能预测哪些尿苷位点可以被修饰为假尿苷,哪些不能?这里的预测器称为“iRNA-PseU基因“是通过将核苷酸的化学性质及其出现频率密度分布纳入伪核苷酸组成的一般形式而提出的(PseKNC公司). 通过严格的折刀测试、独立数据集测试和实际的全基因组分析证明,所提出的预测因子显著优于其对应物。为了方便大多数实验科学家iRNA-PseU基因成立于http://lin.uestc.edu.cn/server/iRNA-PseU用户无需仔细阅读数学细节即可轻松获得所需结果。

关键词:Ψ位点、iRNA-PseU、核苷酸化学性质、核苷酸频率、假尿苷、网络服务器

介绍

假尿苷(5-ribosyluracil,缩写为希腊字母Ψ)是最常见的RNA(核糖核酸)修饰,几乎在所有生命王国中都有发现。1最近的研究表明,Ψ存在于各种类型的RNA中,例如tRNA(转移RNA)、mRNA(信使RNA)、snRNA(小核RNA)、noRNA(小核仁RNA)和rRNA(核糖体RNA)。2如所示图1,Ψ是尿苷的异构体,由高度保守的假尿苷合成酶催化,该合成酶将尿苷残基的碱从其糖中分离出来,然后将其沿N3-C6轴“旋转”180°,然后将碱的5个碳重新附着到糖的1’-碳。

保存图片、插图等的外部文件。对象名称为mtna201637f1.jpg

图中显示了假尿苷(Ψ)的改性。它的形成是由Ψ合酶催化的。

近年来,Ψ修饰的分子功能才刚刚被揭示出来。例如,Ψ修饰在tRNA结构的稳定中起着不可或缺的作用,2,,4它在负责基因调控的剪接体RNA中也有显著作用。Ψ修饰存在于与RNA-RNA或RNA-蛋白相互作用有关的区域,以促进剪接体的组装和反应,从而产生活性mRNA,例如AU/AC内含子剪接。2,,5此外,已经证明,将Ψ并入mRNA中可能会提高翻译效率并降低RNA-合法的先天免疫反应。6尽管在揭示Ψ修饰的作用方面取得了很大进展,但对大多数RNA系统来说,其生物学功能和作用机制仍不明确。因此,转录组中Ψ修饰位点的信息对于深入揭示相关生物学原理至关重要。

通过使用高通量技术,如Ψ-Seq,7Ψ修饰在转录组中的分布已被表征智人,小M、和酿酒酵母.7,8,9,10但这些技术对于全基因组分析来说既耗时又昂贵。面对快速增长的测序基因组数量,迫切需要开发计算方法来及时获取此类信息。

实际上,李已经做出了努力.11最近在这方面。这些作者提出了一种称为PPUS的预测因子,用于识别PUS特异性假尿苷位点。PPUS预测器,11然而,只能在智人酿酒酵母此外,它的准确性肯定需要提高,这可以通过考虑核苷酸的化学性质来实现。

本研究旨在开发一种新的、更强大的预测因子,用于识别成功率较高且能够覆盖更多物种的Ψ改性位点。

为了开发一个具有清晰逻辑和广泛实用价值的预测器,让我们遵循五步指南12最近的一系列出版物(参见,例如,参考文献。13,14,15,16,17,18,19,20,21):(i)如何构造或选择有效的基准数据集来训练和测试预测器;(ii)如何用一个有效的数学表达式来表示生物序列样本,该表达式能够真实地反映生物序列样本与待预测目标的本质相关性;(iii)如何引入或开发强大的算法(或引擎)来操作预测;(iv)如何适当地进行交叉验证,以客观估计其预期准确性;(v) 如何建立一个用户友好的、公众可以访问的网络服务器。下面,我们将逐一讨论上述五个步骤。

结果

正如引言中提到的,在开发有用的预测工具的五个重要步骤中,其中之一是如何客观评估其预期成功率。12为了解决这个问题,需要考虑以下两个因素:一是应该采用什么指标来反映预测者的成功率;另一个是应该使用什么测试方法来推导度量率。下面,我们将解决这两个问题。

定量测量预测器质量的指标

以下四个指标通常用于衡量预测值的质量:(i)总体准确度或Acc;(ii)马修相关系数或MCC;(iii)灵敏度或Sn;和(iv)特异性或特异性。22不幸的是,这四个指标的传统公式并不直观,大多数实验科学家感到很难理解它们,特别是对于MCC指标。然而,有趣的是,如果使用周的符号和推导来研究信号肽,23上述四个指标可以表述如下13,24:

方程式图像

(1)

哪里N个+代表所调查的真实Ψ-位点RNA样本的总数,而保存图片、插图等的外部文件。对象名称为mtna201637e2.jpg被错误预测为假Ψ位点RNA样品的真Ψ位点含RNA样品的数量;N个假Ψ位点RNA样本总数,而保存图片、插图等的外部文件。对象名称为mtna201637e3.jpg错误预测为真Ψ位点RNA样品的假ψ位点RNA样本数量。

根据方程式1,可以清楚地看到以下内容。什么时候?保存图片、插图等的外部文件。对象名称为mtna201637e4.jpg这意味着没有一个真正的Ψ-位点RNA样本被错误地预测为假样本,我们的灵敏度Sn=1。什么时候?保存图片、插图等的外部文件。对象名称为mtna201637e5.jpg这意味着所有真Ψ-位点RNA样本都被错误地预测为假样本,我们的灵敏度Sn=0。同样,当保存图片、插图等的外部文件。对象名称为mtna201637e6.jpg也就是说,没有一个假Ψ位点RNA样本被错误地预测为真,我们的特异性为Sp=1;然而保存图片、插图等的外部文件。对象名称为mtna201637e7.jpg这意味着所有假Ψ位点RNA样本都被错误地预测为真样本,我们的特异性Sp=0。什么时候?保存图片、插图等的外部文件。对象名称为mtna201637e8.jpg也就是说,阳性数据集中的真Ψ-位点RNA样本和阴性数据集中的假Ψ-部位RNA样本均未被错误预测,我们的总体准确度为Acc=1和MCC=1;什么时候保存图片、插图等的外部文件。对象名称为mtna201637e9.jpg保存图片、插图等的外部文件。对象名称为mtna201637e10.jpg也就是说,阳性数据集中所有真Ψ-位点RNA样本和阴性数据集中所有假Ψ-部位RNA样本的预测都是错误的,我们的总准确度Acc=0,MCC=-1;然而,当保存图片、插图等的外部文件。对象名称为mtna201637e11.jpg保存图片、插图等的外部文件。对象名称为mtna201637e12.jpgAcc=0.5和MCC=0表示不比随机猜测更好。从上面的讨论中我们可以看出,方程1的公式使敏感性、特异性、总体准确性和Mathew相关系数的含义更加直观和易于理解,特别是对于MCC的含义,正如许多研究人员在一系列近期出版物中同意并采纳的那样(参见,例如,参考文献。14,17,25,26,27,28,29,30). 注意,在方程式1中的四个指标中,最重要的是Acc和MCC,因为前者反映了预测值的总体准确性,而latte反映了其稳定性。度量Sn和Sp用于从两个不同的角度测量预测器,并且它们相互约束。31

然而,需要指出的是,方程1中定义的方程组仅对单标签系统有效。对于在系统生物学中出现得越来越频繁的多标签系统32,33,34和系统医学,35如参考文献所述,需要一套完全不同的度量标准。36.

通过刀切试验进行验证

定义了一组好的评估指标后,接下来的事情是应该使用什么验证方法来导出指标值。

在统计预测中,通常使用以下三种交叉验证方法来推导预测器的度量值:独立数据集测试、子抽样(或K倍交叉验证)测试和折刀测试。37然而,在这三种测试中,折刀测试被认为是最不武断的,对于参考文献中阐明的给定基准数据集,它总是能够产生独特的结果。12并由其中的等式28–32证明。因此,折刀试验已得到广泛认可,并越来越多地被研究人员用于检查各种预测因子的质量(参见,例如,参考文献。38,39,40,41,42,43,44,45,46). 因此,折刀试验也用于检查当前研究中提出的模型的性能。在折刀试验期间,基准数据集中的每个RNA样本依次被挑选出来作为一个独立的测试样本,所有规则参数都被计算出来,而不包括被识别的参数。

对基准数据集进行折刀测试得到的结果保存图片、插图等的外部文件。对象名称为mtna201637e13.jpg对于智人(参见方程式1以及补充信息S1)由提供

方程式图像

(2)

那个在上保存图片、插图等的外部文件。对象名称为mtna201637e15.jpg对于酿酒酵母(请参见补充信息S2)由

方程式图像

(3)

还有那个保存图片、插图等的外部文件。对象名称为mtna201637e17.jpg对于小M(请参见补充信息S3)由提供

方程式图像

(4)

讨论

与现有预测值的比较

据我们所知,PPUS公司11是迄今为止唯一可用于鉴定RNA序列中Ψ位点的预测因子。应该指出,等式4中给出的结果超出了PPUS公司11因为它可以用于识别来自智人酿酒酵母物种,但不是来自小M.

对于以下情况智人酿酒酵母然而,如果没有PPUS公司。幸运的是,就像iRNA-PseU基因预测器,PPUS公司还有一个web服务器预测器,它可以通过两个预测器在同一个独立数据集上的性能进行比较。

为了实现这一点,我们构建了两个独立的数据集保存图片、插图等的外部文件。对象名称为mtna201637e19.jpg保存图片、插图等的外部文件。对象名称为mtna201637e20.jpg对于智人酿酒酵母分别是。中没有样本保存图片、插图等的外部文件。对象名称为mtna201637e21.jpg发生在基准数据集中保存图片、插图等的外部文件。对象名称为mtna201637e22.jpg; 中没有样本保存图片、插图等的外部文件。对象名称为mtna201637e23.jpg发生在基准数据集中保存图片、插图等的外部文件。对象名称为mtna201637e24.jpg有关两个独立数据集中的详细序列,请参见补充信息S4补充信息S5分别是。

在中列出表1是使用的web服务器获得的结果PPUS公司11和的iRNA-PseU基因关于物种的两个独立数据集智人酿酒酵母分别是。从表中我们可以看到以下内容。(i) 通过iRNA-PseU基因显著高于PPUS公司,表明所提出的预测器与对应的预测器相比不仅更准确,而且更稳定。(ii)Sn和Sp之间的间隙由PPUS公司11比那要大得多iRNA-PseU基因。这种极度倾斜的外形由PPUS公司这意味着其预测结果包含许多假阳性或假阴性以及大量噪声。正如“定量测量预测器质量的指标”一节中所提到的,Sn和Sp是相互制约的。31因此,只使用两者中的一个进行比较是没有意义的。有意义的比较应该基于它们组合的结果,即MCC。

表1

在独立数据集上执行时,新预测器与现有预测器的比较智人(补充信息S4)和的酿酒酵母(补充信息S5)分别为
保存图片、插图等的外部文件。对象名称为mtna201637t1.jpg

为了进一步证明其在实际应用中的威力iRNA-PseU基因面包酵母基因组。在这样一个独立的RNA序列上获得的结果如下所示图2,为了便于比较相应的实验结果7还显示了通过伪Seq技术获得的结果。从图中可以看出,在六个已知的Ψ站点中,有五个被正确识别为iRNA-PseU基因再次证明了iRNA-PseU基因对于Ψ站点识别来说确实很有希望。

保存图片、插图等的外部文件。对象名为mtna201637f2.jpg

预测结果之间的比较iRNA-PseU基因以及对来自染色体XII的200nt(从452168到452367)基因组区域的实验结果酿酒酵母。顶部面板显示由以下公式计算的概率值iRNA-PseU基因中间的面板显示了使用伪Seq技术确定的实验结果,其中六个已知Ψ位置用红色矩形突出显示。7蓝色虚线显示了预测结果与实验结果之间的一致性。下部面板显示相对基因组坐标。

图形分析

为什么提出的方法会如此成功?要给出一个简单的答案来解决这个问题并不容易。幸运的是,许多生物系统及其复杂的关系可以通过直观的图形方法来揭示,例如在研究酶催化反应时,47,48,49蛋白质折叠动力学和折叠速率,50抑制HIV-1逆转录酶,51,52药物代谢系统,53分析大规模生物序列,54最近使用了文祥图或图形55分析蛋白质相互作用。56

为了提供关于新提出方法的性能的直观图表,接收机工作特性(ROC)57,58已被利用。在ROC图中,垂直坐标表示真阳性率(灵敏度),而水平坐标表示假阳性率(1-特异性)。最好的预测方法将产生一个坐标为(0,1)的点,表示100%的敏感性,0个假阳性率或100%的特异性。57,58因此,(0,1)点也称为完美分类。一个完全随机的猜测会给出一个从点(0,0)到(1,1)的对角线上的点。ROC曲线下的面积,也称为AUROC,通常用于指示二进制分类器的性能质量:AUROC的值0.5相当于随机预测,而AUROC中的1代表完美预测。因此,为了客观评估iRNA-PseU基因为了确定Ψ位点,我们绘制了ROC曲线并报告了图3如图所示,AUROC为iRNA-PseU基因在确定Ψ位置时,对于智人,小M、和酿酒酵母基因组。

保存图片、插图等的外部文件。对象名称为mtna201637f3.jpg

显示性能的图形说明iRNA-PseU基因通过接收机的工作特性曲线。

此外,为了深入分析不同特征对Ψ位点鉴定的贡献,我们建立了两个模型:一个基于核苷酸化学性质,另一个基于核酸密度。验证结果如所示图4其中,橙色、绿色和蓝色直方图分别表示基于核苷酸密度、核苷酸化学性质及其组合训练的模型的准确度得分。如图所示,核苷酸化学性质(绿色)对Ψ位点识别的贡献大于核苷酸密度(橙色),但后者在预测中确实起到了补充作用,如蓝色直方图所反映的,该直方图高于蓝色和橙色直方图。由于假尿苷是由需要识别和结合特定基因组区域的Ψ合成酶催化的,上述发现表明核苷酸的化学性质可能与合成酶和RNA序列之间的相互作用密切相关。

保存图片、插图等的外部文件。对象名称为mtna201637f4.jpg

深入分析三种模型的贡献:橙色直方图表示基于核苷酸密度训练的模型在识别Ψ位点时获得的准确度得分;绿色的是基于核苷酸化学性质的;通过梳理以上两种模型,蓝色代表这一点。有关更多说明,请参阅正文。

结论

预计该预测因子将成为一种非常有用的高通量工具,用于识别基因组分析中的Ψ位点,或者至少对现有的PPUS预测因子起到补充作用11用于基因组分析。

材料和方法

基准数据集。为了便于后面的描述,我们使用以下方案表示RNA样本

方程式图像

(5)

中心在哪里保存图片、插图等的外部文件。对象名称为mtna201637e26.jpg表示“尿苷”,下标ξ是一个整数,保存图片、插图等的外部文件。对象名称为mtna201637e27.jpg代表来自中心的ξ-th上游核苷酸保存图片、插图等的外部文件。对象名称为mtna201637e28.jpgξ-th下游核苷酸等。(2ξ+1)-元组RNA样本保存图片、插图等的外部文件。对象名称为mtna201637e29.jpg可进一步分为以下两类:

方程式图像

(6)

哪里保存图片、插图等的外部文件。对象名称为mtna201637e31.jpg表示经实验证实中心尿苷可通过Ψ修饰转化为假尿苷的RNA样品,保存图片、插图等的外部文件。对象名称为mtna201637e32.jpg中心尿苷不是这样的RNA样本,符号∈表示集合论中的“成员”。

在文献中,基准数据集通常由训练数据集和独立测试数据集组成:前者用于训练模型,而后者用于测试模型。但正如一次全面审查中指出的那样,59如果模型是通过折刀试验或子抽样(K-fold)交叉验证进行评估的,那么根本没有必要人为地将基准数据集分为两部分,因为这样得到的结果实际上是来自许多不同独立数据集测试的组合。因此,基准数据集S公司对于当前研究,可以表述为

方程式图像

(7)

其中正子集保存图片、插图等的外部文件。对象名称为mtna201637e34.jpg仅包含真Ψ位点的RNA样本;负子集保存图片、插图等的外部文件。对象名称为mtna201637e35.jpg仅包含假Ψ位点的RNA样本;U型表示集合论中“联合”的符号。

因为RNA样本的长度保存图片、插图等的外部文件。对象名称为mtna201637e36.jpg为2ξ+1(见方程5),具有不同ξ值的基准数据集将包含具有不同核苷酸数量的RNA片段,如下所示

方程式图像

(8)

具有实验验证的Ψ位点的RNA序列智人,小M酿酒酵母已从RMBase下载。60为这三个物种构建基准数据集的详细程序如下:(i)如参考文献所述。61,沿着每个相关的RNA序列滑动(2ξ+1)-元组核苷酸窗口(图5)和收集到的仅是那些中心有尿苷(U)的RNA片段(见等式5)。(ii)如果RNA的上游或下游小于ξ或大于L(左)–ξ (L(左)是RNA的长度),缺失的核苷酸被其镜像填充(图6). (iii)如果RNA样本的中心被实验证实为Ψ位点,则由此获得的RNA样本被视为阳性样本;否则,就是负数。(iv)使用CD-HIT软件,62进一步对上述样本进行筛选,以筛选出那些与同类中任何其他样本具有≥60%成对序列同一性的样本,因为包含许多高度相似样本的数据集将缺乏统计代表性。12(v) 由此获得的阴性样品的数量将大大大于阳性样品的数量;为了避免这样一个倾斜的数据集造成的偏差,15采用随机选取的方法,使负子集与正子集具有相同的大小。25(vi)通过上述程序收集的样本长度将取决于ξ的值,然而,初步试验表明,当ξ=10时,对于智人小M,而ξ=15,对于酿酒酵母(请参见图7). 因此,在分析来自智人小M而在分析来自酿酒酵母.

保存图片、插图等的外部文件。对象名称为mtna201637f5.jpg

示意图显示了如何沿着RNA序列使用灵活的缩放窗口来收集潜在的Ψ-位点序列样本。

保存图片、插图等的外部文件。对象名称为mtna201637f6.jpg

示意图显示的镜像()5'RNA末端片段,以及(b条)3'RNA末端片段。符号∏代表一面镜子,真正的RNA片段用蓝色表示,而它的镜像用红色表示。

保存图片、插图等的外部文件。对象名称为mtna201637f7.jpg

直方图显示了所建议的预测器在识别不同ξ值的Ψ位置时获得的总体精度。以下各项的准确性智人小Mξ=10时达到峰值,而对于酿酒酵母ξ=15时达到峰值。

经过上述六个步骤,我们最终获得了三个基准数据集,如下所示

方程式图像

(9)

哪里保存图片、插图等的外部文件。对象名称为mtna201637e39.jpg,保存图片、插图等的外部文件。对象名称为mtna201637e40.jpg、和保存图片、插图等的外部文件。对象名称为mtna201637e41.jpg并表示基准数据集智人,酿酒酵母、和小M分别是。RNA样本保存图片、插图等的外部文件。对象名称为mtna201637e42.jpg保存图片、插图等的外部文件。对象名称为mtna201637e43.jpg每个由21个核苷酸组成,而保存图片、插图等的外部文件。对象名称为mtna201637e44.jpg每个由31个核苷酸形成。子集保存图片、插图等的外部文件。对象名称为mtna201637e45.jpg,保存图片、插图等的外部文件。对象名称为mtna201637e46.jpg、和保存图片、插图等的外部文件。对象名称为mtna201637e47.jpg包含495、314和472个阳性样本,而子集保存图片、插图等的外部文件。对象名称为mtna201637e48.jpg,保存图片、插图等的外部文件。对象名称为mtna201637e49.jpg、和保存图片、插图等的外部文件。对象名称为mtna201637e50.jpg分别含有495、314和472个阴性样品。

三个基准数据集的详细序列如下所示补充信息S1、补充信息S2、和补充信息S3分别是。

RNA序列样本的表示。随着后基因组时代产生的生物序列的爆炸式增长,计算生物学中最具挑战性的问题之一是如何用离散模型或向量来构建生物序列,同时还要在很大程度上保持其关键模式或序列顺序信息。这是因为几乎所有现有的机器学习算法都是为了处理向量而不是序列样本而开发的,正如最近的一篇综述中所阐述的那样。63不幸的是,在离散模型中定义的向量可能会完全丢失所有序列序信息或序列模式特征。为了克服蛋白质/肽和DNA/RNA序列的这种问题,伪氨基酸组成(PseAAC)64,65,66,67,68,69和伪核苷酸组成(PseKNC)70,71,72,73分别介绍了。自引入以来,PseAAC已广泛应用于计算蛋白质组学(请参阅长列表或引用的参考文献12,74)PseKNC已越来越多地用于计算基因组学。75最近,建立了一个名为“Pse-in-One”的网络服务器,用于生成DNA/RNA和蛋白质/肽序列的各种伪组分模式。76

根据最近的一项研究,75RNA序列样本的PseKNC的一般形式可以表示为

方程式图像

(10)

哪里T型是一个转置运算符,而下标Z是一个整数,其值以及分量u个(u个= 1, 2, ...,Z轴)将取决于如何从RNA序列样本中提取所需信息。为了使方程式10能够涵盖RNA样本的局部位点信息及其全局序列模式特征,下面让我们使用核苷酸化学性质和核苷酸密度来定义其中的成分。

核苷酸的化学性质。RNA由四种核苷酸组成:腺苷(A)、鸟苷(G)、胞苷(C)和尿苷(U)。每个核苷酸都有自己的化学结构和内部结合特征。A和G有两个环,而C和U只有一个环(图8). 当形成二级或三级结构时,G和C之间的氢键比A和U之间的强(图8). 此外,根据化学官能团,A和C可以归类为氨基,而G和U可以归类为酮基。因此,这四种核苷酸可以分为三个不同的组,如表2.

保存图片、插图等的外部文件。对象名称为mtna201637f8.jpg

图示显示成对核酸残基的结构。左侧面板是通过两个氢键相互结合的A-U对;右侧面板是具有三个氢键的G-C对。

表2

核苷酸化学性质
保存图片、插图等的外部文件。对象名称为mtna201637t2.jpg

为了将这些化学性质特征纳入RNA样本的表示中,类似于研究HIV蛋白质中密码子用法的方法77大肠杆菌蛋白质,78让我们制定-等式5中的第th个核苷酸由

方程式图像

(11)

哪里79

方程式图像

(12)

因此,根据表2,核苷酸A可以表示为(1,1,1),C表示为(0,1,0),G表示为(1,0,0),U表示为(0,0,1)。

核苷酸密度。为了结合核苷酸的局部出现频率及其在RNA序列中的分布,让我们引入以下方程式

方程式图像

(13)

哪里d日是核苷酸的密度N个在位置RNA序列,保存图片、插图等的外部文件。对象名称为mtna201637e55.jpg是相关滑动子串的长度,相应定位器的序列位置,以及

方程式图像

(14)

例如,假设一个RNA序列“AGCGUAAC”。在位置1、6和7处,“A”的密度分别为1(1/1)、0.33(2/6)、0.43(3/7)。位置3和8处的“C”密度分别为0.33(1/3)和0.25(2/8)。在位置2和4处,“G”的密度分别为0.5(1/2)和0.5(2/4)。位置5处的“U”密度为0.2(1/5)。

伪核苷酸组成(PseKNC)。通过整合核苷酸化学性质(方程式11)和核苷酸频率信息(方程式13),我们得出

方程式图像

(15)

因此,RNA序列“AGCGUAAC”中的核苷酸可以由以下八组数字连续表示:(1,1,1、1)、(1,0,0,0.5)、(0,1,0、0.33)、(l,0,0.5)、(0,0,1,0.2)、(1,1,1,0.33),(1,1,0.43)和(0,1,0,0.25)。

或者,根据PseKNC的公式(见方程式10),我们有

方程式图像

(16)

这意味着8元组核苷酸示例可以由8×4=32-D(维)PseKNC载体表示。因此保存图片、插图等的外部文件。对象名称为mtna201637e59.jpg保存图片、插图等的外部文件。对象名称为mtna201637e60.jpg可以用21×4=84-D向量表示保存图片、插图等的外部文件。对象名称为mtna201637e61.jpg31×4=124-D矢量(见方程式9和后续文本)。

支持向量机(SVM)。支持向量机作为一种基于统计学习理论的机器学习算法,在生物信息学领域得到了广泛而成功的应用16,80,81和计算生物学。13,14,15,26,82SVM的基本思想是将输入数据转换为高维特征空间,然后确定最优的分离超平面。

有关支持向量机的简要公式及其工作原理,请参阅论文83,84; 有关SVM的更多详细信息,请参阅专著。85

在当前的研究中,LibSVM包3.18用于实现SVM,可以从网址:http://www.csie.ntu.edu.tw/~cjlin/libsvm/由于径向基核函数(RBF)在训练过程中的有效性和速度,本文使用RBF来获得最佳分类超平面。在SVM操作引擎中,正则化参数C类和内核宽度参数γ通过使用网格搜索方法的优化程序进行了优化,定义如下

方程式图像

(17)

通过上述程序获得的预测器称为iRNA-PseU基因其中,“i”代表“识别”,“Pse”代表“伪”,“U”代表“尿苷”。

Web服务器和用户指南。正如大多数实验科学家所要求的那样iRNA-PseU基因已建立。此外,为了最大限度地方便用户使用,下面我们将提供一个web服务器的分步指南,通过该指南,用户可以很容易地获得他们想要的结果,而无需经过详细的数学方程式。

  • 步骤1。在打开web服务器http://lin.uestc.edu.cn/server/iRNA-PseU您将看到iRNA-PseU基因计算机屏幕上的预测器,如所示图9。单击自述文件按钮查看有关预测器的简要介绍和使用时的警告。
    保存图片、插图等的外部文件。对象名称为mtna201637f9.jpg

    的首页的半屏幕截图iRNA-PseU基因web服务器位于http://lin.uestc.edu.cn/服务器/iRNA-PseU基因.

  • 第2步。通过检查相应的开放圆来选择有机体或物种。键入或复制/粘贴查询RNA序列到图9输入序列应为FASTA格式。有关FASTA格式的RNA序列示例,请单击例子按钮位于输入框正上方。
  • 步骤3。单击提交按钮查看预测结果。例如,如果使用来自智人物种例子窗口作为输入并检查智人按钮,单击提交按钮,您将在电脑屏幕上看到以下内容。(i) 第一个查询序列包括5个U(尿苷)残基,其中11位的残基可以修改为假尿苷(Ψ位)。(ii)第二查询序列包括3个U残基,其中任何U残基都不能被修改为伪尿苷。(iii)第三个查询序列包括7个U残基,其中位于21位的U残基可以修改为假尿苷。所有这些结果与实验观察完全一致。注释:要获得预期的预测准确性,物种按钮必须与查询序列的来源一致:如果查询序列来自智人,检查智人按钮;小M,检查小M按钮;酿酒酵母,检查酿酒酵母按钮。
  • 步骤4。单击数据按钮下载用于训练和测试iRNA-PseU基因预测器。
  • 步骤5。单击引用按钮查找记录详细开发和算法的相关论文iRNA-卫星。

补充材料 信息S1。基准数据集保存图片、插图等的外部文件。对象名称为mtna201637e63.jpg对于智人.信息S2。基准数据集保存图片、插图等的外部文件。对象名称为mtna201637e64.jpg对于酿酒酵母.信息S3。基准数据集保存图片、插图等的外部文件。对象名称为mtna201637e65.jpg对于小M.信息S4。独立数据集保存图片、插图等的外部文件。对象名称为mtna201637e66.jpg对于智人.信息S5。独立数据集保存图片、插图等的外部文件。对象名称为mtna201637e67.jpg对于酿酒酵母.

致谢

作者感谢三位匿名审稿人的建设性意见,这些意见对加强本文的介绍非常有帮助。本项工作得到了河北省高校拔尖青年创新人才计划(No.BJ2014028)、华北科技大学杰出青年基金(No.JP201502)、四川省应用基础研究计划(No.2015JY0100和LZ-LY-45)、,四川省教育厅科学研究基金(11ZB122)和中央高校基本科研业务费专项资金(No.ZYGX2015J144,ZYGX2015Z006)。

补充材料

补充信息

工具书类

  • 佐治亚州哈德森、布鲁明代尔、RJ和Znosko,BM(2013)。寡核苷酸中假尿苷-腺苷碱基对的热力学贡献和最近邻参数.核糖核酸 19: 1474–1482.[PMC免费文章][公共医学][谷歌学者]
  • Ge,J和Yu,YT(2013)。RNA假尿苷化:对旧修饰的新见解.生物化学科学趋势 38: 210–218.[PMC免费文章][公共医学][谷歌学者]
  • Charette,M和Gray,MW(2000年)。RNA中的假尿苷:什么、在哪里、如何以及为什么.IUBMB寿命 49: 341–351. [公共医学][谷歌学者]
  • Davis,DR,Veltri,CA和Nielsen,L(1998)。用于研究tRNALys、tRNAHis和tRNATyr中密码子-反密码子相互作用的伪尿苷稳定性的RNA模型系统.生物分子结构动力学杂志 15: 1121–1132. [公共医学][谷歌学者]
  • Basak,A和Query,CC(2014)。剪接体核心中的假尿苷残基是酵母丝状生长程序的一部分.单元格代表 8: 966–973.[PMC免费文章][公共医学][谷歌学者]
  • Karijolich,J和Yu,YT(2015年)。RNA修饰的新时代.核糖核酸 21: 659–660.[PMC免费文章][公共医学][谷歌学者]
  • Carlile,TM,Rojas-Duran,MF,Zinshteyn,B,Shin,H,Bartoli,KM和Gilbert,WV(2014)。假尿苷分析显示酵母和人类细胞中受调控的mRNA假尿苷化.自然 515: 143–146.[PMC免费文章][公共医学][谷歌学者]
  • Lovejoy,AF,Riordan,DP和Brown,PO(2014)。假尿苷的转录全谱定位:假尿苷合成酶修饰酿酒酵母中的特定mRNA.公共科学图书馆综合版 9:e110799。[PMC免费文章][公共医学][谷歌学者]
  • Schwartz,S,Bernstein,DA,Mumbach,MR,Jovanovic,M,Herbst,RH,León-Ricardo,BX等人(2014)。转录组宽标测揭示了ncRNA和mRNA广泛存在的动态调节假尿苷化.单元格 159: 148–162.[PMC免费文章][公共医学][谷歌学者]
  • Li,X,Zhu,P,Ma,S,Song,J,Bai,J,Sun,F等人(2015)。化学下拉显示哺乳动物转录组的动态假尿苷化.自然化学生物 11: 592–597. [公共医学][谷歌学者]
  • Li,YH,Zhang,G和Cui,Q(2015)。PPUS:预测PUS特异性假尿苷位点的web服务器.生物信息学 31: 3362–3364. [公共医学][谷歌学者]
  • 周,KC(2011)。蛋白质属性预测和伪氨基酸组成的几点注记.《Theor生物学杂志》 273: 236–247.[PMC免费文章][公共医学][谷歌学者]
  • Chen,W,Feng,PM,Lin,H和Chou,KC(2013)。iRSpot-PseDNC:识别假二核苷酸组成的重组点.核酸研究 41:e68。[PMC免费文章][公共医学][谷歌学者]
  • Lin,H,Deng,EZ,Ding,H,Chen,W和Chou,KC(2014)。iPro54-PseKNC:一种基于序列的预测因子,用于识别具有伪k元组核苷酸组成的原核生物sigma-54启动子.核酸研究 42: 12961–12972.[PMC免费文章][公共医学][谷歌学者]
  • Liu,Z,Xiao,X,Qiu,WR和Chou,KC(2015)。iDNA-甲基:通过伪三核苷酸组成鉴定DNA甲基化位点.Ana Biochem公司 474: 69–77. [公共医学][谷歌学者]
  • Chen,W,Feng,P,Ding,H,Lin,H和Chou,KC(2015)。iRNA-甲基:使用伪核苷酸成分识别N(6)-甲基腺苷位点.Ana Biochem公司 490: 26–33. [公共医学][谷歌学者]
  • 贾,J,刘,Z,肖,X,刘,B和周,KC(2015)。iPPI-Esml:一种集成分类器,通过将蛋白质的物理化学性质和小波变换结合到PseAAC中来识别蛋白质的相互作用.理论生物学杂志 377: 47–56. [公共医学][谷歌学者]
  • Liu,B,Fang,L,Long,R,Lan,X和Chou,KC(2016)。iEnhancer-2L:通过伪k元组核苷酸组成识别增强子及其强度的双层预测因子.生物信息学 32: 362–369. [公共医学][谷歌学者]
  • 贾,J,刘,Z,肖,X,刘,B和周,KC(2016)。iSuc-PseOpt:通过将序列耦合效应纳入伪组分和优化不平衡训练数据集来识别蛋白质中的赖氨酸琥珀酰化位点.Ana Biochem公司 497: 48–56. [公共医学][谷歌学者]
  • Liu,Z,Xiao,X,Yu,DJ,Jia,J,Qiu,WR和Chou,KC(2016)。pRNAm-PC:通过物理化学性质预测RNA序列中N(6)-甲基腺苷位点.Ana Biochem公司 497: 60–67. [公共医学][谷歌学者]
  • 贾,J,刘,Z,肖,X,刘,B和周,KC(2016)。iPPBS-Opt:一种基于序列的集成分类器,用于通过优化不平衡训练数据集识别蛋白质结合位点.分子 21:95.[PMC免费文章][公共医学][谷歌学者]
  • Chen,J,Liu,H,Yang,J和Chou,KC(2007)。用氨基酸对抗原性量表预测线性B细胞表位.氨基酸 33: 423–428. [公共医学][谷歌学者]
  • 周,KC(2001)。蛋白质信号序列及其裂解位点的预测.蛋白质 42: 136–139. [公共医学][谷歌学者]
  • Xu,Y,Ding,J,Wu,LY和Chou,KC(2013)。iSNO-PseAAC:通过将位置特异性氨基酸倾向纳入伪氨基酸组成,预测蛋白质中半胱氨酸S-亚硝基化位点.公共科学图书馆综合版 8:e55844。[PMC免费文章][公共医学][谷歌学者]
  • Xiao,X,Min,JL,Lin,WZ,Liu,Z,Cheng,X和Chou,KC(2015)。iDrug-Target:通过基准数据集优化方法预测药物化合物和靶蛋白在细胞网络中的相互作用.生物分子结构动力学杂志 33: 2221–2233. [公共医学][谷歌学者]
  • Chen,W,Ding,H,Feng,P等(2016)。iACP:一种基于序列的抗癌肽鉴定工具.Oncotarget公司DOI:10.18632/肿瘤靶点17815。7: 16895–16909.[PMC免费文章][公共医学][谷歌学者]
  • Chen,W,Feng,PM,Deng,EZ,Lin,H和Chou,KC(2014)。iTIS-PseTNC:一种基于序列的预测因子,用于使用伪三核苷酸组成识别人类基因中的翻译起始位点.Ana Biochem公司 462: 76–83. [公共医学][谷歌学者]
  • Chen,W,Feng,PM,Lin,H和Chou,KC(2014)。iSS-PseDNC:使用伪二核苷酸成分识别剪接位点.生物识别识别 2014: 623149.[PMC免费文章][公共医学][谷歌学者]
  • 丁、H、邓、鄂Z、袁、LF、刘、L、林、H、陈、W等(2014)。iCTX类型:一种基于序列的预测因子,用于识别靶向离子通道中的锥毒素类型.生物识别识别 2014: 286419.[PMC免费文章][公共医学][谷歌学者]
  • Liu,B,Fang,L,Liu,F,Wang,X,Chen,J和Chou,KC(2015)。用伪结构状态合成法鉴定真的microRNA前体.公共科学图书馆综合版 10:e0121501。[PMC免费文章][公共医学][谷歌学者]
  • 周,KC(1993)。预测蛋白质中HIV蛋白酶裂解位点的矢量化序列耦合模型.生物化学杂志 268: 16938–16948. [公共医学][谷歌学者]
  • Chou,KC,Wu,ZC和Xiao,X(2012)。iLoc-Hum:使用累加-标签尺度预测人类蛋白质的亚细胞位置,包括单位点和多位点.分子生物晶体 8: 629–641. [公共医学][谷歌学者]
  • Lin,WZ,Fang,JA,Xiao,X和Chou,KC(2013)。iLoc-Animal:预测动物蛋白质亚细胞定位的多标记学习分类器.分子生物晶体 9: 634–644. [公共医学][谷歌学者]
  • Xiao,X,Wu,ZC和Chou,KC(2011)。iLoc-Virus:一种用于识别单位点和多位点病毒蛋白亚细胞定位的多标记学习分类器.《Theor生物学杂志》 284: 42–51. [公共医学][谷歌学者]
  • Xiao,X,Wang,P,Lin,WZ,Jia,JH和Chou,KC(2013)。iAMP-2L:一种用于鉴定抗菌肽及其功能类型的两级多标签分类器.Ana Biochem公司 436: 168–177. [公共医学][谷歌学者]
  • Chou,KC(2013)。分子生物系统中多标签属性预测的几点注记.分子生物晶体 9: 1092–1100. [公共医学][谷歌学者]
  • Chou,KC和Zhang,CT(1995)。蛋白质结构类别预测.Crit Rev生物化学分子生物学 30: 275–349. [公共医学][谷歌学者]
  • Shen,HB,Yang,J和Chou,KC(2007)。Euk-PLoc:用于大规模真核蛋白亚细胞定位预测的集成分类器.氨基酸 33: 57–67. [公共医学][谷歌学者]
  • Chou,KC和Cai,YD(2003)。蛋白质亚细胞位置序列顺序效应和伪氨基酸组成的预测与分类.J细胞生物化学 90: 1250–1260. [公共医学][谷歌学者]
  • Chou,KC和Cai,YD(2005)。结合两亲效应预测膜蛋白类型.J Chem Inf模型 45: 407–413. [公共医学][谷歌学者]
  • Mondal,S和Pai,PP(2014)。周的伪氨基酸成分改进了基于序列的抗冻蛋白预测.理论生物学杂志 356: 30–35. [公共医学][谷歌学者]
  • Dehzangi,A,Heffernan,R,Sharma,A,Lyons,J,Paliwal,K和Sattar,A(2015)。通过将基于进化的描述符纳入Chou的通用PseAAC,实现革兰氏阳性和革兰氏阴性蛋白的亚细胞定位.《Theor生物学杂志》 364: 284–294. [公共医学][谷歌学者]
  • Fan,GL,Zhang,XY,Liu,YL,Nang,Y和Wang,H(2015)。DSPMP:通过杂交不同的周氏伪氨基酸模式描述符来鉴别疟原虫的分泌蛋白.计算机化学杂志 36: 2317–2327. [公共医学][谷歌学者]
  • Kabir,M和Hayat,M(2016)。iRSpot-GAEnsC:通过集成分类器识别重组点,并扩展Chou的PseAAC概念以形成DNA样本.分子遗传学 291: 285–296. [公共医学][谷歌学者]
  • Kumar,R,Srivastava,A,Kumari,B和Kumar,M(2015)。用周氏伪氨基酸组成和支持向量机预测β-内酰胺酶及其分类.《Theor生物学杂志》 365: 96–103. [公共医学][谷歌学者]
  • Chen,W,Feng,P,Ding,H,Lin,H和Chou,KC(2016)。利用变形能分析核小体在基因组中的定位.基因组学 107: 69–75. [公共医学][谷歌学者]
  • Chou,KC,Jiang,SP,Liu,WM,Fee,CH(1979)。酶动力学图论:1。稳态反应系统.中国科学院 22: 341–358.[谷歌学者]
  • Chou,KC和Forsén,S(1980)。酶催化速率定律的图形规则.生物化学杂志 187: 829–835.[PMC免费文章][公共医学][谷歌学者]
  • Zhou,GP和Deng,MH(1984)。周氏酶动力学方程图解规则在平行反应路径系统中的推广.生物化学杂志 222: 169–176.[PMC免费文章][公共医学][谷歌学者]
  • Chou,KC(1990)。图论在酶动力学和蛋白质折叠动力学中的应用。稳态和非稳态系统.生物化学 35: 1–24. [公共医学][谷歌学者]
  • Althaus、IW、Gonzales、AJ、Chow、JJ、Romero、DL、Deibel、MR、Chou、KC等人(1993年)。喹啉U-78036是HIV-1逆转录酶的有效抑制剂.生物化学杂志 268: 14875–14880. [公共医学][谷歌学者]
  • Althaus、IW、Chou、JJ、Gonzales、AJ、Deibel、MR、Chou、KC、Kezdy、FJ等人(1993年)。非核苷HIV-1逆转录酶抑制剂U-88204E的动力学研究.生物化学 32: 6548–6554. [公共医学][谷歌学者]
  • Chou,KC(2010)。药物代谢系统的图形规则.当前药物元 11: 369–378. [公共医学][谷歌学者]
  • Wu,ZC,Xiao,X和Chou,KC(2010)。2D-MH:基于氨基酸组成的物理化学性质生成蛋白质序列图形表示的网络服务器.《Theor生物学杂志》 267: 29–34. [公共医学][谷歌学者]
  • Chou,KC,Lin,WZ和Xiao,X(2011)。文祥:绘制文祥图的网络服务器 自然科学 : 862–865.[谷歌学者]
  • 周,GP(2011)。文祥图中LZCC蛋白残基的分布为蛋白质相互作用机制提供了新的见解.《Theor生物学杂志》 284: 142–148.[PMC免费文章][公共医学][谷歌学者]
  • 福塞特,JA(2005)。ROC分析简介.模式识别字母 27: 861–874.[谷歌学者]
  • Davis,J和Goadrich,M(2006)。Precision-Recall和ROC曲线之间的关系。第23届机器学习国际会议记录.ACM公司第233-240页。
  • Chou,KC和Shen,HB(2007)。蛋白质亚细胞定位预测研究进展.Ana Biochem公司 370: 1–16. [公共医学][谷歌学者]
  • 孙维杰、李、JH、刘、S、吴、J、周、H、曲、LH等(2016)。RMBase:从高通量测序数据中解码RNA修改景观的资源.核酸研究 44(D1):D259–D265。[PMC免费文章][公共医学][谷歌学者]
  • Chou,KC和Shen,HB(2007)。Signal-CF:一种预测信号肽的子偶联窗口融合方法.生物化学-生物物理研究委员会 357: 633–640. [公共医学][谷歌学者]
  • Fu,L,Niu,B,Zhu,Z,Wu,S和Li,W(2012)。CD-HIT:加速下一代测序数据的聚类.生物信息学 28: 3150–3152.[PMC免费文章][公共医学][谷歌学者]
  • Chou,KC(2015)。生物信息学对药物化学的影响.药物化学 11: 218–234. [公共医学][谷歌学者]
  • 周,KC(2001)。利用伪氨基酸组成预测蛋白质细胞属性.蛋白质 43: 246–255. [公共医学][谷歌学者]
  • Chou,KC(2005)。利用两亲性伪氨基酸组成预测酶亚科类别.生物信息学 21: 10–19. [公共医学][谷歌学者]
  • Du,P,Wang,X,Xu,C和Gao,Y(2012)。PseAAC-Builder:一个跨平台的独立程序,用于生成各种特殊的Chou伪氨基酸成分.Ana Biochem公司 425: 117–119. [公共医学][谷歌学者]
  • Cao,DS,Xu,QS和Liang,YZ(2013)。propy:生成Chou的PseAAC的各种模式的工具.生物信息学 29: 960–962. [公共医学][谷歌学者]
  • Lin,SX和Lapointe,J(2013)。理论与实验生物学合而为一——为纪念郭晨秋教授50周年和理查德·吉格教授40周年而举办的研讨会.生物医学科学与工程杂志 6: 435–442.[谷歌学者]
  • Du,P,Gu,S和Jiao,Y(2014)。PseAAC-General:为大规模蛋白质数据集快速构建Chou伪氨基酸组成的各种通用形式模式.国际分子科学杂志 15: 3495–3506.[PMC免费文章][公共医学][谷歌学者]
  • Chen,W,Lei,TY,Jin,DC,Lin,H和Chou,KC(2014)。PseKNC:生成伪K元组核苷酸组成的灵活web服务器.Ana Biochem公司 456: 53–60. [公共医学][谷歌学者]
  • 陈,W,张,X,布鲁克,J,林,H,张,L和周,KC(2015)。PseKNC-General:用于生成各种模式伪核苷酸组成的跨平台软件包.生物信息学 31: 119–120. [公共医学][谷歌学者]
  • Liu,B,Liu,F,Fang,L,Wang,X和Chou,KC(2015)。repDNA:一个Python包,通过结合用户定义的物理化学特性和序列顺序效应,为DNA序列生成各种模式的特征向量.生物信息学 31: 1307–1309. [公共医学][谷歌学者]
  • Liu,B,Liu,F,Fang,L,Wang,X和Chou,KC(2016)。repRNA:用于生成RNA序列的各种特征向量的网络服务器.分子遗传学 291: 473–481. [公共医学][谷歌学者]
  • Chou,KC(2009)。伪氨基酸组成及其在生物信息学、蛋白质组学和系统生物学中的应用.现代蛋白质组学 6: 262–274.[谷歌学者]
  • Chen,W,Lin,H和Chou,KC(2015)。伪核苷酸组成或PseKNC:分析基因组序列的有效公式.分子生物晶体 11: 2620–2634. [公共医学][谷歌学者]
  • Liu,B,Liu,F,Wang,X,Chen,J,Fang,L和Chou,KC(2015)。Pse-in-One:一个用于生成各种模式的DNA、RNA和蛋白质序列伪组分的网络服务器.核酸研究 43(W1):W65–W71。[PMC免费文章][公共医学][谷歌学者]
  • Chou,KC和Zhang,CT(1992)。339例人类免疫缺陷病毒蛋白密码子使用图解及其生物学意义.艾滋病Res-Hum逆转录病毒 8: 1967–1976. [公共医学][谷歌学者]
  • 张,CT和周,KC(1994)。1562例大肠杆菌蛋白质编码序列密码子使用情况分析.分子生物学杂志 238: 1–8. [公共医学][谷歌学者]
  • Golam Bari,ATM,Rokeya Reaz,M和Jeong,BS(2014)。用于大DNA序列拼接位点预测的DNA编码.数学和计算机化学中的MATCH通信 71: 241–258.[谷歌学者]
  • 郭,SH,邓,EZ,Xu,LQ,Ding,H,Lin,H,Chen,W等人(2014)。iNuc-PseKNC:一种基于序列的预测因子,用于预测具有伪k元组核苷酸组成的基因组中的核小体定位.生物信息学 30: 1522–1529. [公共医学][谷歌学者]
  • 刘,B,方,L,王,S,王,X,李,H和周,KC(2015)。用简并K-tuple或Kmer策略鉴定microRNA前体.《Theor生物学杂志》 385: 153–159. [公共医学][谷歌学者]
  • 邱,WR,肖,X和周,KC(2014)。iRSpot-TNCPseAAC:用三核苷酸组成和伪氨基酸成分识别重组点.国际分子科学杂志 15: 1746–1766.[PMC免费文章][公共医学][谷歌学者]
  • Chou,KC和Cai,YD(2002)。使用功能域组成和支持向量机预测蛋白质亚细胞位置.生物化学杂志 277: 45765–45769. [公共医学][谷歌学者]
  • Cai,YD,Zhou,GP和Chou,KC(2003)。利用功能域组成预测膜蛋白类型的支持向量机.生物物理学J 84: 3257–3263.[PMC免费文章][公共医学][谷歌学者]
  • N·克里斯蒂亚尼尼和J·沙韦·泰勒。支持向量机和O(运行)疗法K(K)基于ernelL(左)收入方法剑桥大学出版社:英国剑桥;2000[谷歌学者]

文章来自分子治疗。核酸由以下人员提供美国基因与细胞治疗学会