杂志的下一篇文章
基于高密度Bin图的大豆种子蛋白质和含油量主效和上位效应QTL的全基因组检测
下一篇特刊文章
特殊蛋白质或RNA分子的计算机识别
期刊上的上一篇文章
高密度脂蛋白颗粒与白蛋白相互作用调节心血管疾病风险的组成特征
特刊上一篇文章
基于双卷积神经网络的疾病相关miRNA预测方法
 
 
订购文章重印
字体类型:
宋体 佐治亚州 宋体,Verdana
字体大小:
澳大利亚 澳大利亚 澳大利亚
行距:
列宽:
背景:
第条

BGFE:基于改进序列信息的ncRNA-蛋白相互作用预测深度学习模型

1
中国矿业大学,徐州221116
2
枣庄大学信息科学与工程学院,山东枣庄277100
中国科学院新疆理化技术研究所,乌鲁木齐830011
*
信件应寄给的作者。
国际分子科学杂志。 2019,20(4) ,978年;https://doi.org/10.3390/ijms20040978
收到的提交文件:2019年1月1日/修订日期:2019年2月19日/接受日期:2019年2月20日/发布日期:2019年2月23日

摘要

:
ncRNAs和蛋白质之间的相互作用对于调节生物体内的各种细胞过程至关重要,例如基因表达调控。然而,由于预测ncRNA和蛋白质相互作用的最新实验方法的局限性,包括财政和材料消耗,必须提出具有令人信服的预测准确性的创新和实用方法。在本研究中,我们从生物学角度出发,基于蛋白质序列,提出了一种有效的深度学习方法,称为BGFE,用于预测ncRNA和蛋白质相互作用。蛋白质序列由位置特异性评分矩阵(PSSM)的双粒度概率特征提取方法表示,对于ncRNA序列,使用k-mers稀疏矩阵表示。此外,为了提取隐藏的高层特征信息,采用了堆叠集成策略和堆叠自动编码器网络。在通过随机森林分类器对特征进行分类后,我们使用三个数据集和五次交叉验证来评估该方法的性能。实验结果清楚地证明了该方法的有效性和预测精度。总的来说,该方法有助于ncRNA和蛋白质相互作用的预测,并为未来的生物学研究提供了一些有用的指导。

1.简介

在最近的研究中,非编码RNA(non-coding RNA,ncRNA)在控制细胞分子方面发挥着调节作用,这逐渐引起了研究者的关注。在已知生物学知识领域,ncRNAs被解释为那些从基因组转录但不能翻译成蛋白质的RNAs。因此,这些ncRNAs的功能大不相同。换言之,每个ncRNA在蛋白质翻译过程中都有自己的作用,这对大多数研究人员来说是非常令人困惑的。在最近的研究中,越来越多的证据表明,一系列重大疾病的发生与ncRNAs的失衡有关。与此同时,通过一些先进技术发现了越来越多功能尚不明确的非编码RNA[1,2,]. 因此,迫切需要弄清楚这些非编码RNA的生物学功能,如RNA稳定性和RNA翻译。为了了解ncRNA的功能,研究人员需要确认ncRNA是否能够在生物反应过程中与其他蛋白质相互作用[4]. Shen等人提出了一种基于序列的深度学习预测ncRNA和蛋白质相互作用的方法,称为IPMiner(Interaction Pattern Miner)[5]. 此外,一些机器学习技术,包括支持向量机(SVM),已经被提出用于预测蛋白质中的RNA结合残基[6].
近年来,RNA与蛋白质相互作用的研究取得了很大进展[2,7,8,9,10,11,12,13,14]. 尽管在有监督和无监督学习领域都取得了优异的成绩,但目前的方法仍存在一些不足和改进空间。高通量技术耗费太多时间,RNA复杂结构的测定需要大量的物理资源[12]一些序列特异性方法无法预测ncRNAs和蛋白质的确切相互作用。大量研究表明,ncRNA和蛋白质相互作用的序列特异性,表明该序列能够携带足够有用的信息来预测ncRNA和蛋白之间的相互作用[7,15]. 因此,从序列中提取特征信息被认为是一种可靠而有效的方法,可以识别ncRNA和蛋白质是否能够很好地相互作用。为了获得更准确的预测结果,提出了一些仅基于ncRNA和蛋白质序列的创新技术来预测RNA-蛋白质相互作用。Suresh V等人报道,根据累积实验验证,可以很好地预测ncRNA和蛋白质之间的相互作用[14]. 此外,其他一些研究侧重于蛋白质中的ncRNA和蛋白质的界面,以表明反应如何相互作用[16]. Yi等人还提出了一个名为RPI-SAN的深度学习框架,该框架使用纯序列信息,并使用复杂的堆叠自动编码器网络预测这些交互[17].
在本研究中,我们提出了一种基于序列的方法,将深度学习模型堆叠自动编码器(SAE)网络与随机森林(RF)分类器相结合。我们使用k-mers稀疏矩阵表示ncRNA序列,然后通过奇异值分解(SVD)从这些矩阵中提取特征向量。对于蛋白质序列,为了挖掘更多的生物学信息,使用位置特异性评分矩阵(PSSM)从每个序列中获得进化信息;此外,还进一步使用双粒度算法从PSSM中获取特征向量。由于深度学习的优点是表示学习,这意味着在构建分类器或其他预测器时,学习数据的表示可以更容易地提取有用的信息。SAE被进一步用于学习高级隐藏信息。随后,将数据和标签全部输入RF分类器,以分类一对蛋白质和ncRNA是否相互作用。此外,为了评估我们的方法的性能,使用了五重交叉验证和通用评估措施。我们还将我们的方法BGFE与其他方法在三个基准数据集上进行了比较。实验结果表明,BGFE的性能远优于其他方法,在数据集RPI488、RPI1807和RPI2241上的准确度分别为0.8868、0.9600和0.9130。实验结果表明,我们的方法实现了蛋白质与cRNA相互作用预测任务的高精度和鲁棒性。

2.结果

在本研究中,我们提出了一种基于序列的方法,将深度学习模型SAE网络与RF分类器(称为BGFE)相结合。图1显示了此方法的工作流。

2.1. 绩效评估

如所示表1,具体性能由五个指标组成,分别为准确性、敏感性、特异性、精密度和MCC[18]. 我们的方法BGFE在RPI488数据集上的准确度为0.8868,灵敏度为0.9268,特异性为0.8354,精度为0.9328,MCC为0.7744。在RPI1807数据集上,结果达到了0.9600的高精度,0.9344的灵敏度,0.9989的特异性,0.9117的精度,以及0.9217的MCC。在RPI2241数据集上,预测结果的准确度为0.9130,灵敏度为0.8772,特异性为0.9660,精度为0.8590,MCC为0.8335。
另一方面,如中的接收机工作特性(ROC)曲线所示图2,图3图4RPI488、RPI1807和RPI2241的相应AUC分别为0.8980、0.9920和0.9470。从实验结果可以看出,在数据集RPI2241上,准确率提高到了90%,这表明可以直接从PSSM中提取高级蛋白质特征,而不用从蛋白质一致序列和初级序列中计算氨基酸的出现频率。

2.2. 三种基本模型与最终集成模型BGFE的比较

在本研究中,我们使用堆叠集合来整合三个基本预测因子作为最终预测因子。为了证明这种集成策略的优越性,我们将BGFE与三种基本模型SA-RF、SA-FT-RF和RPIseq-RF进行了比较。结果报告于表2,表3表4特别是,SA-FT-RF指带有微调和随机森林分类器的堆叠式自动编码器。类似地,SA-RF表示带Random Forest分类器的堆叠自动编码器(无需微调),RPIseq-RF表示使用原始特征的Random Forest版本RPIseq,这三个模型是堆叠置乱策略的基本预测因子。三个基本模型被集成为最终模型,称为BGFE。
如所示图2,图3图4,ROC曲线表明了SA-FT-RF、SA-RF、RPIseq RF和所提出的BGFE之间的直观比较。这个x个-ROC曲线的轴表示假阳性率,而-ROC曲线的轴表示真阳性率。根据比较结果,我们发现,与其他三个基本模型相比,我们的集成策略在RPI488和RPI2241中的特定精度分别为0.8868和0.9130,具有更好的预测精度。在RPI1807数据集中,虽然BGFE没有达到最佳性能,但其精度仍然为0.9600。这一比较结果表明,我们的堆叠集成方法在预测基础模型中的相互作用方面具有良好的性能,特别是对于相关性较低的数据集。

2.3. 预测与BGFE等方法的比较

为了进一步验证我们的方法BGFE的可靠性,我们还将BGFE与现阶段的其他实验方法进行了比较。V.Suresh等人提出了一种利用序列和结构信息预测ncRNA和蛋白质相互作用的计算方法,命名为RPI-Pred[14]. RPI-Pred采用了著名的SVM分类器,该分类器是作为一个独立的内部程序实现的。在此基础上,在BGFE中使用10倍交叉验证(10倍CV)而不是5倍交叉验证来评估RPI-Pred。这两种交叉验证方法的准确性相似,但一般来说,五倍变异系数在生物实验中的应用更为广泛。Usha K Muppirala等人也提出了一种与我们的方法类似的基于序列的方法,但采用了不同的特征提取方法[19]. 他们使用包括SVM和RF在内的两个分类器来拟合训练数据集,并预测ncRNAs和蛋白质之间的相互作用。在这里,我们只使用RF分类器而不是SVM来比较它们的性能。Ying Wang等人提出了一种新的扩展naive-Bayes分类器,仅基于序列预测ncRNA和蛋白质相互作用[20]. 他们使用的分类器与传统分类器大不相同。他们通过降低似然比得分来提取有效特征,这不仅可以整合透明特征,而且可以降低预测过程中的计算复杂度。表5显示了BGFE与其他三种方法之间的比较。
与这四种方法相比,我们的方法BGFE在数据集RPI1807和RPI2241上都具有更好的性能。BGFE的RPI1807和RPI2241的AUC分别为0.9970和0.9640。高精度预测结果表明,只有从序列中提取特征才能可靠地预测ncRNA和蛋白质的相互作用。

3.讨论

在本研究中,我们提出了一种计算方案来挖掘深层ncRNA-蛋白质相互作用模式,然后基于堆叠自动编码器和堆叠集成进行预测。它在数据集RPI488上实现了0.8868的准确度和可靠度,在数据集RPI1807上实现了0.9600,在数据集中RPI2241上达到了0.9130。在不同特征数据集上的这些综合实验性能很好地证明了BGFE的有效性。BGFE与其他基本模型的比较结果也表明,自动编码器可以很好地提取从多层神经网络中自动学习的鉴别高层特征。
所提出的方法BGFE产生了可靠的ncRNA和蛋白质相互作用预测性能,具有较高的准确性,我们认为这主要得益于以下几点:(1)PSSM的使用确保了可以从蛋白质序列中提取有效和有用的信息,并使这些特征信息简单直观。(2) 从生物学的角度来看,双纹理特征提取方法可以帮助我们从保守区域的不同氨基酸子序列中区分这些蛋白质折叠。因此,存在一组单独的双颗粒特征,代表保守区域中的每个蛋白质序列。(3) 深度学习是一种建模数据集中复杂统计特征的工具。因此,通过深度学习,堆叠式自动编码器可以很好地自动学习k-mers序列模体之间的隐藏关系。堆叠式自动编码器的具体机制能够准确识别和提取信息量最大的隐藏级特征,同时消除隐藏的无关变量,避免维数的固化。高维的原始蛋白质和ncRNA特征尤其需要这种降维和特征简化。(4) 另一方面,堆叠集合能够很好地整合不同预测因子的个体优势,这比以前手动设计的平均投票和多数投票提供了更好的性能。
然而,实际上,我们的方法目前是通过训练小规模数据集获得的,由于难以从自然界和相应的数据库中收集大规模复杂的相互作用,因此本实验仅验证了自然界中ncRNA和蛋白质相互作用模式的一小部分。另一方面,众所周知,由于序列代表性特征的自动学习,数据集越大,深度学习的性能越好。因此,将查询尽可能大的训练数据集,以考虑所有可能的情况。为了实现这一目标,应该从结构复合体或其他实验方法中收集大量由阳性样本建立的数据集。同时,负样本也将验证它们在预测性能方面的重要性。因此,我们还应该找出一种有效的方法来学习ncRNA和蛋白质对的负样本分布。此外,处理样本不平衡的另一种策略是仅使用正样本用相似矩阵训练模型。
总的来说,虽然我们的方法BGFE在预测ncRNA和蛋白质之间的相互作用方面表现良好,但与其他深度学习算法一样,也存在很多局限性和缺点。我们的研究还有很大的改进空间。预测交互方法是一个学习机器的黑匣子,在ncRNA和蛋白质对中看不到生物。我们的方法试图借助随机森林分类器提取蛋白质特征并自动学习高级特征,但从生物学角度来看,它仍然没有取得很好的突破。在未来的研究中,我们期望设计一个更好的网络架构,从生物学的角度提取隐藏的高级特征。

4.材料和方法

4.1. 数据集集合

我们在三个公共数据集上进行了实验,包括RPI488、RPI1807和RPI2241。数据集RPI488是在IPMiner中使用的[5,21]. 这是一个基于结构复合物的非冗余长ncRNA蛋白质相互作用数据集,由488对蛋白质lncRNA对组成,包括243对相互作用对和245对非相互作用对。另一方面,从RPIseq数据库直接收集了另外两组数据,RPI1807和RPI2241[12,14]. RPI1807是通过解析核酸数据库(NAD)建立的,该数据库包含1807个阳性ncRNA-蛋白质相互作用对,其中包括1078条RNA链、1807条蛋白质链和1436个阴性ncRNA--蛋白质相互作用偶,其中分别包括493条RNA链和1435条蛋白质链。而RPI2241由2241个ncRNA和蛋白质对组成。对于这三个数据集,它们都是从基于结构的复合物中提取的。数据集详细信息如下所示表6.

4.2. 职位特定评分矩阵

在过去的研究中,位置特异性评分矩阵(PSSM)能够测试远处相关的蛋白质。从生物学角度来看,PSSM是用于区分两个序列相似性的矩阵,因为PSSM能够预测四元结构属性、蛋白质二硫键连接和折叠模式[22,23,24]. PSSM的每个元素表示一个氨基酸替换为另一个氨基酸的概率[25]. 如果这两种氨基酸经常被替换,则表明这种替换可以被具有高氨基酸替换分数的自然界所接受[26]. 每个随机蛋白质序列都可以通过位置特定迭代BLAST(PSI-BLAST)转换为PSSM[27].
P(P)作为任意蛋白质的代表的PSSM。BLAST软件的特点是执行有关蛋白质的参数命令,执行PSSM。PSSM包括第页行和20列,并解释为第页表示任意蛋白质一级序列的长度,20分别表示氨基酸的数量。
P(P) = { 第页 , j个 = 1 第页 , j个 = 1 20 }
PSSM中位于以下位置的元件行和j个列由符号表示 P(P) , j个 .符号 P(P) , j个 ( j个 = 1 20 第页 , j个 = 1 , (f) o(o) 第页   = 1 , 2 , , 第页 )表示的相对概率 j个 t吨 小时 氨基酸 t吨 小时 PSSM来源的相同蛋白质序列的位置[28,29].
在本研究中,PSI-BLAST软件用于将每个随机蛋白质序列转换为PSSM,与大多数用于创建序列数据集和预测相互作用的研究一样。为了获得同源性更高和更广的蛋白质序列,参数电子价值PSI_BLAST方法的设置为0.001[30]. 随后,使用三次迭代从蛋白质序列中获得完整的PSSM。

4.3. PSSM的双粒度特征提取

为了提取从蛋白质折叠中识别出的特征,采用了基于PSSM线性概率的双粒度特征提取技术。同时,我们无法直接从由初级序列或一致序列表示的蛋白质中提取双颗粒特征,因为氨基酸的组合不能全部在蛋白质序列中找到[31]. 同时,通过PSSM中主要包含的表示信息计算双粒度特征向量[32]. 以下段落将给出更具体的数学解释。
B类是双粒度发生矩阵,并且 b条 , n个 是矩阵中的元素B类.符号 b条 , n个 可以解释为从 t吨 小时 氨基酸至 n个 t吨 小时 可以从元素中计算出的氨基酸 P(P) , j个 PSSM中的公式如下:
B类 = { b条 , n个 , 1 20 , 1 n个 20 }
b条 , n个 = = 1 第页 负极 1 第页 , 第页 + 1 , n个 ( 20 , 1 n个 20 )
从这个方程中,我们可以得到一个包含400个元素的双粒度矩阵。矩阵中的400个元素B类也是我们需要的蛋白质折叠识别的特征向量。F类是蛋白质折叠识别的双纹理特征向量,如下所示:
F类 = { b条 1 , 1 , b条 1 , 2 , , b条 1 , 20 , b条 2 , 1 , , b条 2 , 20 , , b条 20 , 1 , , b条 20 , 20 } T型
其中符号T型表示特征向量的转置[33].
从直觉上看,双粒度特性似乎是合理的F类与直接从原始蛋白质序列或一致蛋白质序列中提取双颗粒特征相比,它包含了更多有用的蛋白质折叠识别信息。一般来说,从生物学的角度来看,具有相同物理折叠的蛋白质具有高度保守的氨基酸序列[34]. 在这些保守区域中,氨基酸的子序列由双粒度概率特征表示[35]. 因此,如果已知某个氨基酸子序列在蛋白质折叠中是保守的,则存在一组双颗粒特征,代表来自该保守区域的折叠中的每个蛋白质。这种蛋白质特性可以帮助我们区分不同氨基酸序列中的蛋白质折叠[36].

4.4. 用K-mers稀疏矩阵和SVD表示ncRNA序列

对于ncRNA,我们选择了二维矩阵k-mers稀疏矩阵的变形来存储ncRNA序列的特征[24]. 使用二维矩阵代替一维向量来表示ncRNA序列,可以在原始序列中存储更多有用和重要的信息,例如位置信息。因此,通过二维矩阵获得的ncRNA特征在预测ncRNA与蛋白质之间的相互作用时应该具有更高的准确性和更好的性能[24].
ncRNA序列被处理成 4 k个 × ( L(左) 负极 k个 + 1 ) k-mers稀疏矩阵M(M).何时 j个 j个 + 1 j个 + 2 j个 + 正好等于 t吨 小时 k-mers在 4 k个 不同的k-mer,设置元素 , j个 = 1 随后,矩阵M(M)可以定义如下:
M(M) = ( j个 ) 4 k个 × ( L(左) 负极 k个 + 1 )
j个 = { 1 , (f)   j个 j个 + 1 j个 + 2 j个 + = k个 负极 电子 第页 ( ) 0 , 电子 电子
在从ncRNA的原始序列中获得相应的二维矩阵后,我们使用SVD对该矩阵进行了大量数据转换[37]. 在矩阵上应用奇异值分解有两个主要功能。第一种是低秩近似,其本质是一种近似方法,通过高维空间中的低维结构,将原始复矩阵转换为相应的低秩矩阵。通过这种有效的近似技术,可以在新矩阵中保存来自原始复矩阵的更有价值的属性和信息[24]. 此外,可以有效地减少冗余信息和噪声。此外,还可以进一步减少存储空间和计算复杂性。二是降维。随着维数的增加,有限的样本空间变得稀疏,导致了一种现象,即尽管模型在训练集数据上表现良好,但它缺乏对新数据的泛化能力。提出了特征降维,以减小尺寸,消除过拟合现象。

4.5. 堆叠式自动编码器和微调

深度学习的功能是逐层学习原始数据的各种表达式。每一层都在前一层的表达特征的基础上提取更抽象、更合适的复杂特征来完成一些分类任务。实际上,SAE是一种无监督的特征学习方法,它与大部分深度学习的成员做同样的事情。简单地说,SAE的结构是逐层堆叠多层自动编码器[38]. 稀疏自编码器和去噪自编码器都是单层自编码器,用于学习
小时 = (f) ( W公司 x个 + b条 )
通过三层网络 x个 小时 x个 .输入x个可以解释为d日-维度数据集和(f)可以解释为表达式中的非线性函数,这是一个元素式的sigmoid函数 (f) ( x个 ) = 1 1 + 电子 负极 x个 在这里。
在本研究中,我们使用的层类型是漏失层和完全连接层[39]. 在丢包层,一些神经元单元的激活被随机设置为零,以避免模型训练过拟合。将SAE系统用作无监督学习后,采用基于反向传播的微调操作来调整每个层的每个参数,以获得更好的性能。通过使用微调,SAE系统可以得到很大改进。在微调操作中,添加一个softmax层作为具有sigmoid功能的最后一层,以从ncRNA和蛋白质的合并子网络输出作为表达式。
因此,SAE模型可以表述为以下优化公式:
最小值 [ = 1 ( 小时 W公司 , b条 ( x个 ( ) ) 负极 ( ) ) 2 + α ( W公司 2 ) + β j个 = 1 b条 K(K) L(左) ( 第页 第页 ^ j个 ) ]
哪里 第页 ^ j个 是平均激活概率 j个 t吨 小时 隐藏单位,计算自 第页 ^ j个 = 1 = 1 小时 j个 和元素第页表示被激活的期望概率。
在(8)中,第一项表示重建成本,第二项表示对权重进行正则化以避免过拟合,最后一项从输入层到隐藏层进行稀疏映射,其中Kullback–Leibler(KL)散度用于测量期望值和实际值之间的相似性,如下所示[40]以下为:
K(K) L(左) ( 第页 第页 ^ j个 ) = 第页 日志 第页 第页 ^ j个 + ( 1 负极 第页 ) 日志 1 负极 第页 1 负极 第页 ^ j个
在训练数据集的过程中,辍学概率被设置为0.5,这是最适合辍学训练系统的概率[41]. 整个SAE系统是通过使用keras库实现的,而其参数批处理大小nb _ epoch公司都设置为100。keras图书馆在网站上有详细描述http://github。com/fchollet/keras.

4.6. 叠加信号群

对于大多数分类器来说,有不同的分类性能来适应不同类型的分类问题。为了获得近似最优目标函数,需要使用多个分类器进行集成学习。因此,找到集成机制实现的解决方案以集成单个输出是至关重要的。在以往的研究中,大多数解决方案是平均个人模型结果策略和多数投票策略[42,43]. 而在堆叠集成中,0级分类器的输出将用作1级分类器的训练数据,作为多层神经网络直觉的组合策略,其中0级是堆叠集成的第一层,1级是0级之后的后续层。1级分类器的功能是尝试合并所有单个分类器的结果[44]. 在本研究中,所有0级分类器的输出被解释为预测概率分数,而连续的1级分类器是逻辑回归分类器。结果表明,当所有个体0级分类器的logistic回归得分权重相同时,叠加集成等于平均个体模型结果策略,而当只有一个得分权重变为非零时,它等于多数投票策略[17].
P(P) w个 ( = ± 1 | ) = 1 1 + 电子 负极 w个 T型
哪里表示所有0级分类器向量输出的预测概率得分,以及w个是相应分类器的权重向量。逻辑回归来自Scikit-learn[45].

4.7. 预测方法和评价标准

在所有分类器的机器学习领域中,有四种有代表性的分类器是有监督且有效的,其中包括SVM[6],神经网络[46,47],天真的贝叶斯[48]和RF[42]. 对这四个分类器进行管理并相互比较,旨在选择准确度和性能最佳的分类器来预测ncRNA和蛋白质相互作用。在BGFE中,使用RF分类器进行分类和预测。
RF是指使用多个决策树来训练和预测数据集的分类器[49]. 在机器学习中,RF分类器是一种多决策树分类器,其输出由多个独立的树类别组成,具体取决于输出类别[50]. 为了构造RF,需要从随机字符中随机选择数据集,这保证了RF分类器中决策树的差异。此外,还可以增强系统的多样性,提高分类性能。为了实现这一目标,采用了五重交叉验证技术来评估每组数据集的算法性能和准确性[51]. 在python环境中,我们可以使用Scikit-learn包来帮助我们完成构建RFs的任务[45].
在本研究中,使用了几种广泛使用的计算标准来评估预测性能,如下所示[52]以下为:
A类 c(c) c(c) u个 第页 c(c) = T型 P(P) + T型 N个 T型 P(P) + T型 N个 + F类 P(P) + F类 N个
S公司 电子 n个 t吨 v(v) t吨 = T型 P(P) T型 P(P) + F类 N个
S公司 第页 电子 c(c) (f) c(c) t吨 = T型 N个 T型 N个 + F类 P(P)
P(P) 第页 电子 c(c) o(o) n个 = T型 P(P) T型 P(P) + F类 P(P)
M(M) C类 C类 = T型 P(P) × T型 N个 负极 F类 P(P) × F类 N个 ( T型 P(P) + F类 P(P) ) ( T型 P(P) + F类 N个 ) ( T型 N个 + F类 P(P) ) ( T型 N个 + F类 N个 )
哪里TP(转移定价),FP公司,田纳西州,FN公司分别解释为真阳性、假阳性、真阴性和假阴性的数量。ROC曲线被理解为介于特异性敏感同时,AUC被视为ROC曲线下图形的面积。因此,错误预测ncRNA和蛋白质对之间相互作用的概率不会超过1%。

5.结论

在本研究中,提出了一种基于序列的BGFE方法,该方法使用深度学习模型SAE网络和随机森林分类器相结合。我们使用k-mers稀疏矩阵来表示ncRNA序列,然后通过SVD从这些矩阵中提取特征向量。对于蛋白质序列,PSSM用于从每个序列中获得进化信息;此外,还进一步使用双图算法从PSSM中获取特征向量。我们选择了三个公共数据集来评估模型的性能。在实验中,我们的方法BGFE在评估实验结果和能力时,在预测任务的蛋白质与cRNA相互作用方面取得了良好的性能。我们还将BGFE与其他现有方法进行了比较,而我们的方法在预测ncRNA与蛋白质之间的相互作用方面取得了比其他方法更好的性能。本研究可以准确预测潜在的非编码RNA-蛋白相互作用对,为今后的生物学研究提供了一些有用的指导。

作者贡献

Z.-H.Z.、L.-N.J.和Y.Z.构思了算法,进行了分析,准备了数据集,进行了实验,并编写了手稿;L.-P.L.和H.-C.Y.设计、执行和分析实验,并撰写手稿;所有作者阅读并批准了最终手稿。

基金

这项工作得到了中国国家科学基金会(61373086,61572506)的部分支持。作者感谢所有编辑和匿名审稿人的建设性意见。

利益冲突

作者声明没有利益冲突。

工具书类

  1. 哈罗,J。;A.Frankish。;冈萨雷斯,J.M。;Tapanari,E。;Diekhans,M。;科科辛斯基,F。;阿肯,B.L。;巴雷尔,D。;Zadisa,A。;塞尔,S。;等。GENCODE:ENCODE项目的参考人类基因组注释。基因组研究。 2012,22, 1760. [谷歌学者] [交叉参考] [公共医学]
  2. 你,Z.-H。;Lei,Y.-K。;朱,L。;夏,J。;Wang,B.利用集成极值学习机和主成分分析从氨基酸序列预测蛋白质相互作用。BMC生物信息。 2013,14,S10。[谷歌学者] [交叉参考] [公共医学] [绿色版本]
  3. 李俊秋。;你,Z.-H。;李,X。;Z.Ming。;Chen,X.PSPEL:使用集成学习从氨基酸序列中对自交互蛋白质进行电子预测。IEEE/ACM传输。计算。生物信息。(TCBB) 2017,14, 1165–1172. [谷歌学者] [交叉参考] [公共医学]
  4. 贝鲁奇,M。;阿戈斯蒂尼,F。;马辛,M。;Tartaglia,G.G.预测蛋白质与长非编码RNA的关联。自然方法 2011,8,444。[谷歌学者] [交叉参考] [公共医学]
  5. 潘,X。;风扇,Y.X。;严,J。;Shen,H.B.IPMiner:使用堆叠自动编码器进行隐藏的ncRNA-protein交互序列模式挖掘,以实现准确的计算预测。BMC基因组学 2016,17, 582. [谷歌学者] [交叉参考] [公共医学]
  6. 科尔特斯,C。;Vapnik,V.支持向量网络。机器。学习。 1995,20, 273–297. [谷歌学者] [交叉参考] [绿色版本]
  7. Wang,L。;你,Z.-H。;黄,D.-S。;Zhou,F.将高速ELM学习与深度卷积神经网络特征编码相结合,用于预测蛋白质-RNA相互作用。IEEE/ACM传输。计算。生物信息。 2018. [谷歌学者] [交叉参考] [公共医学]
  8. 森古普塔,D.J。;张,B。;克莱默,B。;波查特,P。;菲尔兹,S。;Wickens,M.体内检测RNA-蛋白质相互作用的三杂交系统。程序。国家。阿卡德。科学。美国 1996,93, 8496–8501. [谷歌学者] [交叉参考] [公共医学]
  9. Hall,K.B.RNA–蛋白质相互作用。货币。操作。结构。生物。 2002,12, 283–288. [谷歌学者] [交叉参考]
  10. 郭毅。;Yu,L。;温,Z。;Li,M.使用支持向量机结合自协方差预测蛋白质序列中的蛋白质相互作用。核酸研究。 2008,36, 3025–3030. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
  11. Ge,M。;李,A。;Wang,M.一种基于二部网络的方法,用于预测长非编码RNA–蛋白质相互作用。基因组蛋白质组学生物信息。 2016,14, 62–71. [谷歌学者] [交叉参考] [公共医学]
  12. Alipanahi,B。;德隆,A。;M.T.Weirauch。;Frey,B.J.通过深度学习预测DNA和RNA-结合蛋白的序列特异性。自然生物技术。 2015,33, 831–838. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
  13. 加伦斯基,A.R。;乌尔,M。;Zhang,Y。;Lin,Y.Y。;尼科纳夫斯,Y.S。;V.R.Ramnarine。;马利克,R。;冯,F。;Chinnaiyan,A.M。;柯林斯,C.C。;等人MechRNA:从RNA–RNA和RNA–蛋白质相互作用预测lncRNA机制。生物信息学 2018,34, 3101–3110. [谷歌学者] [交叉参考] [公共医学]
  14. 苏雷什,V。;刘,L。;Adgeroh,D。;Zhou,X.RPI-Pred:使用序列和结构信息预测ncRNA-蛋白质相互作用。核酸研究。 2015,43, 1370. [谷歌学者] [交叉参考] [公共医学]
  15. 雷·D。;Kazan,H。;Chan,E.T。;佩尼亚·卡斯蒂略,L。;乔杜里,S。;Talukder,S.公司。;Blencowe,B.J。;莫里斯,Q。;Hughes,T.R.对RNA结合蛋白的RNA识别特异性进行快速系统分析。自然生物技术。 2009,27, 667–670. [谷歌学者] [交叉参考] [公共医学]
  16. 严,J。;弗里德里希,S。;Kurgan,L.DNA和RNA-结合残基序列预测因子的综合比较综述。生物信息简报。 2016,17, 88. [谷歌学者] [交叉参考] [公共医学]
  17. Yi,H.-C。;你,Z.-H。;黄,D.-S。;李,X。;蒋,T.-H。;Li,L.-P.利用进化信息稳健准确预测ncRNA-蛋白质相互作用的深度学习框架。摩尔-热-核酸 2018,11, 337–344. [谷歌学者] [交叉参考] [公共医学]
  18. Wang,L。;你,Z.-H。;严,X。;夏,S.-X。;刘,F。;李,L。;张伟。;Zhou,Y.使用二维主成分分析和旋转森林预测蛋白质-蛋白质相互作用。科学。代表。 2018,8, 12874. [谷歌学者] [交叉参考] [公共医学]
  19. 英国Muppirala。;霍纳瓦尔,V.G。;Dobbs,D.仅使用序列信息预测RNA-蛋白相互作用。BMC生物信息。 2011,12,第489页。[谷歌学者] [交叉参考] [公共医学]
  20. Wang,Y。;陈,X。;刘振鹏。;黄,Q。;Wang,Y。;徐,D。;张,X.S。;陈,R。;Chen,L.从序列信息对RNA与蛋白质相互作用的从头预测。分子生物晶体。 2013,9, 133. [谷歌学者] [交叉参考] [公共医学]
  21. H.M.伯曼。;韦斯特布鲁克,J。;Z.Feng。;Gilliland,G。;巴特,T.N。;韦西格,H。;Shindyalov,I.N。;伯恩,P.E.蛋白质数据库,1999-。内部表格水晶图。 2000,67, 675–684. [谷歌学者]
  22. 扎希里,J。;穆罕默德·努里,M。;易卜拉欣普尔,R。;Saadat,S。;Bozorgmehr,J.H。;Goldberg,T。;Masoudi-Nejad,A.LocFuse:通过使用蛋白质定位信息的分类器融合预测人类蛋白质-蛋白质相互作用。基因组学 2014,104, 496. [谷歌学者] [交叉参考] [公共医学]
  23. 李,L.-P。;Wang,Y.-B。;你,Z.-H。;李毅。;An,J.-Y.PCLPred:结合相关向量机模型和低秩矩阵近似预测蛋白质-蛋白质相互作用的生物信息学方法。国际分子科学杂志。 2018,19, 1029. [谷歌学者] [交叉参考] [公共医学]
  24. 你,Z.H。;周,M。;罗,X。;Li,S.预测蛋白质相互作用的高效框架。IEEE传输。赛博。 2017,47, 731–743. [谷歌学者] [交叉参考] [公共医学]
  25. Wang,Y.-B。;你,Z.-H。;李,L.-P。;黄,D.-S。;周,F.-F。;Yang,S.使用堆积稀疏自动编码器和PSSM剖面改进自交互蛋白质的预测。国际生物学杂志。科学。 2018,14, 983–991. [谷歌学者] [交叉参考] [公共医学]
  26. 你,Z.-H。;黄,Z.A。;朱,Z。;严,G.Y。;李,Z.W。;温,Z。;Chen,X.PBMDA:一种新的有效的基于路径的miRNA-疾病关联预测计算模型。公共科学图书馆计算。生物。 2017,13,e1005455。[谷歌学者] [交叉参考] [公共医学]
  27. U.P.UniProt联盟:蛋白质信息中心。核酸研究。 2015,43,D204。[谷歌学者] [交叉参考] [公共医学]
  28. 海亚特,M。;Khan,A.通过将复合蛋白质序列特征融合到伪氨基酸组成中来预测膜蛋白类型。J.西奥。生物。 2011,271, 10. [谷歌学者] [交叉参考] [公共医学]
  29. Wang,L。;你,Z.H。;夏,S.-X。;陈,X。;严,X。;周,Y。;Liu,F.一种改进的高效旋转森林算法,用于预测蛋白质之间的相互作用。软计算。 2018,22,3373–3381。[谷歌学者] [交叉参考]
  30. 安J.Y。;你,Z.H。;陈,X。;黄,D.S。;李,Z.W。;刘,G。;Wang,Y.通过探索嵌入在PSI-BLAST构建的位置特异性评分矩阵中的进化信息来识别自交蛋白。Oncotarget公司 2016,7, 82440–82449. [谷歌学者] [交叉参考] [公共医学]
  31. Salwinski,L。;密勒,C.S。;A.J.史密斯。;佩蒂特,F.K。;鲍伊,J.U。;Eisenberg,D.相互作用蛋白质数据库:2004年更新。核酸研究。 2004,32,D449–D451。[谷歌学者] [交叉参考] [公共医学]
  32. 查特拉亚蒙特里,A。;布莱特克鲁兹,B.J。;Oughtred,R。;Boucher,L。;海尼克,S。;陈,D。;斯塔克,C。;Breitkreutz,A。;北卡罗来纳州科拉斯。;奥唐纳,L。;等。BioGRID交互数据库:2015年更新。核酸研究。 2015,43,D470。[谷歌学者] [交叉参考] [公共医学]
  33. Paliwal,K.K.公司。;Sharma,A。;莱昂斯,J。;Dehzangi,A.一种基于三图的特征提取技术,使用位置特定评分矩阵的线性概率进行蛋白质折叠识别。IEEE传输。纳米生物学。 2013,320, 41. [谷歌学者] [交叉参考] [公共医学]
  34. Bouchaffra,D。;Tan,J.使用结构隐马尔可夫模型进行蛋白质折叠识别。《模式识别国际会议论文集》,中国香港,2006年8月20日至24日;第186-189页。[谷歌学者]
  35. 陈,Z.-H。;你,Z.-H。;李,L.-P。;王,Y.-B。;Li,X.RP-FIRF:使用随机投影分类器结合有限脉冲响应滤波器预测自交互蛋白质。2018年8月15日至18日,中国武汉,智能计算国际会议论文集;第232-240页。[谷歌学者]
  36. Chmielnicki,W。;Stapor,K。蛋白质折叠识别的一种混合鉴别/生成方法。神经计算 2012,75, 194–198. [谷歌学者] [交叉参考]
  37. 陈,H。;基于K-SVD的医学图像特征提取与融合算法。第九届P2P、并行、网格、云和互联网计算国际会议论文集,中国广东,2014年11月8日至10日;第333–337页。[谷歌学者]
  38. 文森特,P。;拉罗谢尔,H。;我·拉朱伊。;Y.本吉奥。;Manzagol,P.A.堆叠去噪自动编码器:使用局部去噪标准学习深层网络中的有用表示。J.马赫。学习。物件。 2010,11, 3371–3408. [谷歌学者]
  39. 北斯利瓦斯塔瓦。;辛顿,G。;Krizhevsky,A。;Sutskever,I。;Salakhutdinov,R.Dropout:防止神经网络过度拟合的简单方法。J.马赫。学习。物件。 2014,15, 1929–1958. [谷歌学者]
  40. 苏,S.Z。;刘,Z.H。;徐,S.P。;Li,S.Z。;Ji,R.基于稀疏自动编码器的特征学习用于深度图像中的人体检测。信号。过程。 2015,112, 43–52. [谷歌学者] [交叉参考]
  41. Dahl,G.E。;塞纳,T.N。;Hinton,G.E.使用校正线性单位和缺失改进LVCSR的深度神经网络。在IEEE声学、语音和信号国际会议论文集上。加工,加拿大不列颠哥伦比亚省温哥华,2013年5月26日至31日;第8609–8613页。[谷歌学者]
  42. Breiman,L.随机森林。机器。学习。 2001,45, 5–32. [谷歌学者] [交叉参考] [绿色版本]
  43. 潘,X.Y。;田,Y。;黄,Y。;Shen,H.B.通过一种新的集成方法提高上位性微阵列剖面数据缺失值估计的准确性。基因组学 2011,97, 257–264. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
  44. Töscher,A。;Jahrer,M.Netflix大奖的大混乱解决方案。Netflix Prize文档, 2009. [谷歌学者]
  45. 佩德雷戈萨,F。;瓦洛奎,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;杜堡,V。;等。Scikit-learn:Python中的机器学习。J.马赫。学习。物件。 2011,12, 2825–2830. [谷歌学者]
  46. Jeong,E。;I.-F.钟。;Miyano,S.蛋白质中RNA相互作用残基识别的神经网络方法。基因组信息。 2004,15, 105–116. [谷歌学者] [公共医学]
  47. Hansen,L.K。;Salamon,P.神经网络集成。IEEE传输。模式分析。机器。智力。 1990,12, 993–1001. [谷歌学者] [交叉参考] [绿色版本]
  48. Zhang,H.朴素贝叶斯的最优性。2004年5月12日至14日,美国佛罗里达州迈阿密海滩,国际弗莱尔斯会议记录。[谷歌学者]
  49. 你,Z.H。;李,X。;K.C.陈。基于氨基酸替换矩阵和旋转森林集成分类器的蛋白质相互作用的改进序列预测协议; 爱思唯尔科学出版社:荷兰阿姆斯特丹,2017年。[谷歌学者]
  50. Statnikov,A。;Wang,L。;Aliferis,C.F.基于微阵列的癌症分类的随机森林和支持向量机的综合比较。BMC生物信息。 2008,9,1-10。[谷歌学者] [交叉参考] [公共医学]
  51. Y.本吉奥。;Grandvalet,Y.没有k倍交叉验证方差的无偏估计量。J.马赫。学习。物件。 2004,5, 1089–1105. [谷歌学者]
  52. Matthews,B.W.T4噬菌体溶菌酶预测和观察二级结构的比较。生物化学。生物物理学。Acta(BBA)蛋白质结构。 1975,405, 442–451. [谷歌学者] [交叉参考]
图1。拟议BGFE方法的分步工作流程。在用于训练和预测的非编码RNA(non-coding RNA,ncRNA)和蛋白质序列中,奇异值分解(Singular Value Decomposition,SVD)将ncRNA序列从4元稀疏矩阵转换为特征向量,而蛋白质序列由双粒度算法表示,形成位置特定评分矩阵(Position Specific Scoring Matrix,PSSM)。这些特征向量由多层堆栈自动编码器进行处理,以获得更深层的特征信息。随后,将训练数据和标签输入到随机森林分类器中进行分类训练。此外,在获得机器学习模型之后对模型参数进行微调进一步有助于提高模型精度。
图1。拟议BGFE方法的分步工作流程。在用于训练和预测的非编码RNA(non-coding RNA,ncRNA)和蛋白质序列中,奇异值分解(Singular Value Decomposition,SVD)将ncRNA序列从4元稀疏矩阵转换为特征向量,而蛋白质序列由双粒度算法表示,形成位置特定评分矩阵(Position Specific Scoring Matrix,PSSM)。这些特征向量由多层堆栈自动编码器进行处理,以获得更深层的特征信息。随后,将训练数据和标签输入到随机森林分类器中进行分类训练。此外,在获得机器学习模型后,对模型参数进行微调,进一步提高了模型的准确性。
Ijms 20 00978 g001
图2。BGFE和其他策略在数据集RPI488上的性能比较ROC曲线。
图2。BGFE和其他策略在数据集RPI488上的性能比较ROC曲线。
Ijms 20 00978 g002
图3。BGFE和其他策略在数据集RPI1807上的性能比较ROC曲线。
图3。BGFE和其他策略在数据集RPI1807上的性能比较ROC曲线。
Ijms 20 00978 g003
图4。BGFE和其他策略在数据集RPI2241上的性能比较ROC曲线。
图4。BGFE和其他策略在数据集RPI2241上的性能比较ROC曲线。
Ijms 20 00978 g004
表1。数据集RPI488、RPI1807和RPI2241的预测性能。
表1。数据集RPI488、RPI1807和RPI2241的预测性能。
数据集准确性敏感特异性精密度电动机控制中心
RPI488型0.88680.92680.83540.93280.7743
RPI1807型0.96000.93440.99890.91170.9217
RPI2241型0.91300.87720.96600.85900.8335
表2。四种方法在数据集RPI488上的具体性能。
表2。四种方法在数据集RPI488上的具体性能。
RPI488型准确性敏感特异性精密度电动机控制中心
BGFE公司0.88680.92680.83540.93280.7743
原始功能0.81680.80830.81920.81040.6299
堆叠式自动编码器0.88060.92430.82550.93510.7638
堆叠式自动编码器,无需微调0.86000.88480.82710.88500.7187
粗体字表示此度量性能是针对单个数据集的比较方法中最好的。
表3。四种方法在数据集RPI1807上的具体性能。
表3。四种方法在数据集RPI1807上的具体性能。
RPI1807型准确性敏感特异性精密度电动机控制中心
BGFE公司0.96000.93440.99890.91170.9217
原始功能0.93490.95080.93080.94000.8688
堆叠式自动编码器0.93960.90290.99940.86510.8830
堆叠式自动编码器,无需微调0.96450.96720.96880.95900.9281
粗体字表示此度量性能是针对单个数据集的比较方法中最好的。
表4。四种方法在数据集RPI2241上的具体性能。
表4。四种方法在数据集RPI2241上的具体性能。
RPI2241型准确性敏感特异性精密度麦可公司
BGFE公司0.91300.87720.96600.85900.8335
原始功能0.64380.65250.63130.65650.2881
堆叠式自动编码器0.90410.88950.93290.87470.8156
堆叠式自动编码器,无需微调0.64380.65170.63270.65510.2879
粗体字表示此度量性能是针对单个数据集的比较方法中最好的。
表5。BGFE与其他方法在数据集RPI1807和RPI2241上的性能比较。
表5。BGFE与其他方法在数据集RPI1807和RPI2241上的性能比较。
RPI1807型准确性敏感精密度
BGFE公司0.96000.93440.9117
RPI-预测0.93000.94000.9400
RPI2241型准确性敏感精密度
BGFE公司0.91300.87720.8590
RPI预测0.84000.78000.8800
Usha K Muppirala公司0.89600.90000.8900
王颖(音)0.74000.91600.6990
表6。ncRNA-蛋白质相互作用数据集的详细信息。
表6。ncRNA蛋白质相互作用数据集的详细信息。
数据集交互对蛋白质数量RNA数量
RPI488型124325247
RPI1807型1180718071078
RPI2241型122412043332
1RPI488是基于结构复合物的lncRNA-蛋白质相互作用,RPI2241和RPI1807是RNA-蛋白相互作用。

分享和引用

MDPI和ACS样式

詹,Z.-H。;贾,L.-N。;周,Y。;李,L.-P。;Yi,H.-C。BGFE:基于改进序列信息的ncRNA-蛋白质相互作用预测的深度学习模型。国际分子科学杂志。 2019,20, 978.https://doi.org/10.3390/ijms20040978

AMA风格

詹志华、贾琳娜、周毅、李丽萍、易海川。BGFE:基于改进序列信息的ncRNA-蛋白质相互作用预测的深度学习模型。国际分子科学杂志. 2019; 20(4):978.https://doi.org/10.3390/ijms20040978

芝加哥/图拉宾风格

詹、赵慧、李娜佳、周勇、李萍和易海成。2019.“BGFE:基于改进序列信息的ncRNA-蛋白相互作用预测的深度学习模型”国际分子科学杂志20,编号4:978。https://doi.org/10.3390/ijms20040978

请注意,从2016年第一期开始,该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章指标

返回页首顶部