×

基于稀疏自动编码器特征提取和集成分类器的适配体-蛋白质相互作用对预测。 (英语) Zbl 1425.92078号

摘要:Aptamer-protein相互作用对在生理功能和结构表征中起着重要作用。尽管适配体有着巨大的应用,但识别适配体-蛋白质相互作用对是一项挑战,也是有限的。因此,构建一个高预测性能的模型来识别适配体-靶相互作用对至关重要。在本研究中,提出了一种新的集成方法,通过整合适配体和靶蛋白的序列特征来预测适配体-蛋白质相互作用对。适配体的特征是氨基酸和伪K元组核苷酸的组成。此外,使用稀疏的自动编码器来表征目标蛋白序列的特征。为了去除冗余特征,使用梯度增强决策树(GBDT)和增量特征选择(IFS)方法获得序列特征的最佳组合。基于616个选定的特征,使用三个子支持向量机(SVM)分类器集成来构建我们的预测模型。在独立数据集上进行评估,我们的预测值的准确度为75.7%,Matthew相关系数为0.478,Youden指数为0.538,优于其他现有预测值。结果表明,我们的模型可以用于区分新的适配体-蛋白质相互作用对,并揭示适配体与蛋白质之间的相互关系。

MSC公司:

92C40型 生物化学、分子生物学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] T.Wang,适体的功能和动力学:孔雀石绿适体的案例研究。论文和论文-毕业论文(博士论文),爱荷华州立大学,2008年。ProQuest/UMI接入号码:AAT 3342297。;王涛,适配体的功能和动力学:孔雀石绿适配体个案研究。论文和论文-毕业论文(博士论文),爱荷华州立大学,2008年。ProQuest/UMI访问号码:AAT 3342297。
[2] 基夫,A.D。;Pai,S。;Ellington,A.,《作为治疗学的Aptamers》,《Nat.Rev.Drug Discov.》。,9, 7, 537-550 (2010)
[3] Sefah,K.,使用Cell SELEX的DNA适体的开发,Nat.Protoc。,5, 6, 1169-1185 (2010)
[4] 斯托尔滕堡,R。;Reinemann,C。;Strehlitz,B.,SELEX-A(r)生成高亲和力核酸配体的进化方法,Biomol。工程,24,4,381-403(2007)
[5] 杜邦,D.M.,《针对蛋白酶的核酸适配体》,Curr。医药化学。,18, 27, 4139-4151 (2011)
[6] 考克斯,J.C。;Ellington,A.D.,《自动选择抗蛋白适配体》,生物组织医药化学。,9, 10, 2525 (2001)
[7] Li,B.Q.,预测适配体-靶点与伪氨基酸组成的相互作用对,PLoS One,9,1,e86729(2014)
[8] Zhang,L.,使用集成分类器结合各种蛋白质序列属性预测适配体-蛋白质相互作用对,BMC Bioninform。,17, 1, 225 (2016)
[9] Yan,Y.,使用激光雷达DSM和光学图像,基于结构和训练样本的优化堆叠稀疏自动编码器的建筑物提取,Sensors,17,9,1957(2017)
[10] Zhang,Y。;Peng,H.,使用深度自动编码器重建每个人脸识别样本,IET Comput。愿景,11,6,471-478(2017)
[11] Lai,Y.H.,一种深度去噪自动编码器方法,用于提高耳蜗植入模拟中声音编码语音的可懂度,IEEE Trans。生物识别。工程,99,1(2017)
[12] Wang,L.,使用堆叠自动编码器深度神经网络预测药物-靶点相互作用的基于计算的方法,J.Compute。生物学,25,3(2017)
[13] Wang,Y.B.,通过堆叠稀疏自动编码器深度神经网络从蛋白质序列预测蛋白质相互作用,分子生物学。,13, 7, 1336 (2017)
[14] Liao,Z.,使用基于机器学习的新型SVM和GBDT方法对γ-氨基丁酸a型受体进行电子预测,BioMed Res.Int.,2016,6,1-12(2016),(2016-8-8),2016
[15] 塔希尔,M。;Hayat,M.,iNuc-STNC:通过扩展SAAC和Chou的PseAAC的概念来识别基因组中核小体定位的基于序列的预测因子,Mol.Biosyst。,12, 8, 2587 (2016)
[16] Guo,S.H.,iNuc-PseKNC:利用伪k元组核苷酸组成预测基因组中核小体定位的基于序列的预测因子,生物信息学,30,11,1522(2014)
[17] Lin,H.,iPro54 PseKNC:一种基于序列的预测因子,用于鉴定具有伪k元组核苷酸组成的原核生物中的sigma-54启动子,核酸研究,42,21,72-12961(2014)
[18] Jia,J.H.,pSuc-Lys:利用PseAAC和集合随机森林方法预测蛋白质中的赖氨酸琥珀酰化位点,J.Theor。生物学,394223-230(2016)·Zbl 1343.92153号
[19] 贾,C。;Zuo,Y.,S-SulfPred:基于重采样单侧选择欠采样-合成少数族裔过采样技术捕获S-磺酰化位点的敏感预测因子,J.Theor。生物学,42284-89(2017)
[20] Friedman,J.H.,《贪婪函数近似:梯度提升机》,《Ann.Stat.》,29,5,1189-1232(2001)·Zbl 1043.62034号
[21] Sakhnovich,A.,关于Backlund-Darboux变换的GBDT版本及其在线性和非线性方程和Weyl理论中的应用,数学。模型。自然现象。,5, 4, 340-389 (2010) ·Zbl 1200.37070号
[22] Yang,R.,《一种具有杂交特征的识别细胞外基质蛋白的集成方法》,PLoS One,10,2,Article e0117804 pp.(2015)
[23] Cao,R.,改善蛋白质三级结构预测的大尺度模型质量评估,生物信息学,31,12,116-123(2015)
[24] Zou,Q.,miRClassify:一个用于miRNA家族分类和注释的高级网络服务器,Comput。生物医学,45,157-160(2014)
[25] 刘,B。;Wu,H。;Chou,K.C.,《Pse-in-One 2.0:一个改进的网络服务器包,用于生成DNA、RNA和蛋白质序列的各种伪成分模式》,《自然科学》。,09, 4, 67-91 (2017)
[26] Chen,K.,《生物医学应用中微RNA家族的分级鉴定》,J.Computat。西奥。纳米科学。,11, 3, 883-887 (2014)
[27] Liu,B.,将从频率剖面提取的进化信息与基于序列的内核相结合,用于蛋白质远程同源性检测,生物信息学,30,4,472-479(2014)
[28] Liu,B.,《Pse-in-One:生成DNA、RNA和蛋白质序列各种模式伪成分的网络服务器》,《核酸研究》,第43期,网络服务器期刊,W65-W71(2015)
[29] 魏磊,利用深度学习预测人类蛋白质亚细胞定位,J.并行分布计算。,117, 212-217 (2018)
[30] Song,T.,带彩色尖峰的尖峰神经P系统,IEEE Trans。认知。开发系统。,10, 4, 1106-1115 (2018)
[31] Cabarle,F.G.C.,具有预定突触的Spiking neural P systems,IEEE Trans。纳米生物学。,16, 8, 792-801 (2017)
[32] Cabarle,F.G.C.,《用结构可塑性对神经P系统进行加标生成的字符串语言》,IEEE Trans。纳米生物学。,17, 4, 560-566 (2018)
[33] Cao,R.,DeepQA:用深度信念网络改进单蛋白模型质量的估计,BMC Bioninform。,17, 1, 495 (2016)
[34] Chen,K。;Kurgan,L.,PFRES:使用进化信息和预测的二级结构进行蛋白质折叠分类,生物信息学,23,21,2843(2007)
[35] Cao,R.,QAcon:利用蛋白质结构和接触信息与机器学习技术进行单模型质量评估,生物信息学,33,4,586(2016)
[36] Cao,R.,ProLanGO:基于递归神经网络的神经机器翻译蛋白质功能预测,《分子》,22,10,1732(2017)
[37] Jia,C.,使用双profile Bayes特征提取预测疟疾寄生虫的线粒体蛋白质,Biochimie,93,4,778(2011)
[38] 贾成泽。;刘,T。;Wang,Z.P.,O-GlcNAcPRED:捕获蛋白质O-GlcNA酰化位点的敏感预测因子,Mol.Biosyst。,9, 11, 2909 (2013)
[39] Zeng,X.,《循环RNA检测工具的综合概述和评估》,PLoS Compute。生物学,13,6,文章e1005420 pp.(2017)
[40] 曾,X。;张,X。;邹强,《利用生物相互作用网络预测microRNA功能和确定疾病相关microRNA优先级的综合方法》,简介。生物信息。,17, 2, 193-203 (2016)
[41] Khan,M.,Bi-PSSM:基于位置特异性评分矩阵的分枝杆菌膜蛋白鉴定智能计算模型,J.Theor。生物学,435116(2017)·兹比尔1394.92002
[42] Cao,R.,SMOQ:使用支持向量机预测单个蛋白质模型的绝对残余特异性质量的工具,BMC Bioninform。,15, 1, 1-8 (2014)
[43] Zhang,X.,确定候选疾病miRNAs优先级的Meta-path方法,IEEE/ACM Trans。计算。生物信息学。(2018)
[44] Zeng,X.,使用HeteSim评分预测和验证疾病基因,IEEE/ACM Trans。计算。生物信息学。,14, 3, 687-695 (2017)
[45] Zeng,X.,预测基因-疾病关联的基于概率的协同过滤模型,BMC医学遗传学。,10, 5, 76 (2017)
[46] Chang,C.C。;Lin,C.J.,LIBSVM:支持向量机库,1-27(2011),ACM
[47] 刘,B。;朗·R。;Chou,K.C.,iDHS-EL:通过将三种不同模式的伪核苷酸组成融合到集成学习框架中来识别DNase I超敏位点,生物信息学,32,16,2411-2418(2016)
[48] Jia,J.,iPPBS-Opt:一种基于序列的集成分类器,用于通过优化不平衡训练数据集来识别蛋白质结合位点,Molecules,21,1,E95(2016)
[49] 邱,W.R.,iPhos-PseEn:通过将不同的伪成分融合到集成分类器中来识别蛋白质中的磷酸化位点,Oncotarget,7,32,51270-51283(2016)
[50] Chen,W。;邢,P。;Zou,Q.,使用集成支持向量机检测RNA转录体中的N6-甲基腺苷位点,科学。代表,740242(2017)
[51] Wan,S。;段,Y。;Zou,Q.,HPSLPred:一种用于不平衡来源人类蛋白质亚细胞定位预测的集成多标签分类器,蛋白质组学,17,第1700262页,(2017)
[52] Lin,C.,LibD3C:具有聚类和动态选择策略的集成分类器,神经计算,123,424-435(2014)
[53] Chou,K.C。;沈海斌,蛋白质亚细胞定位预测的最新进展,分析。生物化学。,370, 1, 1-16 (2007)
[54] Zou,Q.,《一种新的特征排名指标及其在可扩展视觉和生物信息学数据分类中的应用》,神经计算,173,346-354(2016)
[55] Wang,H。;Liu,C.Y。;邓,L.,使用极限梯度增强增强预测蛋白质-蛋白质界面热点,科学。代表8(2018年)
[56] Xu,L.,SeqSVM:一种基于序列的支持向量机方法,用于识别抗氧化蛋白质,国际分子科学杂志。,19, 6 (2018)
[57] Zou,Q.,Pretata:预测具有新特征和降维策略的TATA结合蛋白,BMC系统。生物,10,4,114(2016)
[58] Rish,I.,朴素贝叶斯分类器的实证研究,J.Univers。计算。科学。,1, 2, 127 (2001)
[59] Cai,Y.D。;Chou,K.C.,预测杂交空间中蛋白质的亚细胞定位,生物信息学,20,7,1151-1156(2004)
[60] Wei,L。;陈,H。;Su,R.,M6APred EL:一种使用集成学习识别N6甲基腺苷位点的基于序列的预测因子,Mol.Ther-核酸,12635-644(2018)
[61] Wei,L.,使用新的阴性样本、特征和集成分类器Artif改进蛋白质-蛋白质相互作用的预测。智力。医学,83,67-74(2017)
[62] Wei,L.,一种具有生物信息学应用的新型分层选择性集成分类器,Artif。智力。医学,83,82-90(2017)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。