×

通过Kullback-Leibler发散将PSSM的不同模式并入Chou的一般PseAAC中,以识别革兰氏阴性细菌分泌的蛋白类型。 (英语) Zbl 1406.92196号

摘要:革兰氏阴性细菌分泌的蛋白质通过使细菌与环境相互作用,对细菌的致病至关重要。因此,细菌分泌蛋白的鉴定成为研究各种疾病和相应药物的重要过程。本文通过融合基于PSSM的自交叉相关分析的特征提取和基于Kullback-Leibler散度的非负矩阵分解算法的降维,开发了一个名为ACCP-KL-NMF的特征设计模型。因此,在训练集上构造了一个150维的特征向量。然后采用支持向量机作为分类器,并选择最客观的折刀试验来评估准确性。ACCP-KL-NMF模型在测试集上获得了令人满意的总体精度性能,并且优于其他三个现有模型。数值实验结果表明,我们的模型对革兰氏阴性细菌分泌蛋白类型的识别是有效和可靠的。此外,预计该模型在未来的研究中可能对其他生物序列有益。

MSC公司:

92C40型 生物化学、分子生物学
92D20型 蛋白质序列,DNA序列
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ahmad,K。;Waris,M。;Hayat,M.,通过将二肽成分纳入Chou的一般伪氨基酸成分预测蛋白质亚线粒体位置,J.Membr。生物学,249293-304(2016)
[2] Altschul,S.F。;Madden,T.L。;Schäffer,A.A.,Gapped BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序,核酸研究,25,3389-3402(1997)
[3] Bendtsen,J.D。;基默,L。;Fausboll,A.,细菌中的非经典蛋白质分泌,BMC微生物。,5, 58-70 (2005)
[4] 拦截器,A。;Komoriya,K。;Aizawa,S.,III型分泌系统和细菌鞭毛:从结构相似性看其功能,Proc。国家。阿卡德。科学。美国,1003027-3030(2003)
[5] Boeckmann,B。;Bairoch,A。;Apweiler,R.,瑞士普罗特蛋白质知识库及其增补剂TrEMBL,2003年,核酸研究,31,365-370(2003)
[6] Bu,W.S。;冯,Z.P。;Zhang,Z.,基于氨基酸指数的蛋白质(结构域)结构类预测,《欧洲生物化学杂志》。,266, 1043-1049 (1999)
[7] 巴特纳,D。;Bonas,U.,《动植物病原菌的常见感染策略》,Curr。操作。植物生物学。,6, 312-319 (2003)
[8] Chang,C.C.,Lin,C.J.,2001年。LIBSVM:支持向量机库。;Chang,C.C.,Lin,C.J.,2001年。LIBSVM:支持向量机库。
[9] 陈,C。;陈立新。;邹晓勇,基于多特征融合的蛋白质结构类预测,J.Theor。《生物学》,253388-392(2008)·Zbl 1398.92196号
[10] 陈,J。;Xu,H.M。;He,P.A.,一种同时预测两种不同类型细菌蛋白质亚细胞位置的多重信息融合方法,生物系统,139,37-45(2016)
[11] Chen,W。;冯,P.M。;Lin,H.,iRSpot-PseDNC:用伪二核苷酸成分识别重组点,《核酸研究》,41,e68(2013)
[12] Chen,W。;冯,P.M。;Yang,H.,iRNA-AI:识别RNA序列中腺苷到肌苷的编辑位点,Oncotarget,84208-4217(2017)
[13] Chen,W。;Lei,T.Y。;Jin,D.C.,PseKNC:生成伪k元组核苷酸组成的灵活网络服务器,Ana。生物化学。,456, 53-60 (2014)
[14] Chen,W。;林,H。;Chou,K.C.,《伪核苷酸组成或PseKNC:分析基因组序列的有效配方》,Mol.Biosyst。,11, 2620-2634 (2015)
[15] Cheng,X。;Xiao,X。;Chou,K.C.,pLoc-mGneg:通过通用PseAAC的深层基因本体学习预测革兰氏阴性细菌蛋白质的亚细胞定位,基因组学(2017)
[16] Cheng,X。;Xiao,X。;Chou,K.C.,pLoc-mPlant:通过将最佳GO信息纳入通用pseAAC,Mol.Biosyst.,预测多位置植物蛋白的亚细胞定位。,13, 1722-1727 (2017)
[17] Cheng,X。;Xiao,X。;Chou,K.C.,pLoc-mVirus:通过将最佳GO信息合并到通用pseAAC中来预测多位置病毒蛋白的亚细胞定位,Gene,628,315-321(2017)
[18] Cheng,X。;Xiao,X。;Chou,K.C.,pLoc-mEuk:通过将关键GO信息提取到通用PseAAC中来预测多标签真核蛋白的亚细胞定位,基因组学,110,50-58(2018)
[20] Cheng,X。;Zhao,S.G。;Lin,W.Z.,pLoc-mAnimal:预测动物蛋白质的亚细胞定位,生物信息学,33,3524-3531(2017)
[21] Cheng,X。;Zhao,S.G。;Xiao,X.,iATC-mHyb:一种用于预测解剖治疗化学物质分类的混合多标签分类器,Oncotarget,8,58494-58503(2017)
[22] Cheng,X。;Zhao,S.G。;Xiao,X.,iATC mISF:一种用于预测解剖治疗化学物质类别的多标签分类器,生物信息学,33134-346(2017)
[23] de Chial,M。;盖泽尔,B。;Beatson,S.A.,《铜绿假单胞菌II型和III型pyoverdine受体的鉴定》,微生物学,149821-831(2003)
[24] Chou,K.C.,使用伪氨基酸组成预测蛋白质细胞属性,蛋白质:结构,功能。生物信息。,43, 246-255 (2001)
[25] Chou,K.C.,使用两亲性伪氨基酸组成预测酶亚科类别,生物信息学,21,10-19(2005)
[26] Chou,K.C.,关于蛋白质属性预测和伪氨基酸组成的一些评论(50周年回顾),J.Theor。生物学,273236-247(2011)·Zbl 1405.92212号
[27] Chou,K.C.,《关于预测分子生物系统中多标签属性的一些评论》,Mol.Biosyst。,9, 1092-1100 (2013)
[28] Chou,K.C.,生物信息学对药物化学的影响,医学化学。,11, 218-234 (2015)
[29] 周,K.C.,《生物科学进步推动的药物化学史上前所未有的革命》,Curr。顶部。医药化学。,17, 2337-2358 (2017)
[30] Chou,K.C。;沈海斌,《综述:蛋白质亚细胞定位预测的最新进展》,《分析》。生物化学。,370, 1-16 (2007)
[31] Dehzangi,A。;Heffernan,R。;Sharma,A.,通过将基于进化的描述符纳入Chou的通用pseAAC,J.Theor,对革兰氏阳性和革兰氏阴性蛋白质进行亚细胞定位。《生物学》,364,284-294(2015)·Zbl 1405.92092号
[32] Desvaux,M。;Hebraud,M。;Talon,R.,《细菌蛋白质的分泌和亚细胞定位:语义意识问题》,《微生物趋势》。,17, 139-145 (2009)
[33] 丁世勇。;Zhang,S.L.,一种基于PSI-BLAST谱的革兰氏阴性细菌分泌蛋白类型预测方法,BioMed。Res.Int.,3206741,1-5(2016)
[34] Dou,Y.C。;姚,B。;Zhang,C.,PhosphoSVM:通过将各种蛋白质序列属性与支持向量机结合来预测磷酸化位点,《氨基酸》,46,1459-1469(2014)
[35] Fan,G.L。;Li,Q.Z.,通过将伪平均化学位移纳入周氏伪氨基酸组成的一般形式,预测分枝杆菌蛋白质的亚细胞位置,J.Theor。生物,304,88-95(2012)·Zbl 1397.92186号
[36] 冯·P。;丁,H。;Yang,H.,iRNA-PseColl:通过将核苷酸的集体效应纳入PseKNC,Mol.Ther,识别不同RNA修饰的发生位点。核酸,7155-163(2017)
[37] 黄,C。;Yuan,J.Q.,利用周氏伪氨基酸组成的一般形式的径向基函数和PSSM预测单位点和多位点蛋白质的亚细胞位置,生物系统,113,50-57(2013)
[38] 贾,J。;刘,Z。;Xiao,X.,iCar-PseCp:通过蒙特卡罗采样确定蛋白质中的羰基化位点,并将序列耦合效应纳入一般PseAAC,Oncotarget,734558-34570(2016)
[39] 贾建华。;刘,Z。;Xiao,X.,iPPI-Esml:一种集成分类器,用于通过将蛋白质的物理化学性质和小波变换合并到PseAAC,J Theor中来识别蛋白质的相互作用。《生物学》,377,47-56(2015)
[40] 川岛,S。;Kanehisa,M.,Aaindex:氨基酸指数数据库,《核酸研究》,28(2000)
[41] 康克尔,M.E。;Kim,B.J。;Rivera-Mill,V.,细菌分泌蛋白是空肠弯曲菌内化为培养哺乳动物细胞所必需的,Mol.Microbiol。,32, 691-701 (1999)
[42] Lee,D.D。;Seung,H.S.,通过非负矩阵分解学习对象的各个部分,《自然》,401,788-791(1999)·兹比尔1369.68285
[43] Lee,D.D。;Seung,H.S.,非负矩阵分解算法,神经信息处理系统进展,556-562(2001),麻省理工学院出版社
[44] Lee,V.T。;Schneewind,O.,《综述:蛋白质分泌和细菌感染的发病机制》,《基因开发》,第15期,第1725-1752页(2001年)
[45] Li,S.L。;李,H。;Li,M.F.,通过支持向量机改进赖氨酸乙酰化预测,蛋白质肽Lett,16977-983(2009)
[46] 刘,B。;方,L。;Liu,F.,用伪结构状态组成方法识别真实的microRNA前体,PLoS ONE,10,e0121501(2015)
[47] 刘,B。;方,L。;Long,R.,IEnhancer-2L:通过伪k元组核苷酸组成识别增强子及其强度的双层预测因子,生物信息学,32,362-369(2016)
[48] 刘,B。;Fang,L.Y。;Liu,F.,用伪结构状态组成方法识别真实的microRNA前体,PLoS ONE,10,e0121501(2015)
[49] 刘,B。;刘,F。;Wang,X.,《Pse-in-One:生成DNA、RNA和蛋白质序列的各种伪成分模式的网络服务器》,《核酸研究》,43,W65-W71(2015)
[50] 刘,B。;朗·R。;Chou,K.C.,iDHS-EL:通过将三种不同模式的伪核苷酸组成融合到集成学习框架中来识别DNase I超敏位点,生物信息学,32,2411-2418(2016)
[51] 刘,B。;王,S.Y。;Long,R.,iRSpot-EL:用集成学习方法识别重组点,生物信息学,33,35-41(2017)
[52] 刘,B。;Wu,H。;Chou,K.C.,《Pse-in-One 2.0:一个改进的网络服务器包,用于生成DNA、RNA和蛋白质序列的各种伪成分模式》,《自然科学》。,9, 67-91 (2017)
[53] 刘,B。;杨,F。;Chou,K.C.,2L-piRNA:用于识别piwi相互作用RNA及其功能的双层集成分类器,Mol.Ther。核酸,7,267-277(2017)
[54] 刘,B。;杨,F。;Huang,D.S.,iPromoter-2L:通过基于多窗口的PseKNC识别启动子及其类型的双层预测因子,生物信息学,34,33-40(2018)
[55] Liu,L.M。;Xu,Y。;Chou,K.C.,iPGK-PseAAC:通过将四个不同层次的氨基酸配对偶联信息合并到通用PseAAC,Med.Chem。,13, 552-559 (2017)
[56] 刘,Z。;Xiao,X。;Yu,D.J.,pRNAm-PC:通过物理化学性质预测RNA序列中的n6-甲基腺苷位点,《分析》。生物化学。,497, 60-67 (2016)
[57] Meher,P.K。;Sahu,T.K。;Saini,V.,通过将组成、物理化学和结构特征结合到Chou的一般PseAAC,Sci中,以提高的准确性预测抗菌肽。代表742362(2017)
[58] 梅,J。;赵,J.,利用周氏伪氨基酸组成和不同分类器预测HIV-1和HIV-2蛋白,科学。代表,82359(2018)
[59] Mudrak,B。;Kuehn,M.J.,产肠毒素大肠杆菌和霍乱弧菌II型分泌系统对不耐热肠毒素和霍乱毒素的特异性,细菌学杂志。,192, 1902-1911 (2010)
[60] 牛,S。;胡丽莲。;Zheng,L.L.,用特征选择和分析方法预测蛋白质氧化位点,J.Biomol。结构。动态。,2650-658页(2012年)
[61] Omori,K。;Idei,A.,革兰氏阴性细菌atp-结合盒蛋白出口商家族和多种分泌蛋白,J.Biosci。生物工程。,95, 1-12 (2003)
[62] 普鲁特,K.D。;Tatusova,T。;Klimke,W.,《NCBI参考序列:现状、政策和新举措》,《核酸研究》,37,32-36(2009)
[63] Pundhir,S。;Kumar,A.,SSPred:基于SVM的预测服务器,用于识别和分类细菌分泌系统中涉及的蛋白质,生物信息,6380-382(2011)
[64] 邱伟荣。;姜世勇(Jiang,S.Y.)。;Xu,Z.C.,iRNAm5c-pseDNC:通过将物理化学性质纳入伪二核苷酸组成来识别RNA 5-甲基胞嘧啶位点,Oncotarget,8,41178-41188(2017)
[65] 邱伟荣。;孙碧琴。;Xiao,X.,iPTM-mLys:识别多个赖氨酸PTM位点及其不同类型,生物信息学,32,3116-3123(2016)
[66] 邱伟荣。;孙碧琴。;Xiao,X.,iKcr-PseEns:使用伪组分和集成分类器识别组蛋白中的赖氨酸-巴豆酰化位点,基因组学(2017)
[67] 邱伟荣。;孙碧琴。;Xiao,X.,iPhos-PseEvo:通过灰色系统理论将进化信息整合到一般pseAAC中来识别人类磷酸化蛋白质,Mol.Inform。,36 (2017)
[68] Shen,H.B.,《革兰氏阴性细菌蛋白质亚细胞位置的大规模预测》,《蛋白质组研究杂志》,53420-3428(2006)
[69] Shen,H.B.,开发用于预测蛋白质属性的网络服务器的最新进展,国家科学院。,1, 63-92 (2009)
[70] Shen,H.B.,Gneg-mPLoc:一种自上而下的策略,用于提高预测革兰氏阴性细菌蛋白质亚细胞定位的质量,J.Theor。生物学,264326-333(2010)·兹比尔1406.92211
[71] 宋,J。;李,F。;Takemoto,K.,《利用机器学习框架中的序列、结构和网络特征推断催化残基的综合方法》,J.Theor。生物学,443125-137(2018)·Zbl 06898995号
[72] 宋,J。;Wang,Y。;Li,F.,iProt-Sub:准确绘制和预测蛋白酶特异性底物和裂解位点的综合软件包,简介。生物信息(2018)
[73] 苏,Q。;卢·W。;Du,D.,通过支持向量回归预测芳香化合物对梨形四膜虫的水生毒性,Oncotarget,849359-49369(2017)
[74] UniProt联盟,《通用蛋白质资源》(UniProt),核酸研究,36,190-195(2008)
[75] Vapnik,V.,《统计学习理论》(1998),威利出版社:威利纽约·兹比尔0935.62007
[76] Wang,J。;杨,B。;Revote,J.,POSSUM:基于PSSM轮廓生成数字序列特征描述符的生物信息学工具包,生物信息学,33,2756-2758(2017)
[77] Wang,J.R。;王,C。;Cao,J.J.,使用简化PSSM和基于位置的二级结构特征预测低相似性序列的蛋白质结构类别,Gene,554,241-248(2015)
[78] Xiao,X。;Cheng,X。;Su,S.,pLoc-mGpos:将关键基因本体信息合并到通用PseAAC中,以预测革兰氏阳性细菌蛋白质的亚细胞定位,自然科学。,9, 331-349 (2017)
[79] Xiao,X。;吴振聪。;Chou,K.C.,一种用于预测单位点和多位点革兰氏阴性细菌蛋白亚细胞定位的多标记分类器,PLoS ONE,6,e20592(2011)
[80] Xu,Y。;邵晓杰。;Wu,L.Y.,iSNO-AAPAR:将氨基酸成对偶联到PseAAC中以预测蛋白质中半胱氨酸s-亚硝基化位点,PeerJ.,1,e171(2013)
[81] Xu,Y。;王,Z。;Li,C.,iPreny-PseAAC:通过将两层序列偶联纳入PseAAC,Med.Chem。,13, 544-551 (2017)
[82] Yang,J.Y。;Chen,X.,利用全局和局部特征改进基于分类学的蛋白质折叠识别,《蛋白质》,79,2053-2064(2011)
[83] Yao,Y.H。;石振新。;Dai,Q.,基于位置特异性评分矩阵的细胞凋亡蛋白亚细胞位置预测,J.Comput。西奥。纳米科学。,11, 2073-2078 (2014)
[84] Yu,L.Z。;郭义忠。;Zhang,Z.,SecretP:预测哺乳动物分泌蛋白质的新方法,肽,31574-578(2010)
[85] Yu,L.Z。;Luo,J.S。;郭义忠,从一级序列鉴定革兰氏阴性细菌分泌蛋白的电子版,计算机。生物医学,43,1177-1181(2013)
[86] Zhang,S.L。;Duan,X.,用过采样方法预测蛋白质亚细胞定位和Chou的通用PseAAC,J.Theor。生物学,437,239-250(2018)·Zbl 1394.92047号
[87] Zhang,Y.N。;Yu,D.J。;Li,S.S.,通过融合多视图特征的双文件采样从一级序列预测蛋白-ATP结合位点,BMC Bioinf。,13, 1-11 (2012)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。