×

利用混合特征空间识别细胞外基质蛋白的机器学习方法。 (英语) 兹比尔1343.92007

摘要:细胞外基质(ECM)蛋白是由常驻细胞分泌的重要蛋白质类型。ECM蛋白具有多种重要功能,包括粘附、分化、细胞迁移和增殖。此外,ECM蛋白调节血管生成过程、胚胎发育、肿瘤生长和基因表达。由于ECM蛋白的巨大生物学意义和数据库中蛋白质序列的快速增加,引入一种新的高通量计算模型来准确识别ECM蛋白是必不可少的。各种传统模型已经开发出来,但它们既费力又繁琐。在这项工作中,提出了一个有效且高通量的计算分类模型,用于ECM蛋白质的识别。在这个模型中,蛋白质序列是使用氨基酸组成、伪氨基酸组成(PseAAC)和双肽组成(DPC)技术制定的。进一步,融合各种特征提取技术的组合,形成混合特征空间。使用了几个分类器。在这些分类器中,K-Nearest Neighbor结合PseAAC和DPC的混合特征空间取得了优异的性能。我们提出的模型获得的准确度为96.76%,这是迄今为止文献报道的最高成功率。

MSC公司:

92B15号机组 普通生物统计学
62页第10页 统计学在生物学和医学中的应用;元分析
92C40型 生物化学、分子生物学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Ahmad,K。;Waris,M。;Hayat,M.,通过将二肽成分纳入Chou的一般伪氨基酸成分预测蛋白质亚线粒体位置,J Membr。生物学(2016)
[2] 阿克巴,S。;海亚特,M。;Ahmad,A.,《结合支持向量机使用离散小波变换识别指纹》,IJCSI Int.J.Compute。科学。,11, 189-199 (2014)
[3] 阿库斯,A。;Guvenir,H.A.,K关于特征投影的最近邻分类,Proc。ICML,96,12-19(1995)
[4] 阿里,F。;Hayat,M.,使用投票特征区间结合Chou的伪氨基酸组成对膜蛋白类型进行分类,J.Theor。生物学,384,78-83(2015)·Zbl 1343.92006年
[5] Anitha,J。;Rejimoan,R。;Sivakumar,K.C。;Sathish,M.,使用SVMhmm分类器预测细胞外基质蛋白,IJCA Spec.发行高级计算机。Commun公司。Technol公司。HPC应用。,1, 7-11 (2012)
[6] 巴辛,M。;Raghava,G.,ESLpred:基于SVM的真核蛋白质亚细胞定位方法,使用二肽组成和PSI-BLAST,核酸研究,32,W414-W419(2004)
[8] Breiman,L.,《随机森林》,马赫。学习。,45, 5-32 (2001) ·Zbl 1007.68152号
[9] Cai,Y.D.,一种通过结合基因本体论预测蛋白质亚细胞定位的新混合方法,Biochem。生物物理学。Res.Commun.公司。,311, 743-747 (2003)
[10] Cai,Y.D。;周国平。;Chou,K.C.,通过使用功能域组成预测膜蛋白类型的支持向量机,Biophys。J.,84,3257-3263(2003)
[11] 曹,D.-S。;徐Q-S。;Liang,Y.-Z.,propy:生成周氏PseAAC各种模式的工具,生物信息学,29960-962(2013)
[12] Chan,J.F。;Lau,S.K。;收件人:K.K。;Cheng,V.C。;吴,P.C。;Yuen,K.-Y.,《中东呼吸综合征冠状病毒:另一种引起SARS样疾病的人畜共患β冠状病毒》,临床。微生物。版次:28465-522(2015)
[13] 陈,C。;Chen,L。;邹,X。;Cai,P.,利用周氏伪氨基酸组成概念和支持向量机预测蛋白质二级结构含量,protein Pept。莱特。,2009年7月16日至31日
[14] Chen,Y.L.,利用改进的杂交方法和伪氨基酸组成预测凋亡蛋白的亚细胞定位,J.Theor。《生物学》,248,2377-381(2007)·Zbl 1451.92113号
[15] Chou,K.-C.,利用伪氨基酸组成预测蛋白质细胞属性,蛋白质:结构。功能。生物信息。,43, 246-255 (2001)
[16] Chou,K.-C.,关于蛋白质属性预测和伪氨基酸组成的一些评论,J.Theor。生物学,273236-247(2011)·Zbl 1405.92212号
[17] 周,K.-C。;Zhang,C.-T.,蛋白质结构类预测,生物化学评论。分子生物学。,30, 275-349 (1995)
[18] 周,K.-C。;Cai,Y.-D.,通过结合两亲效应预测膜蛋白类型,《化学杂志》。信息模型。,45, 407-413 (2005)
[21] Di-Lullo,G.A。;斯威尼,S.M。;Korkko,J。;Ala-Kokko,L。;Antonio,J.D.S.,《绘制人类I型胶原蛋白中最丰富蛋白质的配体结合位点和疾病相关突变》,J.Biol。化学。,277, 4223-4231 (2002)
[22] 杜,P。;顾S。;Jiao,Y.,PseAAC-General:为大规模蛋白质数据集快速构建Chou伪氨基酸组成的各种通用形式模式,国际分子科学杂志。,15, 3495-3506 (2014)
[23] 杜,P。;王,X。;徐,C。;Gao,Y.,PseAAC-Builder:一个跨平台的独立程序,用于生成各种特殊的Chou伪氨基酸成分,Ana。生物化学。,425, 117-119 (2012)
[24] 杜达,R.O。;哈特,体育。;Stork,D.G.,《模式分类》(2012),John Wiley&Sons:John Willey&Sons California
[25] 弗伦德,Y。;Schapire,R.E.,《在线学习的决策理论推广及其在助推中的应用》,J.Compute。系统。科学。,55, 119-139 (1997) ·Zbl 0880.68103号
[26] Gnanasivam,P。;Muttan,S.,《利用小波变换和奇异值分解进行指纹性别分类》,国际计算机杂志。科学。问题,99-104(2012)
[27] Guo,S.-H。;邓永中。;徐立清。;丁·H。;Lin,H。;Chen,W。;Chou,K.-C.,iNuc-PseKNC:一种基于序列的预测因子,用于预测具有伪K元组核苷酸组成的基因组中的核小体定位,生物信息学(2014),btu083
[28] 古普塔,S。;安萨里,H.R。;乔塔姆,A。;Raghava,G.,用于诱导特定类别抗体的抗原中B细胞表位的鉴定,生物学。直接,8,27(2013)
[29] Gurvan,M。;Tonon,T。;蝎子,D。;马克·J。;Kloareg,B.,褐藻Ectocarpus siliculosus的细胞壁多糖代谢。对真核生物胞外基质多糖进化的见解,新植物学。,188, 82-97 (2010)
[30] 盖恩,I。;韦斯顿,J。;巴恩希尔,S。;Vapnik,V.,使用支持向量机进行癌症分类的基因选择,Mach。学习。,46, 389-422 (2002) ·Zbl 0998.68111号
[31] 海亚特,M。;Khan,A.,通过将复合蛋白序列特征融合到伪氨基酸组成中来预测膜蛋白类型,J.Theor。生物学,271,10-17(2011)·Zbl 1405.92217号
[32] 海亚特,M。;Khan,A.,使用基于二肽和伪氨基酸组成的复合特征预测膜蛋白类型,IET Commun。,6, 3257-3264 (2012)
[33] 海亚特,M。;A.Khan。;酵母素,M.,使用分裂氨基酸和集合分类预测膜蛋白,氨基酸,422447-2460(2012)
[34] Hensch,T.K.,发育视觉皮层的关键期机制,Curr。顶部。开发生物。,69, 215-237 (2005)
[35] 霍顿,P。;Nakai,K.,用it-K最近邻分类器更好地预测蛋白质细胞定位位点,ISMB,5147-152(1997)
[36] 黄,T。;牛,S。;Xu,Z。;Huang,Y.,基于杂交特性预测多位点p53突变体的转录活性,PLoS One,6,e22940(2011)
[37] 伊克巴尔,M。;Hayat,M.,“iSS-Hyb-mRMR”:利用三核苷酸组成和四核苷酸组成的杂交空间识别剪接位点,J.Compute。方法程序。生物识别。,128, 1-11 (2016)
[38] Jennings,北卡罗来纳州。;Sycara,K。;Wooldridge,M.,代理研发路线图,Auton。代理多代理系统。,1, 7-38 (1998)
[39] 贾,J。;刘,Z。;Xiao,X。;刘,B。;Chou,K.-C.,iPPI-Esml:一种集成分类器,通过将蛋白质的物理化学性质和小波变换结合到PseAAC,J.Theor中来识别蛋白质的相互作用。《生物学》,377,47-56(2015)
[40] Jung,J。;Ryu,T。;黄,Y。;Lee,E。;Lee,D.,《基于独特序列和结构域特征的细胞外基质蛋白预测》,J.Compute。生物学,17,97-105(2010)
[41] 卡比尔,M。;Hayat,M.,iRSpot-GAEnsC:通过集成分类器识别重组点,并将Chou的PseAAC的概念扩展到DNA样本Mol.Genet。基因组。(2015)
[42] 卡利塔,M.K。;英国南达。;Pattnaik,A。;西瓦林加姆,A。;拉玛萨米,G。;库马尔,M。;Raghava,G.P。;Gupta,D.,CyclinPred:一种基于SVM的预测细胞周期蛋白序列的方法,《公共科学图书馆·综合》,3(2008),e2605_1-e2605_12
[43] Kandaswamy,K.K。;Pugalenthi,G。;Kalies,K.U。;哈特曼,E。;Martinetz,T.,EcmPred:基于最大相关最小冗余特征选择的随机森林的细胞外基质蛋白预测,J.Theor。生物学,317377-383(2013)
[44] Karsenty,G。;Park,R.W.,I型胶原基因表达的调节,国际免疫学评论。,12, 177-185 (1995)
[45] 科恩,B。;沈杰。;M.星巴克。;Karsenty,G.,Cbfa1有助于I型胶原基因的成骨细胞特异性表达,J.Biol。化学。,276, 7101-7107 (2001)
[47] Kononenko,I.,《医疗诊断的机器学习:历史、现状和展望》,Artif。智力。医学,23,89-109(2001)
[48] Leslie,C.S。;Eskin,E。;科恩,A。;韦斯顿,J。;Noble,W.S.,用于区分蛋白质分类的错配字符串核,生物信息学,20467-476(2004)
[49] 李,D.Y。;布鲁克,B。;戴维斯,E.C。;Mecham,R.P.公司。;Sorensen,L.K。;Boak,B.B。;Eichwald,E。;Keating,M.T.,Elastin是动脉形态发生的重要决定因素,《自然》,393,276-280(1998)
[50] Liao,Y。;Vemuri,V.R.,使用k-最近邻分类器进行入侵检测,计算。安全。,21, 439-448 (2002)
[51] Lin,H。;丁·H。;郭富斌。;张亚勇。;黄,J.,利用周氏伪氨基酸组成预测分枝杆菌蛋白质的亚细胞定位,蛋白质Pept。莱特。,15, 739-744 (2008)
[52] Lin,H。;邓永中。;丁·H。;Chen,W。;Chou,K.-C.,iPro54-PseKNC:基于序列的预测因子,用于识别具有伪K元组核苷酸组成的原核生物中的sigma-54启动子,核酸研究,42,12961-12972(2014)
[53] 刘,B。;刘,F。;王,X。;陈,J。;方,L。;Chou,K.-C.,《Pse-in-One:生成DNA、RNA和蛋白质序列的各种伪成分模式的网络服务器》,《核酸研究》(2015),gkv458
[55] Mandle,A.K。;Jain,P。;Shrivastava,S.K.,使用支持向量机预测蛋白质结构,国际软计算杂志。,3, 67-78 (2012)
[56] Mei,S.,通过基于多标签同源知识转移学习的Chou的PseAAC公式预测植物蛋白质亚细胞多定位,J.Theor。生物学,310,80-87(2012)·Zbl 1337.92065号
[58] Mohabatkar,H。;M.、B。;A.,E.,使用周的伪氨基酸组成和支持向量机概念预测GABA(A)受体蛋白,J.Theor。生物学,281,18-23(2011)·Zbl 1397.92215号
[59] 蒙达尔,S。;巴夫纳,R。;R.巴布。;Ramakumar,S.,用于芋螺毒素超家族分类的伪氨基酸组成和多类支持向量机方法,J.Theor。生物学,243,252-260(2006)·Zbl 1447.92309号
[60] Muthukrishnan,S。;Puri,M。;Lefevre,C.,基于支持向量机(SVM)的多类预测与纤溶酶原激活物的基本统计分析,BMC Res.Notes,7,63(2014)
[61] 纳尼。;Lumini,A.,《为亚线粒体定位创建周氏伪氨基酸特征的遗传编程》,《氨基酸》,34653-660(2008)
[62] Nanni,L。;鲁米尼,A。;古普塔,D。;Garg,A.,通过融合一组基于Chou伪氨基酸组成变体和进化信息的分类器来识别细菌毒性蛋白,IEEE/ACM Trans。计算。生物信息。,9, 467-475 (2012)
[63] Peach,R.J。;Hollenbaugh,D。;斯塔门科维奇,I。;Aruffo,A.,《CD44细胞外区域中透明质酸结合位点的鉴定》,J.Cell。生物学,122,257-264(1993)
[64] 普罗旺扎诺,P.P。;Inman,D.R。;Eliceiri,K.W。;Keely,P.J.,基质密度通过FAK-ERK连锁诱导的乳腺细胞表型、信号和基因表达的机械调节,癌基因,284326-4343(2009)
[65] 曲,W。;隋,H。;Yang,B。;Qian,W.,使用多模态BP方法改进蛋白质二级结构预测,计算。生物医学,41946-959(2011)
[67] 罗森布鲁姆,J。;艾布拉姆斯,W.R。;Mecham,R.,《细胞外基质4:弹性纤维》,FASEB J.,71208-1218(1993)
[68] Sarangi,A.N。;Lohani,M。;Aggarwal,R.,通过将各种物理化学特征合并到Chou的伪氨基酸组成的一般形式中来预测原核生物中的基本蛋白质,Protein Pept。莱特。,20, 781-795 (2013)
[71] Schölkopf,B。;Sung,K.-K。;Burges,C.J。;吉罗西,F。;Niyogi,P。;Poggio,T。;Vapnik,V.,《高斯核支持向量机与径向基函数分类器的比较》,IEEE Trans。信号处理。,45, 2758-2765 (1997)
[72] 沈海波。;Chou,K.-C.,PseAAC:一个灵活的网络服务器,用于生成各种蛋白质伪氨基酸组成,Ana。生物化学。,373, 386-388 (2008)
[73] 沈,H。;Chou,K.-C.,使用优化的证据理论K最近邻分类器和伪氨基酸组成预测膜蛋白类型,《生物化学》。生物物理学。Res.Commun.公司。,334288-292(2005年)
[75] 索尼,J。;美国安萨里。;Sharma博士。;Soni,S.,《医疗诊断预测数据挖掘:心脏病预测概述》,国际计算机杂志。申请。,17, 43-48 (2011)
[76] 孙晓勇。;史,S.P。;邱建德。;索,S.B。;黄,S.Y。;Liang,R.P.,通过离散小波变换将物理化学性质纳入Chou’s PseAAC的一般形式来识别蛋白质四元结构属性,Mol.Biosyst。,8, 3178-3184 (2012)
[77] Thusberg,J。;Olatubosun,A。;Vihinen,M.,突变致病性预测方法在错义变体上的表现,Hum.突变。,32, 358-368 (2011)
[78] Van Dyk,H。;Barnard,E.,《多项式特征的朴素贝叶斯分类器:理论分析:模式识别特别版》,南非。计算。J.,40,37-43(2008)
[79] Vapnik,V.,《统计学习理论的本质》,IEEE(1995)·Zbl 0833.62008号
[80] Xiao,X。;Wang,P.,通过杂交功能域组成和伪氨基酸组成预测蛋白质四元结构属性,J.Appl。结晶器。,42, 169-173 (2009)
[81] Xiao,X。;Wang,P.,GPCR-2L:通过杂交两种不同模式的伪氨基酸组成预测G蛋白偶联受体及其类型,分子生物学。,7, 911-919 (2011)
[82] Yang,R。;张,C。;高,R。;Zhang,L.,一种具有杂交特征的识别细胞外基质蛋白的集成方法,PLoS One,10,1-21(2015)
[83] Yuan,Z.,使用氨基酸序列的支持向量回归分析更好地预测蛋白质接触数,BMC Bioninform。,6, 248 (2005)
[84] 扎胡尔,J。;Abrar,M。;Hussain,D.,《使用数据挖掘KNN技术进行季节到年际气候预测》,第20、40-51页(2008年),施普林格-弗拉格:施普林格柏林-海德堡
[85] 张国勇。;Fang,B.S.,使用周的伪氨基酸组成概念预测蛋白质亚细胞定位:结合进化信息和冯·诺依曼熵的方法,氨基酸,34565-572(2008)
[86] 张杰。;Sun,P。;X.赵。;Ma,Z.,PECM:使用周的伪氨基酸组成概念预测细胞外基质蛋白,J.Theor。《生物学》,363,412-418(2014)
[87] 周国平。;蔡永德,通过杂交基因本体和伪氨基酸组成预测蛋白酶类型,蛋白质,63,681-684(2006)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。