×

利用基于化学位移的二次判别算法识别五种简单的超秒结构。 (英语) Zbl 1343.92379号

摘要:蛋白质的生物学功能在很大程度上取决于其空间结构。结构与功能关系的研究是蛋白质结构预测的基础。然而,超二级结构的预测是蛋白质空间结构预测中的一个重要步骤。蛋白质超二级结构的预测已经提出了许多算法。然而,这些方法使用的参数主要基于氨基酸序列。本文提出了一种基于化学位移预测五种蛋白质超二级结构的新模型(反恐精英s) ●●●●。首先,我们利用方差分析分析了五种蛋白质超二级结构中六个核的化学位移的统计分布(方差分析). 其次,我们以六个核的化学位移为特征,并结合二次判别分析(Q-DA)来预测五种蛋白质的超二级结构。最后,我们在七次交叉验证中获得了平均灵敏度、特异性和总体准确度,分别为81.8%、95.19%和82.91%。此外,我们还结合五种不同的化学位移作为特征进行了预测,通过使用(H_α)化学位移的(C,Cα,Cβ,N,Hα),最大总准确度高达89.87%,明显优于二次判别分析(Q D A))该算法使用20种氨基酸组成(A A C)作为七倍交叉验证的特征。这些结果表明,化学位移(反恐精英s) 的确是预测五种超二级结构的一个突出参数。此外,我们通过使用相同的6个变量,比较了二次判别分析(Q D A)和支持向量机(S V M)的预测反恐精英s作为功能。结果表明,利用化学位移的二次判别分析方法特征是蛋白质超二级结构的良好预测因子。

MSC公司:

92D20型 蛋白质序列,DNA序列
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 巴辛,M。;Raghava,G.P.,基于SVM的抗原序列中HLA-DRB1 0401结合肽预测方法,生物信息学,20,421-423(2004)
[2] 布伦德尔,T.L。;卡尼,D。;Gardner,S.,《基于知识的蛋白质建模和设计》,《欧洲生物化学杂志》。,172, 3, 513-520 (1988)
[3] Burke,D.F。;Deane,C.M.,《仅从序列改进蛋白质环预测》,《蛋白质工程》,第14期,第473-478页(2001年)
[4] Bystro,C。;托尔森,V。;Baker,D.,HMMSTR:蛋白质局部序列结构相关性的隐马尔可夫模型,《分子生物学杂志》。,301, 173-190 (2000)
[5] Cai,Y.D。;周国平。;Jen,C.H。;Lin,S.L。;Chou,K.C.,《利用支持向量机识别丝氨酸水解酶的催化三联体》,J.Theor。生物学,228551-557(2004)·Zbl 1439.92141号
[6] Case,D.A.,化学位移及其各向异性在生物分子结构测定中的应用,Curr。操作。结构。生物,8,5,624-630(1998)
[7] 卡瓦利,A。;Salvatella,X。;多布森,C.M。;Vendruscolo,M.,《利用核磁共振化学位移测定蛋白质结构》,Proc。国家。阿卡德。科学。美国,104、23、9615-9620(2007)
[8] 陈,C。;沈振斌。;Zou,X.Y.,双层小波支持向量机,用于通过Chou的伪氨基酸组成的一般形式protein Pept预测蛋白质结构类别。莱特。,19, 4, 422-429 (2012)
[9] Chen,W。;冯,P.M。;Deng,E.Z.,iTIS-PseTNC:一种基于序列的预测因子,用于使用伪三核苷酸组成识别人类基因中的翻译起始位点,Ana。生物化学。,462, 76-83 (2014)
[10] Chen,W。;冯,P.M。;Lin,H。;Chou,K.C.,IRSpotPseDNC:用伪二核苷酸成分识别重组点,《核酸研究》,41,6,e68(2013)
[11] Chen,W。;Lin,H。;冯,P.M。;丁,C。;Zuo,Y.C。;Chou,K.C.,iNuc-PhysChem:一种基于序列的预测因子,用于通过物理化学性质识别核小体,《公共科学图书馆·综合》,第7、10、e47843页(2012年)
[12] Chou,K.C.,蛋白质β转变的预测,J.Pept。决议,49,120-144(1997)
[13] Chou,K.C.,α-回转类型的预测和分类,生物聚合物,42,7,837-853(1997)
[14] Chou,K.C.,《综述:预测蛋白质中的急转弯及其类型》,《分析》。生物化学。,286, 1, 1-16 (2000)
[15] Chou,K.C.,通过结合准序列效应预测蛋白质亚细胞位置,生物化学。生物物理学。Res.Commun.公司。,278, 477-483 (2000)
[16] Chou,K.C.,使用伪氨基酸成分预测蛋白质细胞属性,蛋白质,43,3,246-255(2001)
[17] Chou,K.C.,使用两亲性伪氨基酸组成预测酶亚家族类别,生物信息学,21,1,10-19(2005)
[18] Chou,K.C.,《伪氨基酸组成及其在生物信息学、蛋白质组学和系统生物学中的应用》,Curr。蛋白质组学,6262-274(2009)
[19] Chou,K.C.,关于蛋白质属性预测和伪氨基酸组成的一些评论,J.Theor。生物学,273236-247(2011)·Zbl 1405.92212号
[20] Chou,K.C.,生物信息学对药物化学的影响,医学化学。,11, 3, 218-234 (2015)
[21] Chou,K.C。;Blinn,J.R.,《β-回转类型的分类和预测》,《蛋白质化学杂志》。,16, 6, 575-595 (1997)
[22] Chou,K.C。;Cai,Y.D.,《使用功能域组成和支持向量机预测蛋白质亚细胞位置》,J.Biol。化学。,277, 45765-45769 (2002)
[23] Chou,K.C。;Shen,H.B.,Cell-PLoc:一个用于预测各种生物体中蛋白质亚细胞定位的Web服务器包,《国家协议》。,3, 2, 153-162 (2008)
[24] Chou,K.C。;Shen,H.B.,Plant-mPLoc:一种自上而下的策略,以增强预测植物蛋白质亚细胞定位的能力,《公共科学图书馆·综合》,5,6,e11335(2010)
[25] 克鲁兹,X。;Hutchinson,E.G。;Shepherd,A。;桑顿,J.M.,《预测蛋白质拓扑结构:识别β发夹的方法》,Proc。国家。阿卡德。科学。美国,99,17,11157-11162(2002)
[26] 丁,C。;袁,L.F。;Guo,S.H.(郭,S.H.)。;Lin,H。;Chen,W.,使用过度代表的三肽成分鉴定分枝杆菌膜蛋白及其类型,《蛋白质组学杂志》,77,321-328(2012)
[27] 丁·H。;邓,E.Z。;袁,L.F。;Liu,L.,iCTX-Type:一种基于序列的预测因子,用于识别靶向离子通道中芋螺毒素的类型,Biomed。Res.Int.,2014,286419(2014)
[28] Esmaeili,M。;Mohabatkar,H。;Mohsenzadeh,S.,使用Chou的伪氨基酸组成概念预测人类乳头瘤病毒的风险类型,J.Theor。生物学,263203-209(2010)·Zbl 1406.92455号
[29] 冯玉英,利用化学位移预测蛋白质中四种简单超二级结构,科学。《世界期刊》,2014(2014),(文章ID 978503)
[30] Feng,Y.E。;Lin,H。;罗立峰,利用特征选择和分析方法预测蛋白质二级结构,生物学报。,62, 1, 1-14 (2014)
[31] Feng,Y.E。;Luo,L.F.,用四肽信号预测蛋白质二级结构,氨基酸,35,3,607-614(2008)
[32] 费尔南德斯·富恩特斯,N。;赫莫索,A。;埃斯帕达尔,J。;Querol,E。;阿维莱斯,F.X。;Oliva,B.,激酶超家族常见功能环的分类,蛋白质,56,3,539-555(2004)
[33] Guo,S.H。;邓,E.Z。;徐立清。;Ding,H.,iNuc PseKNC:一种基于序列的预测因子,用于预测具有伪k元组核苷酸组成的基因组中核小体的定位,生物信息学,30,11,1522-1529(2014)
[34] 海亚特,M。;Khan,A.,基于Chou的PseAAC,Protein Pept的一般形式,使用模糊K-最近邻算法识别外膜蛋白。莱特。,19, 4, 411-421 (2012)
[35] 海亚特,M。;塔希尔,M。;Khan,S.A.,使用多轮廓贝叶斯和双粒度概率特征空间的混合空间预测蛋白质结构类,J.Theor。生物学,346,8-15(2014)·Zbl 1412.92243号
[36] 胡晓珍。;李庆忠,利用支持向量机预测蛋白质中的β发夹,蛋白质杂志,27,2,115-122(2008)
[37] Liang,J.J。;潘,W.S。;Yang,Z.H.,用于测试多正态性的基于特征的Q-Q图,Stat.Probab。莱特。,70, 183-190 (2004) ·Zbl 1056.62069号
[38] Lin,H。;Chen,W.,利用特征选择技术预测嗜热蛋白质,微生物学杂志。方法,84,67-70(2011)
[39] Lin,H。;Chen,W。;袁,L.F。;李振强。;Ding,H.,《使用过度表达的四肽预测蛋白质亚线粒体位置》,生物学报。,61, 2, 259-268 (2013)
[40] Lin,H。;邓,E.Z。;丁·H。;Chen,W.,iPro54-PseKNC:基于序列的预测因子,用于识别具有伪k元组核苷酸组成的原核生物中的sigma-54启动子,核酸研究,42,12961-12972(2014)
[41] Lin,H。;丁,C。;Song,O.,《使用平均化学位移预测蛋白质结构类别》,J.Biomol。结构。动态。,29, 6, 643-649 (2012)
[42] Lin,H。;丁,C。;袁,L.F.,基于周氏伪氨基酸组成的一般形式预测蛋白质的亚叶绿体位置:从最佳三肽组成探讨,国际生物数学杂志。,6,2(2013),(文章ID 13500034)
[43] Lin,W.Z。;Fang,J.A。;Xiao,X。;Chou,K.C.,ILoc-动物:预测动物蛋白质亚细胞定位的多标记学习分类器,分子生物学系统。,9, 4, 634-644 (2013)
[44] 刘,B。;陈,J。;Wang,X.,结合Chou’s distance-pair伪氨基酸组成和主成分分析进行蛋白质远程同源性检测,分子遗传学。基因组学(2015)
[45] 刘,B。;方,L。;刘,F。;Wang,X.,iMiRNA-PseDPC:用伪距离-对合成方法鉴定microRNA前体,J.Biomol。结构。动态。(2015)
[46] 刘,B。;方,L。;刘,F。;王,X。;Chen,J.,用伪结构状态组成方法鉴定真实的微小RNA前体,PLoS One,10,e0121501(2015)
[47] 刘,B。;刘,F。;方,L。;Wang,X.,repDNA:一个Python软件包,通过结合用户定义的物理化学特性和序列顺序效应,为DNA序列生成各种模式的特征向量,生物信息学,31,8,1307-1309(2015)
[48] 刘,B。;刘,F。;王,X。;陈,J。;Fang,L.,Pse-in-One:用于生成DNA、RNA和蛋白质序列的各种伪成分模式的网络服务器,核酸研究(2015)
[49] 刘,B。;王,X。;邹强。;Dong,Q。;Chen,Q.,结合Chou的伪氨基酸组成和基于轮廓的蛋白质表示进行蛋白质远程同源性检测,Mol.Inform。,32, 775-782 (2013)
[50] 刘,B。;徐,J。;风扇,S。;Xu,R。;周,J。;Wang,X.,PseDNA-Pro:结合Chou的PseAAC和物理化学距离变换鉴定DNA结合蛋白,分子信息。,34, 8-17 (2015)
[51] 刘,B。;徐,J。;兰,X。;Xu,R。;Zhou,J.,iDNA-Prot|dis:通过将氨基酸距离对和减少的字母图谱结合到一般的伪氨基酸组成中来鉴定DNA结合蛋白,PLoS One,9,e106691(2014)
[52] 刘,B。;张,D。;Xu,R。;徐,J。;王,X。;陈,Q。;Dong,Q.,将从频率剖面提取的进化信息与基于序列的内核相结合,用于蛋白质远程同源性检测,生物信息学,30472-479(2014)
[53] 刘,T。;郑,X。;Wang,J.,使用支持向量机和PSI-BLAST剖面预测低相似度序列的蛋白质结构类别,Biochimie,92,10,1330-1334(2010)
[54] 刘,Z。;Xiao,X。;邱,W.R.,iDNA-甲基:通过伪三核苷酸组成鉴定DNA甲基化位点,Ana。生物化学。,474, 69-77 (2015)
[55] 毛,W.S。;丛,P.S。;王振华。;卢·L·J。;朱振林。;Li,T.H.,NMRDSP:根据核磁共振化学位移和序列数据准确预测蛋白质形状字符串,《公共科学图书馆·综合》,8,12,e83532(2013)
[56] Mechelke,M。;Habeck,M.,《从蛋白质化学位移预测二级结构的概率模型》,《蛋白质》,81,6,984-993(2013)
[57] Mielke,S.P。;Krishnan,V.V.,使用平均化学位移直接从核磁共振波谱中识别蛋白质结构类别,生物信息学,19,16,2054-2064(2003)
[58] Pastore,A。;Saudek,V.,《蛋白质中化学位移和二级结构之间的关系》,J.Magn。决议。,90, 1, 165-176 (1990)
[59] Shen,H.B.,《评论:开发用于预测蛋白质属性的网络服务器的最新进展》,《自然科学》。,1,2,63-92(2009年)
[60] Shen,H.B。;Chou,K.C.,蛋白质折叠模式识别的集成分类器,生物信息学,221717-1722(2006)
[61] Shen,H.B。;Chou,K.C.,PseAAC:生成各种蛋白质伪氨基酸组成的灵活网络服务器,Ana。生物化学。,373、386-388(2008年)
[62] 沈毅。;Bax,A.,《利用人工神经网络从核磁共振化学位移预测蛋白质主链和侧链扭转角》,J.Biomol。核磁共振,3227-241(2013)
[63] 沈毅。;兰格,O。;Delaglio,F.,从核磁共振化学位移数据生成一致的盲蛋白结构,Proc。国家。阿卡德。科学。美国,105,12,4685-4690(2008)
[64] Sprinthall,R.C.,《基本统计分析》(2003),皮尔逊教育集团:皮尔逊教育公司,马萨诸塞州波士顿
[65] 孙,Z.R。;Rao,X。;彭,L。;徐丹,基于人工神经网络方法的蛋白质超二级结构预测,蛋白质工程,10,7,763-769(1997)
[66] 铃木,Y。;山崎,T。;青木,A。;Shindo,H。;Asakura,T.,家蚕液体丝中重复序列结构的NMR研究,GAGXGA(X=S,Y,V),生物大分子,15,1104-112(2014)
[67] 王,G。;Dunbrack,R.L.,《双鱼:PDB序列剔除服务器的最新改进》,《核酸研究》,33,2,W94-W98(2005)
[68] Wang,J.R。;王,C。;曹建杰。;刘晓强。;Yao,Y.H。;Dai,Q.,使用简化PSSM和基于位置的二级结构特征预测低相似度序列的结构类别,Gene,554,2,241-248(2015)
[69] 王,M。;杨,J。;刘国平。;徐志杰。;Chou,K.C.,基于伪氨基酸组成预测膜蛋白类型的加权支持向量机,蛋白质工程设计。选择。,17, 509-516 (2004)
[70] Wang,Y.,蛋白质核磁共振化学位移的二级结构效应,J.Biomol。核磁共振,30,3,233-244(2004)
[71] Wishart,D.S。;Case,D.A.,化学位移在大分子结构测定中的应用,酶学方法。,338, 3-34 (2001)
[72] Xiao,X。;王,P。;Lin,W.Z。;贾建华。;Chou,K.C.,IAMP-2L:用于识别抗菌肽及其功能类型的两级多标签分类器,Ana。生物化学。,436, 2, 168-177 (2013)
[73] Xu,Y。;文,X。;Wen,L.S。;Wu,L.Y.,iNitro-Tyr:具有一般伪氨基酸组成的蛋白质中硝基酪氨酸位点的预测,PLoS One,9,e105018(2014)
[74] 杨振荣。;Chou,K.C.,计算蛋白质组学的生物支持向量机,生物信息学,20735-741(2004)
[75] 张,H。;Neal,S。;Wishart,D.S.,RefDB:统一引用的蛋白质化学位移数据库,J.Biomol。核磁共振,25173-195(2003)
[76] 邹,D.S。;何振生。;何振英。;Xia,Y.,使用周的伪氨基酸组成预测超二级结构,J.Compute。化学。,32, 2, 271-278 (2011)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。