牛晓辉;胡雪海;石峰;夏京波 基于混合分形特征的支持向量机预测DNA结合蛋白。 (英语) Zbl 1411.92108号 J.西奥。生物。 343, 186-192 (2014). 摘要:DNA结合蛋白在许多生物过程中起着至关重要的作用。从氨基酸序列预测DNA结合蛋白是一个重要但尚未完全解决的科学问题。混沌游戏表示(CGR)研究隐藏在蛋白质序列中的模式,并直观地揭示先前未知的结构。分形维数(FD)是测量复杂、高度不规则几何对象大小的良好工具。为了从蛋白质序列中提取与DNA结合特性的内在相关性,本文应用CGR算法、分形维数和氨基酸组成来表示蛋白质样本的数值特征。提取了七组特征,这些特征可以直接从主序列中计算出来,每组特征通过10倍交叉验证测试和折刀测试进行评估。比较数值实验的结果,氨基酸组分和分形维数(21维向量)的结果最好,平均准确率为81.82%,平均马太相关系数(MCC)为0.6017。该预测器还与现有的DNA-Prot方法进行了比较,显示出更好的性能。 引用于1文件 MSC公司: 92C40型 生物化学、分子生物学 92D20型 蛋白质序列、DNA序列 28A80型 分形 92-08 生物问题的计算方法 关键词:蛋白质分类;混沌博弈表示;分形维数;交叉验证 软件:爆炸;iRSpot-PseDNC公司;iSNO-PseAAC公司;iDNA-程序;PSI-爆炸;Cd命中;GPCR-2L型;自动静音;Pfam公司 PDF格式BibTeX公司 XML格式引用 \textit{X.-H.Niu}等人,J.Theor。生物学343,186--192(2014;Zbl 1411.92108) 全文: 内政部 参考文献: [1] 艾哈迈德,S。;格罗米哈,M.M。;Sarai,A.,基于组成、序列和结构信息的DNA结合蛋白及其结合残基的分析和预测,生物信息学,20477-486(2004) [2] 艾哈迈德,S。;Sarai,A.,DNA结合蛋白的基于矩的预测,分子生物学杂志。,341, 65-71 (2004) [3] Altschul,S.F。;Madden,T.L。;Schaffer,A.A。;张杰。;张,Z。;Miller,W。;Lipman,D.J.,《缺口BLAST和PSI-BLAST:新一代蛋白质数据库搜索程序》,核酸研究,253389-3402(1997) [4] Baish,J.W。;Jain,R.K.,《癌症、血管生成和分形》,《国家医学》,4984(1998) [5] Baish,J.W。;Jain,R.K.,分形与癌症,癌症研究,60,3683-3688(2000) [6] 巴苏,S。;潘,A。;杜塔,C。;Das,J.,蛋白质的混沌博弈表示,分子模型。,15, 279-289 (1997) [7] 伯曼,G.H.M。;威斯布鲁克,J。;冯,Z。;Gilliland,G。;Bhat,T.N。;韦西格,H。;Shindyalov,I.N。;Bourne,P.E.,蛋白质数据库,核酸研究,28,235-242(2000) [8] 巴德瓦吉,N。;Langlois,R.E。;赵,G。;Lu,H.,预测DNA结合蛋白的基于核的机器学习协议,核酸研究,33,6486-6493(2005) [9] Cai,Y.D。;Lin,S.L.,从氨基酸序列预测rRNA-、RNA-和DNA-结合蛋白的支持向量机,Biochim。生物物理学。《学报》,1648127-133(2003) [10] Chen,W。;冯,P.M。;Lin,H。;Chou,K.C.,iRSpot-PseDNC:用伪二核苷酸成分识别重组点,《核酸研究》,41,e68(2013) [11] Chou,K.C。;Zhang,C.T.,《综述:蛋白质结构类的预测》,《生物化学评论》。分子生物学。,30, 275-349 (1995) [12] Chou,K.C。;Shen,H.B.,《评论:开发用于预测蛋白质属性的网络服务器的最新进展》,《自然科学》。,2,63-92(2009),(可在以下网址公开访问) [13] Chou,K.C.,关于蛋白质属性预测和伪氨基酸组成的一些评论(50周年回顾),J.Theor。生物学,273236-247(2011)·Zbl 1405.92212号 [14] Falconer,K.J.,《分形几何技术》(1997),威利·Zbl 0869.28003号 [15] 方,Y。;郭毅。;Feng,Y。;Li,M.,《预测DNA结合蛋白:从周的伪氨基酸组成和其他特定序列特征探讨》,《氨基酸》,34,103-109(2008) [16] Foroutan,P.K。;Dutilleul,P。;Smith,D.L.,《分形维数估计箱数方法的实现进展》,应用。数学。计算。,105, 195-210 (1999) ·Zbl 1025.28004号 [17] K.藤岛。;Komasa,M。;北村,S。;铃木,H。;Tomita,M。;Kanai,A.,利用嗜热古菌糠秕热球菌中的氨基酸组成和周期性对新型DNA/RNA-结合蛋白进行蛋白质组预测,DNA Res.,14,91-102(2007) [18] Gasteiger,E。;Jung,E。;Bairoch,A.,SWISS-PROT:通过蛋白质数据库连接生物分子知识,Curr。发行分子生物学。,3, 47-55 (2001) [19] Grizzi,F。;Russo,C。;科伦坡,P。;Franceschini,B。;弗雷扎,E.E。;Cobos,大肠杆菌。;Chiriva-Internati,M.,二维新生血管网络复杂性的定量评估和建模:表面分形维数,BMC癌症,5,14(2005) [20] Hao,B.L。;Lee,H.C。;Zhang,S.Y.,与长DNA序列和完整基因组相关的分形,混沌,孤子分形,11825-836(2000)·Zbl 0959.92019 [21] 海亚特,M。;Khan,A.,通过将复合蛋白序列特征融合到伪氨基酸组成中来预测膜蛋白类型,J.Theor。生物学,271,10-17(2011)·Zbl 1405.92217号 [22] 胡,L。;黄,T。;施,X。;卢,W.C。;Cai,Y.D。;Chou,K.C.,基于加权蛋白质相互作用网络和蛋白质杂交特性预测小鼠蛋白质功能,《公共科学图书馆·综合》,6,e14556(2011) [23] 黄,Y。;牛,B.F。;高,Y。;傅立明。;Li,W.Z.,CD-HIT Suite:用于聚类和比较生物序列的网络服务器,生物信息学,26,5,680-682(2010) [24] 吉,G。;吴,X。;沈毅。;黄,J。;Quinn,L.Q.,信使RNA多聚腺苷化位点的分类预测模型,J.Theor。生物学,265287-296(2010)·Zbl 1460.92157号 [25] Jeffrey,H.J.,基因结构的混沌游戏表示,核酸研究,18,2163-2170(1990) [26] Kumar,K.K。;Pugalenthi,G。;Suganthan,P.N.,DNA-Prot:使用随机森林从蛋白质序列信息中识别DNA结合蛋白,J.Biomol。结构。动态。,26, 679-686 (2009) [27] 库马尔,M。;格罗米哈,M.M。;Raghava,G.P.,使用支持向量机和进化图谱鉴定DNA结合蛋白,BMC生物信息学。,8, 463 (2007) [28] Langlois,R.E。;Lu,H.,从序列中促进DNA结合域的预测和理解,核酸研究,38,3149-3158(2010) [29] Lin,W.Z。;Fang,J.A。;Xiao,X。;Chou,K.C.,iDNA-Prot:使用灰色模型随机森林识别DNA结合蛋白,《公共科学图书馆·综合》,6,e24756(2011) [30] Liu,X.L。;卢,J.L。;Hu,X.H.,用伪氨基酸组成预测嗜热蛋白质:从混沌博弈表示和主成分分析探讨,Protein Pept。莱特。,18, 1244-1250 (2011) [31] 卢,J.L。;胡晓华。;Hu,D.G.,预测嗜热核苷酸序列的新混合分形算法,J.Theor。生物学,293,74-81(2012)·Zbl 1307.92309号 [32] 新墨西哥州卢斯科姆。;奥斯汀,S.E。;伯曼,H.M。;Thornton,J.M.,蛋白质-DNA复合物结构概述,基因组。生物,15,1(2000),(REVIEWS001) [33] Mandelbrot,B.B.,《自然的分形几何》(1982),弗里曼:弗里曼旧金山·兹标0504.28001 [34] 马索,M。;Vaisman,I.I.,基于知识的计算诱变预测人类非同义单核苷酸多态性的潜在疾病,J.Theor。生物学,266560-568(2010)·Zbl 1407.92082号 [35] Nanni,L。;Lumini,A.,《结合本体论和二肽组成预测DNA结合蛋白》,《氨基酸》,34635-641(2008) [36] Nanni,L。;Lumini,A.,基于分组重量预测DNA结合蛋白的简化字母组合,《氨基酸》,36,167-175(2009) [37] Nimrod,G。;Szilagyi,A。;莱斯利,C。;Ben-Tal,N.,《利用结构、静电和进化特征鉴定DNA结合蛋白》,《分子生物学杂志》。,387, 1040-1053 (2009) [38] 牛晓华。;胡晓华。;Shi,F。;Xia,J.B.,通过Chou伪氨基酸组成的一般形式预测蛋白质溶解度:从混沌博弈表示和分形维探讨,protein Pept。Lett,19940-948(2012) [39] Nordhoff,E。;Krogsdam,A.M。;Jorgensen,H.F。;卡尔利普炎,B.H。;克拉克,B.F。;罗普斯托夫,P。;Kristiansen,K.,用质谱法快速鉴定DNA结合蛋白,国家生物技术。,17, 884-888 (1999) [40] Pellegrini-Calace,M。;Thornton,J.M.,《利用序列和结构信息检测DNA结合螺旋-螺旋结构基序》,《核酸研究》,第33期,第2129-2140页(2005年) [41] Shanahan,H.P。;医学硕士加西亚。;琼斯,S。;Thornton,J.M.,《利用结构基序和静电势识别DNA结合蛋白》,《核酸研究》,32,4732-4741(2004) [42] 邵,X。;田,Y。;Wu,L。;Wang,Y。;Jing,L。;Deng,N.,用核方法从序列预测DNA和RNA-结合蛋白,J.Theor。生物学,258289-293(2009)·Zbl 1402.92332号 [43] 索德尔,J。;Seviour,R.,《丝状菌菌落分形维数测定方法的比较》,Binary,6,21-31(1994) [44] Sonnhammer,E.L。;Eddy,S.R。;Durbin,R.,Pfam:基于种子比对的蛋白质结构域家族综合数据库,《蛋白质》,28,405-420(1997) [45] 空间,S。;Kalauzi,A。;Grbic,G。;Martac,L。;库里克,M.,损伤后大鼠大脑活动的分形分析,医学生物学。工程计算。,43245-348(2005年) [46] 斯塔维斯基,E.W。;格雷戈雷特,L.M。;Mandel-Gutfreund,Y.,《基于蛋白质结构注释核酸结合功能》,《分子生物学杂志》。,326, 4, 1065-1079 (2003) [47] Vapnik,V.,《统计学习理论》(1998年),《威利跨学科:威利跨科学》,纽约·Zbl 0935.62007号 [48] 王立杰。;Brown,S.J.,BindN:一种基于网络的工具,用于有效预测氨基酸序列中的DNA和RNA结合位点,《核酸研究》,34,W243-W248(2006) [49] Xia,J.B。;Zhang,S.L。;Shi,F。;熊海杰。;胡晓华。;牛晓华,利用伪氨基酸组成的概念预测水稻黄单胞菌的抗性基因。米饭中的米:混沌游戏表征的一种方法,J.Theor。生物学,284,16-23(2011) [50] Xiao,X。;王,P。;Chou,K.C.,GPCR-2L:通过杂交两种不同模式的伪氨基酸组分预测G蛋白偶联受体及其类型,分子生物学。,7, 911-919 (2011) [51] Xu,Y。;丁,J。;Wu,L.Y。;Chou,K.C.,iSNO-PseAAC:通过将位置特异性氨基酸倾向纳入伪氨基酸组成来预测蛋白质中的半胱氨酸(S)-亚硝化位点,PLoS One,8,e55844(2013) [52] Yang,J.Y。;彭,Z.L。;Yu,Z.G。;张瑞杰。;Anh,V。;Wang,D.,基于混沌博弈表示的递归量化分析预测蛋白质结构类,J.Theor。生物学,257,618-626(2009)·Zbl 1400.92417号 [53] Yu,X。;曹,J。;蔡,Y。;Shi,T。;Li,Y.,用支持向量机从一级结构预测rRNA-、RNA-和DNA结合蛋白,J.Theor。生物学,240,175-184(2006)·Zbl 1447.92318号 [54] Yu,Z.G。;Anha,V。;Lau,K.S.,基于详细HP模型及其多重分形和相关性分析的蛋白质序列混沌博弈表示,J.Theor。《生物学》,226341-348(2004)·Zbl 1439.92148号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。