×

一种信息论方法,用于改进蛋白质模型质量的数据驱动预测。 (英语) Zbl 1137.92310号

摘要:我们介绍了一种基于信息论的方法的结果,该方法用于选择用于预测蛋白质模型质量的最佳特征子集。通过反向选择程序计算特征的最佳子集。将核概率密度估计方法(KPDE)建模的概率分类器与前馈人工神经网络(ANN)和支持向量机(SVM)的性能进行了比较。

MSC公司:

92C40型 生物化学、分子生物学
68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 柯林斯,F.S。;Green,E.D。;Guttmacher,A.E。;Guyer,M.S.,《基因组学研究的未来展望》,《自然》,422835-847(2003)
[2] Siew,N。;Fischer,D.,蛋白质结构预测的聚合进化和计算机国际象棋锦标赛:CASP、Kasparov和CAFASP,IBM系统期刊,40,2(2001)
[3] 劳伦斯·利弗莫尔国家实验室,《蛋白质结构预测艺术》,《科学技术评论》。可用:http://www.llnl.gov/str/December04/Fidelis.html, 2004; 劳伦斯·利弗莫尔国家实验室,《蛋白质结构预测艺术》,《科学技术评论》。可用:http://www.llnl.gov/str/December04/Fidelis.html, 2004
[4] Moult,J。;Fidelis,K。;Zemla,A。;Hubbard,T.,蛋白质结构预测(CASP)方法的关键评估-第五轮,蛋白质,53,补遗6,334-339(2003)
[5] 费舍尔(D.Fischer)。;Rychlewski,L。;Dunbrack,R.L。;奥尔蒂斯,A.R。;Elofsson,A.,CAFASP3:全自动结构预测方法的第三次关键评估,《蛋白质》,53,补充6,503-516(2003)
[6] Rychlewski,L。;Fischer,D.,LiveBench-8:自动化蛋白质结构预测的大规模连续评估,蛋白质科学。,14, 240-245 (2005)
[7] 方,H。;Wallner,B。;Lundstrm,J。;von Wowern,C。;Elofsson,A.,使用Pcons一致性方法改进折叠识别,(蛋白质结构预测:生物信息学方法(2002),IUL),(第16章)
[8] Wren,J.D.,基因组工程,IEEE Eng.Med.Biol。Mag.,23,2,87-98(2004)
[9] Wallner,B。;Elofsson,A.,能确定正确的蛋白质模型吗?,蛋白质科学。,12, 1073-1086 (2003)
[10] 沙姆达拉,R。;Levitt,M.,《诱饵‘R’Us:评估评分功能的错误蛋白质构象数据库》,《蛋白质科学》。,9, 1399-1401 (2000)
[11] Siew,N。;埃洛夫森,A。;Rychlewski,L。;Fischer,D.,MaxSub:蛋白质结构预测质量评估的自动测量,生物信息学,16,9,776-785(2000)
[12] S.Towers,核概率密度估计方法,见:M.Whalley,L.Lyons(编辑),粒子物理学中的高级统计技术,英国达勒姆,2002,112-115;S.Towers,核概率密度估计方法,收录于:M.Whalley,L.Lyons(编辑),粒子物理学中的高级统计技术,英国达勒姆,2002年,112-115
[13] 莱维特,M。;Gerstein,M.,《序列比较和结构比较的统一统计框架》,Proc。国家。阿卡德。科学。美国,955913-5920(1999)
[14] 梅洛,F。;桑切斯,R。;Sali,A.,褶皱评估的统计潜力,蛋白质科学。,11, 430-448 (2002)
[15] 科罗沃斯,C。;Yeates,T.O.,《蛋白质结构的验证:非键合原子相互作用的模式》,《蛋白质科学》。,2, 1511-1519 (1993)
[16] Lee,B。;Richards,F.M.,《蛋白质结构的解释:静态可及性的估计》,《分子生物学杂志》。,55, 379-400 (1971)
[17] 哈伯德,S.J。;坎贝尔,S.F。;Thornton,J.M.,有限蛋白水解酶位点和丝氨酸蛋白酶蛋白抑制剂的分子识别-构象分析,分子生物学杂志。,220, 507-530 (1991)
[18] S.J.Hubbard,J.M.Thornton,NACCESS,计算机程序,伦敦大学学院生物化学和分子生物学系,1993年;S.J.Hubbard,J.M.Thornton,NACCESS,计算机程序,伦敦大学学院生物化学和分子生物学系,1993年
[19] Moelbert,S。;Emberly,E。;Tang,C.,数据库蛋白质序列疏水性与表面暴露模式的相关性,蛋白质科学。,13, 752-762 (2004)
[20] 拉塞尔,R.B。;科普利,R.R。;Barton,G.J.,《通过绘制预测的二级结构识别蛋白质折叠》,J.Mol.Biol。,259, 349-365 (1996)
[21] Kabsch,W。;Sander,C.,《蛋白质二级结构词典:氢键和几何特征的模式识别》,生物聚合物,222577-2637(1983)
[22] Cheng,J。;A.兰德尔。;斯威雷多斯基,M。;Baldi,P.,SCRATCH:蛋白质结构和结构特征预测服务器,Nucl。《酸性研究》,33,w72-w76(2005),(Web服务器问题)
[23] 盖恩,I。;Elisseeff,A.,变量和特征选择简介,J.马赫。学习。第3号决议,1157-1182(2003年)·Zbl 1102.68556号
[24] 科勒,D。;萨哈米,M.,《走向最佳特征选择》,(第13届机器学习国际会议论文集,ICML(1996),巴里:巴里意大利),284-292
[25] Pearl,J.,《智能系统中的概率推理》(1988),Morgan Kaufmann:Morgan Koufmann San Mateo,CA
[26] Parzen,E.,《关于概率密度函数和模式的估计》,《数学年鉴》。统计学,331065-1076(1962)·Zbl 0116.11302号
[27] M.Costa,W.Moniaci,E.Pasero,《信息:预测道路结冰的人工神经系统》,摘自:Proc。2003年IEEE测量系统和应用计算智能国际研讨会,第216-221页;M.Costa,W.Moniaci,E.Pasero,《信息:预测道路结冰的人工神经系统》,摘自:Proc。2003年IEEE测量系统和应用计算智能国际研讨会,第216-221页
[28] P.Werbos,《超越回归:行为科学中预测和分析的新工具》,应用委员会博士论文。数学。,哈佛大学剑桥分校,马萨诸塞州,1974年;P.Werbos,《超越回归:行为科学中预测和分析的新工具》,应用委员会博士论文。数学。,哈佛大学剑桥分校,马萨诸塞州,1974年
[29] Marquardt,D.,非线性参数最小二乘估计算法,SIAM J.Appl。数学。,11, 431-441 (1963) ·Zbl 0112.10505号
[30] Demuth,H。;Beale,M.,《神经网络工具箱用户指南》(2005),The MathWorks,Inc。
[31] Vapnik,V.,《统计学习理论的本质》(1995),Springer-Verlag:Springer-Verlag纽约·Zbl 0833.62008号
[32] Fletcher,R.,《实用优化方法》(1987),John Wiley&Sons:John Willey&Sons NY·Zbl 0905.65002号
[33] S.Canu,Y.Grandvalet,V.Guigue,A.Rakotomamonjy,SVM和内核方法Matlab工具箱,感知系统和信息,法国鲁昂INSA de Rouen(2005)。可用:http://asi.insa-rouen.fr/arakotom/toolbool/index.html;S.Canu,Y.Grandvalet,V.Guigue,A.Rakotomamonjy,SVM和内核方法Matlab工具箱,感知系统和信息,法国鲁昂INSA de Rouen(2005)。可用:http://asi.insa-rouen.fr/arakotom/toolbox/index.html
[34] Cherkassky,V。;Ma,Y.,SVM回归中SVM参数和噪声估计的实用选择,神经计算(2002),(SVM专刊)
[35] M.J.J.Scott、M.Niranjan、R.W.Prager,《地块:可变成本域中的特征子集选择》,英国剑桥大学工程系,技术报告CUED/F-INFENG/TR.323(1998)。可用:网址:http://svr-www.eng.cam.ac.uk/reports/people/nirajan.html; M.J.J.Scott、M.Niranjan、R.W.Prager,《地块:可变成本域中的特征子集选择》,英国剑桥大学工程系,技术报告CUED/F-INFENG/TR.323(1998)。可用:http://svr-www.eng.cam.ac.uk/reports/people/niranjan.html
[36] 克里斯托瓦尔,S。;Zemla,A。;费舍尔(D.Fischer)。;Rychlewski,L。;Elofsson,A.,蛋白质穿线模型的质量测量研究,BMC生物信息学,2,2-5(2001)
[37] 伯曼,H.M。;韦斯特布鲁克,J。;Z.Feng。;Gilliland,G。;Bhat,T.N。;韦西格,H。;Shindyalov,I.N。;Bourne,P.E.,蛋白质数据库,Nucl。《酸类研究》,28,235-242(2000)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。