×

统计方法在蛋白质折叠类别预测中的作用和结果。 (英文) Zbl 0980.92010号

摘要:根据氨基酸序列数据,采用判别和分类的统计方法预测蛋白质结构。这为建立基于基因表达的致癌模型新范式提供了信息。前馈神经网络和标准统计分类程序用于将蛋白质分类为折叠类。基于后验概率的方法家族的逻辑回归、加性模型和投影寻踪回归;基于类条件概率的方法类的线性、二次和灵活的判别分析以及最近邻分类规则应用于268个序列的数据集。
通过分析测试样本(n=125)和交叉验证程序获得的预测误差,我们得出结论,标准线性判别分析和最近邻方法在统计上同时是前馈神经网络更灵活工具的有力竞争者。需要进一步研究,以探索通过应用于更大的蛋白质序列数据集而从统计方法中获得的增益,并将结果与生物物理方法的结果进行比较。

MSC公司:

92C40型 生物化学、分子生物学
62H30型 分类和区分;聚类分析(统计方面)
92D20型 蛋白质序列,DNA序列
62M45型 神经网络及从随机过程推断的相关方法
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 安芬森,C。;哈伯,E。;塞拉,M。;White,F.J.,还原多肽链氧化过程中天然核糖核酸酶形成动力学,Proc。国家。阿卡德。《美国科学》,471309-1314(1961)
[2] Neumaier,A.,蛋白质的分子建模和蛋白质结构的数学预测,SIAM Rev.,39,407-460(1997)·Zbl 0939.92013号
[3] Finkelstein,A.V.,《蛋白质结构:现在可以预测什么?》?,结构生物学的当前观点,7,60-71(1997)
[4] Rost,B。;O'Donoghue,S.,西西弗斯与蛋白质结构预测,CABIOS,13,345-356(1997)
[5] Edler,L。;Graßmann,J.,蛋白质折叠类预测是统计分类和回归的一个新领域,(Siellier-Moiseiwitsch,F.,《分子生物学和遗传学中的统计》,1997年AMS-IMS-SIAM分子生物学统计夏季联合会议论文集,33(1999)),288-313,IMS演讲笔记-专著系列
[6] 格拉曼,J。;Reczko,M。;苏海,S。;Edler,L.,《蛋白质折叠类预测:统计分类的新方法》,(Lengauer,T.;Schneider,R.;Bork,P.;Brutlag,D.;Glasgow,J.;Mewes,H.-W.;Zimmer,R.,《第七届分子生物学智能系统国际会议论文集》(1999),门罗公园:加州门罗公园),106-112
[7] 雷茨科,M。;Bohr,H.,基于序列的蛋白质折叠类预测的DEF数据库,Nucl。《酸类研究》,22,3616-3619(1994)
[8] Lesk,A.M.,《蛋白质结构》。《实用方法》(1991),牛津大学出版社:牛津大学出版社
[9] Pascarella,S。;Argos,P.,合并相关蛋白质结构和序列的数据库,蛋白质工程,5121-137(1992)
[10] Rost,B。;Sander,C.,结合进化信息和神经网络预测蛋白质二级结构,蛋白质,结构,功能和遗传学,1955-72(1994)
[11] 埃夫隆,B。;Tibshirani,J.R.,《Bootstrap简介》(1993),查普曼和霍尔:查普曼与霍尔剑桥·Zbl 0835.62038号
[12] Ripley,B.D.,模式识别和神经网络(1996),剑桥大学出版社:剑桥大学出版社·Zbl 0853.62046号
[13] 格拉斯曼,J。;Edler,L.,蛋白质折叠类预测的统计分类方法,(Prat,A.,COMPSTAT.Proceedings in Computational Statistics(1966),Physica-Verlag:Physica-Verlag Heidelberg),277-282·兹比尔0900.92154
[14] Kullback,S。;Leibler,R.A.,《信息与充分性》,《数学年鉴》。《统计》,22,79-86(1951)·Zbl 0042.38403号
[15] Ripley,B.D.,《神经网络和相关分类方法》,J.R.Statist。Soc.B,56,409-456(1994)·Zbl 0815.62037号
[16] 舒马赫,M。;罗斯纳,R。;Vach,W.,神经网络和逻辑回归,计算统计和数据分析,21661-701(1994),CSDA第一部分和第二部分
[17] Grassmann,J.,回归和判别中的人工神经网络,(Faulbaum,F.;Bandilla,W.,Softstat’95,《统计软件的进展》51(1996),卢修斯和卢修斯:卢修斯&卢修斯-斯图加特),399-406·Zbl 0850.62020号
[18] 哈斯蒂,T。;Tibshirani,R.J.,广义加法模型(1990),查普曼和霍尔:查普曼与霍尔剑桥·Zbl 0747.62061号
[19] Hastie,T.,《关于“灵活节约型平滑和加法建模”的讨论》,《技术计量学》,第31期,第3-39页(1989年)·Zbl 0672.65119号
[20] 弗里德曼,J.H。;Stützle,W.,投影寻踪回归,J.Amer。统计师。协会,76817-823(1981)
[21] 哈斯蒂,T。;Tibshirani,R.J。;Buja,A.,通过最佳评分进行灵活的判别分析,J.Amer。统计师。协会,89,1255-1270(1994)·Zbl 0812.62067号
[22] Rittgen,W.,ADAM:程序包手册(1997年),生物统计单位:海德堡德意志克雷布福斯钟生物统计单位
[23] Friedman,J.H.,正则化判别分析,J.Amer。统计师。协会,84165-175(1989)
[24] Reczko,M。;玻尔·H。;Subramanian,S。;帕米迪甘塔姆,S。;Hatzigeorgiou,A.,用神经网络预测折叠类,(Bohr,H.;Brunak,S.,《距离分析的蛋白质结构》(1994),IOS出版社:阿姆斯特丹IOS出版社),277-285
[25] 哈斯蒂,T。;Buja,A。;Tibshirani,R.J.,惩罚判别分析,统计年鉴,23,73-102(1995)·Zbl 0821.62031号
[26] 哈斯蒂,T。;Tibshirani,R.J.,区分自适应最近邻分类,IEEE PAMI,18,607-616(1996)
[27] Tibshirani,R.J.,通过Lasso,J.Proc.回归收缩和选择。罗伊。Stat.Soc.B,58,1,267-288(1996)·Zbl 0850.62538号
[28] 卡林,S。;Brendel,V.,蛋白质和DNA序列分析中的机会和统计意义,《科学》,25739-49(1992)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。