×

广泛比较应用于微阵列数据的最新分类工具。 (英语) 兹比尔1429.62252

摘要:由于大多数分类文章都将单一技术应用于单个基因表达数据集,因此通过综合比较研究评估每种方法的性能至关重要。我们通过广泛的比较研究进行评估S.Dudoit公司等[J.Am.Stat.Assoc.97,No.457,77–87(2002;Zbl 1073.62576号)]最近开发的分类方法在微阵列实验中的性能,并为在各种情况下找到最合适的分类工具提供指导。我们将它们的比较扩展到三个方向:更多的分类方法(21种方法)、更多的数据集(7种数据集)和更多的基因选择技术(3种方法)。我们的比较研究显示了一些有趣的事实,并为生物学家和生物统计学家提供了微阵列数据分析中分类工具的一些见解。本研究还表明,较复杂的分类器比kNN、DLDA、DQDA等经典方法具有更好的性能,而基因选择方法的选择对分类方法的性能有很大影响,因此分类方法应与基因选择标准一起考虑。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alizadeh,A.A。;艾森,M.B。;Davis,R.E。;马,C。;Lossos,I.S。;罗森瓦尔德,A。;Bordrick,J.C。;萨贝特,H。;Tran,T。;Yu,X。;鲍威尔,J.I。;Yang,L。;马蒂,G.E。;Moore,T.Jr.J.H。;Lu,L.等人。;刘易斯,D.B。;Tibshirani,R。;Sherlock,G。;Chan,W.C。;格雷纳,T.C。;维森伯格,D.D。;Armitage,J.O。;Warnke,R。;利维,R。;Wilson,W。;格雷弗,M.R。;Byrd,J.C。;博茨坦,D。;布朗,P.O。;Staudt,L.M.,通过基因表达谱鉴定的弥漫性大B细胞淋巴瘤的不同类型,《自然》,403,503-511(2000)
[2] 阿隆,美国。;北卡罗来纳州巴尔凯。;诺特曼,D.A。;吉什,K。;伊巴拉,S。;麦克,D。;Levine,A.J.,通过寡核苷酸阵列探测肿瘤和正常结肠组织的聚类分析揭示的广泛基因表达模式,Proc。美国国家科学院。科学,96,6745-6750(1999)
[3] 安布罗斯,C。;McLachlan,G.J.,基于微阵列基因表达数据的基因提取中的选择偏差,PNAS,99,6562-6566(2002)·Zbl 1034.92013年
[4] Breiman,L.,电弧分类器,《统计年鉴》,26,801-824(1998)·Zbl 0934.62064号
[5] Breiman,L.,《随机森林》,马赫。学习,45,5-32(2001)·Zbl 1007.68152号
[6] 布雷曼,L。;弗里德曼,J.H。;Olshen,R。;Stone,C.J.,《分类和回归树》(1984),沃兹沃斯:加利福尼亚州沃兹沃思贝尔蒙特·Zbl 0541.62042号
[7] 布朗,P.O。;Borstein,D.,用DNA微阵列探索基因组的新世界,Natur。遗传学(增刊),21,33-37(1999)
[8] Chang,C.C.,Lin,C.J.,2001年。LIBSVM:支持向量机库。可在网址:http://www.csie.ntu.edu.tw/cjlin/libsvm;Chang,C.C.,Lin,C.J.,2001年。LIBSVM:支持向量机库。可在网址:http://www.csie.ntu.edu.tw/cjlin/libsvm
[9] Dettling,M。;Buhlmann,P.,《利用基因表达数据促进肿瘤分类》,生物信息学,第19期,第1061-1069页(2003年)
[10] 丁,B。;Gentleman,R.,《使用广义偏最小二乘法进行分类》(2003),生物统计系:哈佛大学生物统计系
[11] Dudoit,S。;Fridlyand,J。;Speed,P.,《使用基因表达数据进行肿瘤分类的鉴别方法比较》,J.Amer。统计师。Assoc,97,77-87(2002)·Zbl 1073.62576号
[12] 艾森,M.B。;斯佩尔曼,P.T。;布朗,P.O。;Botstein,D.,基因组表达模式的聚类分析和显示,PNAS,9514863-14868(1998)
[13] 弗伦德,Y。;Schapire,R.E.,《在线学习的决策理论推广及其在助推中的应用》,J.Compute。系统科学,55,119-139(1997)·Zbl 0880.68103号
[14] Friedman,J.,多元自适应回归样条曲线(含讨论),《统计年鉴》,19,1-141(1991)·Zbl 0765.62064号
[15] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《增加的加性逻辑回归统计观点》,《统计年鉴》,28,337-407(2000)·兹比尔1106.62323
[16] Furey,T.S。;北卡罗来纳州克里斯蒂亚尼尼。;达菲,N。;Bednarski,D.W。;舒默,M。;Haussler,D.,使用微阵列表达数据对癌症组织样本进行支持向量机分类和验证,生物信息学,16906-914(2000)
[17] Garber,M.E。;特罗扬斯卡娅,O.G。;施卢恩斯,K。;彼得森,S。;塞斯勒,Z。;佩西纳·盖尔巴赫,M。;de Rijn,M.V。;罗森,G.D。;佩鲁,C.M。;怀特,R.I。;奥特曼,R.B。;布朗,P.O。;博茨坦,D。;Petersen,I.,肺腺癌基因表达的多样性,Proc。美国国家科学院。科学,98,13784-13789(2001)
[18] Golub,T.R。;Slonim,D.K。;Tamayo,P。;华德,C。;加森贝克,M。;梅西洛夫,J.P。;科勒,H。;卢,M。;唐宁,J.R。;Caligiuri,医学硕士。;哥伦比亚特区布隆菲尔德。;Lander,E.S.,《通过基因表达监测发现和预测癌症类别的分子分类》,《科学》,286531-537(1999)
[19] 哈斯蒂,T。;Tibshirani,R.,《高斯混合判别分析》,J.Roy。统计师。Soc.序列号。B、 58、158-176(1996)·Zbl 0850.62476号
[20] 哈斯蒂,T。;Tibshirani,R。;Buja,A.,通过最佳评分进行灵活的判别分析,J.Amer。统计师。Assoc,89,1255-1270(1994)·Zbl 0812.62067号
[21] 哈斯蒂,T。;布贾,A。;Tibshirani,R.,《惩罚判别分析》,《统计年鉴》,23,73-102(1995)·Zbl 0821.62031号
[22] Hosmer,D.W.,Lemeshow,S.,1989年。应用Logistic回归。概率与数理统计中的威利级数。威利,纽约州纽约市。;Hosmer,D.W.,Lemeshow,S.,1989年。应用Logistic回归。概率与数理统计中的威利级数。威利,纽约州纽约市·Zbl 0967.62045号
[23] Khan,J。;魏杰。;林格纳,M。;萨尔,L。;拉达尼,M。;韦斯特曼,F。;Berthold,F。;施瓦布,M。;安东内斯库,C。;彼得森,C。;Meltzer,P.S.,《使用基因表达谱和人工神经网络对癌症进行分类和诊断预测》,Natur。医学,7673-679(2001)
[24] Lander,E.S.,《希望阵列》,Natur。遗传学(增刊),21,3-4(1999)
[25] Marx,B.D.,广义线性回归的迭代加权偏最小二乘估计,技术计量学,38374-381(1996)·Zbl 0902.62081号
[26] McLachlan,G.J.,《判别分析与统计模式识别》(1992),威利出版社:威利纽约·Zbl 0850.62481号
[27] 纳多,C。;Bengio,Y.,泛化误差推断,马赫数。学习,52,239-281(2003)·Zbl 1039.68104号
[28] Ross,D.T。;谢尔夫,美国。;艾森,M.B。;佩鲁,C.M。;斯佩尔曼,P。;艾耶,V。;杰弗里,S.S。;de Rijn,M.V。;Waltham,M。;Pergamenschikov,A。;Lee,J.C.F。;拉什卡里,D。;沙龙,D。;Myers,T.G。;韦恩斯坦,J.N。;博茨坦,D。;Brown,P.O.,《人类癌症细胞系基因表达模式的系统性变化》,Natur。遗传学,24,227-234(2000)
[29] 谢尔夫,U.,罗斯,D.T.,沃尔瑟姆,M.,史密斯,L.H.,李,J.K.,塔纳比,L.,科恩,K.W.,莱因霍尔德,W.C.,迈尔斯,T.G.,安德鲁斯,D.T..,斯库迪罗,D.A.,艾森,M.B.,索斯维尔,E.A.,波米尔,Y.,博茨坦,D.,布朗,P.O.,温斯坦,J.N.,2000年。癌症分子药理学的基因表达数据库。自然遗传学。24, 236-244.; 谢尔夫,U.,罗斯,D.T.,沃尔瑟姆,M.,史密斯,L.H.,李,J.K.,塔纳比,L.,科恩,K.W.,莱因霍尔德,W.C.,迈尔斯,T.G.,安德鲁斯,D.T..,斯库迪罗,D.A.,艾森,M.B.,索斯维尔,E.A.,波米尔,Y.,博茨坦,D.,布朗,P.O.,温斯坦,J.N.,2000年。癌症分子药理学的基因表达数据库。自然遗传学。24, 236-244.
[30] Tibshirani,R。;哈斯蒂,T。;Narasimhan,B。;Chu,G.,通过基因表达的收缩质心诊断多种癌症,Proc。美国国家科学院。《科学》杂志,6567-6572(2002)
[31] Tibshirani,R.,Hastie,T.,Narasimhan,B.,Chu,G.,2003年。最近收缩质心的类别预测及其在DNA微阵列中的应用。统计科学18104-117。;Tibshirani,R.,Hastie,T.,Narasimhan,B.,Chu,G.,2003年。最近收缩质心的类别预测及其在DNA微阵列中的应用。统计科学18104-117·Zbl 1048.62109号
[32] 俄勒冈州特罗扬斯卡娅。;康托,M。;Sherlock,G。;布朗,P.O。;哈斯蒂,T。;Tibshirani,R。;博茨坦,D。;Altman,R.B.,DNA微阵列缺失值估计方法,生物信息学,17,520-525(2001)
[33] Vapnik,V.,《统计学习理论》(1998),Wiley:Wiley Chichester,GB·Zbl 0935.62007号
[34] Zuruda,J.M.,《人工神经系统导论》(1992),PWS出版公司:PWS出版社,纽约州波士顿
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。