×

用于分类高维数据的多项式概率模型中的贝叶斯变量选择。 (英文) Zbl 1317.65049号

摘要:在微阵列数据分析中,选择少量相关基因进行分类受到了广泛关注。虽然只有两个类别的微阵列数据方法的开发是相关的,但开发更有效的算法来进行任何类别的分类是重要的。本文提出了一种用于多类分类的贝叶斯随机搜索变量选择方法,该方法可以通过联合评估基因集来识别相关基因。我们考虑了回归系数具有广义(g)-先验的多项式probit模型。利用基于模拟的MCMC方法开发了一种有效的算法,用于从后验分布模拟参数。该算法对初值的选择具有鲁棒性,并产生相关基因的后验概率用于生物解释。我们用两个著名的基因表达谱数据证明了该方法的性能:白血病数据、淋巴瘤数据、SRBCT数据和NCI60数据。与其他分类方法相比,我们的方法选择的相关基因数量较少,并且基于获得的结果获得具有竞争力的分类精度。

MSC公司:

62-08 统计问题的计算方法
2015年1月62日 贝叶斯推断
62J05型 线性回归;混合模型
62H30型 分类和区分;聚类分析(统计方面)
62页第10页 统计学在生物学和医学科学中的应用;元分析
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Albert J,Chib S(1993)二元和多分类响应数据的贝叶斯分析。美国统计协会杂志88:669-679·Zbl 0774.62031号 ·doi:10.1080/01621459.1993.10476321
[2] Alizadeh AA、Eisen MB、Davis RE、Ma C、Lossos IS、Rosenwald A、Boldrick JC、Sabet H、Tran T、Yu X、Powell JI、Yang L、Marti GE、Moore T、Hudson J、Lu L、Lewis DB、Tibshirani R、Sherlock G、Chan WC、Greiner TC、Weisenburger DD、Armitage JO、Warnke R、Staudt LM等人(2000年)通过基因表达谱鉴定的不同类型的弥漫性大B细胞淋巴瘤。自然403:503-511·doi:10.1038/35000501
[3] Ambroise C,McLachlan GJ(2002),基于微阵列基因表达数据的基因提取中的选择偏差。美国国家科学院院刊99:6562-6566·Zbl 1034.92013年 ·doi:10.1073/pnas.102102699
[4] Antonov AV,Tetko IV,Mader MT,Budczies J,Mewes HW(2004)癌症分类优化模型:从微阵列表达数据中提取基因交互信息。生物信息学20:644-652·doi:10.1093/bioinformatics/btg462
[5] Ben-Dor A、Bruhn L、Friedman N、Nachman I、Schummer M、Yakhini Z(2000)《基因表达谱的组织分类》。计算机生物学杂志7:559-583·doi:10.1089/106652700750050943
[6] Brown PJ(1993)测量、回归和校准。牛津克拉伦登·Zbl 0829.62064号
[7] Brown PJ,Vannucci M,Fearn T(1998)多元贝叶斯变量选择和预测。J R Stat Soc B杂志60:627-641·Zbl 0909.62022号 ·doi:10.1111/1467-9868.00144
[8] Chu W,Ghahramani Z,Falciani F,Wild DL(2005)利用高斯过程在微阵列基因表达数据中发现生物标记。生物信息学21:3385-3393·doi:10.1093/bioinformatics/bti526
[9] Dawid AP(1981)一些矩阵变量分布理论:符号考虑和贝叶斯应用。生物特征68:265-274·Zbl 0464.62039号 ·doi:10.1093/biomet/68.1.265
[10] Dettling M(2004)BagBoosting利用基因表达数据进行肿瘤分类。生物信息学20:3583-3593·doi:10.1093/bioinformatics/bth447
[11] Dettling M,Bühlmann P(2003)利用基因表达数据促进肿瘤分类。生物信息学19:1061-1069·doi:10.1093/bioinformatics/btf867
[12] Draminski M等人(2008)监督分类的蒙特卡罗特征选择。生物信息学24:10-117·doi:10.1093/bioinformatics/btm486
[13] Díza-Uriarte,Andés(2006)使用随机森林对微阵列数据进行基因选择和分类。BMC生物信息学7:3·doi:10.1186/1471-2105-7-3
[14] Dudoit Y,Yang H,Callow M,Speed T(2002)《利用基因表达数据进行肿瘤分类的鉴别方法比较》。美国统计学会杂志97:77-87·Zbl 1073.62576号 ·doi:10.1198/016214502753479248
[15] Genz A,Bretz F(2002)多元t-概率的计算方法。J计算图表统计11:950-971·doi:10.1198/106186002394
[16] 盖尔芬德,A。;吉尔克斯,WR(编辑);Richardson,S.(编辑);Spiegelhalter,DJ(编辑),使用基于抽样方法的模型确定,145-158(1996),伦敦·Zbl 0840.62003号
[17] George EI,McCulloch RE(1993),吉布斯抽样变量选择。美国统计协会杂志88:881-889·doi:10.1080/01621459.1993.10476353
[18] Geman S,Geman D(1984),随机松弛,吉布斯分布,图像的贝叶斯恢复。IEEE Trans-Pattern Ana Mach Intell 6:721-741(IEEE传输模式分析机器智能)·Zbl 0573.62030号 ·doi:10.1109/TPAMI.1984.4767596
[19] Gilks W、Richardson S、Spiegelhalter D(1996)《马尔可夫链蒙特卡罗实践》。查普曼和霍尔,伦敦·Zbl 0832.00018号
[20] Golub TR、Slonim DK、Tamayo P、Huard C、Gaasenbeek M、Mesirov JP、Coller H、Loh ML、Downing JR、Caligiuri MA、Bloomfield CD、Lander ES(1999)《癌症的分子分类:通过基因表达监测的类别发现和预测》。《科学》286:531-537·doi:10.1126/science.286.5439.531
[21] Gupta M,Ibrahim JG(2007)基因调控网络发现回归混合建模中的变量选择。美国统计协会杂志102:867-880·Zbl 1469.62369号 ·doi:10.1198/016214500000068
[22] Gupta M,Ibrahim JG(2009)在具有高维数据的广义线性模型中进行贝叶斯分析的先验信息矩阵。统计罪19:1641-1663·Zbl 1191.62043号
[23] Guyon I,Weston J,Barnhill S,Vapnik V(2012)使用支持向量机进行癌症分类的基因选择。机器学习46:389-422·Zbl 0998.68111号 ·doi:10.1023/A:1012487302797
[24] Ha HJ,Kubagawa H,Burrows PD(1992)与小鼠mb-1基因同源的人类基因的分子克隆和表达模式。免疫学杂志148:1526-1531
[25] Jaeger J,Sengupta R,Ruzzo WL(2003)微阵列分类的改良基因选择。Pac-Symp生物计算机8:53-64·Zbl 1219.92022号
[26] Khan J、Wei JS、Ringner M、Saal LH、Ladanii M、Westermann F、Berthold F、Schwab M、Antonescu CR、Peterson C、Meltzer PS(2001)《使用基因表达谱和人工神经网络进行癌症分类和诊断预测》。国家医学7:673-679·数字对象标识代码:10.1038/89044
[27] Kamps MP,Murre C,Sun X-H,Baltimore D(1990)一种新的同源盒基因参与了前B型ALL中t(1;19)易位蛋白的DNA结合结构域。电话:6:547-555·doi:10.1016/0092-8674(90)90658-2
[28] Kingsmore SF,Watson ML,Seldin MF(1995)小鼠11号染色体上T淋巴细胞特异性转录因子7基因的遗传定位。哺乳动物基因组6:378-380
[29] Koo JY,Sohn I,Kim S,Lee JW(2006)利用基因表达对多种癌症类型进行结构化多分光机器诊断。生物信息学22:950-958·doi:10.1093/bioinformatics/btl029
[30] Lachenbruch PA,Mickey MR(1968)判别分析中的错误率估计。技术计量10:1-11·doi:10.1080/00401706.1968.10490530
[31] Lamnisos D、Griffin JE、Steel FJ(2009),贝叶斯变量选择的Mark Transdimension抽样算法,用于变量多于观测值的分类问题。J计算图形统计18:592-612·doi:10.1198/jcgs.2009.08027
[32] Le Cao K-A,Chabrier P(2008)of:使用随机包装方法选择连续变量进行多类分类的R包。J Stat Softw统计软件28:1-16
[33] Lee Y,Lee CK(2003)使用基因表达数据通过多类别支持向量机对多种癌症类型进行分类。生物信息学19:1132-1139·doi:10.1093/bioinformatics/btg102
[34] Lee Y,Lin Y,Wahba G(2004)多类别支持向量机:微阵列数据和卫星辐射数据分类的理论和应用。美国统计协会杂志99:67-81·Zbl 1089.62511号 ·doi:10.1198/016214500000098
[35] McLachlan GJ(1992)判别分析和统计模式识别。纽约威利·Zbl 0850.62481号 ·doi:10.1002/0471725293
[36] Nguyen DV,Rocke DM(2002)通过基因表达谱的偏最小二乘法进行多类癌症分类。生物信息学18:1216-1226·doi:10.1093/bioinformatics/18.9.1216
[37] Panagiotelisa A,Smith M(2008)高维可加模型中半参数函数的贝叶斯识别、选择和估计。《计量经济学杂志》143:291-316·Zbl 1418.62166号 ·doi:10.1016/j.jeconom.2007.10.003
[38] Roke DR、Ideker T、Troyanskaya O、Quackenbush J、Dopazo J(2009)《微阵列数据归一化、变量选择、分类或聚类的论文》。生物信息学25:701-702·doi:10.1093/bioinformatics/btp038
[39] Ross DT、Scherf U、Eisen MB、Perou CM、Rees C、Spellman P、Iyer V、Jeffrey SS、de Rijn MV、Waltham M、Pergamenschikov A、Lee JCF、Lashkari D、Shalon D、Myers TG、Weinstein JN、Botstein D、Brown PO(2000)人类癌症细胞系中基因表达模式的系统变异。《自然遗传学》24:227-235·数字对象标识代码:10.1038/73432
[40] Sha N,Vannucci M,Tadesse MG,Brown PJ,Dragoni I,Davies N,Roberts TC,Contestabile A,Salmon N,Buckley C,Falciani F(2004)多项概率模型中的贝叶斯变量选择,以识别疾病阶段的分子特征。生物计量学60:8128-19·Zbl 1274.62428号 ·文件编号:10.1111/j.0006-341X.2004.00233.x
[41] Smith M,Kohn R(1996)通过贝叶斯变量选择的非参数回归。《计量经济学杂志》75:317-343·兹比尔0864.62025 ·doi:10.1016/0304-4076(95)01763-1
[42] Tan AC、Naiman DQ、Xu L、Winslow RL、Geman D(2005)《从基因表达谱对人类癌症进行分类的简单决策规则》。生物信息学21:3896-3904·doi:10.1093/bioinformatics/bti631
[43] Tibshirani R,Hastie T,Narasimhan B,Chu G(2003)最近收缩质心的分类预测及其在DNA微阵列中的应用。统计科学18:104-117·Zbl 1048.62109号 ·doi:10.1214/ss/1056397488
[44] Train K(2003)离散选择方法与模拟。剑桥大学出版社·Zbl 1047.62098号 ·doi:10.1017/CBO9780511753930
[45] Troyanskaya O,Cantor M,Sherlock G,Brown P,Hastie T,Tibshirani R,Botstein D,Altman RB(2001)DNA微阵列缺失值估计方法。生物信息学17:520-525·doi:10.1093/bioinformatics/17.6.520
[46] Tusher VG,Tibshirani R,Chu G(2001)电离辐射反应微阵列的显著性分析。美国国家科学院院刊98:5116-5121·2014年12月10日 ·doi:10.1073/pnas.091062498
[47] Yang AJ,Song XY(2010)使用基因表达数据进行疾病分类的贝叶斯变量选择。生物信息学26:215-222·doi:10.1093/bioinformatics/btp638
[48] Yeo G,Poggio T(2001)SRBCT的多类分类,麻省理工学院DSpace。麻省理工学院
[49] Yeung KY,Bumgarner RE(2003)重复测量微阵列数据的多类分类:在癌症中的应用。基因组生物学4:R83·doi:10.1186/gb-2003-4-12-r83
[50] Yeung KY,Bumgarner RE,Raftery AE(2005)贝叶斯模型平均:改进的多类、基因选择和微阵列数据分类工具的开发。生物信息学21:2394-2402·doi:10.1093/bioinformatics/bti319
[51] Zellner A(1986)关于评估先验分布和使用g-先验分布的贝叶斯回归分析。收录:《贝叶斯推理和决策技术:纪念布鲁诺·德·菲内蒂的论文》,阿姆斯特丹,第233-243页·Zbl 0655.62071号
[52] Zhou X,Wang X,Dougherty ER(2006)使用贝叶斯基因选择的多项式概率回归进行多类癌症分类。IEE程序系统生物153:70-78·doi:10.1049/ip-syb:20050015
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。