×

大型生物数据集的非参数变量选择、聚类和预测。 (英语) Zbl 1338.92008号

Mitra,Riten(编辑)等,生物统计学中的非参数贝叶斯推断。查姆:施普林格(ISBN 978-3-319-19517-9/hbk;978-3-316-19518-6/电子书)。《概率与统计科学前沿》,175-192(2015)。
小结:由于样本量相对较小,且大量协变量之间存在复杂的交互模式,因此在高维回归环境中开发用于可靠推断和预测响应的简约模型通常具有挑战性。我们提出了一个有效的非参数框架,用于在具有连续结果的高通量回归环境中同时进行变量选择、聚类和预测。该模型利用Poisson-Dirichlet过程(PDP)引起的稀疏性将协变量分组为低维潜在簇,这些簇由样本中具有相似模式的协变量组成。这些数据可以指导选择合适的集群分配方案,在PDP及其特殊情况(Dirichlet过程)之间进行选择。随后,利用潜在聚类,利用线性和非线性元素的自适应混合,为响应建立非线性预测模型,从而实现模型简约性和灵活性之间的平衡。通过对基因表达微阵列数据集的分析,我们证明了该方法的聚类机制的可靠性,并表明该技术在预测特定主题临床结果的准确性方面优于现有方法。
关于整个系列,请参见[Zbl 1327.92007号].

MSC公司:

92B15号机组 普通生物统计学
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bair,E。;Tibshirani,R.,《利用基因表达数据预测患者存活率的半监督方法》,《公共科学图书馆生物学》,第2511-522页(2004年)·doi:10.1371/journal.pbio.0020108
[2] Baladadayuthapani,V.、Holmes,C.C.、Mallick,B.K.和Carroll,R.J.(2006)。使用贝叶斯MARS建模非线性基因相互作用。Do K.A.、Mueller P.和Vannucci M.(编辑)《基因表达和蛋白质组学的贝叶斯推断》。剑桥大学出版社。
[3] 巴里·D·。;Hartigan,J.A.,《变化点问题的贝叶斯分析》,《美国统计协会杂志》,88,309-319(1993)·Zbl 0775.62065号
[4] Bonato,V.、Baladadayuthapani,V.,Broom,B.M.、Sulman,E.P.、Aldape,K.D.和Do,K.-A.(2010年)。基因表达数据中生存预测的贝叶斯集成方法。生物信息学。
[5] Brown,P.J。;Vannucci,M。;Fearn,T.,多元贝叶斯变量选择和预测,J.R.Stat.Soc.系列B,60627-641(1998)·Zbl 0909.62022号 ·doi:10.1111/1467-9868.00144
[6] 巴克利,J。;James,I.,《截尾数据线性回归》,《生物统计学》,第66期,第429-436页(1979年)·Zbl 0425.62051号 ·doi:10.1093/biomet/66.3.429
[7] 蔡,B。;Dunson,D.,广义线性混合模型中的贝叶斯协方差选择,生物统计学,62446-457(2006)·Zbl 1097.62016年 ·文件编号:10.1111/j.1541-0420.2005.00499.x
[8] 考克斯·D。;Oakes,D.,《生存数据分析》(1984),伦敦:查普曼和霍尔出版社,伦敦
[9] Cristianini,N.和Shawe-Taylor,J.(2000)。支持向量机简介(以及其他基于内核的学习方法)。剑桥大学出版社·Zbl 0994.68074号
[10] Crowley,E.M.,正态均值的产品分割模型,美国统计协会杂志,92192-198(1997)·Zbl 0889.62011 ·doi:10.1080/01621459.1997.10473616
[11] Dahl,D.B.(2006)。通过dirichlet过程混合模型对表达式数据进行基于模型的聚类。在K.-A.Do、P.Müller和M.Vannucci编辑的《基因表达和蛋白质组学的贝叶斯推断》中。剑桥大学出版社。
[12] de Boor,C.,《样条实用指南》(1978),纽约:Springer Verlag出版社,纽约·Zbl 0406.41003号 ·doi:10.1007/978-1-4612-66333-3
[13] Dellaportas,P。;福斯特,J.J。;Ntzoufras,I。;戴·D·K。;Ghosh,S.K。;Mallick,B.K.,使用吉布斯抽样的贝叶斯变量选择,广义线性模型:贝叶斯观点,273-286(1982),纽约:Marcel Dekker,Inc.,纽约·Zbl 1026.62023号
[14] Denison,D.G.T。;马利克,B.K。;Smith,A.F.M.,自动贝叶斯曲线拟合,英国皇家统计学会杂志,B辑,60333-350(1998)·Zbl 0907.62031号 ·doi:10.1111/1467-9868.00128
[15] Denison,D.G.T。;马利克,B.K。;Smith,A.F.M.,贝叶斯火星,统计与计算,8337-346(1998)·doi:10.1023/A:1008824606259
[16] 邓森,D.B。;Park,J.-H.,《内核破胶过程》,《生物统计学》,95,307-323(2008)·Zbl 1437.62448号 ·doi:10.1093/biomet/asn012
[17] 邓森,D.B。;Herring,A.H。;Engel,S.M.,功能相关基因多态性的贝叶斯选择和聚类,美国统计协会杂志,103,534-546(2008)·Zbl 1469.62367号 ·doi:10.1198/0162145000000554
[18] Eubank,R.,非参数回归和样条平滑(1999),纽约:马塞尔·德克尔,纽约·Zbl 0936.62044号
[19] 范,J。;Li,R.,考克斯比例风险模型和脆弱性模型的变量选择,《统计年鉴》,30,74-99(2002)·Zbl 1012.62106号 ·doi:10.1214/aos/1015362185
[20] Ferguson,T.S.,一些非参数问题的贝叶斯分析,《统计年鉴》,1209-223(1973)·Zbl 0255.62037号 ·doi:10.1214/aos/1176342360
[21] 弗雷利,C。;Raftery,A.E.,基于模型的聚类、判别分析和密度估计,美国统计协会杂志,97,611-631(2002)·Zbl 0173.26404号 ·doi:10.1198/016214502760047131
[22] 弗洛伊登伯格,J.M。;Sivaganesan,S。;瓦格纳,M。;Medvedovic,M.,非监督差异共表达分析的半参数贝叶斯模型,BMC生物信息学,11234(2010)·doi:10.1186/1471-2105-11-234
[23] Friedman,J.H.,多元自适应回归样条,《统计年鉴》,19,1-141(1991)·Zbl 0255.62037号 ·doi:10.1214/aos/1176347963
[24] 乔治·E。;McCulloch,R.,通过吉布斯抽样进行变量选择,《美国统计协会杂志》,88,881-889(1993)·Zbl 1073.62545号 ·doi:10.1080/01621459.1993.10476353
[25] Guha,S.,大数据集可数混合模型的后验模拟,美国统计协会杂志,105,775-786(2010)·Zbl 1392.60064号 ·doi:10.1198/jasa.2010.tm09340
[26] Guha,S.和Baladadayuthapani,V.(2014)。高维回归的非参数变量选择、聚类和预测。ArXiv电子打印,ArXiv:1407.5472。
[27] Hartigan,J.A.,划分模型,统计学中的通信,A部分-理论和方法,192745-2756(1990)·Zbl 0765.62064号 ·doi:10.1080/03610929008830345
[28] 哈斯蒂·T·J。;Tibshirani,R.J.,广义加性模型(1990),伦敦:查普曼和霍尔出版社,伦敦·Zbl 0747.62061号
[29] Ishwaran,H。;James,L.F.,物种抽样混合模型的广义加权中餐馆过程,统计学家。中国科学院,1321211-1235(2003)·Zbl 1086.62036号
[30] Ishwaran,H。;Kogalur,U.B.,生存数据的高维变量选择,美国统计协会杂志,105,205-217(2010)·兹比尔1397.62220 ·doi:10.1198/jasa.2009.tm08622
[31] Kim,S。;Tadesse,M.G。;Vannucci,M.,通过Dirichlet过程混合模型进行聚类的变量选择,Biometrika,93,877-893(2006)·Zbl 1436.62266号 ·doi:10.1093/biomet/93.4.877
[32] 郭,L。;Mallick,B.,加速失效时间模型的贝叶斯半参数推断,加拿大J.Stat.,25,457-472(1997)·Zbl 0894.62033号 ·doi:10.2307/3315341
[33] Lee,J。;缪勒,P。;Ji,Y.,局部聚类的非参数贝叶斯模型,美国统计协会杂志,108775-788(2013)·doi:10.1080/01621459.2013.784705
[34] Lee,K。;Mallick,B.,生存模型中变量选择的贝叶斯方法及其在dna微阵列数据中的应用,Sankhya,66756-778(2004)·Zbl 1236.05139号
[35] 李,H。;Gui,J.,高维微阵列基因表达数据的部分Cox回归分析,生物信息学,20208-215(2004)·兹伯利0522.05066 ·doi:10.1093/bioinformatics/bth900
[36] Likoi,A.和Prünster,I.(2010年)。Dirichlet过程之外的模型。在N.Hjort、C.Holmes、P.Müller和S.Walker,贝叶斯非参数学编辑,第80-136页。剑桥统计与概率数学系列。
[37] Liu,J.(2008)。科学计算中的蒙特卡罗策略。斯普林格·弗拉格·Zbl 1132.65003号
[38] Madigan,D。;Raftery,A.,使用occams窗口的图形模型中模型选择和模型不确定性的计算,美国统计协会杂志,891535-1546(1994)·Zbl 0814.62030号 ·doi:10.1080/01621459.1994.10476894
[39] 马利克,B.K。;Ghosh,D。;Ghosh,M.,《利用基因表达数据对肿瘤进行贝叶斯分类》,《皇家统计学会杂志:B辑(统计方法)》,67219-234(2005)·Zbl 1069.62100号 ·数字对象标识代码:10.1111/j.1467-9868.2005.00498.x
[40] Medvedovic,M。;Yeung,K.Y。;Bumgarner,R.E.,基于贝叶斯混合模型的重复微阵列数据聚类,生物信息学,20,1222-1232(2004)·Zbl 1192.62083号 ·doi:10.1093/bioinformatics/bth068
[41] 米切尔,T.J。;Beauchamp,J.J.,线性回归中的贝叶斯变量选择,美国统计协会杂志,83,1023-1036(1988)·Zbl 0673.62051号 ·doi:10.1080/01621459.1988.10478694
[42] 缪勒,P。;F.金塔纳。;Rosner,G.L.,协变量回归的产品分割模型,计算与图形统计杂志,20260-278(2011)·doi:10.1198/jcgs.2011.09066
[43] Nguyen博士。;Roke,D.,应用于dna微阵列存活数据的偏最小二乘比例风险回归,生物信息学,181625-1632(2002)·doi:10.1093/bioinformatics/18.12.1625
[44] Peduzzi,P.N。;哈迪,R.J。;Holford,T.R.,非线性回归模型的逐步变量选择程序,生物统计学,36511-516(1980)·Zbl 0442.62049号 ·doi:10.2307/2530219
[45] Perman,M。;皮特曼,J。;Yor,M.,泊松点过程和偏移的尺寸抽样,Probab。理论相关领域,92,21-39(1992)·Zbl 0741.60037号 ·doi:10.1007/BF01205234
[46] Pitman,J.,可交换和部分可交换随机分区,Probab。理论相关领域,102145-158(1995)·Zbl 0387.62030号 ·doi:10.1007/BF01213386
[47] 皮特曼,J。;Yor,M.,从稳定从属函数导出的双参数泊松-二里氏分布,Ann.Probab。,25, 855-900 (1997) ·Zbl 1286.62072号 ·doi:10.1214/aop/1024404422
[48] Quintana,F.A.,《贝叶斯聚类的预测观点》,《统计规划与推断杂志》,1362407-2429(2006)·Zbl 1090.62023号 ·doi:10.1016/j.jspi.2004.09.015
[49] F.A.金塔纳。;Iglesias,P.L.,贝叶斯聚类和产品划分模型,J.R.Statist。Soc.B,65,557-574(2003)·Zbl 1065.62115号 ·doi:10.1111/1467-9868.00402
[50] Sha,N。;Vannucci,M。;Tadesse,M.G。;Brown,P.J.,用于识别疾病阶段分子特征的多项式概率模型中的贝叶斯变量选择,生物统计学,60812-819(2004)·Zbl 1274.62428号 ·doi:10.1111/j.0006-341X.2004.00233.x
[51] Sha,北。;Tadesse,M.G。;Vannucci,M.,贝叶斯变量选择用于分析经审查结果的微阵列数据,生物信息学,222262-2268(2006)·doi:10.1093/bioinformatics/btl362
[52] Tibshirani,R.,《考克斯模型中变量选择的套索方法》,《统计医学》,第16期,第385-395页(1997年)·doi:10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3
[53] Volinsky,C.,比例风险模型中的贝叶斯模型平均:中风风险评估,附录。Stat.,46,433-448(1997)·Zbl 0903.62093号
[54] Zellner,A。;Goel,P。;Zellner,A.,《关于用g先验分布评估先验分布和贝叶斯回归分析》,贝叶斯推断和决策技术,233-243(1986),纽约:Elsevier,纽约·Zbl 0655.62071号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。