×

促进统计建模——非技术性介绍。 (英语) Zbl 07289513号

摘要:Boosting算法最初是为机器学习开发的,但后来被用于估计统计模型——提供了各种实际优势,如自动变量选择和效应估计的隐式正则化。然而,对所得模型的解释与经典方法拟合的结果保持一致。因此,提升允许使用高级机器学习方案来估计各种类型的统计模型。本教程旨在强调如何将boosting用于半参数建模,算法设计的实际意义以及数据分析人员必须预期的缺陷。我们举例说明了boosting在分析印度儿童发育迟缓评分和高维肿瘤DNA数据集中的应用,以开发乳腺癌患者转移发生的生物标记物。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Arnold,F,Parasuraman,S,Arokiasamy,P,Kothari,M(2009)《印度营养:国家家庭健康调查》(NFHS-3),印度,200506(技术报告)。孟买:国际人口科学研究所;美国马里兰州卡尔弗顿:ICF Macro。
[2] Bauer,A,Scheipl,F,Küchenhoff,H,Gabriel,AA(2018)《半参数函数标度回归简介》。统计建模, 18 364-365. ·Zbl 07289512号
[3] Bender,A,Groll,A,Scheipl,F(2018)时间对事件分析的广义加性模型方法。统计建模, 18 299-321. ·Zbl 07289510号
[4] Berger,M,Schmid,M(2018)离散时间对事件数据的半参数回归。统计建模,18 322-345·Zbl 07289511号
[5] Breiman,L(2001)《统计建模:两种文化》(作者进行了评论和反驳)。统计科学, 16, 199-231. ·Zbl 1059.62505号 ·doi:10.1214/ss/1009213726
[6] Brockhaus,S,Melcher,M,Leisch,F,Greven,S(2017)使用大量功能历史效应推动灵活的功能回归模型。统计与计算,27113-926页·Zbl 1384.62131号 ·doi:10.1007/s11222-016-9662-1
[7] Bühlmann,P,Hothorn,T(2007)Boosting algorithms:Regulation,prediction and model fitting(带讨论)。统计科学, 22, 477-522. ·Zbl 1246.62163号 ·doi:10.1214/07-STS242
[8] Bühlmann,P,Gertheiss,J,Hieke,S,Kneib,T,Ma,S,Schumacher,M,Tutz,G,Wang,C-Y,Wang,Z,Ziegler,A(2014)关于“增强算法的演变和扩展统计增强”的讨论。医学信息方法, 53, 436-445. ·数字对象标识代码:10.3414/13100122
[9] de Onis,M,Monteiro,C,Akre,J,Clugston,G(1993)《全球蛋白质能量营养不良程度:世界卫生组织全球儿童生长数据库综述》。世界卫生组织公报, 71, 703-712.
[10] Fenske,N,Burns,J,Hothorn,T,Rehfuess,EA(2013)《了解印度儿童发育迟缓:使用加性分位数回归对社会经济、营养和环境决定因素的综合分析》。公共服务一号第8页,e78692·doi:10.1371/journal.pone.0078692
[11] Fenske,N,Kneib,T,Hothorn,T(2011),通过促进加性分位数回归确定儿童严重营养不良的风险因素。美国统计协会杂志, 106, 494-510. ·Zbl 1232.62146号 ·doi:10.1198/jasa.2011.ap09272
[12] Freund,Y(1990)以多数人的方式推进弱学习算法。马萨诸塞州富尔克,Case,J eds,第三届计算学习理论年度研讨会论文集,COLT 1990,美国纽约州罗切斯特罗切斯特大学,1990年8月6日至8日,第202-216页·doi:10.1016/B978-1-55860-146-8.50019-9
[13] Gravier,E,Pierron,G,Vincent-Salomon,A,Gruel,N,Raynal,V,Savignoni,A,De Rycke,Y,Pierga,J-Y,Lucchesi,C,Reyal,F,Fourquet,A,Roman-Roman,S,Radvanyi,F,Sastre-Garau,X,Asselain,B,Delatter,O(2010)T1T2阴性乳腺癌患者的预后DNA特征。基因、染色体与癌症, 49, 1125-1134. ·doi:10.1002/gcc.20820
[14] Harrell,FE,Calif,RM,Pryor,DB,Lee,KL,Rosati,RA(1982年),评估医疗测试的结果。美国医学会杂志, 247, 2543-2546. ·doi:10.1001/jama.1982.03320430047030
[15] Harrell,FE,Lee,KL,Calif,RM,Pryor,DB,Rosati,RA(1984)改善预后预测的回归建模策略。医学统计学, 3, 143-152. ·数字对象标识代码:10.1002/sim.4780030207
[16] Hepp,T,Schmid,M,Gefeller,O,Waldmann,E,Mayr,A(2016)正则化回归方法——梯度增强和套索之间的比较。医学信息方法, 55, 422-430. ·doi:10.3414/ME16-01-0033
[17] Hofner,B,Hothorn,T,Kneib,T,Schmid,M(2011)基于增强的无偏模型选择框架。计算与图形统计杂志, 20, 956-971. ·doi:10.1198/jcgs.2011.09220
[18] Hofner,B,Kneib,T,Hothorn,T(2014a)约束回归的统一框架。统计与计算,26,1-14。doi:10.1007/s11222-014-9520-y·Zbl 1342.62115号 ·doi:10.1007/s11222-014-9520-y
[19] Hofner,B,Mayr,A,Robinzonov,N,Schmid,M(2014b)《R中基于模型的助推:使用R包mboost的实践教程》。计算统计学,29,3-35。doi:/10.1007/s00180-012-0382-5·Zbl 1306.65069号 ·doi:10.1007/s00180-012-0382-5
[20] Hofner,B,Mayr,A,Schmid,M(2016)gamboostLSS:GAMLSS框架中模型构建和变量选择的R包。统计软件杂志, 74, 1-31. doi:10.18637/jss.v074.i01·doi:10.18637/jss.v074.i01
[21] Hothorn,T(2018)自上而下的转型选择。统计建模, 18 274-298. ·Zbl 07289509号
[22] Hothorn,T,Bühlmann,P,Kneib,T,Schmid,M,Hofner,B(2016)mbost:基于模型的增强.R程序包版本2.8-0。统一资源定位地址https://CRAN.R-project.org/package=mboost
[23] Kneib,T,Hothorn,T,Tutz,G(2009),地质加性回归模型中的变量选择和模型选择。生物计量学, 65, 626-634. ·Zbl 1167.62096号 ·doi:10.1111/j.1541-0420.2008.01112.x
[24] Koenker,R,Ng,P,Portnoy,S(1994)分位数平滑样条曲线。生物特征, 81, 673-680. ·Zbl 0810.62040 ·doi:10.1093/biomet/81.4.673
[25] Mayr,A,Binder,H,Gefeller,O,Schmid,M(2014a)推进算法的演变。医学信息方法, 53, 419-427. ·文件编号:10.3414/ME13-01-0122
[26] Mayr,A,Binder,H,Gefeller,O,Schmid,M(2014b)《扩大统计增长》。医学信息方法, 53, 428-435. ·文件编号:10.3414/ME13-01-0123
[27] Mayr,A,Fenske,N,Hofner,B,Kneib,T,Schmid,M(2012a)高维数据位置、规模和形状的广义加性模型——基于增强的灵活方法。英国皇家统计学会期刊,C辑(应用统计学), 61, 403-427. ·文件编号:10.1111/j.1467-9876.2011.01033.x
[28] Mayr,A,Hofner,B,Schmid,M(2012b)知道何时停止的重要性——组件式梯度提升的顺序停止规则。医学信息方法, 51, 178-186. ·doi:10.3414/ME11-02-0030
[29] Mayr,A,Hofner,B,Schmid,M(2016)通过优化一致性指数和稳定性选择提高稀疏生存模型的判别能力。BMC生物信息学, 17, 288. ·doi:10.1186/s12859-016-1149-8
[30] Mayr,A,Hofner,B,Waldmann,E,Hepp,T,Meyer,S,Gefeller,O(2017a)生物医学统计增长的更新。医学中的计算和数学方法.doi:10.115/2017/6083072·Zbl 1397.92018号 ·doi:10.1155/2017/6083072
[31] Mayr,A,Hothorn,T,Fenske,N(2012c)个体儿童未来BMI值的预测区间分位数提升的非参数方法。BMC医学研究方法学, 12. doi:10.1186/1471-2288-12-6·doi:10.1186/1471-2288-12-6
[32] Mayr,A,Schmid,M(2014)提高生存数据的一致性指数推导和评估生物标志物组合的统一框架。公共服务一号第9页,e84483·doi:10.1371/journal.pone.0084483
[33] Mayr,A,Schmid,M,Pfahlberg,A,Uter,W,Gefeller,O(2017b)一种置换测试,通过升压位置和比例模型分析医疗设备的系统偏差和随机测量误差。医学研究中的统计方法, 26, 1443-1460.
[34] R开发核心团队(2016)R: 统计计算语言与环境.R统计计算基金会,奥地利维也纳。ISBN 3-900051-07-0。统一资源定位地址https://www.R-project.org
[35] 日本雷米(2016)数据微阵列:用于分类的数据集集合.URLhttps://github.com/boost-R/datamicroray
[36] Rigby,RA,Stasinopoulos,D(2005)位置、规模和形状的广义加性模型(含讨论)。应用统计学, 54, 507-554. ·Zbl 1490.62201号 ·doi:10.1111/j.1467-9876.2005.00510.x
[37] Schmid,M,Hothorn,T(2008)使用组件式P样条推进加法模型。计算统计学与数据分析, 53, 298-311. ·Zbl 1231.62071号 ·doi:10.1016/j.csda.2008.09.009
[38] Sobotka,F,Kneib,T(2012),地质添加剂预期回归。计算统计与数据分析, 56, 755-767. doi:10.1016/j.csda.2010.11.015·Zbl 1241.62058号 ·doi:10.1016/j.csda.2010.11.015
[39] Stasinopoulos,M,Rigby,RA,de Bastiani,F(2018)使用GAMLSS的分布回归方法。统计建模,18 248-273·Zbl 07289508号
[40] Tibshirani,R(1996)通过套索回归收缩和选择。英国皇家统计学会学报B辑第58267-288页·Zbl 0850.62538号
[41] Tutz,G,Binder,H(2006)通过基于相似性的增强进行隐式变量选择的广义加性建模。生物计量学, 62, 961-971. ·Zbl 1116.62075号 ·doi:10.1111/j.1541-0420.2006.00578.x
[42] Umlauf,N Kneib,T(2018)贝叶斯分布回归入门。统计建模, 18 219-247. ·Zbl 07289507号
[43] Waldmann,E(2018)分位数回归——关于如何和为什么的短篇故事。统计建模, 18 203-218. ·Zbl 07289506号
[44] Waldmann,E,Taylor-Robinson,D,Klein,N,Kneib,T,Pressler,T,Schmid,M,Mayr,A(2017),纵向和时间-事件数据的增强联合模型。生物医学杂志.doi:10.1002/bimj.201600158·Zbl 1379.62088号 ·doi:10.1002/bimj.201600158
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。