×

广义加性回归中分类预测因子的树结构建模。 (英语) Zbl 1416.62364号

概述:广义线性和加性模型是非常有效的回归工具,但如果包括许多类别的分类预测因子,则必须估计许多参数。本文提出的方法通过使用树型方法获得类别簇,重点研究类别预测因子的主要作用。当预测器有多个类别时,人们特别想知道哪些类别必须根据它们对响应的影响进行区分。树结构方法允许检测共享相同效果的类别簇,同时允许其他预测因子,尤其是度量预测因子,对响应产生线性或加性影响。提出了一种拟合算法,并对各种停止准则进行了评估。首选的停止标准基于表示条件推理过程的值。此外,还研究了簇的稳定性,并用bootstrap方法研究了预测因子的相关性。多个应用表明了树结构方法的有效性,小型仿真研究表明,拟合过程运行良好。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62J12型 广义线性模型(逻辑模型)
62J02型 一般非线性回归
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Belitz C、Brezger A、Kneib T、Lang S、Umlauf N(2015)BayesX:结构化加性回归模型中的贝叶斯推断软件。R包版本1.0-0
[2] Berger M(2017)structree:树结构聚类.R包1.1.4版
[3] 邦德尔,HD;Reich,BJ,anova中的同时因子选择和崩溃水平,生物统计学,65,169-177,(2009)·Zbl 1159.62048号 ·doi:10.1111/j.1541-0420.2008.01061.x
[4] Breiman,L.,《随机森林》,《马赫学习》,45,5-32,(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[5] Breiman L、Friedman JH、Olshen RA、Stone JC(1984)分类和回归树。蒙特雷Wadsworth·兹伯利0541.62042
[6] Bühlmann,P。;Yu,B.,《L2损失推动:回归和分类》,美国统计协会杂志,98,324-339,(2003)·Zbl 1041.62029号 ·doi:10.1198/0162145003000125
[7] Bürgin,R。;Ritschard,G.,纵向有序反应的基于树的变系数回归,计算统计数据分析,86,65-80,(2015)·Zbl 1468.62033号 ·doi:10.1016/j.csda.2015.01.003
[8] 陈,J。;Yu,K。;兴,A。;Therneau,TM,用于评估复杂的基因-基因和基因-环境联合效应的部分线性基于树的回归模型,基因流行病学,31238-251,(2007)·doi:10.1002/gepi.20205
[9] 杜塞尔多普,E。;Meulman,JJ,发现治疗协变量交互作用的回归树干方法,《心理测量学》,69,355-374,(2004)·Zbl 1306.62405号 ·doi:10.1007/BF02295641
[10] 杜塞尔多普,E。;Conversano,C。;Os,BJ,同时结合加性和基于树的回归模型:stima,J Comput Graph Stat,19,514-530,(2010)·doi:10.1198/jcgs.2010.06089
[11] Efron B,Tibshirani RJ(1994)《引导程序简介》。博卡拉顿CRC出版社·Zbl 0835.62038号
[12] 艾尔斯,PHC;Marx,BD,使用B样条和惩罚的灵活平滑,《统计科学》,11,89-121,(1996)·Zbl 0955.62562号 ·doi:10.1214/s/1038425655
[13] 范,J。;Li,R.,《基于非一致惩罚似然的变量选择及其预言属性》,美国统计协会,96,1348-1360,(2001)·Zbl 1073.62547号 ·doi:10.19198/0162114501753382273
[14] Fisher,WD,《关于最大同质性分组》,美国统计协会杂志,53,789-798,(1958)·兹伯利0084.35904 ·doi:10.1080/01621459.1958.10501479
[15] Friedman,JH,《贪婪函数近似:梯度提升机》,《Ann Stat》,第29期,第1189-1232页,(2001年)·Zbl 1043.62034号 ·doi:10.1214/aos/1013203451
[16] JH弗里德曼;哈斯蒂,T。;Tibshirani,R.,《加性逻辑回归:提升的统计观点》,《Ann Stat》,第28期,第337-407页,(2000年)·Zbl 1106.62323号 ·doi:10.1214/aos/1016218223
[17] Gerthiss,J。;Tutz,G.,分类解释变量的稀疏建模,Ann Appl Stat,4,2150-2180,(2010)·Zbl 1220.62092号 ·doi:10.1214/10-AOAS355
[18] Hastie T,Tibshirani R(1990)广义可加模型。Chapman&Hall,伦敦·Zbl 0747.62061号
[19] Hastie T、Tibshirani R、Friedman JH(2009)《统计学习的要素》,第2版。纽约州施普林格·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[20] Hothorn,T。;霍尼克,K。;Zeileis,A.,《无偏递归分区:条件推理框架》,《计算图统计杂志》,第15期,第651-674页,(2006)·doi:10.1198/106186006X133933
[21] Ishwaran,Hemant,二元回归树和森林中的变量重要性,电子统计杂志,1519-537,(2007)·Zbl 1320.62158号 ·doi:10.1214/07-EJS039
[22] McCullagh P,Nelder JA(1989)《广义线性模型》,第2版。查普曼和霍尔,纽约·Zbl 0588.62104号 ·doi:10.1007/9781-4899-3242-6
[23] 摩根,JN;Sonquist,JA,《调查数据分析中的问题和建议》,美国统计协会期刊,58,415-435,(1963)·Zbl 0114.10103中 ·网址:10.1080/01621459.1963.10500855
[24] Oelker M-R(2015)gvcm.cat:GLM中的正则分类效应/分类效应修饰语/连续/平滑效应。R包版本1.9
[25] 奥尔克,M-R;Tutz,G.,《广义结构模型中惩罚组合的统一框架》,《高级数据分析分类》,197-120,(2015)·Zbl 1414.62321号
[26] 昆兰,JR,《决策树归纳》,《马赫学习》,第181-106页,(1986)
[27] Quinlan JR(1993)机器学习程序。Morgan Kaufmann,旧金山
[28] Ripley BD(1996)模式识别和神经网络。剑桥大学出版社·Zbl 0853.62046号 ·doi:10.1017/CBO9780511812651
[29] 桑德里,M。;Zuccolotto,P.,分类树中基尼变量重要性度量的偏差校正算法,计算图统计杂志,17,611-628,(2008)·doi:10.1198/106186008X344522
[30] 塞拉,RJ;Simonoff,JS,Re-EM树:纵向和集群数据的数据挖掘方法,《马赫学习》,86,169-207,(2012)·Zbl 1238.68131号 ·doi:10.1007/s10994-011-5258-3
[31] 斯特罗布尔,C。;布列斯特,A-L;Kneib,T。;奥古斯丁,T。;Zeileis,A.,随机森林的条件变量重要性,BMC Bioninform,9,307,(2008)·doi:10.1186/1471-2105-9-307
[32] 斯特罗布尔,C。;马利,J。;Tutz,G.,《递归划分简介:分类树和回归树、袋装林和随机林的原理、应用和特征》,《心理方法》,第14期,第323-348页,(2009年)·doi:10.1037/a0016973
[33] 苏,X。;蔡,C-L;Wang,MC,线性回归的树结构模型诊断,Mach Learn,74111-131,(2009)·Zbl 1200.68083号 ·doi:10.1007/s10994-008-5080-8
[34] Tutz,G。;Gerthiss,J.,《评分量表作为预测因素——量表水平的老问题和一些答案》,《心理测量学》,79,357-376,(2014)·Zbl 1308.62151号 ·doi:10.1007/s11336-013-9343-3
[35] Tutz,G。;Gerthiss,J.,分类数据的正则化回归,统计模型,16,161-200,(2016)·doi:10.1177/1471082X16642560
[36] Tutz,G。;Oelker,M.,《集群异质性建模:固定效应、随机效应和混合效应》,《国际统计评论》,85,204-227,(2016)·Zbl 07763545号 ·doi:10.1111/insr.12161
[37] Umlauf,N。;阿德勒,D。;Kneib,T。;朗·S。;Zeileis,A.,《结构化加性回归模型:贝叶斯的R接口》,J Stat Softw,63,1-46,(2015)·doi:10.18637/jss.v063.i21
[38] Wood SN(2006)《广义加性模型:R.Chapman&Hall/CRC简介》,伦敦·Zbl 1087.62082号 ·doi:10.1201/9781420010404
[39] Wood,SN,半参数广义线性模型的快速稳定限制最大似然和边际似然估计,J R Stat Soc B,73,3-36,(2011)·Zbl 1411.62089号 ·文件编号:10.1111/j.1467-9868.2010.00749.x
[40] Yu,K。;惠勒,W。;李强。;卑尔根,AW;卡波拉索,N。;查特吉,N。;Chen,J.,多元结果的部分线性基于树的回归模型,生物统计学,66,89-96,(2010)·Zbl 1187.62182号 ·doi:10.1111/j.1541-0420.2009.01235.x
[41] Zeileis,A。;Hothorn,T。;Hornik,K.,基于模型的递归分区,《计算图形统计杂志》,第17期,第492-514页,(2008年)·doi:10.1198/106186008X319331
[42] Zhang H,Singer B(1999)《健康科学中的递归划分》。纽约州施普林格·Zbl 0920.62135号 ·doi:10.1007/978-1-4757-3027-2
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。