×

通过广义线性模型的递归划分获得洞察力。 (英语) Zbl 1431.62317号

摘要:递归分区算法将特征空间分割为一组不相交的矩形。然后,通常在每个分区中拟合一个常数。虽然这是一种简单直观的方法,但它可能仍然缺乏因变量和自变量之间特定关系的可解释性。或者,假设某个模型或感兴趣的模型,并且有许多候选变量可能会非线性地产生不同的模型参数值。我们提出了一种将广义线性模型(GLM)与递归划分相结合的方法,该方法增强了经典树的可解释性,并提供了一种探索性的方法来评估候选变量对参数模型的影响。该方法通过以下方式对GLM进行递归分区:(1)将模型拟合到数据集,(2)测试一组分区变量的参数不稳定性,(3)根据与最高不稳定性相关的变量拆分数据集。结果是一棵树,其中每个终端节点都与GLM关联。我们将通过两个示例展示该方法的通用性和适用性,以进一步了解因变量和自变量之间的关系,即为债务摊销建模投票行为和失败模型,并将其与其他方法进行比较。

MSC公司:

62J12型 广义线性模型(逻辑模型)
62H30型 分类和区分;聚类分析(统计方面)
62页第10页 统计学在生物学和医学科学中的应用;元分析
第62页第20页 统计学在经济学中的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Rao,C.R.和Toutenburg,H.1997。线性模型:最小二乘法和替代方法,2,纽约:施普林格出版社。[谷歌学者]
[2] McCullagh,P.和Nelder,J.1989。广义线性模型,2,伦敦:查普曼和霍尔出版社。[Crossref],[谷歌学者]·Zbl 0744.62098号
[3] LeCam,L.1990。最大可能性–介绍。ISI审查,58:153-171。[谷歌学者]·Zbl 0715.62045号
[4] Clarke,B.、Fokoue,E.和Zhang,H.H.2009。《数据挖掘和机器学习原理与理论》,纽约:斯普林格出版社。[Crossref],[Google学者]·Zbl 1179.62004号
[5] Hastie,T.、Tibshirani,R.和Friedman,J.2009。《统计学习要素》,第2期,纽约:施普林格出版社。[Crossref],[Google学者]·Zbl 1273.62005年
[6] Morgan,J.和Sonquist,J.1968。调查数据分析中的问题,并提出建议。J.Amer。统计师。阿索克,58:415-434。(doi:10.1080/01621459.1963.10500855)[Crossref],[Web of Science®],[Google学者]·Zbl 0114.10103中 ·doi:10.1080/016214591963.10500855
[7] Breiman,L.、Friedman,J.、Olshen,R.和Stone,C.1984。分类和回归树,加利福尼亚州贝尔蒙特:华兹华斯。[谷歌学者]·Zbl 0541.62042号
[8] 昆兰,J.R.1993。C 4.5:机器学习课程,加利福尼亚州圣马特奥:Morgan Kaufmann Publ。[谷歌学者]
[9] Hothorn,T.、Hornik,K.和Zeileis,A.2006。《无偏递归分区:条件推理框架》,J.Compute。图表。统计人员。,15: 651-674. (doi:10.1198/106186006X133933)[Taylor&Francis Online],[Web of Science®],[Google学者]·doi:10.1198/106186006X133933
[10] Zhang,H.和Singer,B.2010。递归分区和应用,2,纽约:Springer。[Crossref],[Google学者]·Zbl 1271.62016年
[11] Chaudhuri,P.、Lo,W.D.、Loh,W.Y.和Yang,C.C.1995。广义回归树。统计师。辛,5:641-666。[Web of Science®],[Google学者]·兹伯利0824.62060
[12] 伽马,J.2004。功能树。马赫。学习,55:219-250。(doi:10.1023/B:MACH.00000027782.67192.13)[Crosref],[Web of Science®],[谷歌学者]·Zbl 1078.68699号 ·doi:10.1023/B:MACH.0000027782.67192.13
[13] Chaudhuri,P.、Huang,M.C.、Loh,W.Y.和Yao,R.1994。分段多项式回归树。统计师。辛,4:143-167。[Web of Science®],[Google学者]·Zbl 0824.62032号
[14] Loh,W.Y.2002年。具有无偏变量选择和交互检测的回归树。统计师。辛,12:361-386。[Web of Science®],[Google学者]·Zbl 0998.62042号
[15] Landwehr,N.、Hall,M.和Eibe,F.2005。物流模型树。马赫。学习。,59: 161-205. (doi:10.1007/s10994-005-0466-3)[Crossref],[Web of Science®],[Google学者]·Zbl 1101.68767号 ·doi:10.1007/s10994-005-0466-3
[16] Chan,K.和Loh,W.Y.2004。莲花。一种建立精确且可理解的逻辑回归树的算法。J.计算。图表。统计人员。,13: 826-852. (doi:10.1198/106186004X13064)[Taylor&Francis Online],[Web of Science®],[Google学者]·doi:10.1198/106186004X13064
[17] Zeileis,A.、Hothorn,T.和Hornik,K.2008。基于模型的递归分区。J.计算。图表。统计人员。,17: 492-514. (doi:10.1198/106186008X319331)[Taylor&Francis Online],[Web of Science®],[Google学者]·doi:10.1198/106186008X319331
[18] Aitkin,M.、Francis,B.、Hinde,J.和Darnell,R.2009。《R的统计建模》,纽约:牛津大学出版社。[谷歌学者]·Zbl 1211.62003号
[19] Venables,W.N.和Ripley,B.D.2002。《现代应用统计学与S》,第4期,纽约:施普林格出版社。[Crossref],[Google学者]·兹比尔1006.62003
[20] Zeileis,A.和Hornik,K.2007。参数不稳定性的广义M-涨落检验。统计师。尼尔兰迪卡,61:488-508。(doi:10.111/j.1467-9574.2007.00371.x)[Crosref],[Web of Science®],[Google Scholar]·Zbl 1152.62014年 ·文件编号:10.1111/j.1467-9574.2007.00371.x
[21] Hochberg,Y.和Tamhane,A.C.1987。《多重比较程序》,纽约:John Wiley&Sons出版社。[Crossref],[Google学者]·Zbl 0731.62125号
[22] Zeileis,A.2005年。基于ML分数、F统计和OLS残差的结构变化测试的统一方法。经济。版次:24:445-466。(doi:10.1080/07474930500406053)[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 1080.62012年 ·doi:10.1080/07474930500406053
[23] 安德鲁斯,D.1993。未知变化点的参数不稳定性和结构变化测试。《计量经济学》,61:821-856。(doi:10.2307/2951764)[Crossref],[Web of Science®],[Google学者]·Zbl 0795.62012号 ·doi:10.2307/2951764
[24] Hjort,N.和Koning,A.2002。模型参数随时间变化的恒定性测试。非参数。统计人员。,14: 113-132. (doi:10.1080/10485250211394)[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 1017.62015年 ·网址:10.1080/10485250211394
[25] 怀特,H.1982。错误指定模型的最大似然估计。《计量经济学》,29:1-25。(doi:10.2307/1912526)[Crossref],[Web of Science®],[Google学者]·Zbl 0478.62088号 ·doi:10.2307/1912526
[26] Huber,P.2009年。《稳健统计》,2,新泽西州霍博肯:约翰·威利父子公司。[Crossref],[Google学者]·Zbl 1276.62022号
[27] Malchow,H.2008年。政治目标,2,华盛顿特区:预测名单,有限责任公司【谷歌学者】
[28] Albert,A.和Anderson,J.A.1984。关于logistic回归模型中极大似然估计的存在性。生物特征,71:1-10。(doi:10.1093/biomet/71.1.1)[Crossref],[Web of Science®],[Google学者]·兹伯利0543.62020 ·doi:10.1093/biomet/71.1.1
[29] Juutilainena,I.、Koskimäkia,H.、Laurinena,P.和Röninga,J.2011。BUSDM-一种自底向上搜索模型偏差的算法。J.统计。计算。模拟。,81: 561-578. (doi:10.1080/00949650903439764)[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 1221.62006年 ·网址:10.1080/00949650903439764
[30] R开发核心团队。2010.R:统计计算语言和环境,网址:网址:http://www.R-project.org/[谷歌学者]
[31] Hall,M.、Frank,E.、Holmes,G.、Pfahringer,B.、Reutemann,P.和Witten,I.H.2009。WEKA数据挖掘软件:更新。SIGKDD探索,11:10-18。(doi:10.1145/1656274.1656278)[交叉引用],[谷歌学者]·数字对象标识代码:10.1145/1656274.1656278
[32] Wang,Y.和Witten,I.,《欧洲机器学习会议海报集》。捷克共和国布拉格。用于预测连续类的模型树归纳,[谷歌学者]
[33] Ahn,H.和Chen,J.1997。过分散二项式数据的树结构逻辑模型及其在建模发展效应中的应用。生物统计学,53:435-455。(doi:10.2307/2533948)[Crossref],[PubMed],[Web of Science®],[Google学者]·Zbl 0878.62075号 ·doi:10.2307/2533948
[34] Choi,Y.,Ahn,H.和Chen,J.2005。用于分析具有额外泊松变化的计数数据的回归树。计算。统计师。数据分析。,49: 893-915. (doi:10.1016/j.csda.2004.06.011)[Crossref],[Web of Science®],[Google学者]·Zbl 1430.62165号 ·doi:10.1016/j.csda.2004.06.011
[35] Ahn,H.和Loh,W.,1994年。树结构比例风险回归建模。生物统计学,50:471-485。(doi:10.2307/2533389)[Crossref],[PubMed],[Web of Science®],[Google学者]·Zbl 0825.62772号 ·doi:10.307/2533389
[36] Ahn,H.1994年。树结构极值模型回归。Commun公司。统计-理论方法,23:153-174。(doi:10.1080/03610929408831245)[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 0825.62084号 ·doi:10.1080/03610929408831245
[37] Ahn,H.1994年。树结构指数回归建模。生物。《期刊》,36:43-61。(doi:10.1002/bimj.4710360106)[Crossref],[Web of Science®],[Google学者]·Zbl 0850.62774号 ·doi:10.1002/bimj.4710360106
[38] Ahn,H.1996年。通过递归分区进行对数正态回归建模。计算。统计师。数据分析。,21: 381-398. (doi:10.1016/0167-9473(95)00023-2)[交叉引用],[科学网®],[谷歌学者]·Zbl 0875.62338号 ·doi:10.1016/0167-9473(95)00023-2
[39] Ahn,H.1996年。通过回归树进行对数伽玛回归建模。Commun公司。统计-理论方法,25:295-311。(doi:10.1080/03610929608831696)[Taylor&Francis Online],[Web of Science®],[Google学者]·Zbl 0875.62564号 ·doi:10.1080/03610929608831696
[40] Loh,W.Y.2009年。提高分类树的精度。附录申请。统计人员。,3: 1710-1737. (doi:10.1214/09-AOAS260)[Crossref],[Web of Science®],[Google学者]·Zbl 1184.62109号 ·doi:10.1214/09-AOAS260
[41] Chaudhuri,P.和Loh,W.Y.2002年。使用分位数回归树的条件分位数的非参数估计。伯努利,8:561-576。[Web of Science®],[Google学者]·Zbl 1009.62031号
[42] Loh,W.Y.2008年。“按零件回归:用GUIDE拟合可直观解释的模型”。计算统计手册(第三卷):数据可视化,编辑:Chen,C.,Härdle,W.和Unwin,A.447-469。纽约:施普林格。[Crossref],[Google学者]·Zbl 1145.68383号
[43] Su,X.,Wang,M.和Fan,J.2004。最大似然回归树。J.计算。图表。统计人员。,13: 586-598. (doi:10.1198/106186004X2165)[Taylor&Francis Online],[Web of Science®],[Google学者]·doi:10.1198/106186004X2165
[44] Ichinokawa,M.和Brodziak,J.2010。使用自适应区域分层标准化捕捞率,并应用于北太平洋剑鱼(剑鱼)。鱼类研究,106:249-260。(doi:10.1016/j.fishres.2010.08.001)[Crossref],[Web of Science®],[Google学者]·doi:10.1016/j.fishres.2010.08.001
[45] Chandler,G.和Johnson,L.2011。基于树的集估计的自动局部自适应平滑。J.统计。计算。模拟。,DOI:10.1080/00949655.2011.613395[Web of Science®],[Google学者]·Zbl 1349.62261号
[46] Hornik,K.,Buchta,C.和Zeileis,A.2009。开源机器学习:R遇到了Weka。计算。统计人员。,24: 225-232. (doi:10.1007/s0180-008-0119-7)[Crosref],[Web of Science®],[Google Scholar]·Zbl 1232.62007年 ·doi:10.1007/s00180-008-0119-7
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。