×

决策树增强了变系数模型。 (英语) 兹比尔1515.62077

摘要:变系数模型是通用参数模型的灵活扩展,其系数是一组效应修正协变量的函数,而不是拟合常数。它们能够实现更高的模型复杂性,同时保持底层参数模型的结构,从而生成可解释的预测。本文研究了在具有线性结构输出的变系数模型中,梯度增强决策树作为这些系数决定函数的使用。与传统的样条线或核平滑器选择不同,增强树更灵活,因为它们不需要在效果修改器空间中进行结构假设。我们从梯度下降的局部版本的角度介绍了我们提出的方法,在决策树研究通常采用的温和假设下证明了其理论一致性,并实证证明了所提出的树增强变系数模型以其训练速度获得了高性能,与几种基准算法相比,预测精度和可懂度。

MSC公司:

62J12型 广义线性模型(逻辑模型)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Basu S,Kumbier K,Brown JB,Yu B(2018)迭代随机森林以发现预测性和稳定的高阶交互作用。收录于:《美国国家科学院院刊》,第201711236页·Zbl 1416.62594号
[2] 伯杰,M。;Tutz,G。;Schmid,M.,变系数树结构模型,统计计算,29,1-13(2017)·Zbl 1430.62164号
[3] 布雷曼,L。;JH弗里德曼;奥申,RA;Stone,CJ,分类和回归树(2017),劳特利奇·Zbl 0541.62042号 ·doi:10.1201/9781315139470
[4] 比尔金,RA;Ritschard,G.,用vcrpart进行基于系数的树的变系数回归,J Stat Softw,80,6,1-33(2017)
[5] Bühlmann PL(2002)二级提升和匹配追踪与树和树型基函数的一致性。In:研究报告/研讨会,德国统计学会(ETH),德国统计协会研讨会,德国技术学会(ETS),第109卷
[6] Bühlmann,P。;Hothorn,T.,Boosting算法:正则化、预测和模型拟合,Stat Sci,22,477-505(2007)·Zbl 1246.62163号
[7] 坎达内多,LM;Feldheim,V.,《使用统计学习模型通过光照、温度、湿度和CO2测量准确检测办公室占用率》,《能源建设》,第112期,第28-39页(2016年)·doi:10.1016/j.enbuild.2015.11.071
[8] KY Chan;Loh,WY,Lotus:一种用于构建准确和可理解的逻辑回归树的算法,J Comput Graph Stat,13,42826-852(2004)·doi:10.1198/106186004X13064
[9] Chaudhuri P,Huang MC,Loh WY,Yao R(1994)分段多项式回归树。统计Sin 143-167·Zbl 0824.62032号
[10] 奇普曼,HA;乔治,EI;麦卡洛克,RE;Shively,TS,mbart:多维单调巴特,贝叶斯分析,17,2,515-544(2022)·Zbl 1531.62023号 ·doi:10.1214/21-BA1259
[11] Cortes C、Mohri M、Storcheus D(2019)《规则梯度增强》。收录:Wallach H、Larochelle H、Beygelzimer A、d’Alché-Buc F、Fox E、Garnett R(eds)《神经信息处理系统进展》,第32卷。Curran Associates,Inc.,第5449-5458页。http://papers.nips.cc/paper/8784-regularized-gradient-boosting.pdf
[12] Cotter A,Gupta M,Jiang H,Louidor E,Muller J,Narayan T,Wang S,Zhu T(2019)集函数的形状约束。In:机器学习国际会议,第1388-1396页
[13] 范,J。;Huang,T.,半参数变系数部分线性模型的剖面似然推断,Bernoulli,11,6,1031-1057(2005)·Zbl 1098.62077号 ·doi:10.3150/bj/1137421639
[14] 范,J。;Zhang,W.,变系数模型中的统计估计,Ann Stat,27,5,1491-1518(1999)·Zbl 0977.62039号 ·doi:10.1214/aos/1017939139
[15] Fanaee-T,H。;Gama,J.,《结合集合检测器和背景知识的事件标记》,《进步艺术情报》,第2期,第2-3期,第113-127页(2014年)·doi:10.1007/s13748-013-0040-3
[16] Fernandes K、Vinagre P、Cortez P(2015)预测在线新闻受欢迎程度的前瞻性智能决策支持系统。参加:葡萄牙人工智能会议。施普林格,第535-546页
[17] 弗里德伯格,R。;Tibshirani,J。;Athey,S。;Wager,S.,《局部线性森林》,《计算图形统计杂志》,30,2,503-517(2020)·Zbl 07499871号 ·doi:10.1080/10618600.2020.1831930
[18] Friedman JH(2001)贪婪函数近似:一种梯度增强机器。安统计1189-1232·Zbl 1043.62034号
[19] Friedman,JH,《随机梯度增强》,《计算统计数据分析》,38,4,367-378(2002)·Zbl 1072.65502号 ·doi:10.1016/S0167-9473(01)00065-2
[20] Gama,J.,功能树,Mach Learn,55,3,219-250(2004)·Zbl 1078.68699号 ·doi:10.1023/B:MACH.0000027782.67192.13
[21] Härdle,W。;Liang,H。;Gao,J.,部分线性模型(2012),Springer·Zbl 0968.62006年
[22] Hastie T,Tibshirani R(1993)变系数模型。罗伊统计学会B系列(方法论)757-796·Zbl 0796.62060号
[23] Hothorn T、Bühlmann P、Kneib T、Schmid M、Hofner B(2013)《基于模型的助推》,2012年,第2-1页。http://CRAN网址R-projectorg/package=mboostRpackage版本·Zbl 1242.68002号
[24] Kaggle(2018)北京房价。https://www.kaggle.com/ruiqurm/lianjia/home网站
[25] 梁,X。;邹,T。;郭,B。;李,S。;张,H。;张,S。;黄,H。;Chen,SX,《评估北京pm 2.5污染:严重性、天气影响、apec和冬季供暖》,罗伊社会科学院数学物理工程科学研究所,471218220150257(2015)
[26] Lou Y、Caruana R、Gehrke J(2012),分类和回归的智能模型。摘自:第18届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第150-158页
[27] Lou Y、Caruana R、Gehrke J、Hooker G(2013),具有成对交互的精确可理解模型。摘自:第19届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第623-631页
[28] Mallat S,Zhang Z(1993)《匹配追踪与时频字典》。美国纽约科朗数学科学研究所技术代表·Zbl 0842.94004号
[29] Melis DA,Jaakkola T(2018)利用自解释神经网络实现稳健的可解释性。主题:神经信息处理系统进展,第7786-7795页
[30] 曼奇,L。;胡克,G.,《通过置信区间和假设检验量化随机森林中的不确定性》,J Mach Learn Res,17,1,841-881(2016)·Zbl 1360.62095号
[31] 莫罗,S。;科尔特斯,P。;Rita,P.,预测银行电话营销成功的数据驱动方法,Decis支持系统,62,22-31(2014)·doi:10.1016/j.dss.2014.03.001
[32] 波士顿公园;Mammen,E。;李,YK;Lee,ER,变系数回归模型:回顾和新发展,《国际统计评论》,83,1,36-64(2015)·Zbl 07762792号 ·doi:10.1111/insr.12029
[33] Q、Z。;Zhu,SC,深度学习的视觉可解释性:一项调查,Front Inf Technol Electron Eng,19,1,27-39(2018)·doi:10.1631/FITEE.1700808
[34] Rashmi K,Gilad-Bachrach R(2015)Dart:辍学学生遇到多重加性回归树。摘自:人工智能和统计国际会议,第489-497页
[35] Ribeiro MT、Singh S、Guestrin C(2016)我为什么要信任你解释任何分类器的预测。在:第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集。ACM,第1135-1144页
[36] Rogozhnikov A,Likhomanenko T(2017)Infiniteboost:构建具有梯度下降的无限系综。arXiv预打印arXiv:1706.01109
[37] Scornet,E.,《随机森林和核方法》,IEEE Trans-Inf理论,62,31485-1500(2016)·Zbl 1359.94969号 ·doi:10.1109/TIT.2016.2514489
[38] Sundararajan M,Taly A,Yan Q(2017)《深度网络公理化归因》。参加:机器学习国际会议。PMLR,第3319-3328页
[39] Tan S、Caruana R、Hooker G、Lou Y(2018)《蒸馏与比较:使用透明模型蒸馏审计黑盒模型》。摘自:2018年AAAI/ACM人工智能、道德和社会会议记录,第303-310页
[40] Tsanas,A。;Xifara,A.,使用统计机器学习工具对住宅建筑的能源性能进行准确定量估算,《能源建设》,49,560-567(2012)·doi:10.1016/j.enbuild.2012.03.003
[41] 范德法特,AW;Wellner,JA,《弱收敛和统计应用的经验过程》(1996),Springer·Zbl 0862.60002号 ·数字对象标识代码:10.1007/978-1-4757-2545-2
[42] Wager,S。;Athey,S.,《使用随机森林评估和推断异质处理效应》,美国统计协会期刊,113,523,1228-1242(2018)·Zbl 1402.62056号 ·doi:10.1080/01621459.2017.1319839
[43] 王,JC;Hastie,T.,产品需求预测的Boosted变系数回归模型,J Compute Graph Stat,23,2,361-382(2014)·doi:10.1080/10618600.2013.778777
[44] You S,Ding D,Canini K,Pfeifer J,Gupta M(2017)深格网络与部分单调函数。主题:神经信息处理系统的进展,第2981-2989页
[45] Zeileis,A。;Hothorn,T.公司。;Hornik,K.,基于模型的递归分区,《计算图形统计杂志》,17,2,492-514(2008)·doi:10.1198/106186008X319331
[46] Zheng X,Chen SX(2019)分段线性回归树的分区结构学习。主题:神经信息处理系统的进展,第2219-2228页
[47] 周,Y。;Hooker,G.,Boulevard:正则化随机梯度增强树及其极限分布,J Mach Learn Res,23183,1-44(2022)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。