卡罗琳·斯特罗布尔;托马斯·奥古斯丁 额外切点的自适应选择——在分类树中协调稳健性和可解释性。 (英语) Zbl 1211.62101号 《统计理论与实践》。 3,第1期,119-135(2009). 摘要:分类和回归树是一种流行且易于解释的非参数回归方法,但众所周知它非常不稳定:学习样本中的微小变化可能会产生完全不同的树。因此,最近考虑树的集合(即集合)已成为最先进的技术。本文件有助于所谓的TWIX方法,该方法通过在额外的前哨点中额外拆分来生成信号群。这种方法可以被认为是可解释但不稳定的单树模型与稳定但不再可解释的集成方法(套袋法和随机森林法)之间的折衷。基于研究分裂对一些虚拟但未观察到的观测值的敏感性的想法,我们开发了一种新的、数据驱动的外点选择标准,该标准在技术上与基于不精确Dirichlet模型的上熵方法密切相关。我们的标准结合了几个有吸引力的特性:通过仅在基础前哨点不稳定的情况下添加额外的前哨点,树的鲁棒性得到了简化,得到的TWIX集成的计算开销大大降低。此外,作为一个受欢迎的副产品,我们还获得了一个生动的诊断指标,用于评估单树模型的鲁棒性。通过一个小数据示例和仿真研究,说明了新自适应准则的原理和优点。展望中简要概述了用于从树集合进行稳健聚合预测的可信度分类规则。 MSC公司: 62H30型 分类和区分;聚类分析(统计方面) 62G08号 非参数回归和分位数回归 65C60个 统计中的计算问题(MSC2010) 关键词:分类树;汽车;4.5条;TWIX公司;装袋;随机森林;输出点选择;基尼系数;香农熵;非精确Dirichlet模型;信条分类;聚合 软件:R(右);4.5条 PDF格式BibTeX公司 XML格式引用 \textit{C.Strobl}和\textit{T.Augustin},J.Stat.理论实践。3,第1号,119--135(2009;Zbl 1211.62101) 全文: 内政部 参考文献: [1] 数字对象标识码:10.1142/S021848850300234X·Zbl 1072.68099号 ·doi:10.1142/S021848850300234X [2] DOI:10.1016/j.ijar.2004.10.001·Zbl 1095.68091号 ·doi:10.1016/j.ijar.2004.10.001 [3] Bernard J.M.,《国际近似推理杂志》39页123–(2004)·Zbl 1066.62003年 ·doi:10.1016/j.ijar.2004.10.002 [4] Bernard J.M.,《国际近似推理杂志》,第50页,201–(2009)·doi:10.1016/j.ijar.2008.03.007 [5] Breiman L.,《机器学习》,第24页,第123页–(1996年) [6] DOI:10.1023/A:10101933404324·兹比尔1007.68152 ·doi:10.1023/A:1010933404324 [7] Breiman L.,分类和回归树(1984)·Zbl 0541.62042号 [8] Bronevich,A.G.关于相干低概率的事件聚集。第四届不精确概率及其应用国际研讨会论文集。编辑:Cozman,F.、Nau,R.和Seidenfeld,T.,第340–348页。美国宾夕法尼亚州匹兹堡:卡内基·梅隆大学。http://www.sipta.orgSIPTA网站曼诺。另请参见 [9] DOI:10.1016/j.ijar.2008.03.011·Zbl 1185.6206号 ·doi:10.1016/j.ijar.2008.03.011 [10] de Cooman G.,《可靠性工程与系统安全》,第85页,第113页–(2004)·doi:10.1016/j.rss.2004.03.007 [11] DOI:10.1016/j.artint.2004.05.006·Zbl 1086.68599号 ·doi:10.1016/j.artint.2004.05.006 [12] Hampel F.,《生物医学杂志》22第3页–(1980) [13] 数字对象标识码:10.1198/106186006X133933·doi:10.1198/106186006X133933 [14] 道德S.,不完全信息的聚合与融合第162页–(1987) [15] DOI:10.1002/cem.873·doi:10.1002/cem.873 [16] Potapov S.,《Bäumen分析》(树木分析)(2006年) [17] Potapov S.,TWIX:树木与外部分裂(2007) [18] Potapov S.,TWIX:具有EXtra分裂的树木(2006) [19] Quinlan J.R.,机器学习1,第81页–(1986) [20] 昆兰J.R.,C4.5:机器学习程序(1993) [21] R: 统计计算语言与环境(2008) [22] Strobl,C.基于不精确概率的分类树变量选择。第四届不精确概率及其应用国际研讨会论文集。编辑:Cozman,F.、Nau,R.和Seidenfeld,T.,第340–348页。美国宾夕法尼亚州匹兹堡:卡内基·梅隆大学。http://www.sipta.orgSIPTA网站曼诺。另请参见 [23] Strobl C.,《计算统计与数据分析》52,第483页–(2007年)·Zbl 1452.62469号 ·doi:10.1016/j.csda.2006.12.030 [24] DOI:10.186/1471-2105-8-25·doi:10.1186/1471-2105-8-25 [25] 内政部:10.1002/int.20140·Zbl 1160.68583号 ·数字对象标识代码:10.1002/int.20140 [26] DOI:10.1016/j.ijar.2006.06.001·Zbl 1119.91028号 ·doi:10.1016/j.ijar.2006.06.001 [27] DOI:10.1016/j.ijar.2006.07.016·Zbl 1118.68159号 ·doi:10.1016/j.ijar.2006.07.016 [28] Walley P.,《概率不精确的统计推理》(1991)·Zbl 0732.62004号 ·doi:10.1007/978-1-4899-3472-7 [29] Walley P.,《皇家统计学会杂志》B 58第3页–(1996年) [30] Weichselberger K.,Elementare Grundbegriffe einer allgemeineren Wahrscheinlichkeitsrechnung I:Intervallwahrscheinlichkeit als umfassendes Konzept(2001)·Zbl 0979.60001号 ·doi:10.1007/978-3-642-57583-9 [31] DOI:10.1016/S0378-3758(01)00206-3·Zbl 1006.62027号 ·doi:10.1016/S0378-3758(01)00206-3 [32] DOI:10.1016/S0378-3758(01)00201-4·Zbl 0992.62057号 ·doi:10.1016/S0378-3758(01)00201-4 [33] Zaffalon,M.不完全数据预测推理的保守规则。第四届不精确概率及其应用国际研讨会论文集。编辑:Cozman,F.、Nau,R.和Seidenfeld,T.,第406–415页。美国宾夕法尼亚州匹兹堡:卡内基·梅隆大学。http://www.sipta.orgSIPTA网站曼诺。另请参见 [34] DOI:10.1016/S0933-3657(03)00046-0·doi:10.1016/S0933-3657(03)00046-0 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。