×

加性逻辑回归:助推的统计学观点。(作者进行了讨论和反驳)。 (英语) 兹比尔1106.62323

摘要:助推是分类方法学最重要的最新发展之一。Boosting的工作原理是,将分类算法依次应用于训练数据的重加权版本,然后对由此产生的分类器序列进行加权多数投票。对于许多分类算法来说,这种简单的策略可以显著提高性能。我们表明,这个看似神秘的现象可以用众所周知的统计原理来理解,即加性建模和最大似然。对于两类问题,boosting可以被视为使用最大贝努利似然作为标准的逻辑尺度上的加法建模的近似。我们发展了更直接的近似方法,并表明它们显示出与升压几乎相同的结果。导出了基于多项式似然的直接多类推广,在大多数情况下表现出与其他最近提出的boosting多类推广相当的性能,在某些情况下表现得更佳。我们建议对增压进行微小修改,以减少计算量,通常是10到50倍。最后,我们将这些见解应用于生成增强决策树的替代公式。这种方法基于最早截断树归纳法,通常可以获得更好的性能,并且可以提供聚合决策规则的可解释描述。它的计算速度也快得多,更适合大规模数据挖掘应用。

MSC公司:

62G08号 非参数回归和分位数回归
62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Breiman,L.(1996)。装袋预测器。机器学习24 123-140·Zbl 0858.68080号
[2] Breiman,L.(1997)。预测游戏和电弧算法。技术报告504,加州大学伯克利分校统计系。Breiman,L.(1998年a)。电弧分类器(带讨论)。安。统计师。26 801-849. Breiman,L.(1998年b)。组合预测因子。技术报告,加州大学伯克利分校统计系·Zbl 0934.62064号
[3] Breiman,L.、Friedman,J.、Olshen,R.和Stone,C.(1984年)。分类和回归树。加利福尼亚州贝尔蒙特市沃兹沃斯·Zbl 0541.62042号
[4] Buja,A.、Hastie,T.和Tibshirani,R.(1989)。线性平滑器和加法模型(带讨论)。安。统计师。17 453-555. ·Zbl 0689.62029号 ·doi:10.1214/aos/1176347115
[5] Cover,T.和Hart,P.(1967年)。最近邻模式分类。程序。IEEE传输。通知。理论13 21-27·Zbl 0154.44505号 ·doi:10.1109/TIT.1967.1053964
[6] Dietterich,T.(1998)。构建决策树集合的三种方法的实验比较:打包、增强和随机化。机器学习?1-22.
[7] Freund,Y.(1995)。将弱学习算法提升到大多数。通知。和计算。121 256-285. Freund,Y.和Schapire,R.(1996a)。博弈论、在线预测和助推。第九届计算学习理论年会论文集325-332。Freund,Y.和Schapire,R.E.(1996b)。实验一种新的boosting算法。机器学习:第十三届国际会议论文集148-156。摩根·考夫曼(Morgan Kaufman),旧金山·Zbl 0833.68109号
[8] Freund,Y.和Schapire,R.E.(1997)。在线学习的决策理论概括及其在助推中的应用。J.计算。系统科学55·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[9] Friedman,J.(1991)。多元自适应回归样条(带讨论)。安。统计师。19 1-141. ·Zbl 0765.62064号 ·doi:10.1214/aos/1176347963
[10] Friedman,J.(1996)。多光子分类的另一种方法。斯坦福大学技术报告。
[11] Friedman,J.(1999)。贪婪函数近似:梯度提升机。斯坦福大学技术报告。
[12] Friedman,J.和Stuetzle,W.(1981年)。投影寻踪回归。J.Amer。统计师。协会76 817-823。
[13] Hastie,T.和Tibshirani,R.(1990年)。广义加性模型。查普曼和霍尔,伦敦·兹比尔074762061
[14] Hastie,T.和Tibshirani,R.(1998年)。通过成对耦合进行分类。安。统计师。26 451-471. ·Zbl 0932.62071号 ·doi:10.1214/aos/1028144844
[15] Hastie,T.、Tibshirani,R.和Buja,A.(1994年)。最佳评分的灵活判别分析。J.Amer。统计师。协会89 1255-1270·Zbl 0812.62067号 ·doi:10.2307/2290989
[16] Holte,R.(1993)。非常简单的分类规则在最常用的数据集上表现良好。机器学习11 63-90·Zbl 0850.68278号 ·doi:10.1023/A:1022631118932
[17] Huber,P.(1964年)。位置参数的稳健估计。安。数学。统计师。53 73-101. ·Zbl 0136.39805号 ·doi:10.1214/aoms/1177703732
[18] Kearns,M.和Vazirani,U.(1994年)。计算学习理论导论。麻省理工学院出版社。
[19] Mallat,S.和Zhang,Z.(1993年)。用时频字典匹配追踪。IEEE传输。信号处理41 3397-3415·Zbl 0842.94004号 ·数字对象标识代码:10.1109/78.258082
[20] McCullagh,P.和Nelder,J.(1989)。广义线性模型。查普曼和霍尔,伦敦·Zbl 0744.62098号
[21] Schapire,R.(1997)。使用输出代码来解决多类学习问题。第十四届国际机器学习会议论文集313-321。摩根·考夫曼,旧金山。
[22] Schapire,R.E.(1990)。弱可学性的力量。机器学习5 197-227。
[23] Schapire,R.E.和Singer,Y.(1998年)。使用置信度预测改进了助推算法。第十一届计算学习理论年会论文集·Zbl 0945.68194号
[24] Schapire,R.、Freund,Y.、Bartlett,P.和Lee,W.(1998)。提高差距:对投票方法有效性的新解释。安。统计师。26 1651-1686. ·Zbl 0929.62069号 ·doi:10.1214/aos/1024691352
[25] Valiant,L.G.(1984)。可学习理论。通信ACM 27 1134-1142·Zbl 0587.68077号 ·数字对象标识代码:10.1145/1968.1972
[26] Amit和Geman(1997)的论文中。与LogitBoost的最佳对应值相比,使用此方法和100次迭代会产生以下测试集错误。
[27] Amit,Y.和Geman,D.(1997)。用随机树进行形状量化和识别。神经计算机。9 1545-1588. Breiman,L.(1999a)。随机森林。技术报告,请访问www.stat.berkeley.edu。Breiman,L.(1999b)。预测游戏和电弧算法。神经计算机。11 1493-1517. 网址:
[28] Dietterich,T.(2000)。构建决策树集合的三种方法的实验比较:装袋法、增强法和随机化法。马赫。学习40 139-158。
[29] Wheway,V.(1999)。“增强”分类器的方差减少趋势。可从以下位置获得virg@cse。unsw.edu.au Friedman(1999)。它不涉及任何“重磅”。弱学习者b\cdot在第m步中拟合到当前的残差Yi Fm-1 Xi。在这种情况下,不需要替代损失函数,因为牛顿法最可能评估L2损失,并且Friedman(1999)报告了二次近似现象。根据我们自己的工作[Bühlmann和Yu(2000)],我们知道在协变量空间的整个区域中,在x处评估的树桩对x具有高方差。从渐近的观点来看,该区域“围绕”树桩的真正最佳分割点,并且具有“实质性”大小O n-1/3。也就是说,树桩即使在低维情况下(只有三个参数)也有很高的方差,只要有人看到“正确的比例”O n-1/3;这样高的方差可能在助推中结合树桩时传播。这一观察是下一步描述的另一台增压机的起点·Zbl 1213.62109号
[30] Breiman,L.(1996年)。装袋预测器。机器学习24 123-140·Zbl 0858.68080号
[31] Bühlmann,P.和Yu,B.(2000年)。解释装袋。
[32] Friedman,J.(1999)。贪婪函数近似:梯度提升机。斯坦福大学技术报告。
[33] Gill,E.P.、Murray,W.和Wright,M.H.(1981年)。实际优化。纽约学术出版社·Zbl 0503.90062号
[34] Hastie,T.和Tibshirani,R.(1990年)。广义加性模型。查普曼和霍尔,伦敦。瑞士苏黎世LEO D72 CH-8092苏黎世统计ETH-Zentrum研讨会电子邮件buhlmann@stat.math.ethz.ch加州大学伯克利分校统计系94720-3860
[35] Breimann,L.(1996)。装袋预测器。机器学习24 123-140·Zbl 0858.68080号
[36] Friedman,J.和Stuetzle,W.(1981年)。投影寻踪回归。J.Amer。统计师。协会76 817-823。
[37] Holte,R.(1993)。非常简单的分类规则在最常用的数据集上表现良好。机器学习11 63-90·Zbl 0850.68278号 ·doi:10.1023/A:1022631118932
[38] 由Freund和Mason(1999)提出。它们将决策树表示为非常简单的函数的总和,并使用boosting来同时学习决策规则和求平均值的方法。本文讨论的另一个重要问题是boosting方法在由具有显著重叠的类生成的数据上的性能,也就是说,在分类问题中,即使是Bayes最优预测规则也存在显著错误。一些作者(包括本文作者)观察到,AdaBoost在这种情况下不是最佳方法。问题似乎是AdaBoost过分强调了非典型示例,这最终导致了较差的规则。在当前的Freund(1999)中。
[39] Breiman,L.(1998)。电弧分类器。安。统计师。26 801-849. ·Zbl 0934.62064号 ·doi:10.1214/aos/1024691079
[40] Freund,Y.(1999)。多数增强算法的自适应版本。第十二届计算学习理论年会论文集·兹伯利0988.68150
[41] Freund,Y.和Mason,L.(1999)。交替决策树学习算法。在机器学习:第十六届国际会议论文集124-133。
[42] Schapire,R.E.、Freund,Y.、Bartlett,P.和Lee,W.S.(1998)。提高利润率:投票方法有效性的新解释。安。统计师。26 1651-1686. ·Zbl 0929.62069号 ·doi:10.1214/aos/1024691352
[43] 当我们有一个样本时,呈现出一种有趣的形式。
[44] Bauer,E.和Kohavi,R.(1999)。投票分类算法的实证比较:打包、增强和变体。机器学习36 105-139。
[45] Breiman,L.(1999)。使用自适应装袋来借记回归。技术报告547,加州大学伯克利分校统计系·Zbl 1052.68109号
[46] Chipman,H.、George,E.和McCulloch,R.(1998)。贝叶斯CART模型搜索(带讨论)。J.Amer。统计师。协会93 935-960。
[47] Denison,D.(2000年)。贝叶斯树桩助推。帝国理工学院数学系技术报告。
[48] Denison,D.、Mallick,B.和Smith,A.(1996年)。贝叶斯CART。帝国理工学院数学系技术报告·Zbl 1048.62502号
[49] DiMatteo,I.、Genovese,C.和Kass,R.(1999)。基于自由节点样条的贝叶斯曲线拟合。卡内基梅隆大学技术报告·Zbl 0986.62026号
[50] Drucker,H.和Cortes,C.(1996)。提升决策树。《神经信息处理学报》8 479-485。麻省理工学院出版社。
[51] Elkan,C.(1997)。促进和天真的贝叶斯学习。技术报告CS97-557,加州大学圣地亚哥分校。
[52] Freund,Y.和Schapire,R.(1997)。在线学习的决策理论推广及其在助推中的应用。J.计算。系统科学。55 119-139. ·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[53] Hastie,T.和Tibshirani,R.(1998年)。贝叶斯反制。斯坦福大学技术报告·Zbl 1059.62524号
[54] 海基宁,J.(1998)。使用动态步长函数估计曲线和曲面。《实用非参数和半参数贝叶斯统计》(D.Dey、P.Müller和D.Sinha编辑)255-272。纽约州施普林格·Zbl 0918.62031号
[55] Lee,J.(1999)。一个可以显示预感的计算机程序。《纽约时报》8月17日。
[56] Quinlan,J.(1996)。打包、增压和C4.5。第十三届美国人工智能协会全国人工智能会议论文集725-730。加利福尼亚州门罗公园AAAI出版社·Zbl 1184.68423号
[57] Ridgeway,G.(1999)。增压状态。第三十一届接口研讨会论文集172-181。
[58] Ridgeway,G.(1999)。增压状态。计算科学与统计31(K.Berk,M.Pourahmadi,eds.)北美界面基金会,172-181。弗吉尼亚州费尔法克斯。
[59] Breiman,L.(1999)。使用自适应装袋来借记回归。技术报告547,加州大学伯克利分校统计系·Zbl 1052.68109号
[60] Freund,Y.(1999)。多数增强算法的自适应版本。第十二届计算学习理论年会论文集·Zbl 0988.68150号
[61] Freund,Y.和Mason,L.(1999)。交替决策树学习算法。在机器学习:第十六届国际会议论文集124-133。
[62] Friedman,J.H.(1991)。多元自适应回归样条(带讨论)。安。统计师。2011年11月19日。Friedman,J.H.(1999年a)。贪婪函数近似:梯度提升机。安。统计师。出现。弗里德曼,J.H.(1999b)。随机梯度增强。斯坦福大学统计系技术报告·Zbl 0765.62064号 ·doi:10.1214/aos/1176347963
[63] Friedman,J.H.和Hall,P.(1999)。关于装袋和非线性估计。J.计算。图表。统计师·Zbl 1104.62047号
[64] Grove,A.和Schuurmans,D.(1998年)。提升极限:最大限度地提高所学信号群的边际。第十五届全国人工智能会议记录。
[65] Quinlan,J.(1996)。促进一级学习。《第七届算法学习理论国际研讨会论文集》(S.Arikawa和A.Sharma编辑),人工智能课堂讲稿1160 143-155。柏林施普林格·Zbl 1184.68423号
[66] Ratsch,G.(1998)。集成分类学习方法。波茨坦大学计算机科学系硕士论文。
[67] Ratsch,G.、Onoda,T.和Muller,K.R.(2000)。AdaBoost的软利润。机器学习1-35·Zbl 0969.68128号
[68] Ridgeway,G.(1999)。增压状态。第三十一届接口研讨会论文集172-181。
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。