×

利用弱势学习者的几何方法。 (英语) Zbl 0997.68166号

总结:AdaBoost是一种流行且有效的杠杆程序,用于改进弱学习算法产生的假设。AdaBoost和许多其他利用算法可以被视为在潜在函数上执行约束梯度下降。在每次迭代中,给弱学习者的样本分布与最陡下降的方向成正比。我们介绍了一种基于自然势函数的杠杆算法。对于这个势函数,最陡下降的方向可以有负分量。因此,我们提供了两种从这些最陡下降方向获得合适分布的方法。由此产生的算法具有与AdaBoost无法比拟的边界。分析表明,我们的算法在噪声数据上的性能可能优于AdaBoost,并且弱学习者返回低置信度假设。初步实验证明,在这些情况下,我们的算法可以比AdaBoost执行得更好。

MSC公司:

68周05 非数值算法
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] N.Abe,J.Takeuchi,M.K.Warmuth,关于Kullback-Leibler散度的概率概念多项式可学习性,Proc。第4年。计算机研讨会。《学习理论》,摩根·考夫曼,加州圣马特奥,1991年,第277-289页。;N.Abe,J.Takeuchi,M.K.Warmuth,关于Kullback-Leibler散度的概率概念多项式可学习性,Proc。第4年。计算机研讨会。《学习理论》,摩根·考夫曼,加利福尼亚州圣马特奥,1991年,第277-289页。
[2] 鲍尔,E。;Kohavi,R.,《投票分类算法的实证比较:打包、增强和变体》,马赫。学习,36,1-2,105-139(1999)
[3] 鲍姆,E。;Haussler,D.,什么尺寸的网络可以提供有效的泛化?神经计算。,151-160年1月1日(1989年)
[4] B.E.Boser,I.M.Guyon,V.N.Vapnik,最佳边缘分类器的训练算法,Proc。第5年。计算机研讨会。《学习理论》,ACM出版社,纽约州纽约市,1992年,第144-152页。;B.E.Boser,I.M.Guyon,V.N.Vapnik,最佳边缘分类器的训练算法,Proc。第5年。计算机研讨会。《学习理论》,ACM出版社,纽约,1992年,第144-152页。
[5] Breiman,L.,装袋预测,马赫数。学习,24,2,123-140(1996)·Zbl 0858.68080号
[6] L.Breiman,Arcing the edge,技术报告486,加州大学伯克利分校统计系,1997年。网址:www.stat.berkeley.edu。;L.Breiman,Arcing the edge,技术报告486,加州大学伯克利分校统计系,1997年。网址:www.stat.berkeley.edu。
[7] L.Breiman,《偏差、方差、电弧分类器》,《技术报告460》,加州大学伯克利分校统计系,1997年。网址:www.stat.berkeley.edu。;L.Breiman,《偏差、方差、电弧分类器》,《技术报告460》,加州大学伯克利分校统计系,1997年。网址:www.stat.berkeley.edu。
[8] Breiman,L.,预测游戏和电弧算法,神经计算。,11, 1493-1517 (1999) ·Zbl 1508.68280号
[9] L.Breiman、J.H.Friedman、R.A.Olshen、C.J.Stone,《分类回归树》,华兹华斯国际集团,1984年。;L.Breiman、J.H.Friedman、R.A.Olshen、C.J.Stone,《分类回归树》,华兹华斯国际集团,1984年·Zbl 0541.62042号
[10] E.Keogh,C.Blake,C.J.Merz,UCI机器学习数据库库,1998年。;E.Keogh,C.Blake,C.J.Merz,UCI机器学习数据库库,1998年。
[11] J.Dougherty,R.Kohavi,M.Sahami,连续特征的监督和非监督离散化,Proc。第12届国际米兰。机器学习会议,Morgan Kaufmann,1995年,第194-202页。;J.Dougherty,R.Kohavi,M.Sahami,连续特征的监督和非监督离散化,Proc。第12届国际米兰。《机器学习Conf.on Machine Learning》,Morgan Kaufmann,1995年,第194-202页。
[12] 达菲,N。;Helmbold,D.,潜在助推器?,(Solla,S.A.;Leen,T.K.;Müller,K.-R.,《神经信息处理系统的进展》,第12期(2000年),麻省理工学院出版社:麻省理学院出版社,纽约),258-264
[13] S.E.Fahlman,C.Lebiere,《级联相关学习体系结构》,技术报告CMU-CS-90-100,卡内基梅隆大学计算机科学学院,宾夕法尼亚州匹兹堡,1990年。;S.E.Fahlman,C.Lebiere,《级联相关学习体系结构》,技术报告CMU-CS-90-100,卡内基梅隆大学计算机科学学院,宾夕法尼亚州匹兹堡,1990年。
[14] Freund,Y.,以多数人的方式推进弱学习算法,Inform。计算。,121, 2, 256-285 (1995) ·Zbl 0833.68109号
[15] Y.Freund,增强多数算法的自适应版本,Proc。第12年。计算机会议。《学习理论》,ACM,1999年,第102-113页。;Y.Freund,增强多数算法的自适应版本,Proc。第12年。计算机会议。《学习理论》,ACM,1999年,第102-113页。
[16] Y.Freund,R.E.Schapire,实验一种新的增强算法,Proc。第13届国际。《机器学习Conf.on Machine Learning》,Morgan Kaufmann,1996年,第148-156页。;Y.Freund,R.E.Schapire,一种新的增强算法的实验,Proc。第13届国际。《机器学习Conf.on Machine Learning》,Morgan Kaufmann,1996年,第148-156页。
[17] 弗伦德,Y。;Schapire,R.E.,《在线学习的决策理论概括及其在助推中的应用》,J.Compute。系统科学。,55,119-139(1997年)·兹伯利0880.68103
[18] J.Friedman,T.Hastie,R.Tibshirani,《加性逻辑回归:提升的统计观点》,斯坦福大学红杉厅统计系技术报告,斯坦福大学,94305,1998年。;J.Friedman,T.Hastie,R.Tibshirani,《加性逻辑回归:提升的统计观点》,《技术报告》,斯坦福大学红杉厅统计系,斯坦福加利福尼亚943051998年·Zbl 1106.62323号
[19] J.H.Friedman,《随机梯度提升》,技术报告,统计系,斯坦福大学红杉厅,斯坦福加利福尼亚94305,1999。;J.H.Friedman,《随机梯度提升》,技术报告,统计系,斯坦福大学红杉厅,斯坦福加利福尼亚94305,1999年·Zbl 1072.65502号
[20] A.J.Grove,N.Littlestone,D.Schuurmans,线性判别更新的一般收敛结果,Proc。第10年。计算机会议。《学习理论》,美国计算机学会,1997年,第171-183页。;A.J.Grove,N.Littlestone,D.Schuurmans,线性判别更新的一般收敛结果,Proc。第10年。计算机会议。《学习理论》,ACM,1997年,第171-183页·Zbl 0988.68147号
[21] Haussler,D。;卡恩斯,M。;利特斯通,N。;Warmuth,M.K.,多项式可学习性模型的等价性,Inform。计算。,95, 2, 129-161 (1991) ·Zbl 0743.68115号
[22] 卡恩斯,M。;Valiant,L.G.,学习布尔公式和有限自动机的密码限制,J.ACM,41,6,1298-1328(1994)·兹比尔083068108
[23] M.J.卡恩斯。;Vazirani,U.V.,《计算学习理论导论》(1994年),麻省理工学院出版社:麻省理学院出版社,马萨诸塞州剑桥
[24] Kivinen,J。;Warmuth,M.K.,线性预测的加性与指数梯度更新,Inform。计算。,132, 1, 1-64 (1997)
[25] J.Kivinen,M.K.Warmuth,Boosting as熵投影,Proc。第12年。计算机会议。《学习理论》,ACM,1999年,第134-144页。;J.Kivinen,M.K.Warmuth,Boosting as熵投影,Proc。第12年。计算机会议。《学习理论》,ACM,1999年,第134-144页。
[26] J.Lafferty,加法模型,增强,广义发散推断,Proc。第12年。计算机会议。《学习理论》,ACM,1999年,第125-133页。;J.Lafferty,加法模型,增强,广义发散推断,Proc。第12年。计算机会议。《学习理论》,ACM,1999年,第125-133页。
[27] Luenberger,D.G.,线性和非线性规划(1984),Addison-Wesley:Addison-Whesley Reading,MA·Zbl 0241.90052号
[28] 梅森,L。;Bartlett,P。;Baxter,J.,边缘的直接优化提高了组合分类器的泛化能力,(Kearns,M.S.;Solla,S.A.;Cohn,D.A.,Advances in Neural Information Processing Systems 11(1999),麻省理工学院出版社),281-287
[29] 梅森,L。;巴克斯特,J。;Bartlett,P。;Frean,M.,Boosting algorithms as gradient descent,(Solla,S.A.;Leen,T.K.;Müller,K.-R.,Advances in Neural Information Processing Systems 12(2000),麻省理工学院出版社),512-518
[30] J.R.Quinlan,《装袋、增压和C4.5》,Proc。第十三届全国人工智能大会,AAAI出版社和麻省理工学院出版社,1996年,第725-730页。;J.R.Quinlan,《装袋、增压和C4.5》,Proc。第十三届全国人工智能大会,AAAI出版社和麻省理工学院出版社,1996年,第725-730页。
[31] G.Rätsch,T.Onoda,K.-R.Müller,adaboost的软边际,技术报告NC-TR-1998-021,NeuroCOLT2,1998年。;G.Rätsch,T.Onoda,K.-R.Müller,adaboost的软边际,技术报告NC-TR-1998-021,NeuroCOLT2,1998年·Zbl 0969.68128号
[32] Schapire,R.E.,《高效学习算法的设计与分析》(The Design and Analysis of Efficient Learning Algorithms)(1992年),麻省理工学院出版社:麻省理学院出版社剑桥
[33] R.E.Schapire,漂流游戏,Proc。每年第12次。计算机会议。《学习理论》,ACM,1999年,第114-124页。;R.E.Schapire,漂流游戏,Proc。第12年。计算机会议。《学习理论》,ACM,1999年,第114-124页。
[34] 夏皮雷,R.E。;弗伦德,Y。;Bartlett,P。;Lee,W.S.,《提高差距:投票方法有效性的新解释》,Ann.Statist。,1651-1686年5月26日(1998年)·Zbl 0929.62069号
[35] 夏皮雷,R.E。;Singer,Y.,《使用可信度预测改进增压算法》,马赫。学习,37,3,297-336(1999)·Zbl 0945.68194号
[36] J.Shawe-Taylor,N.Cristianini,广义边际分布界限,Proc。第四届欧洲会议。《学习理论》,1999年,第263-273页。;J.Shawe-Taylor,N.Cristianini,广义边际分布界限,Proc。第四届欧洲会议计算。《学习理论》,1999年,第263-273页。
[37] Valiant,L.G.,《可学习的共同理论》。ACM,27,11,1134-1142(1984)·Zbl 0587.68077号
[38] Vapnik,V.N.,基于经验数据的依赖性估计(1982),Springer:Springer New York·Zbl 0499.62005号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。