×

基于广义可加模型的集成分类。 (英语) Zbl 1284.62368号

摘要:广义可加模型(GAM)是广义线性模型(GLM)的推广,是一种强有力的技术,它成功地证明了它能够捕获解释变量和响应变量之间的非线性关系。本文提出GAM作为集成学习的基本分类器。提出了三种使用GAMs作为基分类器的二元分类的替代集成策略:(i)基于Bagging的GAMPag,(ii)基于随机子空间方法(RSM)的GAMsm,以及(iii)作为两者组合的GAMens。在对UCI存储库中的12个数据集进行的实验验证中,提出的算法以单个GAM和基于决策树的集成分类器(即RSM、Bagging、Random Forest和最近提出的Rotation Forest)为基准。从结果中可以得出一些结论。首先,使用GAM集合而不是单个GAM总是可以提高预测性能。其次,GAMrsm和GAMens的性能相当,而这两个版本都优于GAMbag。最后,证明了在集成中使用GAM作为基本分类器而不是标准决策树的价值。GAMbag的性能可与普通Bagging媲美。此外,GAMrsm和GAMens的表现优于RSM和Bagging,而这两种GAM集合变体的表现与Random Forest和Rotation Forest相当。灵敏度分析包括集成中的成员分类器数量、随机特征子空间中包含的变量数量以及GAM样条估计的自由度。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abe,M.,离散选择数据的广义加性模型,《商业与经济统计杂志》,17,3,271-284(1999)
[3] 阿彻·K·J。;Kirnes,R.V.,《随机森林变量重要性测度的实证表征》,计算统计与数据分析,52,4,2249-2260(2008)·Zbl 1452.62027
[5] 巴奇尼,M。;Biggeri,A。;拉加齐奥,C。;勒特逊迪,A。;Saez,M.,《空气污染对健康的短期影响分析中的参数和半参数方法》,计算统计与数据分析,51,9,4324-4336(2007)·Zbl 1162.62440号
[6] 鲍尔,E。;Kohavi,R.,《投票分类算法的实证比较:打包、增强和变体》,机器学习,36,1-2,105-139(1999)
[7] Berg,D.,通过广义加性模型进行破产预测,《商业和工业应用随机模型》,23,2,129-143(2007)·Zbl 1164.62078号
[8] Bernard,S。;Heutte,L。;Adam,S.,超参数对随机森林精度的影响,(Benediktsson,J.A.;Kittler,J.;Roli,F.,第八届多分类器系统国际研讨会论文集,MCS 2009(2009),Springer-Verlag:Springer-Verlag Berlin/Heidelberg)
[9] 博拉,S。;Di Ciaccio,A.,通过打包和增强改进非参数回归方法,计算统计与数据分析,38,4,407-420(2002)·兹比尔1072.62562
[10] Breiman,L.,打包预测,机器学习,24,2,123-140(1996)·Zbl 0858.68080号
[11] Breiman,L.,《随机森林,机器学习》,45,1,5-32(2001)·Zbl 1007.68152号
[12] 布莱尔·R。;古铁雷斯·奥苏纳,R。;Quek,F.,属性打包:使用随机特征子集提高分类器集合的准确性,模式识别,36,6,1291-1302(2003)·Zbl 1033.68092号
[13] Bühlmann,P.,Bagging,subagging and Bragging for improvement some prediction algorithm,(Akritas,M.G.;Politis,D.N.,《非参数统计的最新进展和趋势》(2002),Elsevier:Elsevier Amsterdam)
[14] A.M.P.卡努托。;M.C.C.Abreu。;Oliveira,L.D。;Xavier,J.C。;Santos,A.D.,《研究集成成员的选择对基于选择和基于融合的集成方法的准确性和多样性的影响》,《模式识别快报》,28,4,472-486(2007)
[15] 克莱门茨,M.S。;阿姆斯特朗,B.K。;Moolgavkar,S.H.,使用广义加性模型预测肺癌发病率,生物统计学,6,4,576-589(2005)·Zbl 1169.62369号
[16] 克罗克斯,C。;Joossens,K。;Lemmens,A.,Trimmed bagging,计算统计与数据分析,52,1,362-368(2007)·Zbl 1452.62047号
[18] Demšar,J.,多数据集上分类器的统计比较,机器学习研究杂志,7,1-30(2006)·Zbl 1222.68184号
[19] 尿Diaz-Uriate,R。;de Andres,S.A.,使用随机森林的基因选择和微阵列数据分类,生物信息学,7(2006)
[20] Dietterich,T.G.,机器学习中的集成方法,(Kittler,J.;Roli,F.,《第一届多分类器系统国际研讨会论文集》,MCS 2001(2000),Springer-Verlag:Springer-Verlag Berlin/Heidelberg)·Zbl 0963.68085号
[21] Dunn,O.J.,《均值之间的多重比较》,《美国统计协会杂志》,56,293,52-64(1961)·Zbl 0103.37001号
[22] Friedman,M.,《使用秩来避免方差分析中隐含的正态假设》,《美国统计协会杂志》,32,200,675-701(1937)
[23] 弗里德曼,M.,《(M)排名问题重要性的替代测试比较》,《数理统计年鉴》,第11卷,第186-92页(1940年)
[24] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《加性逻辑回归:增长的统计观点》,《统计年鉴》,28,2,337-374(2000)·Zbl 1106.62323号
[25] Geurts,P。;Ernst,D。;Wehenkel,L.,极端随机树,机器学习,63,1,3-42(2006)·Zbl 1110.68124号
[26] Gislason,P.O。;Benediktsson,J.A。;Sveinsson,J.R.,《用于土地覆盖分类的随机森林》,《模式识别快报》,27,4,294-300(2006)
[27] Hansen,L.K。;Salamon,P.,神经网络集成,IEEE模式分析和机器智能汇刊,12,10,993-1001(1990)
[29] 哈斯蒂,T。;Tibshirani,R.,广义加性模型,统计科学,1,3,297-318(1986)·Zbl 0645.62068号
[30] 哈斯蒂,T。;Tibshirani,R.,《广义加性模型:一些应用》,《美国统计协会杂志》,82398371-386(1987)·Zbl 0633.62067号
[31] 哈斯蒂,T。;Tibshirani,R.,广义加法模型(1990),查普曼和霍尔:查普曼与霍尔伦敦·Zbl 0747.62061号
[32] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素:数据挖掘、推理和预测》(2001),施普林格出版社:施普林格出版社,纽约·Zbl 0973.62007号
[33] Ho,T.K.,构建决策林的随机子空间方法,IEEE模式分析和机器智能汇刊,20,8,832-844(1998)
[34] Hothorn,T。;Lausen,B.,通过装袋树捆绑分类器,计算统计与数据分析,49,4,1068-1078(2005)·Zbl 1429.62246号
[35] 川崎,M。;米纳米。;Eguchi,S。;Lennert-Cody,C.E.,《预测技术AdaBoost简介及与广义加性模型的比较》,《渔业研究》,76,3,328-343(2005)
[36] Kim,H.C。;庞,S。;Je,H.M。;Kim,D。;Bang,S.Y.,《支持向量机集成与打包》(Lee,S.E.;Verri,A.,《第一届支持向量机模式识别国际研讨会论文集》(2002),Springer-Verlag:Springer-Verlag Berlin/Heidelberg)·Zbl 1064.68596号
[37] Kim,H.C。;庞,S。;Je,H.M。;Kim,D。;Bang,S.Y.,构建支持向量机集成,模式识别,36,12,2757-2767(2003)·Zbl 1059.68091号
[38] Kuncheva,L.I.,《组合模式分类器:方法和算法》(2004),John Wiley&Sons:John Willey&Sons Hoboken,新泽西州·Zbl 1066.68114号
[39] Kuncheva,L.I。;Rodriguez,J.J.,《带有随机线性预言机的分类器集成》,IEEE知识与数据工程汇刊,19,4,500-508(2007)
[40] Kuncheva,L.I。;Whitaker,C.J.,《分类器集合多样性的度量及其与集合准确性的关系》,机器学习,51,2,181-207(2003)·Zbl 1027.68113号
[41] Langley,P.,《机器学习的手工艺论文》(Langley P.,第17届国际机器学习会议论文集,第17次国际机器学习大会论文集,ICML-2000(2000),斯坦福大学:斯坦福大学)
[42] Liaw,A。;Wiener,M.,《随机森林分类与回归》,R News,2,3,18-22(2002)
[43] 麦克林(R.Maclin)。;Shavlik,J.W.,《结合多分类器的预测:使用竞争性学习初始化神经网络》,(Mellish,C.S.,《第十四届国际人工智能联合会议论文集》,第十四届人工智能国际联合会议论文,IJCAI-95(1995),摩根·考夫曼(Morgan-Kauffman):加利福尼亚州旧金山
[44] 马克思,B.D。;Eilers,P.H.C.,带惩罚似然的直接广义加性建模,计算统计与数据分析,28,2,193-209(1998)·Zbl 1042.62580号
[45] Opitz,D.W。;Shavlik,J.W.,生成神经网络集成的准确和多样成员,神经信息处理系统的进展,8535-541(1996)
[46] 普拉萨德,A.M。;艾弗森·L·R。;Liaw,A.,《新分类和回归树技术:生态预测的袋装和随机森林》,《生态系统》,9,2,181-199(2006)
[47] 普林齐,A。;Van den Poel,D.,《多类分类的随机森林:随机多元逻辑》,《应用专家系统》,第34、3、1721-1732页(2008年)
[48] Provost,F。;福塞特,T。;Kohavi,R.,《反对比较归纳算法的精度估计案例》,(J.,Shavlik,《第15届机器学习国际会议论文集》,第15届国际机器学习会议论文集,ICML-1998(1998),Morgan Kaufman:Morgan Koufman San Francisco,CA)
[50] 罗德里格斯,J.J。;Kuncheva,L.I。;Alonso,C.J.,《旋转森林:一种新的分类器集成方法》,IEEE模式分析和机器智能汇刊,28,10,1619-1630(2006)
[51] 施温克,H。;Bengio,Y.,Boosting neural networks,neural Computation,第12、8、1869-1887页(2000)
[52] 斯科里奇纳,M。;Duin,R.P.W.,组合规则在装袋和助推中的作用,(Ferri,F.J.;Inesta,J.M.;Amin,A.;Pudil,P.,联合国际研讨会论文集SSPR 2000和SPR 2001(2000),施普林格出版社:施普林格出版社,柏林/海德堡)·Zbl 0996.68773号
[53] 弗吉尼亚州斯维特尼克。;Liaw,A。;Tong,C。;卡尔伯森,J.C。;Sheridan,R.P。;Feuston,B.P.,《随机森林:化合物分类和QSAR建模的分类和回归工具》,《化学信息与计算机科学杂志》,43,6,1947-1958(2003)
[54] 张春霞。;Zhang,J.S.,RotBoost:一种结合Rotation Forest和AdaBoost的技术,《模式识别字母》,29,10,1524-1536(2008)
[55] 周,Z.H。;吴建新。;Tang,W.,《集成神经网络:许多人可能比所有人都好》,《人工智能》,137,1-2,239-263(2002)·Zbl 0995.68077号
[56] Zwane,E.N。;van der Heijden,P.G.M.,带协变量的捕获-再捕获研究的半参数模型,计算统计与数据分析,47,4,729-743(2004)·Zbl 1429.62642号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。