×

RHSBoost:提高不平衡数据的分类性能。 (英语) Zbl 1464.62083号

摘要:不平衡数据定义为类的比例严重倾斜的数据集。由于类分布的不平衡,现有模型的分类性能往往会恶化。此外,多数类的过度表示阻止分类器关注少数类,而少数类通常更有趣。针对不平衡分类问题,提出了一种有效的集合分类方法RHSBoost。该分类规则在升压方案下使用随机欠采样和ROSE采样。根据实验结果,RHSBost似乎是一个有吸引力的不平衡数据分类模型。

MSC公司:

62-08 统计问题的计算方法
62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alcalá,J。;费尔南德斯,A。;Luengo,J。;德拉克,J。;南卡罗来纳州加西亚。;桑切斯,L。;Herrera,F.,Keel数据挖掘软件工具:数据集存储库,算法集成和实验分析框架,J.Mult-值逻辑软计算。,17, 2-3, 255-287, (2010)
[2] 阿尔法罗,E。;Gámez,M。;García,N.,Adabag:一个R包,用于带增压和装袋的分类,J.Stat.Softw。,54,2,1-35,(2013),网址http://www.jstatsoft.org/v54/i02/
[3] Barandela,R。;瓦尔多维诺斯,R.M。;Sánchez,J.S.,分类器集合的新应用,模式分析。申请。,6, 3, 245-256, (2003)
[4] 巴图维塔,R。;Palade,V.,支持向量机的类不平衡学习方法,(不平衡学习,(2013),Wiley-Blackwell),83-99
[5] 鲍曼,A.W。;阿扎里尼,A.,《数据分析的应用平滑技术:带S-plus插图的核方法:带S-blus插图的内核方法》(1997),牛津大学出版社·Zbl 0889.62027号
[6] 布雷曼,L。;弗里德曼,J。;斯通,C.J。;Olshen,R.A.,分类和回归树,(1984),CRC出版社·Zbl 0541.62042号
[7] 查拉,N.V。;鲍耶,K.W。;洛杉矶霍尔。;Kegelmeyer,W.P.,Smote:合成少数人过采样技术,《人工智能研究杂志》,321-357,(2002)·Zbl 0994.68128号
[8] 查拉,N.V。;拉扎列维奇,A。;洛杉矶霍尔。;Bowyer,K.W.,Smoteboost:提高对少数群体的预测,(数据库中的知识发现:PKDD 2003,(2003),Springer),107-119
[9] Cieslak,D.A。;Chawla,N.V.,《非平衡数据的学习决策树》,(数据库中的机器学习和知识发现,(2008),Springer),241-256
[10] Drummond,C.、Holte,R.C.等人,2003年。C4.5,类不平衡和成本敏感性:为什么欠采样胜过过采样。In:学习不平衡数据集研讨会II。第11卷。Citeser。
[11] Freund,Y.、Schapire,R.E.等人,1996年。实验一种新的boosting算法。在:ICML。第96卷。第148-156页。
[12] 加拉尔,M。;费尔南德斯,A。;Barrenechea,E。;Bustince,H。;Herrera,F.,《阶级不平衡问题的集合综述:打包、提升和混合方法》,IEEE Trans。系统。人类网络。C部分申请。修订版,第42、4、463-484页,(2012年)
[13] 加拉尔,M。;费尔南德斯,A。;Barrenechea,E。;Herrera,F.,Eusboost:通过进化欠采样增强高度不平衡数据集的集合,模式识别。,46, 12, 3460-3471, (2013)
[14] 黄,J。;Ling,C.X.,《使用auc和准确性评估学习算法》,IEEE Trans。知识。数据工程,17299-310,(2005)
[15] 库巴特,M。;霍尔特,R。;Matwin,S.,《负面例子大量出现时的学习》(机器学习:ECML-97,(1997),Springer),146-153
[16] Lichman,M.,2013年。UCI机器学习库。统一资源定位地址http://archive.ics.uci.edu/ml。
[17] 北卡罗来纳州卢纳顿。;Menardi,G。;Torelli,N.,ROSE:二进制不平衡学习包,R J.,6,1,82-92,(2014)
[18] Menardi,G。;Torelli,N.,用不平衡数据训练和评估分类规则,data Min.Knowl。发现。,28, 1, 92-122, (2014) ·Zbl 1281.68198号
[19] Orriols-Puig,A。;Bernadó-Mansilla,E.,《不平衡数据集的基于规则的进化系统》,软计算。,13, 3, 213-225, (2009)
[20] Quinlan,J.,C4.5:机器学习程序,(1993年),摩根·考夫曼出版社,加利福尼亚州旧金山
[21] R核心团队。2015.R:统计计算语言和环境。R统计计算基金会,奥地利维也纳。URLhttps://www.R-project.org/。
[22] 塞弗特,C。;Khoshgoftaar,T.M.(坦桑尼亚联合共和国)。;Van Hulse,J。;Napolitano,A.,Rusboost:缓解阶级不平衡的混合方法,IEEE Trans。系统。人。赛博。A、 40,1185-197(2010)
[23] Therneau,T.、Atkinson,B.、Ripley,B.,2015年。rpart:递归分区和回归树。R包版本4.1-10。统一资源定位地址http://CRAN.R-project.org/package=rpart。
[24] Torgo,L.,《使用R进行数据挖掘,通过案例研究学习》(2010年),Chapman和Hall/CRC,URLhttp://www.dcc.fc.up.pt/ltorgo/使用R进行数据挖掘
[25] 王,S。;Yao,X.,利用集成模型对不平衡数据集进行多样性分析,(IEEE计算智能与数据挖掘研讨会,2009,CIDM’09,(2009),IEEE),324-331
[26] 谢军。;邱,Z.,不平衡数据集对lda的影响:理论和实证分析,模式识别。,40, 2, 557-562, (2007) ·Zbl 1118.68129号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。