×

基于多类问题灵敏度的动态过采样过程。 (英语) Zbl 1218.68121号

摘要:不平衡数据集的分类为机器学习框架下的研究提出了新的挑战。当表示数据集的一个类(通常是感兴趣的概念)的模式数量远远低于其余类时,就会出现此问题。因此,学习模型必须适应这种情况,这在实际应用中非常常见。本文提出了一种动态过采样方法,用于改进两类以上不平衡数据集的分类。该过程被纳入模因算法(MA)中,该算法优化径向基函数神经网络(RBFNNs)。为了处理类不平衡,训练数据分两个阶段重新采样。在第一阶段,对少数群体实施过抽样程序,以部分平衡群体规模。然后,运行MA,在进化的不同代中对数据进行过采样,生成最小灵敏度类的新模式(对于种群中的最佳RBFNN,精度最差的类)。该方法使用13个来自著名机器学习问题和一个复杂微生物生长问题的不平衡基准分类数据集进行了测试。它与专门设计用于处理不平衡数据的其他神经网络方法进行了比较。这些方法包括预处理阶段的不同过采样过程、一种阈值移动方法,其中输出阈值向廉价类移动,以及结合使用这些技术获得的模型的集合方法。结果表明,我们的建议能够提高泛化集中的敏感性,并对每个类都获得了较高的准确度和良好的分类水平。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Chawla,N.V.公司。;Japolicz,N。;Kotcz,A.,编辑:关于从不平衡数据集学习的特刊,Aigkdd Explorations,6,1,1-6(2006)
[2] J.H.Zhao,X.Li,Z.Y.Dong,在线罕见事件检测,in:PAKDD’07,Springer-Verlag,Berlin,Heidelberg,2007。;J.H.Zhao,X.Li,Z.Y.Dong,在线罕见事件检测,收录于:PAKDD’07,Springer-Verlag,Berlin,Heidelberg,2007。
[3] He,H。;Garcia,E.A.,从不平衡数据中学习,IEEE知识与数据工程汇刊,21,9,1263-1284(2009)
[4] 孙,Y。;Wong,A.K.C。;Kamel,M.S.,《不平衡数据的分类:综述》,《国际模式识别与人工智能杂志》,23,4,687-719(2009)
[5] 库巴特,M。;Matwin,S.,《解决不平衡训练集的诅咒:片面选择》,(第14届国际机器学习会议论文集(1997)),179-186
[6] 巴扎尼,M。;Merz,C。;墨菲,P。;Ali,K。;休谟,T。;Brunk,C.,《降低误分类成本:从噪声数据中学习的知识密集型方法》(第十一届机器学习国际会议(ICML-1994)(1994)),100-109
[7] Chawla,N.V.公司。;鲍耶,K.W。;洛杉矶霍尔。;Kegelmeyer,W.P.,Smote:合成少数人过采样技术,《人工智能研究杂志》,16,321-357(2002)·Zbl 0994.68128号
[8] 莫斯卡托,P。;Cotta,C.,模因算法简介,(元启发式手册,运筹学和管理科学国际系列,第57卷(2003),Springer:Springer New York),105-144·Zbl 1107.90459号
[9] Back,T.,《理论与实践中的进化算法》(1996),牛津·Zbl 0877.68060号
[10] 南卡罗来纳州加西亚。;Herrera,F.,进化训练集选择以优化不平衡问题中的c4.5,(混合智能系统国际会议(2008),IEEE计算机学会),567-572
[11] Folleco,A。;Khoshgoftaar,T.M。;Napolitano,A.,《评估低质量类平衡数据抽样技术的四种性能指标的比较》,(第七届机器学习与应用国际会议,ICMLA’08(2008)),153-158
[12] 塔夫特·L·M。;埃文斯,R.S。;Shyu,C.R。;艾格,M.J。;查拉,N。;Mitchell,J.A。;桑顿,S.N。;布雷,B。;Varner,M.,《应对不平衡数据集以改进分娩中的不良药物事件预测模型》,《生物医学信息学杂志》,42,2,356-364(2009)
[13] Orriols-Puig,A。;Bernadó-Mansilla,E.,《不平衡数据集的基于规则的进化系统》,软计算,13,3,213-225(2009)
[14] J.Stefanowski,S.Wilk,《扩展基于规则的分类器以改进不平衡类的识别》,载于:《计算智能研究》,第223卷,2009年。;J.Stefanowski,S.Wilk,《扩展基于规则的分类器以改进不平衡类的识别》,载于:《计算智能研究》,第223卷,2009年。
[15] 周,Z.-H。;Liu,X.-Y.,用解决类别不平衡问题的方法训练成本敏感型神经网络,IEEE知识与数据工程学报,18,1,63-77(2006)
[16] 费尔南德斯,A。;德尔·耶稣,M.J。;Herrera,F.,《基于模糊规则的分类系统中自适应推理系统对不平衡数据集的影响》,《应用专家系统》,369805-9812(2009)
[17] 薛,J。;Titterington,D.M.,不平衡数据对lda有负面影响吗?,模式识别,41,5,1575-1588(2008)·Zbl 1140.68488号
[18] Ou,G.B。;Murphey,Y.L.,使用神经网络的多类模式分类,模式识别,40,1,4-18(2007)·Zbl 1103.68777号
[19] Van Hulse,J。;Khoshgoftaar,T.M。;Napolitano,A.,《从不平衡数据中学习的实验观点》,(第24届机器学习国际会议论文集(ICML'07),第227卷(2007)),935-942
[20] 普拉蒂,R.C。;巴蒂斯塔,G.E.A.P.A。;Monard,M.C.,《班级失衡与班级重叠:学习系统行为分析》(MICAI 2004:人工智能进展,计算机科学讲义,第2972卷(2004)),312-321
[21] 库巴特,M。;霍尔特,R.C。;Matwin,S.,卫星雷达图像中石油泄漏检测的机器学习,机器学习,30,2-3,195-215(1998)
[22] 福塞特,T。;Provost,F.,自适应欺诈检测,数据挖掘和知识发现,1,3,291-316(1997)
[23] Ezawa,K.J。;辛格,M。;Norton,S.W.,《面向目标的电信管理贝叶斯网络学习》,(第13届机器学习国际会议论文集(1996)),139-147
[24] 里德尔,P。;西格尔,R。;Etzioni,O.,《波音制造领域的表现设计和暴力诱导》,应用人工智能,8,1,125-147(1994)
[25] Fernández-Navarro,F。;瓦莱罗,A。;埃尔瓦斯·马丁内斯,C。;Gutíerrez,P。;加西亚·吉梅诺,R。;Zurera-Cosano,G.,确定微生物生长/非生长界面的多分类神经网络模型的开发,《国际食品微生物学杂志》,141203-212(2010)
[26] Cardie,C。;Howe,N.,使用特定案例的特征权重改进少数群体预测,(第14届机器学习国际会议论文集(1997)),57-65
[27] 巴蒂斯塔,G.E.A.P.A。;普拉蒂,R.C。;Monard,M.C.,《平衡机器学习训练数据的几种方法的行为研究》,SIGKDD Explorations,6,1,20-29(2004)
[28] 贾普科维奇,N。;Stephen,S.,《班级失衡问题:系统研究》,《智能数据分析杂志》,2009年第6期,第5期,第429-449页·Zbl 1085.68628号
[29] Weiss,G.M.,《稀有采矿:统一框架》,ACM SIGKDD Explorations Newsletter,67-119(2004)
[30] 阿卡巴尼(Akbani,R.)。;Kwek,S。;Japkowicz,N.,将支持向量机应用于不平衡数据集,(第15届欧洲机器学习会议论文集(2004)),39-50·兹比尔1132.68523
[31] 拉斯库蒂,B。;Kowalczyk,A.,《SVM的极端重新平衡:案例研究》,SIGKDD Explorations,6,1,60-69(2004)
[32] Wong,A.K.C。;Wang,Y.,离散值数据的高阶模式发现,IEEE知识与数据工程学报,9,6,877-893(1997)
[33] Provost,F。;Fawcett,T.,《分类器性能的分析和可视化:不精确类别和成本分布下的比较》,(第三届国际知识发现会议论文集(KDD97)和数据挖掘(1997),AAAI出版社),43-88
[34] 黄,J。;Ling,C.X.,《使用auc和准确性评估学习算法》,IEEE知识与数据工程汇刊,17,3,299-310(2005)
[35] Fawcett,T.,ROC分析简介,模式识别快报,27861-874(2006)
[36] Mamitsuka,H.,使用ROC曲线选择微阵列分类特征,模式识别,39,12,2393-2404(2006)·Zbl 1103.68774号
[37] Zolghadri,M.J。;Mansoori,E.G.,《使用接收器操作特征分析加权模糊分类规则》,信息科学,177,11,2296-2307(2007)
[38] 马拉科,C。;Duin,R.P.W。;Tortorella,F.,通过两两特征组合最大化ROC曲线下的面积,模式识别,41,6,1961-1974(2008)·Zbl 1132.68647号
[39] Hand,D.J。;Till,R.J.,多类分类问题roc曲线下面积的简单概括,机器学习,45171-186(2001)·兹比尔1007.68180
[40] 费里,C。;Hernández-Orallo,J。;Salido,M.A.,多类问题roc曲面下的卷,(机器学习:ECML 2003,计算机科学讲义,第2837卷(2003)),108-120·Zbl 1257.68125号
[41] 埃弗森,R.M。;Fieldsend,J.E.,《从多目标优化角度进行多类roc分析》,《模式识别快报》,27,8,918-927(2006)
[42] 马丁内斯·埃斯特迪略,F.J。;Gutiérrez,P.A。;埃尔瓦斯·马丁内斯,C。;Fernández,J.C.,《基于灵敏度-准确性方法的多类问题进化学习》,(2008年IEEE进化计算大会论文集(CEC'08)(2008),IEEE出版社:中国香港IEEE出版社),1581-1588
[43] 费尔南德斯,J。;Hervas,C。;马丁内斯,F。;Gutierrez,P.,Memetic pareto进化人工神经网络用于确定预测微生物学中的生长/非生长,应用软计算,11,1,534-550(2011)
[44] 费尔南德斯·卡巴列罗,J。;马丁内斯,F。;Hervas,C。;Gutierrez,P.,使用模因帕累托进化神经网络解决多类问题的敏感性与准确性,IEEE神经网络汇刊,21,5,750-770(2010)
[45] Japkowicz,N.,通过前馈神经网络进行监督与非监督二进制学习,机器学习,42,1-2,97-122(2001)·Zbl 0970.68128号
[46] 弗里曼,J.A.S。;Saad,D.,径向基函数网络中的学习和泛化,神经计算,7,5,1000-1020(1995)
[47] 黄,Y。;Bang,S.,构建径向基函数神经网络分类器的有效方法,神经网络,10,8,1495-1503(1997)
[48] Orr,M.J.L.,径向基函数中心选择的正则化,神经计算,7,3,606-623(1995)
[49] De Silva,C.R。;Ranganath,S。;De Silva,L.C.,云基函数神经网络:用于整体面部表情识别的改进rbf网络结构,模式识别,41,4,1241-1253(2008)·Zbl 1131.68080号
[50] Fernández-Navarro,F。;埃尔瓦斯·马丁内斯,C。;克鲁兹·拉米雷斯,M。;Gutiérrez,P.A。;Valero,A.,进化(q)-高斯径向基函数神经网络,用于确定金黄色葡萄球菌,应用软计算,11,3,3012-3020(2011)
[51] Fukunaga,K.,《统计模式识别导论》(1999),学术出版社
[52] 马丁内斯·埃斯特迪略,F.J。;埃尔瓦斯·马丁内斯,C。;Gutiérrez,P.A。;Martínez-Estudillo,A.C.,《进化生产单位神经网络分类器》,神经计算,72,1-2,548-561(2008)·Zbl 1254.68244号
[53] Martínez-Estudillo,A.C。;埃尔瓦斯·马丁内斯,C。;马丁内斯·埃斯特迪略,F.J。;García-Pedrajas,N.,通过聚类方法将进化算法与局部搜索相结合,IEEE系统、人与控制论汇刊,B部分:控制论,36,3,534-545(2006)
[54] 伊格尔,C。;Hüsken,M.,改进Rprop学习算法的实证评估,神经计算,50,6,105-123(2003)·Zbl 1006.68811号
[55] Whitley,D.L。;戈登,V.S。;Mathias,K.E.,《拉马克进化论、鲍德温效应和函数优化》(Davidor,Y.;Schwefel,H.P.;Männer,R.,《Nature-PPSN III的并行问题解决》(1994),施普林格:施普林格-柏林),6-15
[56] A.Asuncion,D.Newman,UCI机器学习库网址:http://www.ics.uci.edu/~mlearn/MLRepository.html \(\rangle\);A.Asuncion,D.Newman,UCI机器学习库网址:http://www.ics.uci.edu/~mlearn/MLRepository.html \(\rangle\)
[57] 瓦莱罗,A。;佩雷斯·罗德里格斯,F。;Carrasco,E。;Fuentes-Alventosa,J.M。;加西亚·吉梅诺,R.M。;Zurera,G.,建模金黄色葡萄球菌:温度、ph值和水活性的影响,《国际食品微生物学杂志》,133,1-2,186-194(2009)
[58] Fernández-Navarro,F。;瓦莱罗,A。;埃尔瓦斯·马丁内斯,C。;Gutiérrez,P.A。;加西亚·吉梅诺,R.M。;Zurera-Cosano,G.,确定微生物生长/非生长界面的多分类神经网络模型的开发,《国际食品微生物学杂志》,141203-212(2010)
[59] 弗里德曼,M.,《(M)排名问题重要性的替代测试比较》,《数理统计年鉴》,第11卷,第186-92页(1940年)·JFM 66.1305.08标准
[60] Dunn,O.J.,《均值之间的多重比较》,《美国统计协会杂志》,56,52-56(1961)·Zbl 0103.37001号
[61] Y.Hochberg。;Tamhane,A.,《多重比较程序》(1987),John Wiley&Sons·Zbl 0731.62125号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。