×

不平衡数据分类的成本敏感增强。 (英语) Zbl 1122.68505号

摘要:对类分布不平衡的数据进行分类,对大多数标准分类器学习算法所能达到的性能造成了重大缺陷,这些算法假设类分布相对平衡,错误分类成本相等。阶级不平衡问题的严重困难和频繁发生表明需要额外的研究工作。本文的目的是研究适用于大多数分类器学习算法的元技术,以提高不平衡数据的分类。据报道,AdaBoost算法是一种成功的提高分类精度的元技术。综合分析AdaBoost算法在解决类不平衡问题方面的优点和缺点后,我们发现了三种成本敏感的boosting算法,它们是通过将成本项目引入AdaBooth的学习框架而开发的。进一步的分析表明,所提出的算法之一符合统计学中的分段加性模型,以最小化成本指数损失。本文还研究了这些增强算法对不同类型样本的加权策略,以及它们在识别罕见病例中的有效性,方法是通过对几个真实世界的医学数据集进行实验,这些数据集普遍存在类别不平衡问题。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68周05 非数值算法
第68页,共15页 数据库理论
68吨10 模式识别、语音识别
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 查拉,N.V。;贾普科维奇,N。;Kolcz,A.,社论:关于从不平衡数据集学习的特刊,SIGKDD探索关于从不平衡数据集学习的特刊,6,1,1-6(2004)
[2] 福塞特,T.E。;Provost,F.,自适应欺诈检测,数据挖掘知识。发现,1,3,291-316(1997)
[3] 库巴特,M。;霍尔特,R。;Matwin,S.,卫星雷达图像中石油泄漏检测的机器学习,马赫。学习。,30, 195-215 (1998)
[4] Riddle,P。;西格尔,R。;Etzioni,O.,《波音制造领域的表现设计和暴力诱导》,应用。Artif公司。智力。,8, 125-147 (1991)
[5] Murph,P.M。;Aha,D.W.,UCI机器学习数据库库(1991),信息与计算机科学系:加利福尼亚大学欧文分校信息与计算机系
[6] K.Ezawa,M.Singh,S.W.Norton,《面向目标的电信风险管理贝叶斯网络学习》,载《第十三届机器学习国际会议论文集》,意大利巴里,1996年,第139-147页。;K.Ezawa,M.Singh,S.W.Norton,《面向目标的电信风险管理贝叶斯网络学习》,载《第十三届机器学习国际会议论文集》,意大利巴里,1996年,第139-147页。
[7] C.Cardie,N.Howe,《使用案例特定特征权重改进少数群体阶级预测》,载于《第十四届机器学习国际会议论文集》,田纳西州纳什维尔,1997年7月,第57-65页。;C.Cardie,N.Howe,《使用案例特定特征权重改进少数群体阶级预测》,载于《第十四届机器学习国际会议论文集》,田纳西州纳什维尔,1997年7月,第57-65页。
[8] G.E.A.P.A.Batista,R.C.Prati,M.C.Monard,平衡机器学习训练数据的几种方法的行为研究,SIGKDD探索从不平衡数据集学习专刊,第6卷(1),2004年,第20-29页。;G.E.A.P.A.Batista,R.C.Prati,M.C.Monard,平衡机器学习训练数据的几种方法的行为研究,SIGKDD探索从不平衡数据集学习专刊,第6卷(1),2004年,第20-29页。
[9] 贾普科维奇,N。;斯蒂芬,S.,《阶级不平衡问题:系统研究》,《知识分子》。数据分析。J.,6,5,429-450(2002)·Zbl 1085.68628号
[10] G.Weiss,《稀缺性挖掘:一个统一的框架》,SIGKDD Explorations Special Issue on Learning from Imbalanced Dataset,vol.6(1),2004年,第7-19页。;G.Weiss,《稀缺性挖掘:一个统一的框架》,SIGKDD Explorations Special Issue on Learning from Imbalanced Dataset,vol.6(1),2004年,第7-19页。
[11] R.Akbani,S.Kwek,N.Jakowicz,《将支持向量机应用于不平衡数据集》,载于《欧洲机器学习会议论文集》,意大利比萨,2004年9月,第39-50页。;R.Akbani,S.Kwek,N.Jakowicz,《将支持向量机应用于不平衡数据集》,载于《欧洲机器学习会议论文集》,意大利比萨,2004年9月,第39-50页·Zbl 1132.68523号
[12] B.Raskutti,A.Kowalczyk,《支持向量机的极端再平衡:案例研究》,载于《欧洲机器学习会议论文集》,意大利比萨,2004年9月,第60-69页。;B.Raskutti,A.Kowalczyk,《SVM的极端再平衡:案例研究》,载于:《欧洲机器学习会议论文集》,意大利比萨,2004年9月,第60-69页。
[13] Wu,G。;Chang,E.Y.,《非平衡数据集学习的类边界对齐》,(2003年8月ICML’03非平衡数据集中学习研讨会论文集,华盛顿特区)
[14] 张杰。;Mani,I.,KNN对不平衡数据分布的处理方法:一项涉及信息提取的案例研究,(2003年8月《ICML'03从不平衡数据集学习研讨会论文集》,华盛顿特区)
[15] B.Liu,W.Hsu,Y.Ma,《具有多个最小支持度的关联规则挖掘》,载于《第五届ACM SIGKDD知识发现和数据挖掘国际会议论文集》,加州圣地亚哥,1999年8月,第337-341页。;B.Liu,W.Hsu,Y.Ma,《具有多个最小支持度的关联规则挖掘》,载于《第五届ACM SIGKDD国际知识发现和数据挖掘会议论文集》,加州圣地亚哥,1999年8月,第337-341页。
[16] Wong,A.K.C。;Wang,Y.,从离散值数据中发现高阶模式,IEEE Trans。知识。数据工程,9,6,877-893(1997)
[17] N.Japkowicz,摘自:《AAAI’2000年非平衡数据集学习研讨会论文集》,AAAI技术报告WS-00-05,AAAI2000年。;N.Japkowicz,摘自:《AAAI’2000年学习不平衡数据集研讨会论文集》,AAAI技术报告WS-00-05,AAAI2000年。
[18] N.V.Chawla,N.Japkowicz,A.Kotcz,摘自:2003年ICML从不平衡数据集学习研讨会论文集,ICML,2003年。;N.V.Chawla,N.Japkowicz,A.Kotcz,摘自:ICML’2003年学习不平衡数据集研讨会论文集,ICML,2003年。
[19] N.V.Chawla,N.Japkowicz,A.Kotcz,SIGKDD Explorations,阶级不平衡特别版,第6卷(1),ACM,纽约,2004年6月。;N.V.Chawla,N.Japkowicz,A.Kotz.,SIGKDD Explorations,《阶级失衡特刊》,第6卷(1),ACM,纽约,2004年6月。
[20] 查拉,N。;鲍耶,K。;霍尔,L。;Kegelmeyer,W.P.,SMOTE:合成少数人过采样技术,《人工智能研究杂志》,16,321-357(2002)·Zbl 0994.68128号
[21] A.Estabrooks,《从不平衡数据集归纳学习的组合方案》,加拿大新斯科舍省哈利法克斯市达尔豪西大学计算机科学系硕士论文,2000年。;A.Estabrooks,《从不平衡数据集归纳学习的组合方案》,加拿大新斯科舍省哈利法克斯市达尔豪西大学计算机科学学院硕士论文,2000年。
[22] 库巴特,M。;Matwin,S.,《解决不平衡训练集的诅咒:单边选择》,(第十四届机器学习国际会议论文集(1997年),Morgan Kaufmann:Morgan Koufmann-Los Altos,CA),179-186
[23] M.Pazzani,C.Merz,P.Murphy,K.Ali,T.Hume,C.Brunk,《减少误分类成本》,摘自:《第十一届机器学习国际会议论文集》,新泽西州新不伦瑞克,1994年7月,第217-225页。;M.Pazzani,C.Merz,P.Murphy,K.Ali,T.Hume,C.Brunk,《减少误分类成本》,载于《第十一届机器学习国际会议论文集》,新泽西州新不伦瑞克,1994年7月,第217-225页。
[24] Japkowicz,N.,通过前馈神经网络进行监督与非监督二进制学习,马赫。学习。,41, 1 (2001) ·Zbl 0970.68128号
[25] Y.Freund,R.E.Schapire,《新增压算法的实验》,载于:《第十三届机器学习国际会议论文集》,1996年,麻省剑桥,摩根考夫曼,加利福尼亚州洛斯阿尔托斯,第148-156页。;Y.Freund,R.E.Schapire,《新增压算法的实验》,载于:《第十三届机器学习国际会议论文集》,1996年,马萨诸塞州剑桥市米特出版社,加利福尼亚州洛斯阿尔托斯市摩根考夫曼出版社,第148-156页。
[26] 弗伦德,Y。;Schapire,R.E.,《在线学习的决策理论推广及其在助推中的应用》,J.Compute。系统。科学。,55, 1, 119-139 (1997) ·兹伯利0880.68103
[27] 夏皮雷,R.E。;Singer,Y.,《使用可信度预测改进增压算法》,马赫。学习。,37, 3, 297-336 (1999) ·Zbl 0945.68194号
[28] 夏皮雷,R.E。;辛格,Y.,《提高优势:投票方法有效性的新解释》,马赫。学习。,37, 3, 297-336 (1999)
[29] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,《加性逻辑回归:提升的统计观点》,《统计年鉴》。,28, 2, 337-374 (2000) ·兹比尔1106.62323
[30] Ridgeway,G.,《提升状态,计算》。科学。统计人员。,31, 172-181 (1999)
[31] N.Japkowicz,《阶级间和阶级内不平衡情况下的概念学习》,载于《加拿大智能计算研究学会第十四届会议论文集》,加拿大渥太华,2001年6月,第67-77页。;N.Japkowicz,《阶级间和阶级内不平衡情况下的概念学习》,载于《加拿大智能计算研究学会第十四届会议论文集》,加拿大渥太华,2001年6月,第67-77页·Zbl 0984.68643号
[32] M.V.Joshi,学习分类器模型预测罕见现象,博士论文,明尼苏达大学,Twin Cites,MN,USA,2002。;M.V.Joshi,用于预测罕见现象的学习分类器模型,博士论文,明尼苏达大学,美国明尼苏达州双城,2002年。
[33] 魏斯,G。;Provost,F.,《训练数据昂贵时的学习:类别分布对树归纳的影响》,J.Artif。智力。决议,19,315-354(2003)·Zbl 1046.68094号
[34] R.C.Prati,G.E.A.P.A.Batista,《阶级失衡与阶级重叠:学习系统行为分析》,载于:《墨西哥人工智能国际会议论文集》,墨西哥墨西哥城,2004年4月,第312-321页。;R.C.Prati,G.E.A.P.A.Batista,《阶级失衡与阶级重叠:学习系统行为分析》,载于:《墨西哥人工智能国际会议论文集》,墨西哥墨西哥城,2004年4月,第312-321页。
[35] Zhou,Z.H。;Liu,X.Y.,用解决阶级不平衡问题的方法训练成本敏感型神经网络,IEEE Trans。知识。数据工程,18,1,63-77(2006)
[36] Quinlan,J.R.,《小析取精度的改进估计》,马赫。学习。,6, 93-98 (1991)
[37] 扎德罗兹尼,B。;Elkan,C.,《成本和概率都未知时的学习和决策》(《第七届知识发现和数据挖掘国际会议论文集》(2001年8月),旧金山:加利福尼亚州旧金山),204-213
[38] Lin,Y。;Lee,Y。;Wahba,G.,非标准情况下分类的支持向量机,马赫数。学习。,46, 191-202 (2002) ·Zbl 0998.68103号
[39] 刘,B。;马云(Ma,Y.)。;Wong,C.K.,《改进基于关联规则的分类器》,(第四届欧洲数据挖掘和知识发现原则会议论文集(2000年9月),里昂:里昂法国),504-509
[40] Manevitz,L.M。;Yousef,M.,《文档分类的一类支持向量机》,J.Mach。学习。决议,2139-154(2001)·Zbl 1002.68597号
[41] 扎德罗兹尼,B。;Langford,J。;Abe,N.,《通过成本比例示例权重进行成本敏感学习》,(第三届IEEE数据挖掘国际会议论文集(2003年11月),墨尔本:佛罗里达州墨尔本),435-442
[42] Ling,C.X。;Li,C.,最小成本决策树,(第21届机器学习国际会议论文集(2004年7月),班夫:加拿大班夫)
[43] J.Bradford,C.Kunz,R.Kohavi,C.Brunk,C.E.Brodley,带误分类成本的决策树修剪,摘自:《第十届欧洲机器学习会议论文集》(ECML-98),德国Chemnitz,1998年4月,第131-136页。;J.Bradford,C.Kunz,R.Kohavi,C.Brunk,C.E.Brodley,《用错误分类成本修剪决策树》,载于《第十届欧洲机器学习会议论文集》(ECML-98),德国Chemnitz,1998年4月,第131-136页。
[44] P.Domingos,P.Metacost,《Metacost:使分类器具有成本敏感性的通用方法》,in:《神经网络进展》,《模式识别和人工智能国际期刊》,加州圣地亚哥,1999年,第155-164页。;P.Domingos,P.Metacost,《Metacost:使分类器具有成本敏感性的通用方法》,载于:《神经网络进展》,《模式识别和人工智能国际期刊》,加州圣地亚哥,1999年,第155-164页。
[45] N.Abe,B.Zadrozny,J.Langford,《多类成本敏感学习的迭代方法》,载于《第十届ACN SIGKDD知识发现和数据挖掘国际会议论文集》,西雅图,华盛顿州,2004年8月,第3-11页。;N.Abe,B.Zadrozny,J.Langford,多类成本敏感学习的迭代方法,载于:第十届ACN SIGKDD知识发现和数据挖掘国际会议论文集,华盛顿州西雅图,2004年8月,第3-11页。
[46] M.V.Joshi,V.Kumar,R.C.Agarwal,《评估提升算法以分类稀有类:比较与改进》,收录于:《IEEE第一届数据挖掘国际会议论文集》(ICDM'01),2001年。;M.V.Joshi,V.Kumar,R.C.Agarwal,《评估提升算法以分类稀有类:比较与改进》,收录于:《IEEE第一届数据挖掘国际会议论文集》(ICDM’01),2001年。
[47] D.Lewis,W.Gale,《通过不确定性抽样训练文本分类器》,载于《第十七届国际ACM SIGIR信息研究与开发会议论文集》,纽约,1998年8月,第73-79页。;D.Lewis,W.Gale,《通过不确定性抽样训练文本分类器》,载于《第十七届国际ACM SIGIR信息研究与开发会议论文集》,纽约,1998年8月,第73-79页。
[48] Tan,P。;斯坦巴赫,M。;库马尔,V.,《数据挖掘导论》(2006),艾迪森·韦斯利:艾迪森·韦斯利阅读,马萨诸塞州
[49] F.Provost,T.Fawcett,分类器性能的分析和可视化:在不精确的类和成本分布下的比较,载于:第三届知识发现和数据挖掘国际会议论文集(KDD-97),加利福尼亚州纽波特海滩,1997年8月,第43-48页。;F.Provost,T.Fawcett,《分类器性能的分析和可视化:不精确类别和成本分布下的比较》,载于《第三届知识发现和数据挖掘国际会议论文集》(KDD-97),加利福尼亚州纽波特海滩,1997年8月,第43-48页。
[50] Hanley,J.A。;McNeil,B.J.,《接收器工作特性(ROC)曲线下面积的含义和使用》,Intell。数据分析。J.,143,29-36(1982)
[51] Breiman,L.,打包预测,机器学习,24,2,123-140(1996)·Zbl 0858.68080号
[52] Breiman,L.,《随机森林》,机器学习,45,5-32(2001)·Zbl 1007.68152号
[53] R.E.Schapire,机器学习的助推方法概述,载于:MSRI非线性估计和分类研讨会,加利福尼亚州伯克利,2002年3月,第149-172页。;R.E.Schapire,机器学习的增强方法——概述,摘自:MSRI非线性估计和分类研讨会,加州伯克利,2002年3月,第149-172页。
[54] Kittler,J。;Katef,M。;Duin,R。;Matas,J.,《关于组合分类器》,IEEE Trans。模式分析。机器。智力。,20, 3 (1998)
[55] M.S.Kamel,N.Wanas,《组合分类器中的数据依赖性》,载于《第四届多分类器系统国际研讨会论文集》,英国萨里郡,2003年6月。;M.S.Kamel,N.Wanas,《组合分类器中的数据依赖性》,载于《第四届多分类器系统国际研讨会论文集》,英国萨里郡,2003年6月·Zbl 1040.68660号
[56] W.Fan,S.J.Stolfo,J.Zhang,P.K.Chan,Adacost:错误分类成本敏感性提升,摘自:《第六届机器学习国际会议论文集》(ICML-99),斯洛文尼亚布莱德,1999年,第97-105页。;W.Fan,S.J.Stolfo,J.Zhang,P.K.Chan,Adacost:错误分类成本敏感性提升,摘自:《第六届机器学习国际会议论文集》(ICML-99),斯洛文尼亚布莱德,1999年,第97-105页。
[57] Ting,K.M.,《成本敏感型提升算法的比较研究》,(第17届机器学习国际会议论文集(2000),斯坦福大学:加州斯坦福大学),983-990
[58] C.Chen,A.Liaw,L.Breiman,使用随机森林学习不平衡数据,\(\langle;\)http://stat-www.berkeley.edu/users/chenchao/666.pdf\(\rangle;\);C.Chen,A.Liaw,L.Breiman,使用随机森林学习不平衡数据,\(\langle;\)http://stat-www.berkeley.edu/users/chenchao/666.pdf\(\rangle;\)
[59] Turny,P.,归纳概念学习中的成本类型,(第17届机器学习国际会议成本敏感学习研讨会论文集(2000),斯坦福大学:加州斯坦福大学),15-21
[60] 维奥拉,P。;Jones,M.,使用非对称adaboost和检测器级联进行快速稳健分类,(神经信息处理系统会议论文集(2001年12月),温哥华:加拿大不列颠哥伦比亚省温哥华),1311-1318
[61] C.Elkan,《成本敏感学习的基础》,载《第十七届国际人工智能联合会议论文集》,2001年,第973-978页。;C.Elkan,《成本敏感学习的基础》,载《第十七届国际人工智能联合会议论文集》,2001年,第973-978页。
[62] N.V.Chawla,A.Lazarevic,L.O.Hall,K.W.Bowyer,SMOTEBoost:在Boost中改进对少数群体的预测,载于:《第七届欧洲数据库知识发现原则与实践会议论文集》,克罗地亚杜布罗夫尼克,2003年,第107-119页。;N.V.Chawla,A.Lazarevic,L.O.Hall,K.W.Bowyer,《SMOTEBoost:提高对少数群体的预测》,载《第七届欧洲数据库知识发现原则与实践会议论文集》,克罗地亚杜布罗夫尼克,2003年,第107-119页。
[63] 郭,H。;Viktor,H.L.,《通过增强和数据生成从不平衡数据集中学习:数据boost-IM方法》,SIGKDD Explorations Special Issue on Learning from imbalanced Dataset,6,1,30-39(2004)
[64] 孙,Y。;Wong,A.K.C。;Wang,Y.,关联分类器概述,(2006年数据挖掘国际会议(DMIN'06)(2006年6月),拉斯维加斯:内华达州拉斯维加斯),138-143
[65] Wang,Y。;Wong,A.K.C.,《从关联到分类:使用证据权重的推理》,IEEE Trans。知识。数据工程,15,3,764-767(2003)
[66] 孙毅,不平衡数据分类的成本敏感提升,加拿大安大略省滑铁卢市滑铁卢大学博士论文,2007。;孙毅,不平衡数据分类的成本敏感提升,加拿大安大略省滑铁卢市滑铁卢大学博士论文,2007年·Zbl 1122.68505号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。