×

一种基于实例的不平衡处理方法学习推荐算法。 (英语) Zbl 1428.68268号

不平衡学习是机器学习和数据挖掘领域的一个典型问题。为了解决这个问题,研究人员提出了许多最先进的技术,如过采样、欠采样、SMOTE、成本敏感等。然而,对于不同的学习问题,最合适的方法是不同的。针对一个不平衡学习问题,我们提出了一种基于实例的学习(IBL)推荐算法来为其提供最合适的不平衡处理方法。然后,当一个新的数据集出现时,将提取其特征并与知识库中的示例进行比较,其中应用基于实例的最近邻算法来识别新数据集所有候选不平衡处理方法的秩。最后,将推荐的等级和个人偏差结合起来,得出最合适的不平衡处理方法。在80个公共二进制不平衡数据集上的实验结果表明,该推荐算法能够有效地为给定的不平衡学习问题提供最合适的不平衡处理方法,推荐命中率高达95%。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62G07年 密度估算
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 库巴特,M。;霍尔特,R.C。;Matwin,S.,卫星雷达图像中石油泄漏检测的机器学习\([J]\),马赫。学习。,30, 2-3, 195-215 (1998)
[2] Ngai,E.W.T。;胡,Y。;王永华,《数据挖掘技术在金融欺诈检测中的应用:分类框架和文献综述》([J]\),德希斯。支持系统。,50355-569(2011年)
[3] Khoshgoftaar,T.M。;高,K。;Seliya,N.,属性选择和不平衡数据:软件缺陷预测中的问题([C]\),(IEEE人工智能工具国际会议论文集,1(2010)),137-144
[4] Sommer,R。;Paxson,V.,《封闭世界之外:使用机器学习进行网络入侵检测》([C]\),(IEEE安全与隐私研讨会论文集(2010),305-316
[5] Japkowicz,N.,《从不平衡数据集中学习:各种策略的比较》([C]\),(AAAI学习不平衡数据集中研讨会论文集(2000)),10-15
[6] Japkowicz,N.,《阶级失衡:我们是否关注正确的问题》,(《从失衡数据集学习研讨会论文集II》,1723(2003)),63
[7] 查拉,N.V。;贾普科维奇,N。;Kotcz,A.,编辑:关于从不平衡数据集学习的特刊([J]\),ACM SIGKDD Explor。纽斯利特。,6, 1, 1-6 (2004)
[8] 巴蒂斯塔,G.E。;普拉蒂,R.C。;Monard,M.C.,平衡机器学习训练数据的几种方法的行为研究([J]\),ACM SIGKDD Explor。纽斯利特。,6, 1, 20-29 (2004)
[9] 贾普科维奇,N。;Stephen,S.,阶级失衡问题:一项系统研究\([J]\),Intell。数据分析。,6, 5, 429-449 (2002) ·Zbl 1085.68628号
[10] Weiss,G.M.,《稀有采矿:统一框架》([J]\),SIGKDD Explor。,6, 1, 7-19 (2004)
[11] 孙,Z。;宋,Q。;朱旭,利用基于编码的集成学习改进软件缺陷预测\([J]\),IEEE Trans。系统。人类网络。C部分申请。修订版,42、6、1806-1817(2012)
[12] 郭,X。;Yin,Y。;Dong,C.,关于阶级不平衡问题([C]\),(第四届国际自然计算会议论文集(2008)),192-201
[13] Chawla,N.V.,《不平衡数据集的数据挖掘:概述》[M],《数据挖掘和知识发现手册》,853-867(2005),Springer
[14] He,H。;Garcia,E.A.,《从不平衡数据中学习》([J]\),IEEE Trans。知识。数据工程,21263-1284(2009)
[15] D.H.Wolpert,W.G.Macready,搜索无免费午餐定理([R])
[16] Michie,D。;施皮盖尔哈特,D.J。;Taylor,C.C.,机器学习,神经和统计分类[M],技术计量学(1995)
[17] Braddil,P。;伽玛-贾,o。;Henery,B.,使用元级学习表征分类算法的适用性([C]\),(欧洲机器学习会议论文集(1994)),83-102
[18] 宋,Q。;王,G。;王,C.,基于数据集特征的分类算法自动推荐\([J]\),模式识别。,45, 7, 2672-2689 (2012)
[19] Keller,J。;帕特森,I。;Berrer,H.,数据挖掘算法的多标准排序的集成概念\([C]\),(Keller,J.;Giraud Carrier,C.,元学习:为模型选择和方法组合构建自动建议策略(2000))
[20] Braddil,P.B。;苏亚雷斯,C。;Da Costa,J.P.,排名学习算法:使用IBL和元学习的准确性和时间结果\([J]\),马赫。学习。,50, 3, 251-277 (2003) ·Zbl 1033.68082号
[21] Braddil,P.B。;Soares,C.,《分类算法选择的排序方法比较》([M]\),(机器学习会议论文集:ECML(2000),Springer),63-752000
[22] 菲克斯,E。;霍奇斯,J.L.,判别分析——非参数判别:一致性性质([R](1951)),加州大学伯克利分校·Zbl 0715.62080号
[23] 阿里,S。;Smith,K.A.,关于分类的学习算法选择([J]\),应用。软计算。,6, 2, 119-138 (2006)
[24] Ho,T.K。;Basu,M.,监督分类问题的复杂性度量([J]\),IEEE Trans。模式分析。马赫。智力。,24, 3, 289-300 (2002)
[25] Bensusan,H。;Giraud Carrier,C.,通过里程碑式的学习表现发现任务邻域\([M]\),数据挖掘和知识发现原理,325-330(2000),施普林格
[26] 普法林格,B。;Bensusan,H。;Giraud-Carrier,C.,告诉我谁可以学习你,我可以告诉你你是谁:标记各种学习算法([C]\),(第十七届机器学习国际会议论文集(2000)),743-750
[27] Duin,R.P.W。;Pekalska,E。;Tax,D.M.J.,《通过分类器分歧表征分类问题》([C]\),(第十七届模式识别国际会议论文集(2004)),141-143
[28] 彭,Y。;Flach,P.A。;Braddil,P.,基于决策树的元学习数据表征([J]\),IDDM,111(2002)
[29] Fawcett,T.,ROC分析简介([J]\),模式识别。莱特。,27, 8, 861-874 (2006)
[30] Atkeson,C.G。;摩尔,A.W。;Schaal,S.,局部加权控制学习,Lazy learning,75-113(1997),Springer
[31] A.Frank,A.Asuncion,UCI机器学习库
[32] Alcalá,J。;费尔南德斯,A。;Luengo,J.,Keel数据挖掘软件工具:数据集存储库、算法集成和实验分析框架([J]\),J.多值逻辑软计算。,17, 255-287 (2010)
[33] Boetticher,G。;Menzies,T。;Ostrand,T.,《实证软件工程数据的Promise知识库》(2007),西弗吉尼亚大学计算机科学系
[34] Kotsiantis,S.B。;Pintelas,P.E.,处理不平衡数据集的专家代理混合([J].数学年鉴。计算。电话信息。,1,1,46-55(2003年)
[35] 库巴特,M。;Matwin,S.,《解决不平衡训练集的诅咒:单边选择》,(机器学习国际会议论文集(1997),179-186
[36] 查拉,N.V。;鲍耶,K.W。;Hall,L.O.,SMOTE:合成少数过采样技术([J]\),J.Artif。智力。第16号决议,第321-357页(2002年)·Zbl 0994.68128号
[37] Domingos,P.,Metacost:一种使分类器具有成本敏感性的通用方法([C]\),(第五届ACM SIGKDD知识发现和数据挖掘国际会议论文集(1999)),155-164
[38] Breiman,L.,装袋预测值([J]\),马赫。学习。,24, 2, 123-140 (1996) ·Zbl 0858.68080号
[39] 乔希,M.V。;库马尔,V。;Agarwal,R.C.,《评估提升算法以分类稀有类:比较和改进》([C]),(IEEE国际数据挖掘会议论文集(2001),257-264
[40] 查拉,N.V。;拉扎雷维奇,A。;Hall,L.O.,SMOTEBoost:改进少数群体在提升中的预测([C]\),数据库中的知识发现,107-119(2003),施普林格:施普林格-柏林-海德堡
[41] 刘晓云。;吴杰。;周,Z.-H.,班级平衡学习的探索性欠采样([J]\),IEEE Trans。系统。人类网络。第二部分网络。,39,2539-550(2009年)
[42] Barandela,R。;瓦尔多维诺斯,R.M。;Sánchez,J.S.,分类器集成的新应用([J]\),模式分析。申请。,6, 3, 245-256 (2003)
[43] Akkasi,A。;瓦罗卢,E。;Dimiller,N.,平衡欠采样:一种新的基于句子的欠采样方法,用于改进化学和生物医学文本中命名实体的识别([J]\),应用。智力。,48, 8, 1965-1978 (2018)
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。