×

一种基于加权粗糙集的类不平衡学习方法。 (英语) Zbl 1134.68047号

摘要:我们在Pawlak粗糙集模型中引入权重来平衡数据集的类分布,并开发了一种基于加权粗糙集的方法来处理类不平衡问题。为了开发基于加权粗糙集的方法,我们首先设计了一种加权属性约简算法,通过引入和扩展Guiasu加权熵来度量属性的重要性,然后通过在LEM2算法中引入加权启发式策略来设计加权规则提取算法,最后通过引入多个加权因子对提取的规则进行评价,提出了一种加权决策算法。此外,为了评估所开发方法的性能,我们通过对20个UCI数据集进行实验,将基于加权粗糙集的方法与几种常用的类不平衡学习方法进行了比较。比较研究表明,在AUC和少数类准确度方面,基于加权粗糙集的方法优于基于重采样和滤波的方法,与基于决策树和SVM的方法相当。因此,基于加权粗糙集的方法对于类不平衡学习是有效的。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68层37 人工智能背景下的不确定性推理
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 巴蒂斯塔,G。;普拉蒂,R.C。;Monard,M.C.,《平衡机器学习训练数据的几种方法的行为研究》,SIGKDD Explorations,6,1,20-29(2004)
[2] Bazan,J.,《从决策表中提取规律的动态和非动态粗糙集方法的比较》,(Polkowski,L.;Skowron,A.,《知识发现中的粗糙集》(1998),Phisica-Verlag:Phisica-Verlag Heidelberg),321-365·兹比尔1067.68711
[3] Beynon,M.,《可变精度粗糙集模型中的约简:进一步研究》,《欧洲运筹学杂志》,134592-605(2001)·Zbl 0984.90018号
[4] C.Blake,E.Keogh,C.J.Merz,加州大学欧文分校信息与计算机科学系UCI机器学习数据库库,1998年。可从以下位置获得:<网址:http://www.ics.uci.edu/mlearn/MLRepository.html>。;C.Blake,E.Keogh,C.J.Merz,加州大学欧文分校信息与计算机科学系UCI机器学习数据库库,1998年。可从以下位置获得:<网址:http://www.ics.uci.edu/mlearn/MLRepository.html>。
[5] U.Brefeld,P.Geibel,F.Wysotzki,《具有依赖于实例的成本的支持向量机》,收录于:N.Lavrac,D.Gamberger,L.Todorovski,H.Blockeel(编辑),Proc。第14届欧洲计算机学习大会,ECML'03,克罗地亚卡夫塔特,2003年,第23-34页。;U.Brefeld,P.Geibel,F.Wysotzki,《具有依赖于实例的成本的支持向量机》,收录于:N.Lavrac,D.Gamberger,L.Todorovski,H.Blockeel(编辑),Proc。第14届欧洲计算机学习会议,ECML'03,克罗地亚卡夫塔特,2003年,第23-34页·Zbl 1257.68121号
[6] N.Chawla,N.Japkowicz,A.Kolcz(编辑),Proc。ICML'03年学习不平衡数据集研讨会(II),美国华盛顿特区,2003年。可从以下位置获得:<网址:http://www.site.uottawa.ca/nat/Worshop2003/Workshop2003.html>。;N.Chawla,N.Japkowicz,A.Kolcz(编辑),Proc。ICML'03年学习不平衡数据集研讨会(II),美国华盛顿特区,2003年。可从以下位置获得:<网址:http://www.site.uottawa.ca/nat/Workshop2003/Workshop2003.html>。
[7] 查拉,N。;贾普科维奇,N。;Kolcz,A.,《从不平衡数据集学习的特殊问题》。从非平衡数据集学习的特殊问题,SIGKDD探索,6,1,1-6(2004)
[8] 北卡罗来纳州克里斯蒂亚尼尼。;Shawe Taylor,J.,《支持向量机和其他基于内核的学习方法导论》(2000),剑桥大学出版社:剑桥大学出版社
[9] C.Drummond,R.C.Holte,C4.5,《等级不平衡和成本敏感性:为什么欠采样优于过采样》,摘自:N.Chawla,N.Japkowicz,A.Kolcz(编辑),Proc。ICML'03年学习不平衡数据集研讨会(II),美国华盛顿特区,2003年。可从以下位置获得:<网址:http://www.site.uottawa.ca/nat/Choshop2003/imbalance03.tar.gz>。;C.Drummond,R.C.Holte,C4.5,《等级不平衡和成本敏感性:为什么欠采样优于过采样》,摘自:N.Chawla,N.Japkowicz,A.Kolcz(编辑),Proc。ICML'03年学习不平衡数据集研讨会(II),美国华盛顿特区,2003年。可从以下位置获得:<网址:http://www.site.uottawa.ca/nat/Choshop2003/imblance03.tar.gz>。
[10] 邓奇,I。;Gediga,G.,粗糙集预测的不确定性度量,人工智能,106,1,109-137(1998)·Zbl 0909.68040号
[11] 福塞特·R·E。;Provost,F.,自适应欺诈检测、数据挖掘和知识发现,3,1291-316(1997)
[12] Fawcett,T.,ROC分析简介,模式识别快报,27861-874(2006)
[13] U.M.Fayyad,K.B.Irani,分类学习中连续值属性的多间隔离散化,R.Bajcsy(编辑),Proc。第13届国际人工智能联合会议,IJCAI'93,法国尚贝里,1993年,第1022-1027页。;U.M.Fayyad,K.B.Irani,分类学习中连续值属性的多间隔离散化,R.Bajcsy(编辑),Proc。第13届国际人工智能联合会,IJCAI'93,法国尚贝里,1993年,第1022-1027页。
[14] Greco,S。;马塔拉佐,B。;Slowinski,R.,《多准则决策分析的粗糙集理论》,《欧洲运筹学杂志》,129,1-47(2001)·Zbl 1008.91016号
[15] Guiasu,S.,《信息理论与应用》(1977),McGraw-Hill,国际图书公司:McGraw-Hill,纽约国际图书公司·Zbl 0379.94027号
[16] Grzymala-Busse,J.W.,LERS-一个基于粗糙集的示例学习系统,(Slowinski,R.,《智能决策支持:粗糙集理论的应用和进展手册》(1992),Kluwer学术出版社:Kluwer-学术出版社Dordrecht),3-18·Zbl 0820.68001号
[17] Hand,D.J.,《分类规则的构建和评估》(1997),John Wiley and Sons:John Willey and Sons New York·兹比尔0997.62500
[18] Hand,D.J。;Till,R.J.,ROC曲线下面积对多类分类问题的简单概括,机器学习,45,2,171-186(2001)·Zbl 1007.68180号
[19] 胡晓红。;Cercone,N.,《通过离散化、泛化和粗糙集特征选择进行数据挖掘》,《知识与信息系统》,1,1,33-60(1999)
[20] 胡庆华。;李,X.-D。;Yu,D.-R.,基于粗糙集约简的分类性能分析,(Yang,Q.;Webb,G.,Proc.9th Pacific Rim Int.Conf.Artificial Intelligence,PRICAI'06,LNAI 4099(2006),Springer-Verlag:Springer-Verlag Heidelberg),423-433
[21] 胡庆华。;Yu,D.-R.,模糊不可分辨关系的熵及其运算,国际不确定性模糊和基于知识的系统杂志,12,5,575-589(2004)·Zbl 1086.94048号
[22] 胡庆华。;Yu,D.-R。;Xie,Z.-X.,基于模糊粗糙技术的信息保留混合数据约简,模式识别字母,27,5,414-423(2006)
[23] 胡庆华。;Yu,D.-R。;谢,Z.-X。;Liu,J.-F.,模糊概率近似空间及其信息测度,IEEE模糊系统汇刊,14,2191-201(2006)
[24] N.Japkowicz,《从不平衡数据集中学习:各种策略的比较》,载于:N.Japfowicz(编辑),Proc。AAAI'00非平衡数据集学习研讨会,技术报告WS-00-05,AAAI出版社,加利福尼亚州门罗公园,2000年,第10-15页。;N.Japkowicz,《从不平衡数据集中学习:各种策略的比较》,载于:N.Japfowicz(编辑),Proc。AAAI'00非平衡数据集学习研讨会,技术报告WS-00-05,AAAI出版社,加利福尼亚州门罗公园,2000年,第10-15页。
[25] N.Japkowicz(编辑),Proc。AAAI’00从不平衡数据集学习研讨会,技术报告WS-00-05,AAAI出版社,加利福尼亚州门洛帕克,2000年。;N.Japkowicz(编辑),Proc。AAAI'00非平衡数据集学习研讨会,技术报告WS-00-05,AAAI出版社,加州门罗公园,2000年。
[26] 贾普科维奇,N。;Stephen,S.,《阶级失衡问题:系统研究》,《智能数据分析》,2002年第6期,第5期,第429-450页·Zbl 1085.68628号
[27] Kryszkiewicz,M.,《不完全信息系统中的规则》,信息科学,113,3-4,271-292(1999)·Zbl 0948.68214号
[28] Kryszkiewicz,M.,《不一致系统中知识约简替代类型的比较研究》,《国际智能系统杂志》,第16期,第105-120页(2001年)·Zbl 0969.68146号
[29] Liang,J.Y。;Xu,Z.B.,《不完备信息系统中知识约简的算法》,《国际不确定性、模糊性和基于知识的系统杂志》,10,95-103(2002)·Zbl 1085.68696号
[30] 刘,H。;侯赛因,F。;Tan,C.L。;Dash,M.,《离散化:一种使能技术》,《数据挖掘和知识发现》,6393-423(2002)
[31] T.-H.Ma,M.-L.Tang,加权粗糙集模型,载:Y.Chen,A.Abraham(编辑),Proc。第六届智能系统设计与应用国际会议,ISDA’06,中国山东济南,2006,第481-485页。;T.-H.Ma,M.-L.Tang,加权粗糙集模型,载:Y.Chen,A.Abraham(编辑),Proc。第六届国际智能系统设计与应用大会,ISDA’06,中国山东济南,2006,第481-485页。
[32] M.A.Maloof,《当数据集不平衡、成本不相等且未知时的学习》,载于:N.Chawla、N.Japkowicz、A.Kolcz(编辑),Proc。ICML'03不平衡数据集学习研讨会(II),美国华盛顿特区,2003年。可从以下位置获得:<网址:http://www.site.uottawa.ca/nat/Choshop2003/imbalance03.tar.gz>。;M.A.Maloof,《当数据集不平衡、成本不相等且未知时的学习》,载于:N.Chawla、N.Japkowicz、A.Kolcz(编辑),Proc。ICML'03年学习不平衡数据集研讨会(II),美国华盛顿特区,2003年。可从以下位置获得:<网址:http://www.site.uottawa.ca/nat/Choshop2003/imblance03.tar.gz>。
[33] 米·J·S。;吴维珍。;Zhang,W.-X.,基于变精度粗糙集模型的知识约简方法,信息科学,159255-272(2004)·Zbl 1076.68089号
[34] Michalski,R.S.,《归纳学习的理论和方法》(Michalski-R.S.;Carbonell,J.G.;Mitchell,T.M.,《机器学习:人工智能方法》(1983),Morgan Kaufmann:Morgan Koufmann San Mateo,CA),83-134
[35] Pawlak,Z.,《粗糙集》,《国际计算机和信息科学杂志》,11,341-356(1982)·Zbl 0501.68053号
[36] Pawlak,Z.,《粗糙集:数据推理的理论方面》(Rough Sets:Theory Aspects of Reasoning About Data)(1991年),Kluwer Academic Publishers:Kluwer-Academical Publishers Dordrecht·Zbl 0758.68054号
[37] Pawlak,Z.,《粗糙集与智能数据分析》,信息科学,147,1-12(2002)·Zbl 1018.68082号
[38] Pawlak,Z。;Grzymala-Busse,J.W。;斯洛文斯基,R。;Ziarko,W.,《粗糙集》,ACM委员会,38,11,89-95(1995)
[39] Pawlak,Z。;Skowron,A.,《粗糙集:一些扩展》,《信息科学》,177,1,28-40(2007)·Zbl 1142.68550号
[40] Pawlak,Z。;Skowron,A.,《粗糙集的基础》,信息科学,177,1,3-27(2007)·Zbl 1142.68549号
[41] Pawlak,Z。;Skowron,A.,《粗糙集与布尔推理》,《信息科学》,177,1,41-73(2007)·Zbl 1142.68551号
[42] 普拉蒂,R.C。;巴蒂斯塔,G.E.A.P.A。;Monard,M.C.,《阶级失衡与阶级重叠:学习系统行为分析》,(Monroy,R.;Arroyo,G.;Sucar,L.E.;Sossa,H.,Proc.3rd Mexican Int.Conf.Artificial Intelligence,MICAI’04,LNAI 2972(2004),Springer Verlag:Springer Verlag Heidelberg),312-321
[43] Provost,F.J。;Fawcett,T.,《分类器性能的分析和可视化:不精确类别和成本分布下的比较》,(Heckerman,D.;Mannila,H.;Pregibon,D.,Proc.3rd Int.Conf.Knowledge Discovery and Data Mining,KDD’97(1997),AAAI出版社:AAAI Press Menlo Park,CA),43-48
[44] Quinlan,J.R.,《机器学习C4.5程序》(1993),Morgan Kaufman:Morgan Koufman San Mateo,CA
[45] 萨克斯,G。;安德洛索普洛斯,I。;Paliouras,G。;Karkaletsis,V.公司。;Spyropoulos,C。;atamatopoulos,P.,用于电子邮件反垃圾邮件过滤的堆叠分类器,(Lee,L.;Harman,D.,Proc.6th Conf.自然语言处理中的经验方法,EMNLP’01(2001),卡内基梅隆大学:卡内基梅隆大学,宾夕法尼亚州匹兹堡),44-50
[46] 沈(音)。;Chouchoulas,A.,生成分类规则的粗糙模糊方法,模式识别,35,11,2425-2438(2002)·Zbl 1006.68902号
[47] D.Slezak,决策表中的近似约简,见:B.Bouchon-Meunier,M.Delgado,J.L.Verdegay,M.A.Vila,R.R.Yager(编辑),Proc。第六届国际会议,《基于知识的系统中的信息处理和不确定性管理》,IPMU’96,西班牙格拉纳达,1996年,第1159-1164页。;D.Slezak,决策表中的近似约简,见:B.Bouchon-Meunier,M.Delgado,J.L.Verdegay,M.A.Vila,R.R.Yager(编辑),Proc。第六届国际会议,《基于知识的系统中的信息处理和不确定性管理》,IPMU’96,西班牙格拉纳达,1996年,第1159-1164页。
[48] Slezak,D.,《近似熵约化》,《信息学基础》,53,3-4,365-390(2002)·Zbl 1092.68676号
[49] Stefanowski,J.,《基于粗糙集的决策规则归纳方法》(Polkowski,L.;Skowron,A.,《知识发现中的粗糙集》(1998),《物理-验证:物理-验证-海德堡》),501-529·Zbl 0927.68094号
[50] Stefanowski,J。;Wilk,S.,《处理不平衡数据的粗糙集:结合过滤和基于规则的分类器》,《基础信息学》,72,1,379-391(2006)·Zbl 1097.68605号
[51] 陶,Q。;吴国伟。;Wang,F.-Y。;Wang,J.,不平衡数据的后验概率支持向量机,IEEE神经网络学报,16,6,1561-1573(2005)
[52] Ting,K.M.,诱导成本敏感树的实例加权方法,IEEE知识与数据工程汇刊,14,3,659-665(2002)
[53] Tsumoto,S.,基于粗糙集理论从临床数据库中自动提取医学专家系统规则,信息科学,112,1-4,67-84(1998)
[54] Tsumoto,S.,使用粗糙集和医学诊断模型从临床数据库中挖掘诊断规则,信息科学,162,2,65-80(2004)
[55] Wang,G.Y.,《粗糙约简:在代数视图和信息视图中》,《国际智能系统杂志》,18,6,679-688(2003)·Zbl 1037.68138号
[56] Wang,G.Y。;赵,J。;An,J.J.,代数观点与信息观点在属性约简中的比较研究,《信息基础》,68,3,289-301(2005)·Zbl 1098.68134号
[57] Weiss,G.M.,《稀有采矿:问题与解决方案:统一框架》,SIGKDD Explorations,6,1,7-19(2004)
[58] G.M.Weiss,F.Provost,《班级分布对分类器学习的影响:实证研究》,罗格斯大学计算机科学系技术报告ML-TR-44,新泽西州新不伦瑞克,2001年。;G.M.Weiss,F.Provost,《阶级分布对分类器学习的影响:一项实证研究》,技术报告ML-TR-44,罗格斯大学计算机科学系,新泽西州新不伦瑞克,2001年。
[59] B.Zadrozny,C.Elkan,《成本和概率都未知时的学习和决策》,载于:F.Provost,R.Srikant(编辑),Proc。第七届ACM SIGKDD国际知识发现和数据挖掘大会,KDD’01,美国加利福尼亚州旧金山,2001年,第204-213页。;B.Zadrozny,C.Elkan,《成本和概率都未知时的学习和决策》,载于:F.Provost,R.Srikant(编辑),Proc。第七届ACM SIGKDD国际知识发现和数据挖掘大会,KDD’01,美国加利福尼亚州旧金山,2001年,第204-213页。
[60] 周,Z.-H。;Liu,X.-Y.,用解决类别不平衡问题的方法训练成本敏感型神经网络,IEEE知识与数据工程学报,18,1,63-77(2006)
[61] Ziarko,W.,变精度粗糙集模型,《计算机与系统科学杂志》,46,39-59(1993)·Zbl 0764.68162号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。