×

针对不平衡数据集的基于遗传规则选择的层次模糊规则分类系统。 (英语) Zbl 1191.68497号

摘要:在许多实际应用程序领域中,使用的数据高度倾斜,某些类的实例数远远高于其他类。由于训练偏向于大多数类,使用这种不平衡的数据集解决分类任务是困难的。
本文的目的是提高基于模糊规则的分类系统在不平衡域上的性能,增加类之间边界区域上模糊划分的粒度,以获得更好的可分性。我们提出使用基于层次模糊规则的分类系统,该系统基于对简单语言模糊模型的细化,通过对知识库结构进行层次化扩展,并使用遗传规则选择过程,以获得紧凑准确的模型。
对大量不平衡数据集进行的广泛实验研究表明,该方法具有良好的性能。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68层37 人工智能背景下的不确定性推理
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 阿尔卡拉,R。;Alcalá-Fdez,J。;Herrera,F。;Otero,J.,基于二元组语言表示的精确紧凑模糊规则系统的遗传学习,国际近似推理杂志,444564(2007)·Zbl 1109.68087号
[2] A.Asuncion,D.Newman,2007年。UCI机器学习库。加州大学欧文分校信息与计算机科学学院。网址:<网址:http://www.ics.uci.edu/mlearn/MLRepository.html;A.亚松森,D.纽曼,2007年。UCI机器学习库。加州大学欧文分校信息与计算机科学学院。网址:<网址:http://www.ics.uci.edu/mlearn/MLRepository.html
[3] Barandela,R。;桑切斯,J.S。;加西亚,V。;Rangel,E.,《课堂学习不平衡问题的策略》,模式识别,36,3,849-851(2003)
[4] 巴蒂斯塔,G.E.A.P.A。;普拉蒂,R.C。;Monard,M.C.,《平衡机器学习训练数据的几种方法的行为研究》,SIGKDD Explorations,6,1,20-29(2004)
[5] 坎帕德利,P。;Casiraghi,E。;Valentini,G.,用于候选结节分类的支持向量机,《神经计算快报》,68,281-288(2005)
[6] 卡诺,J.R。;Herrera,F。;Lozano,M.,使用进化算法作为kdd中数据缩减的实例选择:一项实验研究,IEEE进化计算汇刊,7,6,561-575(2003)
[7] 查拉,N.V。;鲍耶,K.W。;洛杉矶霍尔。;Kegelmeyer,W.P.,Smote:合成少数人过采样技术,《人工智能研究杂志》,16,321-357(2002)·Zbl 0994.68128号
[8] 查拉,N.V。;贾普科维奇,N。;Kolcz,A.,编辑:关于从不平衡数据集学习的特刊,SIGKDD Explorations,6,1,1-6(2004)
[9] Chi,Z。;严,H。;Pham,T.,《模糊算法在图像处理和模式识别中的应用》(1996),《世界科学》·Zbl 0942.68001号
[10] Choi,J.-N。;哦,S.-K。;Pedrycz,W.,《使用基于层次公平竞争的并行遗传算法和信息粒化的模糊推理系统的结构和参数设计》,《国际近似推理杂志》,49,3,631-648(2008)
[11] 俄亥俄州科尔顿。;德尔·耶稣,M.J。;Herrera,F.,《模糊规则分类系统中推理方法的建议》,《国际近似推理杂志》,20,1,21-45(1999)
[12] 俄亥俄州科尔顿。;Herrera,F。;Zwir,I.,语言规则层次系统的语言建模,IEEE模糊系统汇刊,10,1,2-20(2002)
[13] Demšar,J.,多数据集上分类器的统计比较,机器学习研究杂志,7,1-30(2006)·Zbl 1222.68184号
[14] L.J.Eshelman,1991年。遗传算法基础。Morgan Kaufman,Ch.CHC自适应搜索算法:如何在进行非传统遗传重组时进行安全搜索,第265-283页。;L.J.Eshelman,1991年。遗传算法基础。Morgan Kaufman,Ch.《CHC自适应搜索算法:在进行非传统遗传重组时如何进行安全搜索》,第265-283页。
[15] 埃斯塔布鲁克斯,A。;乔·T。;Japkowicz,N.,《从不平衡数据集学习的多重重采样方法》,计算智能,20,1,18-36(2004)
[16] 福塞特,T。;Provost,F.J.,自适应欺诈检测,数据挖掘和知识发现,1,3,291-316(1997)
[17] 费尔南德斯,A。;南卡罗来纳州加西亚。;德尔·耶稣,M.J。;Herrera,F.,《应用于高度不平衡数据集问题的基于语言规则的分类系统的规则权重和模糊推理方法分析》,(模糊逻辑与应用国际研讨会(WILF07)。模糊逻辑与应用国际研讨会(WILF07),计算机科学讲义,第4578卷(2007),斯普林格-Verlag),170-179·Zbl 1182.68169号
[18] 费尔南德斯,A。;南卡罗来纳州加西亚。;德尔·耶稣,M.J。;Herrera,F.,《不平衡数据集框架下基于语言模糊规则的分类系统行为研究》,模糊集与系统,159,18,2378-2398(2008)
[19] Friedman,M.,《使用秩来避免方差分析中隐含的正态假设》,《美国统计协会杂志》,32,675-701(1937)·JFM 63.1098.02号
[20] S.García,D.Molina,M.Lozano,F.Herrera,《使用非参数测试分析进化算法行为的研究:2005年CEC实参数优化特别会议的案例研究》。启发式杂志,出版中,doi:10.1007/s10732-008-9080-4。;S.García,D.Molina,M.Lozano,F.Herrera,《使用非参数测试分析进化算法行为的研究:2005年CEC实参数优化特别会议的案例研究》。启发式杂志,出版中,doi:10.1007/s10732-008-9080-4·Zbl 1191.68828号
[21] Grzymala-Busse,J.W。;Goodwin,L.K。;Zhang,X.,通过改变规则强度提高早产敏感性,《模式识别快报》,24,6,903-910(2003)
[22] Grzymala-Busse,J.W。;Stefanowski,J。;Wilk,S.,《从不平衡数据中挖掘数据的两种方法的比较》,《智能制造杂志》,16,6,565-573(2005)
[23] Herrera,F.,《遗传模糊系统:分类学、当前研究趋势和展望》,《进化情报》,第127-46页(2008年)
[24] Holm,S.,《简单顺序拒绝多重试验程序》,《斯堪的纳维亚统计杂志》,第6期,第65-70页(1979年)·Zbl 0402.62058号
[25] 黄Y.M。;Hung,C.M。;Jiau,H.C.,等级不平衡问题信用评估任务的神经网络和数据挖掘方法评估,非线性分析:现实世界应用,7,4,720-747(2006)·Zbl 1160.91368号
[26] 伊曼·R·L。;Davenport,J.M.,弗里德曼统计临界区的近似,统计学中的通讯,A部分-理论方法,9,571-595(1980)·Zbl 0451.62061号
[27] Ishibuchi,H。;Nakashima,T.,模糊规则分类系统中规则权重的影响,IEEE模糊系统事务,9,4,506-515(2001)
[28] Ishibuchi,H。;Nojima,Y.,通过基于多目标模糊遗传的机器学习分析模糊系统的可解释性和准确性权衡,国际近似推理杂志,44,4-31(2007)·Zbl 1109.68091号
[29] Ishibuchi,H。;Yamamoto,T.,模糊规则分类系统中的规则权重规范,IEEE模糊系统汇刊,13,428-435(2005)
[30] 贾普科维奇,N。;Stephen,S.,阶级不平衡问题:一项系统研究,智能数据分析,6,5429-450(2002)·兹比尔1085.68628
[31] 库巴特,M。;霍尔特,R.C。;Matwin,S.,卫星雷达图像中石油泄漏检测的机器学习,机器学习,30,2-3,195-215(1998)
[32] Orriols-Puig,A。;Bernadó-Mansilla,E.,《不平衡数据集的基于规则的进化系统》,《软计算》,第13、3、213-225页(2009年)
[33] 普瓦,C。;Alahakoon,D。;Lee,V.,《欺诈检测中的少数群体报告:偏斜数据的分类》,SIGKDD Explorations Newsletter,6,1,50-59(2004)
[34] Pulkkinen,P。;Koivisto,H.,使用决策树和多目标进化算法进行模糊分类器识别,国际近似推理杂志,48,2,526-543(2008)
[35] Quinlan,J.R.,C4.5:机器学习课程(1993),摩根·考夫曼出版社:摩根·考夫曼出版社,加利福尼亚州圣马特奥
[36] 桑切斯,L。;苏亚雷斯,M.R。;维拉尔,J.R。;Couso,I.,基于模糊数据的模糊规则分类器中基于互信息的特征选择和划分设计,国际近似推理杂志,49,3,607-622(2008)
[37] Sheskin,D.,《参数和非参数统计程序手册》(2006),查普曼和霍尔/CRC
[38] 苏,C.-T。;陈,L.-S。;Yih,Y.,通过信息粒化获取不平衡数据的知识,应用专家系统,31531-541(2006)
[39] 苏,C.-T。;Xiao,Y.-H.,MTS对不平衡数据的稳健性评估,IEEE知识与数据工程汇刊,19,10,1321-1332(2007)
[40] 孙,Y。;卡梅尔,M.S。;Wong,A.K。;王毅,不平衡数据分类的成本敏感增强,模式识别,403358-3378(2007)·Zbl 1122.68505号
[41] Tan,S.,非平衡文本语料库的邻域加权k-最近邻,应用专家系统,28,4,667-671(2005)
[42] 王立新。;Mendel,J.M.,通过示例学习生成模糊规则,IEEE系统、人与控制论汇刊,25,2,353-361(1992)
[43] Weiss,G.M.,《稀有采矿:统一框架》,SIGKDD Explorations,6,1,7-19(2004)
[44] Wilcoxon,F.,《按排名方法进行的个体比较》,《生物统计学》,第180-83页(1945年)
[45] 徐,L。;周,M.Y。;Taylor,L.S.,使用基于数据挖掘的模糊分类e-算法对不平衡数据进行配电故障原因识别,IEEE电力系统交易,22,1,164-171(2007)
[46] 杨琼。;Wu,X.,数据挖掘研究中的10个挑战性问题,国际信息技术与决策杂志,5,4,597-604(2006)
[47] Zar,J.H.,《生物统计分析》(1999),普伦蒂斯·霍尔:新泽西州普伦蒂斯霍尔上鞍河
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。