×

类不平衡数据的重叠敏感神经网络。 (英语) Zbl 1473.68166号

小结:班级不平衡是机器学习中众所周知的挑战之一。当一个班级在观察次数上占另一个班级的主导地位时,就会出现班级不平衡。由于这种不平衡,传统分类器无法正确地对少数民族进行分类。当不平衡数据中出现类重叠时,挑战变得更加严峻。虽然已有文献依次处理类不平衡和类重叠问题,但这些方法相当复杂,效率不高。在本文中,我们提出了一种重叠敏感的人工神经网络,它可以同时处理类重叠和类不平衡的问题,以及噪声和异常值的观察。该方法的优点在于识别重叠的观测值而不是区域,并且不像其他现有方法那样使用多个分类器。该方法的关键思想是在训练神经网络之前,根据观测值在特征空间中的位置对其进行加权。在12个模拟数据集和23个实际数据集上对该方法的性能进行了评估,并与其他已知方法进行了比较。结果清楚地表明了所提出的方法对于各种不平衡率和重叠水平的强度和能力。此外,在不同的性能度量方面,该方法在统计上优于其他方法。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿尔卡拉-费德兹,J。;费尔南德斯,A。;Luengo,J。;德拉克,J。;南卡罗来纳州加西亚。;桑切斯,L。;Herrera,F.,Keel数据挖掘软件工具:数据集存储库,算法集成和实验分析框架,《多值逻辑软计算杂志》,17,255-287(2011)
[2] Alibeigi,M。;哈希米,S。;Hamzeh,A.,DBFS:针对小样本和高维不平衡数据集的有效基于密度的特征选择方案,data Knowl Eng,81,67-103(2012)·doi:10.1016/j.datak.2012.08.001
[3] 阿尔索姆拉尼,S。;巴瓦基德,A。;垫片,S-O;费尔南德斯,A。;Herrera,F.,《使用特征权重的进化模糊系统提案:处理不平衡数据集中的重叠问题》,基于知识的系统,73,1-17(2015)·doi:10.1016/j.knosys.2014.09.002
[4] Barua,S。;伊斯兰,MM;姚,X。;Murase,K.,用于不平衡数据集学习的Mwmote-mahority加权少数过采样技术,IEEE Trans-Knowl data Eng,26,2,405-425(2012)·doi:10.1109/TKDE.2012.232
[5] 通用电气巴蒂斯塔;RC普拉蒂;Monard,MC,平衡机器学习训练数据的几种方法的行为研究,ACM SIGKDD Explor Newsl,6,1,20-29(2004)·数字对象标识代码:10.1145/1007730.1007735
[6] Batista GE、Prati RC、Monard MC(2005)《平衡战略与阶级重叠》。参加:智能数据分析国际研讨会。柏林施普林格,第24-35页·兹比尔1141.68554
[7] Bradley,AP,ROC曲线下面积在机器学习算法评估中的使用,模式识别,30,7,1145-1159(1997)·doi:10.1016/S0031-3203(96)00142-2
[8] Burez,J。;Van den Poel,D.,《客户流失预测中的阶级失衡处理》,Expert Syst Appl,36,3,4626-4636(2009)·doi:10.1016/j.eswa.2008.05.027
[9] 塞西,M。;Pio,G。;库兹马诺夫斯基,V。;Díeroski,S.,《基因网络重建的半监督多视角学习》,《公共科学图书馆·综合》,10,12,e0144031(2015)·doi:10.1371/journal.pone.0144031
[10] 内华达州查拉;鲍耶,KW;霍尔,LO;Kegelmeyer,WP,Smote:合成少数人过采样技术,《Artif Intell Res杂志》,16,321-357(2002)·Zbl 0994.68128号 ·doi:10.1613/jair.953
[11] 内华达州查拉;贾普科维奇,N。;Kotcz,A.,《从不平衡数据集学习的专题》,ACM SIGKDD Explor Newsl,6,1,1-6(2004)·数字对象标识代码:10.1145/1007730.1007733
[12] Cleofas-Sánchez,L。;加西亚,V。;Marqués,A。;Sánchez,JS,使用混合联想记忆和翻译进行财务困境预测,应用软件计算,44,144-152(2016)·doi:10.1016/j.asoc.2016.04.005
[13] 崔Y,贾M,林T-Y,宋Y,Belongie S(2019)基于有效样本数的分类损失。收录:IEEE/CVF计算机视觉和模式识别会议论文集。第9268-9277页
[14] Das B、Krishnan NC、Cook DJ(2013)处理类重叠和不平衡,以检测智能家居中的即时情况。2013年IEEE第13届国际数据挖掘研讨会。IEEE,第266-273页
[15] Elkan C(2001)《成本敏感学习的基础》。参加:国际人工智能联合会议。第17卷。Lawrence Erlbaum Associates Ltd,第973-978页
[16] Estabrooks,A。;乔·T。;Japkowicz,N.,《从不平衡数据集学习的多重重采样方法》,《计算智能》,20,1,18-36(2004)·doi:10.1111/j.0824-7935.2004.t01-1-00228.x
[17] Guo H,Viktor HL(2004a)促进数据生成:改进难学示例的分类。参加:工业、工程和其他应用智能系统应用国际会议。柏林施普林格出版社,第1082-1091页
[18] 郭,H。;Viktor,HL,《通过增强和数据生成从不平衡数据集中学习:DataBoost-IM方法》,ACM SIGKDD Explor Newsl,6,1,30-39(2004)·数字对象标识代码:10.1145/1007730.1007736
[19] Han H,Wang W-Y,Mao B-H(2005)边界线打击:不平衡数据集学习中的一种新的过采样方法。参加:智能计算国际会议。柏林施普林格,第878-887页
[20] He,H。;EA加西亚,《从不平衡数据中学习》,IEEE Trans Knowl data Eng,9,1263-1284(2008)
[21] He H,Bai Y,Garcia EA,Li S(2008)Adasyn:不平衡学习的自适应合成抽样方法。2008年:IEEE神经网络国际联合会议。IJCNN 2008。IEEE计算智能世界大会。IEEE,第1322-1328页
[22] 黄,J。;Ling,CX,《使用AUC和准确性评估学习算法》,IEEE Trans-Knowl Data Eng,17,3,299-310(2005)·doi:10.1109/TKDE.2005.50
[23] 贾普科维奇,N。;Stephen,S.,《阶级失衡问题:系统研究》,《智能数据分析》,2002年第6期,第5期,第429-449页·Zbl 1085.68628号 ·doi:10.3233/IDA-2002-6504
[24] 乔·T。;Japkowicz,N.,《阶级失衡与小分离》,ACM SIGKDD Explor Newsl,6,1,40-49(2004)·数字对象标识代码:10.1145/1007730.1007737
[25] Lee,香港;Kim,SB,《不平衡和重叠数据的重叠敏感边缘分类器》,专家系统应用,98,72-83(2018)·doi:10.1016/j.eswa.2018.01.008
[26] Lin T-Y、Goyal P、Girshick R、He K、DolláR P(2017)《密集目标检测的焦点丢失》。收录:IEEE计算机视觉国际会议论文集。第2980-2988页
[27] 洛佩兹,V。;费尔南德斯,A。;南卡罗来纳州加西亚。;帕拉德五世。;Herrera,F.,《对不平衡数据分类的洞察:使用数据内在特征的实证结果和当前趋势》,《信息科学》,250,113-141(2013)·doi:10.1016/j.ins.2013.07.007
[28] JL麦克莱兰;Rumelhart,DE;通用电气Hinton,《并行分布式处理的吸引力》(1988),伯灵顿:Morgan Kaufmann,Burlington·doi:10.1016/B978-1-4832-1446-7.50010-8
[29] 皮拉斯,L。;Giacinto,G.,图像检索中不平衡学习的合成模式生成,模式识别快报,33,16,2198-2205(2012)·doi:10.1016/j.patrec.2012.08.03
[30] Prati RC、Batista GE、Monard MC(2004)《班级失衡与班级重叠:学习系统行为分析》。墨西哥人工智能国际会议。施普林格,柏林,第312-321页
[31] Provost FJ、Fawcett T等人(1997)《分类器性能的分析和可视化:不精确类别和成本分布下的比较》。收录于:KDD-97 Proceedings,vol.97。美国人工智能协会,第43-48页
[32] 曲,Y。;苏,H。;郭,L。;Chu,J.,一种用于高度不平衡和重叠分类的新型SVM建模方法,《智能数据分析》,15,3,319-341(2011)·doi:10.3233/IDA-2010-0470
[33] Richardson,A.,《非统计者的非参数统计:逐步方法》,Gregory W.Corder,Dale I.Foreman,《国际统计评论》,78,3,451-452(2010)·doi:10.1111/j.1751-5823.2010.001226.x
[34] Shahee SA,Ananthakumar U(2018a)不平衡数据集的自适应过采样技术。参加:数据挖掘工业会议。柏林施普林格,第1-16页
[35] 沙希,SA;Ananthakumar,U.,《基于模型聚类的不平衡数据合成采样方法》,《国际Artif智能软计算》,6,4,348-364(2018)·doi:10.1504/IJAISC2018.097284
[36] 沙希,SA;Ananthakumar,U.,《不平衡数据的基于距离的有效特征选择方法》,《应用智能》,第5期,第1-29页(2019年)
[37] Simard PY、Steinkraus D、Platt JC等人(2003),卷积神经网络应用于可视化文档分析的最佳实践。In:伊达尔。第3卷
[38] 孙,Y。;卡梅尔,理学硕士;AK Wong;Wang,Y.,不平衡数据分类的成本敏感增强,模式识别,40,12,3358-3378(2007)·Zbl 1122.68505号 ·doi:10.1016/j.patcog.2007.04.009
[39] Tang,Y。;Gao,J.,《涉及重叠模式问题的改进分类》,IEICE Trans-Inf Syst,90,11,1787-1795(2007)·doi:10.1093/ietisy/e90-d.11787
[40] Tang W,Mao K,Mak LO,Ng GW(2010)使用优化重叠区域检测和软决策对重叠类进行分类。2010年第13届信息融合国际会议。IEEE,第1-8页
[41] 税务,DM;Duin,RP,支持向量数据描述,马赫学习,54,1,45-66(2004)·Zbl 1078.68728号 ·doi:10.1023/B:MACH.0000008084.60811.49
[42] Thanatamathie,P.(Thanatamathie,P.)。;Lursinsap,C.,《使用bootstrap重新采样和adaboost技术通过合成边界数据生成处理不平衡数据集》,Pattern Recogn Lett,34,12,1339-1347(2013)·doi:10.1016/j.patrec.2013.04.019
[43] Tharwat A(2018)分类评估方法。应用计算信息17(1):168-192
[44] Ting,KM,诱导成本敏感树的实例加权方法,IEEE跨知识数据工程,3659-665(2002)·doi:10.1109/TKDE.2002.1000348
[45] Tomek,I.,《美国有线电视新闻网的两次修改》,IEEE Trans-Syst Man Cybernet,6769-772(1976)·Zbl 0341.68066号
[46] Wilson,DL,使用编辑数据的最近邻规则的渐近性质,IEEE Trans-Syst Man Cybernet,3408-421(1972)·兹伯利0276.62060 ·doi:10.1109/TSMC.1972.4309137
[47] 熊浩,吴杰,刘磊(2010)《类重叠分类:系统研究》。收录:第一届电子商务智能国际会议记录(ICEBI2010)。pp亚特兰蒂斯出版社
[48] 尹,L。;Ge,Y。;肖克(Xiao,K.)。;王,X。;Quan,X.,高维不平衡数据的特征选择,神经计算,105,3-11(2013)·doi:10.1016/j.neucom.2012.04.039
[49] 周,L.,企业破产预测模型在不平衡数据集上的表现:抽样方法的影响,基于知识的系统,41,16-25(2013)·doi:10.1016/j.knosys.2012.12.007
[50] Zikeba,M。;托木萨克,SK;Tomczak,JM,Ensemble将合成特征生成应用于破产预测,Expert Syst Appl,58,93-101(2016)·doi:10.1016/j.eswa.2016.04.001
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。