×

稀疏和大型行为数据集中的非平衡分类。 (英语) 兹比尔1411.68124

摘要:近年来,关于学习不平衡问题的出版物越来越多。虽然已经对传统的低维数据进行了大量的技术研究,但对其对行为数据的影响知之甚少。这类数据反映了个人或组织的细粒度行为,其特点是稀疏且维度很大。在本文中,我们研究了几种过采样和欠采样、成本敏感的学习和提升技术对从不平衡行为数据中学习问题的影响。过采样技术显示出良好的整体性能,并且不像传统研究报告的那样遭受过拟合。还研究了各种欠采样方法,并显示了表现出奇怪行为的实例的性能降低效果。此外,增强过程表明,SVM公式中的正则化参数可以作为一个弱点指标,弱学习者的组合通常可以比单一强学习者实现更好的泛化。最后,介绍了EasyEnsemble技术,该方法优于所有其他方法。通过随机抽样几个平衡的子集,将其输入到提升过程中,然后结合它们的假设,得到一个分类器,该分类器可以达到降噪/离群值的效果,同时有效地探索大多数类空间。此外,该方法非常快速,因为它是可并行的,并且每个子集仅是少数类大小的两倍。

理学硕士:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Akbani R,Kwek S,Japkowicz N(2004)将支持向量机应用于不平衡数据集。In:机器学习:ECML 2004:第15届欧洲机器学习会议,意大利比萨,2004年9月20日至24日。柏林斯普林格大学学报,第39-50页。doi:10.1007/978-3-540-30115-87·Zbl 1132.68523号
[2] Ali A、Shamsuddin SM、Ralescu AL(2015)《阶级失衡问题的分类:综述》。国际先进软计算应用杂志7(3):176-204
[3] Alzahrani T,Horadam KJ(2016),二方网络中的社区检测:算法和案例研究。领域:复杂系统和网络:动力学、控制和应用。柏林施普林格,第25-50页。doi:10.1007/978-3-662-47824-02
[4] Bachner J(2013)《预测性警务:利用数据和分析预防犯罪》。IBM政府商业中心
[5] Baesens B、Van Gestel T、Viaene S、Stepanova M、Suykens J、Vantheenen J(2003)《信用评分的最新分类算法基准》。《运营研究学会期刊》54(6):627-635。doi:10.1057/palgrave.jors.2601545·Zbl 1097.91516号 ·doi:10.1057/palgrave.jors.2601545
[6] Barandela R、Snchez J、Garca V、Rangel E(2003)《课堂学习不平衡问题的策略》。模式识别器36(3):849-851。doi:10.1016/S0031-3203(02)00257-1·doi:10.1016/S0031-3203(02)00257-1
[7] Barber MJ(2007)二分网络中的模块性和社区检测。《物理学评论》E 76(066):102。doi:10.1103/PhysRevE.76.066102·doi:10.1103/PhysRevE.76.066102
[8] Barua S,Islam MM,Yao X,Murase K(2014)MWMOTE-用于非平衡数据集学习的多数加权少数过采样技术。IEEE Trans Knowl Data Eng 26(2):405-425。doi:10.1109/TKDE.2012.232·doi:10.1109/TKDE.2012.232
[9] Batista GEAPA、Prati RC、Monard MC(2004)《平衡机器学习训练数据的几种方法的行为研究》。SIGKDD探索新闻6(1):20-29。doi:10.145/1007730.1007735·数字对象标识代码:10.1145/1007730.1007735
[10] Beckett SJ(2016)改进加权二元网络中的社区检测。R Soc开放科学3(1)。doi:10.1098/rsos.140536
[11] Bekkar M、Djemaa HK、Alitouche TA(2013)《不平衡数据集模型评估的评估方法》。信息工程应用杂志3(10):27-38
[12] Bhattacharyya S,Jha S,Tharakunnel K,Westland JC(2011)《信用卡欺诈数据挖掘:比较研究》。Decis支持系统50(3):602-613。doi:10.1016/j.dss.2010.08.008·doi:10.1016/j.dss.2010.08.008
[13] Blondel VD、Guillaume JL、Lambiotte R、Lefebvre E(2008)大型网络中社区的快速发展。J统计力学理论实验10:P10008·Zbl 1459.91130号
[14] Breiman L、Friedman J、Stone CJ、Olshen RA(1984)《类回归树》。Taylor&Francis,伦敦
[15] Brozovsky L,Petricek V(2007)在线约会服务推荐系统。收录:2007年俄罗斯俄斯特拉发VSB Znalosti会议记录
[16] Cha M,Mislove A,Gummadi KP(2009)《Flickr社交网络中信息传播的测量驱动分析》。摘自:第18届国际互联网会议论文集,ACM,纽约。WWW'09,第721-730页。数字对象标识代码:10.1145/1526709.1526806
[17] 内华达州查拉;Maimon,O.(编辑);Rokach,L.(编辑),《不平衡数据集的数据挖掘:概述》,853-867(2005),波士顿
[18] Chawla NV、Bowyer KW、Hall LO、Kegelmeyer WP(2002)SMOTE:合成少数过采样技术。J Artif Intell Res杂志16:321-357·Zbl 0994.68128号
[19] 内华达州查拉;拉扎雷维奇,A。;霍尔,LO;鲍耶,KW;Lavrač,N.(编辑);Gamberger,D.(编辑);Todorovski,L.(编辑);Blockeel,H.(编辑),《Smoteboost:提高对少数群体的预测》,107-119(2003),柏林
[20] Chawla NV、Japkowicz N、Kotcz A(2004)编辑:关于从不平衡数据集学习的特刊。SIGKDD探索新闻6(1):1-6。数字对象标识代码:10.1145/1007730.1007733·数字对象标识代码:10.1145/1007730.1007733
[21] Chen M,Mao S,Liu Y(2014)大数据:一项调查。移动网络应用程序19(2):171-209。doi:10.1007/s11036-013-0489-0·doi:10.1007/s11036-013-0489-0
[22] Chyi YM(2003)《倾斜类分布问题的分类分析技术》。国立中山大学信息管理系硕士论文
[23] Demšar J(2006)多数据集分类器的统计比较。J Mach Learn Res 7(1月):1-30·Zbl 1222.68184号
[24] Dhillon IS(2001)使用二部谱图划分对文档和单词进行共聚类。摘自:第七届ACM SIGKDD知识发现和数据挖掘国际会议记录。ACM,纽约,KDD’01,第269-274页。doi:10.1145/502512.502550
[25] Drummond C,Holte RC(2003)C4.5,类别不平衡和成本敏感性:为什么欠采样胜过过采样。In:ICML'03非平衡数据集学习研讨会论文集
[26] Fan RE,Chang KW,Xieh CJ,Wang XR,Lin CJ(2008)LIBLINEAR:大型线性分类库。J Mach学习研究9:1871-1874·Zbl 1225.68175号
[27] Fan W,Stolfo SJ,Zhang J,Chan PK(1999)AdaCost:错误分类成本敏感性提升。摘自:第十六届机器学习国际会议论文集,Morgan Kaufmann Publishers Inc.,旧金山,ICML'99,第97-105页
[28] Fawcett T(2006)ROC分析简介。图案识别信函27(8):861-874。doi:10.1016/j.patrec.2005.10.010·doi:10.1016/j.patrec.2005.10.010
[29] Finch H(2005)聚类分析中距离度量与二分数据的比较。数据科学杂志3(1):85-100
[30] Fortunato S(2010)《图形中的社区检测》。《物理学代表》486(35):75-174。doi:10.1016/j.physrep.2009.11.002·doi:10.1016/j.physrep.2009.11.002
[31] Frasca M,Bertoni A,Re M,Valentini G(2013)从非平衡数据中学习半监督节点标签的神经网络算法。神经网络43:84-98。doi:10.1016/j.neunet.2013.01.021·Zbl 1293.68222号 ·doi:10.1016/j.欧洲网.2013.01.021
[32] Friedman M(1937)使用秩来避免方差分析中隐含的正态假设。美国统计协会杂志32(200):675-701
[33] García E,Lozano F(2007)《增强支持向量机》。In:模式识别中的机器学习和数据挖掘,第五届国际会议,MLDM 2007,德国莱比锡,7月18日至20日,《Post Proceedings》,IBaI Publishing,第153-167页
[34] Goldstein M,Uchida S(2016)多元数据非监督异常检测算法的比较评估。公共科学图书馆·综合11(4):1-31。doi:10.1371/journal.pone.0152173·doi:10.1371/journal.pone.0152173
[35] Gonzlez PC,Velsquez JD(2013)使用数据挖掘技术对持有虚假发票的纳税人进行表征和检测。实验系统应用40(5):1427-1436。doi:10.1016/j.eswa.2012.08.051·doi:10.1016/j.eswa.2012.08.051
[36] GuimeráR,Sales-Pardo M,Amaral LAN(2007),二部网络和定向网络中的模块识别。《物理学评论》E 76(036):102。doi:10.1103/PhysRevE.76.036102·doi:10.1103/PhysRevE.76.036102
[37] Guo H,Viktor HL(2004),通过增强和数据生成从不平衡数据集中学习:DataBoost-IM方法。SIGKDD探索新闻6(1):30-39。数字对象标识代码:10.1145/1007730.1007736·数字对象标识代码:10.1145/1007730.1007736
[38] 郭X,尹Y,董C,杨G,周G(2008)关于阶级不平衡问题。2008年第四届自然计算国际会议,IEEE,第4卷,第192-201页。doi:10.1109/ICNC.2008.871
[39] Han,H。;Wang,WY;毛,BH;Huang,D.(编辑);Zhang,X-P(编辑);Huang,G-B(编辑),Borderline-SMOTE:不平衡数据集学习中的一种新的过采样方法,878-887(2005),柏林
[40] He H,Garcia EA(2009)从不平衡数据中学习。IEEE Trans Knowl Data Eng 21(9):1263-1284。doi:10.1109/TKDE.2008.239·doi:10.1109/TKDE.2008.239
[41] He H,Bai Y,Garcia EA,Li S(2008)ADASYN:不平衡学习的自适应合成抽样方法。2008年IEEE神经网络国际联合会议(IEEE计算智能世界大会),IEEE,第1322-1328页。doi:10.1109/IJCNN.2008.4633969
[42] Holm S(1979)一种简单的顺序拒绝多次试验程序。扫描J统计6(2):65-70·Zbl 0402.62058号
[43] Hsu CW,Lin CJ(2002)多类支持向量机方法的比较。IEEE Trans Neural Netw 13(2):415-425。doi:10.1109/72.991427·doi:10.1109/72.991427
[44] 黄A(2008)文本文档聚类的相似性度量。摘自:第六届新西兰计算机科学研究学生会议论文集(NZCSRSC2008)。新西兰基督城,第49-56页
[45] Iman RL,Davenport JM(1980)弗里德曼统计临界区域的近似。公共统计理论方法9(6):571-595·Zbl 0451.62061号
[46] Jo T,Japkowicz N(2004)阶级失衡与小析取。ACM SIGKDD探索新闻6(1):40-49。数字对象标识代码:10.1145/1007730.1007737·数字对象标识代码:10.1145/1007730.1007737
[47] Junquéde Fortuny E,Martens D,Provost F(2014a)大数据预测建模:越大越好?大数据1(4):215-226。doi:10.1089/big.2013.0037·doi:10.1089/big.2013.0037
[48] Junquéde Fortuny E、Stankova M、Moeyersoms J、Minnaert B、Provost F、Martens D(2014b)《企业住所欺诈检测》。摘自:第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集,ACM,纽约,KDD’14,第1650-1659页。数字对象标识代码:10.1145/2623330.2623333
[49] Jutla IS、Jeub LG、Mucha PJ(2011-2016)在MATLAB中实现的一种用于社区检测的广义louvain方法。http://netwiki.amath.unc.edu/GenLouvain
[50] Kubat M,Matwin S(1997)《解决不平衡训练集的诅咒:单边选择》。摘自:第十四届机器学习国际会议论文集。Morgan Kaufmann Publishers Inc.,美国加利福尼亚州旧金山,第179-186页
[51] Lancichinetti A,Fortunato S(2009)《社区检测算法:比较分析》。《物理学评论》E 80(056):117。doi:10.1103/PhysRevE.80.056117·doi:10.1103/PhysRevE.80.056117
[52] Larremore DB、Clauset A、Jacobs AZ(2014)《有效推断二方网络中的社区结构》。Phys Rev E Stat非线性软物质Phys 90(012):805。doi:10.1103/PhysRevE.90.012805·doi:10.1103/PhysRevE.90.012805
[53] Li J,Fine JP(2010)接收器工作特性曲线下的加权面积及其在基因选择中的应用。J R Stat Soc C系列(应用统计)59(4):673-692。文件编号:10.1111/j.1467-9876.2010.00713.x·文件编号:10.1111/j.1467-9876.2010.00713.x
[54] Li X,Wang L,Sung E(2008)AdaBoost与基于SVM的分量分类器。工程应用技术情报21(5):785-795。doi:10.1016/j.engappai.2007.07.001·doi:10.1016/j.engapai.2007.07.001
[55] Lichman M(2013)UCI机器学习库。http://archive.ics.uci.edu/ml
[56] Liu W,Chawla S,Cieslak DA,Chawla-NV(2010)非平衡数据集的稳健决策树算法。第十届SIAM国际会议数据挖掘会议SIAM Phila 10:766-777
[57] 刘雪英,吴杰,周志华(2009)《班级均衡学习的探索性欠采样》。IEEE Trans-Syst Man-Cybern B(Cybern)39(2):539-550。doi:10.1109/TSMCB.2008.2007853·doi:10.1109/TSMCB.2008.2007853
[58] Luts J,Ojeda F,Van de Plas R,de Moor B,Van Huffel S,Suykens JA(2010)化学计量学分类问题支持向量机方法教程。分析化学学报665(2):129-145。doi:10.1016/j.aca.2010.03.030·doi:10.1016/j.aca.2010.03.030
[59] Macskassy SA,Provost F(2007),《网络数据分类:工具包和单变量案例研究》。J Mach Learn Res 8(5月):935-983
[60] Martens D,Provost F(2014),解释数据驱动的文件分类。管理信息系统Q 38(1):73-100
[61] Martens D、Provost F、Clark J、Junquéde Fortuny E(2016)挖掘大量细粒度行为数据以改进预测分析。管理信息系统Q 40(4):869-888
[62] Mazurowski MA、Habas PA、Zurada JM、Lo JY、Baker JA、Tourassi GD(2008)医疗决策训练神经网络分类器:不平衡数据集对分类性能的影响。神经网络21(23):427-436。doi:10.1016/j.neunet.2007.12.031·doi:10.1016/j.neunet.2007.12.031
[63] Mease D、Wyner AJ、Buja A(2007)《增强分类树和类概率/分位数估计》。J Mach学习研究8:409-439·Zbl 1222.68261号
[64] Nemenyi P(1963)无分布多重比较。普林斯顿大学论文
[65] Newman MEJ,Girvan M(2004)《发现和评估网络中的社区结构》。《物理学评论》E 69(026):113。doi:10.1103/PhysRevE.69.026113·doi:10.103/物理版本E.69.026113
[66] Ng AY(2004)特征选择,L1与L2正则化,以及旋转不变性。摘自:《第二十一届机器学习国际会议论文集》,美国纽约州纽约市ACM,ICML'04,第78页。doi:10.1145/1015330.1015435
[67] Ng AY,Jordan MI(2002)《区分性分类器与生成性分类器:逻辑回归与朴素贝叶斯的比较》。In:Dietterich TG,Becker S,Ghahramani Z(eds)《神经信息处理系统进展》14。麻省理工学院出版社,第841-848页
[68] Ngai E,Hu Y,Wong Y,Chen Y,Sun X(2011)数据挖掘技术在金融欺诈检测中的应用:分类框架和文献学术综述。Decis支持系统50(3):559-569。doi:10.1016/j.dss.2010.08.006·文件编号:10.1016/j.dss.2010.08.006
[69] Platt JC(1999)支持向量机的概率输出以及与正则化似然方法的比较。收录:Smola AJ、Bartlett P、Schoelkopf B、Schuurmans D(编辑)《大边缘分类器的进展》。麻省理工学院出版社,第61-74页
[70] Porter MA、Onnela JP、Mucha PJ(2009)《网络社区》。非美国数学Soc 56(9):1082-1097·Zbl 1188.05142号
[71] Provost F,Fawcett T(2013)《商业数据科学:数据挖掘和数据分析思维需要了解的内容》。奥莱利传媒公司
[72] F教授、Dalesandro B、Hook R、Zhang X、Murray A(2009)《在线品牌广告的受众选择:隐私社交网络定位》。摘自:第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集,美国纽约州纽约市ACM,KDD’09,第707-716页。数字对象标识代码:10.1145/1557019.1557098
[73] Raskutti B,Kowalczyk A(2004)SVM的极端再平衡:案例研究。SIGKDD探索新闻6(1):60-69。数字对象标识代码:10.1145/1007730.1007739·数字对象标识代码:10.1145/1007730.1007739
[74] Rosvall M,Bergstrom CT(2008)复杂网络上随机行走的地图揭示了社区结构。《国家科学院院刊》105(4):1118-1123。doi:10.1073/pnas.0706851105·doi:10.1073/pnas.0706851105
[75] Schapire RE(1999)助推简介。摘自:第16届国际人工智能联合会议论文集——第2卷。Morgan Kaufmann Publishers Inc.,美国加利福尼亚州旧金山,IJCAI’99,第1401-1406页
[76] Schapire RE,Singer Y(1999)使用可信度评估预测改进增压算法。马赫学习37(3):297-336。doi:10.1023/A:1007614523901·Zbl 0945.68194号 ·doi:10.1023/A:1007614523901
[77] Shmueli G(2017)《分析行为大数据:方法、实践、伦理和道德问题》。质量工程师29(1):57-74。doi:10.1080/08982112.2016.1210979·doi:10.1080/08982112.2016.1210979
[78] Sobhani P、Viktor H、Matwin S(2015)使用集成方法和基于聚类的欠采样从不平衡数据中学习。In:采矿综合体模式的新前沿:第三次国际研讨会,2014年NFMCP,与2014年ECML-PKDD联合举办,法国南希,2014年9月19日,修订论文集,Springer international Publishing,Cham,第69-83页。doi:10.1007/978-3319-17876-95
[79] Stankova M(2016)具有二分结构的网络数据分类。安特卫普大学学位论文
[80] Stankova M,Martens D,Provost F(2015)通过投影对二部图的分类。工作论文2015001,安特卫普大学应用经济学院·Zbl 07432798号
[81] Sun Y,Kamel MS,Wong AK,Wang Y(2007)非平衡数据分类的成本敏感增强。图案识别40(12):3358-3378。doi:10.1016/j.patcog.2007.04.009·Zbl 1122.68505号 ·doi:10.1016/j.patcog.2007.04.009
[82] Suykens JA、Van Gestel T、De Brabanter J、De Moor B、Vandewalle J、SuykensJ、Van Gestel T(2002)最小二乘支持向量机。新加坡世界科学·Zbl 1017.93004号
[83] Tang B,He H(2015)Enn:模式识别的扩展最近邻方法【研究前沿】。IEEE计算智能杂志10(3):52-60。doi:10.10109/MCI.2015.2437512·doi:10.1109/MCI.2015.2437512
[84] Tang Y,Zhang YQ,Chawla NV,Krasser S(2009)《高度不平衡分类的SVM建模》。IEEE Trans-Syst Man-Cybern B(Cybern)39(1):281-288。doi:10.1109/TSMCB.2008.2002909·doi:10.1109/TSMCB.2008.2002909
[85] Tobback E、Moeyersoms J、Stankova M、Martens D(2016)《利用关系数据进行中小企业破产预测》。安特卫普大学应用经济学系工作文件2016004
[86] Verbeke W、Dejaeger K、Martens D、Hur J、Baesens B(2012)《电信行业流失预测的新见解:利润驱动的数据挖掘方法》。欧洲运营研究杂志218(1):211-229。doi:10.1016/j.ejor.2011.09.031·doi:10.1016/j.ejor.2011.09.031
[87] Veropoulos K,Campbell I,Cristianini N(1999)控制支持向量机的灵敏度。摘自:瑞典斯德哥尔摩国际人工智能联合会议记录(IJCAI99),第55-60页
[88] Whitrow C、Hand DJ、Juszczak P、Weston D、Adams NM(2009)《作为信用卡欺诈检测策略的交易聚合》。数据最小知识发现18(1):30-55。数字对象标识代码:10.1007/s10618-008-0116-z·数字对象标识代码:10.1007/s10618-008-0116-z
[89] Wickramaratna J、Holden SB、Buxton BF(2001)《增压性能下降》。摘自:第二届多分类器系统国际研讨会论文集,英国伦敦施普林格,MCS’01,第11-21页·Zbl 0980.68780号
[90] Yen SJ,Lee YS(2009),非平衡数据分布的基于聚类的欠采样方法。实验系统应用36(3,第1部分):5718-5727。doi:10.1016/j.eswa.2008.06.108·doi:10.1016/j.eswa.2008.06.108
[91] Yu HF、Lo HY、Xieh HP、Lou JK、McKenzie TG、Chou JW、Chung PH、Ho CH、Chang CF、Wei YH等(2010)2010年kdd cup的特征工程和分类器集成。收录于:KDD Cup 2010研讨会论文集,第1-16页
[92] Zha H,He X,Ding C,Simon H,Gu M(2001)二部图划分与数据聚类。摘自:第十届信息与知识管理国际会议论文集,美国纽约州纽约市ACM,CIKM'01,第25-32页。doi:10.1145/502585.502591
[93] Zhang J,Mani I(2003)不平衡数据分布的Knn方法:一个涉及信息提取的案例研究。摘自:华盛顿特区ICML’2003年学习不平衡数据集研讨会论文集
[94] Ziegler CN、McNee SM、Konstan JA、Lausen G(2005)《通过主题多样化改进推荐列表》。摘自:第14届国际互联网会议记录,美国纽约州纽约市ACM,WWW’05,第22-32页。doi:10.1145/1060745.1060754
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。