文件Zbl 1411.68124-zbMATH Open

稀疏和大型行为数据集中的非平衡分类。（英语）兹比尔1411.68124

数据最小知识。发现。 32，第1号，25-82（2018）.

摘要：近年来，关于学习不平衡问题的出版物越来越多。虽然已经对传统的低维数据进行了大量的技术研究，但对其对行为数据的影响知之甚少。这类数据反映了个人或组织的细粒度行为，其特点是稀疏且维度很大。在本文中，我们研究了几种过采样和欠采样、成本敏感的学习和提升技术对从不平衡行为数据中学习问题的影响。过采样技术显示出良好的整体性能，并且不像传统研究报告的那样遭受过拟合。还研究了各种欠采样方法，并显示了表现出奇怪行为的实例的性能降低效果。此外，增强过程表明，SVM公式中的正则化参数可以作为一个弱点指标，弱学习者的组合通常可以比单一强学习者实现更好的泛化。最后，介绍了EasyEnsemble技术，该方法优于所有其他方法。通过随机抽样几个平衡的子集，将其输入到提升过程中，然后结合它们的假设，得到一个分类器，该分类器可以达到降噪/离群值的效果，同时有效地探索大多数类空间。此外，该方法非常快速，因为它是可并行的，并且每个子集仅是少数类大小的两倍。

理学硕士：

68T05型	人工智能中的学习和自适应系统
62H30型	分类和区分；聚类分析（统计方面）

关键词：

不平衡学习;行为数据;过采样和欠采样;成本敏感型学习;支持向量机;联机存储库

软件：

UCI-毫升;LIBLINEAR银行;AdaCost公司;鲁万将军;网络工具包;SMOTE公司;阿达辛;MWMOTE公司;SMOTEBoost公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

参考文献：

[1]	Akbani R，Kwek S，Japkowicz N（2004）将支持向量机应用于不平衡数据集。In:机器学习：ECML 2004:第15届欧洲机器学习会议，意大利比萨，2004年9月20日至24日。柏林斯普林格大学学报，第39-50页。doi:10.1007/978-3-540-30115-87·Zbl 1132.68523号
[2]	Ali A、Shamsuddin SM、Ralescu AL（2015）《阶级失衡问题的分类：综述》。国际先进软计算应用杂志7（3）：176-204
[3]	Alzahrani T，Horadam KJ（2016），二方网络中的社区检测：算法和案例研究。领域：复杂系统和网络：动力学、控制和应用。柏林施普林格，第25-50页。doi:10.1007/978-3-662-47824-02
[4]	Bachner J（2013）《预测性警务：利用数据和分析预防犯罪》。IBM政府商业中心
[5]	Baesens B、Van Gestel T、Viaene S、Stepanova M、Suykens J、Vantheenen J（2003）《信用评分的最新分类算法基准》。《运营研究学会期刊》54（6）：627-635。doi:10.1057/palgrave.jors.2601545·Zbl 1097.91516号 ·doi:10.1057/palgrave.jors.2601545
[6]	Barandela R、Snchez J、Garca V、Rangel E（2003）《课堂学习不平衡问题的策略》。模式识别器36（3）：849-851。doi:10.1016/S0031-3203（02）00257-1·doi:10.1016/S0031-3203（02）00257-1
[7]	Barber MJ（2007）二分网络中的模块性和社区检测。《物理学评论》E 76（066）：102。doi:10.1103/PhysRevE.76.066102·doi:10.1103/PhysRevE.76.066102
[8]	Barua S，Islam MM，Yao X，Murase K（2014）MWMOTE-用于非平衡数据集学习的多数加权少数过采样技术。IEEE Trans Knowl Data Eng 26（2）：405-425。doi:10.1109/TKDE.2012.232·doi:10.1109/TKDE.2012.232
[9]	Batista GEAPA、Prati RC、Monard MC（2004）《平衡机器学习训练数据的几种方法的行为研究》。SIGKDD探索新闻6（1）：20-29。doi:10.145/1007730.1007735·数字对象标识代码：10.1145/1007730.1007735
[10]	Beckett SJ（2016）改进加权二元网络中的社区检测。R Soc开放科学3（1）。doi:10.1098/rsos.140536
[11]	Bekkar M、Djemaa HK、Alitouche TA（2013）《不平衡数据集模型评估的评估方法》。信息工程应用杂志3（10）：27-38
[12]	Bhattacharyya S，Jha S，Tharakunnel K，Westland JC（2011）《信用卡欺诈数据挖掘：比较研究》。Decis支持系统50（3）：602-613。doi:10.1016/j.dss.2010.08.008·doi:10.1016/j.dss.2010.08.008
[13]	Blondel VD、Guillaume JL、Lambiotte R、Lefebvre E（2008）大型网络中社区的快速发展。J统计力学理论实验10:P10008·Zbl 1459.91130号
[14]	Breiman L、Friedman J、Stone CJ、Olshen RA（1984）《类回归树》。Taylor&Francis，伦敦
[15]	Brozovsky L，Petricek V（2007）在线约会服务推荐系统。收录：2007年俄罗斯俄斯特拉发VSB Znalosti会议记录
[16]	Cha M，Mislove A，Gummadi KP（2009）《Flickr社交网络中信息传播的测量驱动分析》。摘自：第18届国际互联网会议论文集，ACM，纽约。WWW'09，第721-730页。数字对象标识代码：10.1145/1526709.1526806
[17]	内华达州查拉；Maimon，O.（编辑）；Rokach，L.（编辑），《不平衡数据集的数据挖掘：概述》，853-867（2005），波士顿
[18]	Chawla NV、Bowyer KW、Hall LO、Kegelmeyer WP（2002）SMOTE：合成少数过采样技术。J Artif Intell Res杂志16:321-357·Zbl 0994.68128号
[19]	内华达州查拉；拉扎雷维奇，A。；霍尔，LO；鲍耶，KW；Lavrač，N.（编辑）；Gamberger，D.（编辑）；Todorovski，L.（编辑）；Blockeel，H.（编辑），《Smoteboost:提高对少数群体的预测》，107-119（2003），柏林
[20]	Chawla NV、Japkowicz N、Kotcz A（2004）编辑：关于从不平衡数据集学习的特刊。SIGKDD探索新闻6（1）：1-6。数字对象标识代码：10.1145/1007730.1007733·数字对象标识代码：10.1145/1007730.1007733
[21]	Chen M，Mao S，Liu Y（2014）大数据：一项调查。移动网络应用程序19（2）：171-209。doi:10.1007/s11036-013-0489-0·doi:10.1007/s11036-013-0489-0
[22]	Chyi YM（2003）《倾斜类分布问题的分类分析技术》。国立中山大学信息管理系硕士论文
[23]	Demšar J（2006）多数据集分类器的统计比较。J Mach Learn Res 7（1月）：1-30·Zbl 1222.68184号
[24]	Dhillon IS（2001）使用二部谱图划分对文档和单词进行共聚类。摘自：第七届ACM SIGKDD知识发现和数据挖掘国际会议记录。ACM，纽约，KDD’01，第269-274页。doi:10.1145/502512.502550
[25]	Drummond C，Holte RC（2003）C4.5，类别不平衡和成本敏感性：为什么欠采样胜过过采样。In:ICML'03非平衡数据集学习研讨会论文集
[26]	Fan RE，Chang KW，Xieh CJ，Wang XR，Lin CJ（2008）LIBLINEAR：大型线性分类库。J Mach学习研究9:1871-1874·Zbl 1225.68175号
[27]	Fan W，Stolfo SJ，Zhang J，Chan PK（1999）AdaCost:错误分类成本敏感性提升。摘自：第十六届机器学习国际会议论文集，Morgan Kaufmann Publishers Inc.，旧金山，ICML'99，第97-105页
[28]	Fawcett T（2006）ROC分析简介。图案识别信函27（8）：861-874。doi:10.1016/j.patrec.2005.10.010·doi:10.1016/j.patrec.2005.10.010
[29]	Finch H（2005）聚类分析中距离度量与二分数据的比较。数据科学杂志3（1）：85-100
[30]	Fortunato S（2010）《图形中的社区检测》。《物理学代表》486（35）：75-174。doi:10.1016/j.physrep.2009.11.002·doi:10.1016/j.physrep.2009.11.002
[31]	Frasca M，Bertoni A，Re M，Valentini G（2013）从非平衡数据中学习半监督节点标签的神经网络算法。神经网络43:84-98。doi:10.1016/j.neunet.2013.01.021·Zbl 1293.68222号 ·doi:10.1016/j.欧洲网.2013.01.021
[32]	Friedman M（1937）使用秩来避免方差分析中隐含的正态假设。美国统计协会杂志32（200）：675-701
[33]	García E，Lozano F（2007）《增强支持向量机》。In:模式识别中的机器学习和数据挖掘，第五届国际会议，MLDM 2007，德国莱比锡，7月18日至20日，《Post Proceedings》，IBaI Publishing，第153-167页
[34]	Goldstein M，Uchida S（2016）多元数据非监督异常检测算法的比较评估。公共科学图书馆·综合11（4）：1-31。doi:10.1371/journal.pone.0152173·doi:10.1371/journal.pone.0152173
[35]	Gonzlez PC，Velsquez JD（2013）使用数据挖掘技术对持有虚假发票的纳税人进行表征和检测。实验系统应用40（5）：1427-1436。doi:10.1016/j.eswa.2012.08.051·doi:10.1016/j.eswa.2012.08.051
[36]	GuimeráR，Sales-Pardo M，Amaral LAN（2007），二部网络和定向网络中的模块识别。《物理学评论》E 76（036）：102。doi:10.1103/PhysRevE.76.036102·doi:10.1103/PhysRevE.76.036102
[37]	Guo H，Viktor HL（2004），通过增强和数据生成从不平衡数据集中学习：DataBoost-IM方法。SIGKDD探索新闻6（1）：30-39。数字对象标识代码：10.1145/1007730.1007736·数字对象标识代码：10.1145/1007730.1007736
[38]	郭X，尹Y，董C，杨G，周G（2008）关于阶级不平衡问题。2008年第四届自然计算国际会议，IEEE，第4卷，第192-201页。doi:10.1109/ICNC.2008.871
[39]	Han，H。；Wang，WY；毛，BH；Huang，D.（编辑）；Zhang，X-P（编辑）；Huang，G-B（编辑），Borderline-SMOTE：不平衡数据集学习中的一种新的过采样方法，878-887（2005），柏林
[40]	He H，Garcia EA（2009）从不平衡数据中学习。IEEE Trans Knowl Data Eng 21（9）：1263-1284。doi:10.1109/TKDE.2008.239·doi:10.1109/TKDE.2008.239
[41]	He H，Bai Y，Garcia EA，Li S（2008）ADASYN：不平衡学习的自适应合成抽样方法。2008年IEEE神经网络国际联合会议（IEEE计算智能世界大会），IEEE，第1322-1328页。doi:10.1109/IJCNN.2008.4633969
[42]	Holm S（1979）一种简单的顺序拒绝多次试验程序。扫描J统计6（2）：65-70·Zbl 0402.62058号
[43]	Hsu CW，Lin CJ（2002）多类支持向量机方法的比较。IEEE Trans Neural Netw 13（2）：415-425。doi:10.1109/72.991427·doi:10.1109/72.991427
[44]	黄A（2008）文本文档聚类的相似性度量。摘自：第六届新西兰计算机科学研究学生会议论文集（NZCSRSC2008）。新西兰基督城，第49-56页
[45]	Iman RL，Davenport JM（1980）弗里德曼统计临界区域的近似。公共统计理论方法9（6）：571-595·Zbl 0451.62061号
[46]	Jo T，Japkowicz N（2004）阶级失衡与小析取。ACM SIGKDD探索新闻6（1）：40-49。数字对象标识代码：10.1145/1007730.1007737·数字对象标识代码：10.1145/1007730.1007737
[47]	Junquéde Fortuny E，Martens D，Provost F（2014a）大数据预测建模：越大越好？大数据1（4）：215-226。doi:10.1089/big.2013.0037·doi:10.1089/big.2013.0037
[48]	Junquéde Fortuny E、Stankova M、Moeyersoms J、Minnaert B、Provost F、Martens D（2014b）《企业住所欺诈检测》。摘自：第20届ACM SIGKDD知识发现和数据挖掘国际会议论文集，ACM，纽约，KDD’14，第1650-1659页。数字对象标识代码：10.1145/2623330.2623333
[49]	Jutla IS、Jeub LG、Mucha PJ（2011-2016）在MATLAB中实现的一种用于社区检测的广义louvain方法。http://netwiki.amath.unc.edu/GenLouvain
[50]	Kubat M，Matwin S（1997）《解决不平衡训练集的诅咒：单边选择》。摘自：第十四届机器学习国际会议论文集。Morgan Kaufmann Publishers Inc.，美国加利福尼亚州旧金山，第179-186页
[51]	Lancichinetti A，Fortunato S（2009）《社区检测算法：比较分析》。《物理学评论》E 80（056）：117。doi:10.1103/PhysRevE.80.056117·doi:10.1103/PhysRevE.80.056117
[52]	Larremore DB、Clauset A、Jacobs AZ（2014）《有效推断二方网络中的社区结构》。Phys Rev E Stat非线性软物质Phys 90（012）：805。doi:10.1103/PhysRevE.90.012805·doi:10.1103/PhysRevE.90.012805
[53]	Li J，Fine JP（2010）接收器工作特性曲线下的加权面积及其在基因选择中的应用。J R Stat Soc C系列（应用统计）59（4）：673-692。文件编号：10.1111/j.1467-9876.2010.00713.x·文件编号：10.1111/j.1467-9876.2010.00713.x
[54]	Li X，Wang L，Sung E（2008）AdaBoost与基于SVM的分量分类器。工程应用技术情报21（5）：785-795。doi:10.1016/j.engappai.2007.07.001·doi:10.1016/j.engapai.2007.07.001
[55]	Lichman M（2013）UCI机器学习库。http://archive.ics.uci.edu/ml
[56]	Liu W，Chawla S，Cieslak DA，Chawla-NV（2010）非平衡数据集的稳健决策树算法。第十届SIAM国际会议数据挖掘会议SIAM Phila 10:766-777
[57]	刘雪英，吴杰，周志华（2009）《班级均衡学习的探索性欠采样》。IEEE Trans-Syst Man-Cybern B（Cybern）39（2）：539-550。doi:10.1109/TSMCB.2008.2007853·doi:10.1109/TSMCB.2008.2007853
[58]	Luts J，Ojeda F，Van de Plas R，de Moor B，Van Huffel S，Suykens JA（2010）化学计量学分类问题支持向量机方法教程。分析化学学报665（2）：129-145。doi:10.1016/j.aca.2010.03.030·doi:10.1016/j.aca.2010.03.030
[59]	Macskassy SA，Provost F（2007），《网络数据分类：工具包和单变量案例研究》。J Mach Learn Res 8（5月）：935-983
[60]	Martens D，Provost F（2014），解释数据驱动的文件分类。管理信息系统Q 38（1）：73-100
[61]	Martens D、Provost F、Clark J、Junquéde Fortuny E（2016）挖掘大量细粒度行为数据以改进预测分析。管理信息系统Q 40（4）：869-888
[62]	Mazurowski MA、Habas PA、Zurada JM、Lo JY、Baker JA、Tourassi GD（2008）医疗决策训练神经网络分类器：不平衡数据集对分类性能的影响。神经网络21（23）：427-436。doi:10.1016/j.neunet.2007.12.031·doi:10.1016/j.neunet.2007.12.031
[63]	Mease D、Wyner AJ、Buja A（2007）《增强分类树和类概率/分位数估计》。J Mach学习研究8:409-439·Zbl 1222.68261号
[64]	Nemenyi P（1963）无分布多重比较。普林斯顿大学论文
[65]	Newman MEJ，Girvan M（2004）《发现和评估网络中的社区结构》。《物理学评论》E 69（026）：113。doi:10.1103/PhysRevE.69.026113·doi:10.103/物理版本E.69.026113
[66]	Ng AY（2004）特征选择，L1与L2正则化，以及旋转不变性。摘自：《第二十一届机器学习国际会议论文集》，美国纽约州纽约市ACM，ICML'04，第78页。doi:10.1145/1015330.1015435
[67]	Ng AY，Jordan MI（2002）《区分性分类器与生成性分类器：逻辑回归与朴素贝叶斯的比较》。In:Dietterich TG，Becker S，Ghahramani Z（eds）《神经信息处理系统进展》14。麻省理工学院出版社，第841-848页
[68]	Ngai E，Hu Y，Wong Y，Chen Y，Sun X（2011）数据挖掘技术在金融欺诈检测中的应用：分类框架和文献学术综述。Decis支持系统50（3）：559-569。doi:10.1016/j.dss.2010.08.006·文件编号：10.1016/j.dss.2010.08.006
[69]	Platt JC（1999）支持向量机的概率输出以及与正则化似然方法的比较。收录：Smola AJ、Bartlett P、Schoelkopf B、Schuurmans D（编辑）《大边缘分类器的进展》。麻省理工学院出版社，第61-74页
[70]	Porter MA、Onnela JP、Mucha PJ（2009）《网络社区》。非美国数学Soc 56（9）：1082-1097·Zbl 1188.05142号
[71]	Provost F，Fawcett T（2013）《商业数据科学：数据挖掘和数据分析思维需要了解的内容》。奥莱利传媒公司
[72]	F教授、Dalesandro B、Hook R、Zhang X、Murray A（2009）《在线品牌广告的受众选择：隐私社交网络定位》。摘自：第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集，美国纽约州纽约市ACM，KDD’09，第707-716页。数字对象标识代码：10.1145/1557019.1557098
[73]	Raskutti B，Kowalczyk A（2004）SVM的极端再平衡：案例研究。SIGKDD探索新闻6（1）：60-69。数字对象标识代码：10.1145/1007730.1007739·数字对象标识代码：10.1145/1007730.1007739
[74]	Rosvall M，Bergstrom CT（2008）复杂网络上随机行走的地图揭示了社区结构。《国家科学院院刊》105（4）：1118-1123。doi:10.1073/pnas.0706851105·doi:10.1073/pnas.0706851105
[75]	Schapire RE（1999）助推简介。摘自：第16届国际人工智能联合会议论文集——第2卷。Morgan Kaufmann Publishers Inc.，美国加利福尼亚州旧金山，IJCAI’99，第1401-1406页
[76]	Schapire RE，Singer Y（1999）使用可信度评估预测改进增压算法。马赫学习37（3）：297-336。doi:10.1023/A:1007614523901·Zbl 0945.68194号 ·doi:10.1023/A:1007614523901
[77]	Shmueli G（2017）《分析行为大数据：方法、实践、伦理和道德问题》。质量工程师29（1）：57-74。doi:10.1080/08982112.2016.1210979·doi:10.1080/08982112.2016.1210979
[78]	Sobhani P、Viktor H、Matwin S（2015）使用集成方法和基于聚类的欠采样从不平衡数据中学习。In：采矿综合体模式的新前沿：第三次国际研讨会，2014年NFMCP，与2014年ECML-PKDD联合举办，法国南希，2014年9月19日，修订论文集，Springer international Publishing，Cham，第69-83页。doi:10.1007/978-3319-17876-95
[79]	Stankova M（2016）具有二分结构的网络数据分类。安特卫普大学学位论文
[80]	Stankova M，Martens D，Provost F（2015）通过投影对二部图的分类。工作论文2015001，安特卫普大学应用经济学院·Zbl 07432798号
[81]	Sun Y，Kamel MS，Wong AK，Wang Y（2007）非平衡数据分类的成本敏感增强。图案识别40（12）：3358-3378。doi:10.1016/j.patcog.2007.04.009·Zbl 1122.68505号 ·doi:10.1016/j.patcog.2007.04.009
[82]	Suykens JA、Van Gestel T、De Brabanter J、De Moor B、Vandewalle J、SuykensJ、Van Gestel T（2002）最小二乘支持向量机。新加坡世界科学·Zbl 1017.93004号
[83]	Tang B，He H（2015）Enn：模式识别的扩展最近邻方法【研究前沿】。IEEE计算智能杂志10（3）：52-60。doi:10.10109/MCI.2015.2437512·doi:10.1109/MCI.2015.2437512
[84]	Tang Y，Zhang YQ，Chawla NV，Krasser S（2009）《高度不平衡分类的SVM建模》。IEEE Trans-Syst Man-Cybern B（Cybern）39（1）：281-288。doi:10.1109/TSMCB.2008.2002909·doi:10.1109/TSMCB.2008.2002909
[85]	Tobback E、Moeyersoms J、Stankova M、Martens D（2016）《利用关系数据进行中小企业破产预测》。安特卫普大学应用经济学系工作文件2016004
[86]	Verbeke W、Dejaeger K、Martens D、Hur J、Baesens B（2012）《电信行业流失预测的新见解：利润驱动的数据挖掘方法》。欧洲运营研究杂志218（1）：211-229。doi:10.1016/j.ejor.2011.09.031·doi:10.1016/j.ejor.2011.09.031
[87]	Veropoulos K，Campbell I，Cristianini N（1999）控制支持向量机的灵敏度。摘自：瑞典斯德哥尔摩国际人工智能联合会议记录（IJCAI99），第55-60页
[88]	Whitrow C、Hand DJ、Juszczak P、Weston D、Adams NM（2009）《作为信用卡欺诈检测策略的交易聚合》。数据最小知识发现18（1）：30-55。数字对象标识代码：10.1007/s10618-008-0116-z·数字对象标识代码：10.1007/s10618-008-0116-z
[89]	Wickramaratna J、Holden SB、Buxton BF（2001）《增压性能下降》。摘自：第二届多分类器系统国际研讨会论文集，英国伦敦施普林格，MCS’01，第11-21页·Zbl 0980.68780号
[90]	Yen SJ，Lee YS（2009），非平衡数据分布的基于聚类的欠采样方法。实验系统应用36（3，第1部分）：5718-5727。doi:10.1016/j.eswa.2008.06.108·doi:10.1016/j.eswa.2008.06.108
[91]	Yu HF、Lo HY、Xieh HP、Lou JK、McKenzie TG、Chou JW、Chung PH、Ho CH、Chang CF、Wei YH等（2010）2010年kdd cup的特征工程和分类器集成。收录于：KDD Cup 2010研讨会论文集，第1-16页
[92]	Zha H，He X，Ding C，Simon H，Gu M（2001）二部图划分与数据聚类。摘自：第十届信息与知识管理国际会议论文集，美国纽约州纽约市ACM，CIKM'01，第25-32页。doi:10.1145/502585.502591
[93]	Zhang J，Mani I（2003）不平衡数据分布的Knn方法：一个涉及信息提取的案例研究。摘自：华盛顿特区ICML’2003年学习不平衡数据集研讨会论文集
[94]	Ziegler CN、McNee SM、Konstan JA、Lausen G（2005）《通过主题多样化改进推荐列表》。摘自：第14届国际互联网会议记录，美国纽约州纽约市ACM，WWW’05，第22-32页。doi:10.1145/1060745.1060754

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑非
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

稀疏和大型行为数据集中的非平衡分类。（英语）兹比尔1411.68124

理学硕士：

关键词：

软件：

参考文献：

示例

领域

操作员

稀疏和大型行为数据集中的非平衡分类。 （英语） 兹比尔1411.68124

理学硕士：

关键词：

软件：

参考文献：

稀疏和大型行为数据集中的非平衡分类。（英语）兹比尔1411.68124