文件Zbl 1396.68097-zbMATH打开

CCR：一种用于不平衡数据分类的组合清洗和重采样算法。（英语） Zbl 1396.68097号

国际期刊申请。数学。计算。科学。 27，第4期，727-736（2017）.

摘要：不平衡数据分类是当代模式识别中最普遍的挑战之一。在大多数实际数据集中可能会观察到不同程度的不平衡，从而影响分类算法的性能。特别是，高度不平衡造成严重困难，往往需要使用专门设计的方法。在这种情况下，最重要的问题通常是正确检测少数示例，但同时也不能忽视多数类的性能。本文描述了一种新的重采样技术，其重点是在两类不平衡数据任务中正确检测少数示例。该方法将清理少数对象周围的决策边界与引导合成过采样相结合。实验结果表明，该算法通常优于传统的过采样方法，尤其是在考虑少数样本检测的情况下。

引用于3文件

MSC公司：

68T05型	人工智能中的学习和自适应系统
62H30型	分类和区分；聚类分析（统计方面）

关键词：

机器学习;分类;不平衡数据;预处理;过采样

软件：

JStatCom公司;ACO采样;Scikit公司;不平衡学习;SMOTEBoost公司;阿达欣;ROSEFW-RF公司;SMOTE公司;MWMOTE公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Aggarwal，C.C.，Hinneburg，A.和Keim，D.A.（2001年）。关于高维空间中距离度量的惊人行为，数据库理论国际会议，英国伦敦，第420-434页·Zbl 1047.68038号
[2]	Alcalá，J.、Fernández，A.、Luengo，J.、Derrac，J.、GarcíA，S.、Sánchez，L.和Herrera，F.（2010年）。KEEL数据挖掘软件工具：数据集存储库，算法和实验分析框架的集成，多值逻辑和软计算杂志17（2-3）：255-287。
[3]	Barua，S.、Islam，M.M.、Yao，X.和Murase，K.（2014年）。用于不平衡数据集学习的MWMOTE-多数加权少数过采样技术，IEEE知识与数据工程汇刊26（2）：405-425。
[4]	巴蒂斯塔，G.E.、普拉蒂，R.C.和莫纳德，M.C.（2004）。《平衡机器学习训练数据的几种方法的行为研究》，ACM SIGKDD Explorations Newsletter 6（1）：20-29。
[5]	Bunkhumpornpat，C.和Sinapiromsaran，K.（2015）。核心：基于核心的合成少数人过采样和临界多数人欠采样技术，《国际数据挖掘和生物信息学杂志》12（1）：44-58。
[6]	Bunkhumpornpat，C.、Sinapiromsaran，K.和Lursinsap，C.（2009年）。安全水平SMOTE：用于处理类别不平衡问题的安全水平合成少数过度抽样技术，太平洋-亚洲知识发现和数据挖掘会议，泰国曼谷，第475-482页。
[7]	Chawla，N.V.、Bowyer，K.W.、Hall，L.O.和Kegelmeyer，W.P.（2002）。SMOTE：合成少数人过采样技术，《人工智能研究杂志》16:321-357·Zbl 0994.68128号
[8]	Chawla，N.V.、Lazarevic，A.、Hall，L.O.和Bowyer，K.W.（2003）。SMOTEBoost：《提高对少数群体的预测》，欧洲数据挖掘和知识发现原则会议，克罗地亚卡夫塔特/杜布罗夫尼克，第107-119页。
[9]	Dubey，R.、Zhou，J.、Wang，Y.、Thompson，P.M.和Ye，J.（2014）。不平衡数据的采样技术分析：一项n=648 ADNI研究，NeuroImage 87:220-241。
[10]	Estabrooks，A.、Jo，T.和Japkowicz，N.（2004）。从不平衡数据集学习的多重重采样方法，计算智能20（1）：18-36。
[11]	Fernández，A.、López，V.、Galar，M.、Del Jesus，M.J.和Herrera，F.（2013）。使用多个类分析不平衡数据集的分类：二值化技术和特殊方法，基于知识的系统42:97-110。
[12]	Fernández-Navarro，F.、Hervás-Martínez，C.和Gutiérrez，P.A.（2011年）。基于多类问题灵敏度的动态过采样过程，模式识别44（8）：1821-1833·Zbl 1218.68121号
[13]	Galar，M.、Fernandez，A.、Barrenechea，E.、Bustince，H.和Herrera，F.（2012）。阶级不平衡问题的集合综述：打包、提升和混合方法，IEEE系统、人和控制论汇刊C:应用与评论42（4）：463-484。
[14]	Galar，M.、Fernández，A.、Barrenechea，E.和Herrera，F.（2013）。EUSBoost：通过进化欠采样增强高度不平衡数据集的集合，模式识别46（12）：3460-3471。
[15]	García，S.和Herrera，F.（2009年）。不平衡数据集分类的进化欠采样：建议和分类，进化计算17（3）：275-306。
[16]	García，V.、Sánchez，J.和Mollineda，R.（2007）。《不平衡和重叠数据集上分类器行为的实证研究》，伊比利亚美洲模式识别大会，智利瓦尔帕莱索，第397-406页。
[17]	Han，H.，Wang，W.-Y.和Mao，B.-H.（2005）。Borderline-SMOTE：不平衡数据集学习中的一种新的过采样方法，智能计算国际会议，中国合肥，第878-887页。
[18]	Hao，M.、Wang，Y.和Bryant，S.H.（2014）。一种结合合成少数过采样技术的高效算法，用于对不平衡PubChem BioAssay数据进行分类，《分析化学学报》806:117-127。
[19]	He，H.、Bai，Y.、Garcia，E.A.和Li，S.（2008）。ADASYN：《不平衡学习的自适应合成抽样方法》，2008年IEEE神经网络国际联合会议（IEEE计算智能世界大会），中国香港，第1322-1328页。
[20]	He，H.和Garcia，E.A.（2009年）。从不平衡数据中学习，IEEE知识与数据工程汇刊21（9）：1263-1284。
[21]	Hoens，T.R.、Polikar，R.和Chawla，N.V.（2012年）。从概念漂移和不平衡的流式数据中学习：综述，人工智能进展1（1）：89-101。
[22]	Jo，T.和Japkowicz，N.（2004）。阶级失衡与小分离，ACM SIGKDD探索新闻稿6（1）：40-49。
[23]	Khreich，W.、Granger，E.、Miri，A.和Sabourin，R.（2010年）。ROC空间中分类器的迭代布尔组合：HMM在异常检测中的应用，模式识别43（8）：2732-2752·Zbl 1213.68533号
[24]	Krawczyk，B.（2016）。从不平衡的数据中学习：开放的挑战和未来方向，人工智能进展5（4）：221-232。
[25]	Laurikkala，J.（2001）。通过平衡班级分布来改进困难小班的识别，欧洲医学人工智能会议，葡萄牙卡斯凯斯，第63-66页·Zbl 0986.68817号
[26]	Lemaitre，G.、Nogueira，F.和Aridas，C.K.（2017年）。不平衡学习：一个Python工具箱，用于解决机器学习中不平衡数据集的诅咒，《机器学习研究杂志》18（17）：1-5。
[27]	Liu，X.-Y.，Wu，J.和Zhou，Z.-H.（2009）。类平衡学习的探索性欠采样，IEEE系统、人与控制论汇刊B：控制论39（2）：539-550。
[28]	Liu，Y.-H.和Chen，Y.-T.（2005）。用于多视角人脸识别的基于总边距的自适应模糊支持向量机，2005年IEEE系统、人与控制论国际会议，美国HI威科洛，第2卷，第1704-1711页。
[29]	López，V.、Fernández，A.、GarcíA，S.、Palade，V.和Herrera，F.（2013）。《对不平衡数据分类的洞察：使用数据内在特征的经验结果和当前趋势》，《信息科学》250:113-141。
[30]	Maciejewski，T.和Stefanowski，J.（2011）。用于挖掘不平衡数据的SMOTE局部邻域扩展，2011年IEEE计算智能和数据挖掘研讨会，法国巴黎，第104-111页。
[31]	Mazurowski，M.A.，Habas，P.A.，Zurada，J.M.，Lo，J.Y.，Baker，J.A.和Tourassi，G.D.（2008年）。训练用于医疗决策的神经网络分类器：不平衡数据集对分类性能的影响，神经网络21（2）：427-436。
[32]	Napierała，K.和Stefanowski，J.（2012）。《不平衡数据中不同类型少数群体示例的识别》，混合人工智能系统国际会议，西班牙萨拉曼卡，第139-150页。
[33]	Napierała，K.、Stefanowski，J.和Wilk，S.（2010年）。《在存在噪声和边界示例的情况下从不平衡数据中学习》，《粗糙集与计算当前趋势国际会议》，波兰华沙，第158-167页。
[34]	佩德雷戈萨（Pedregosa，F.）、瓦罗佐（Varoquaux，G.）、格兰福特（Gramfort，A.）、米歇尔（Michel，V.）、提里昂（Thirion，B.）、格里塞尔（Grisel，O.）、布隆德尔（Blondel，M.）、普雷滕霍弗（Prettenhofer，P.）、韦斯（Weiss，R。Scikit-learn：Python中的机器学习，机器学习研究杂志12（10月）：2825-2830·Zbl 1280.68189号
[35]	Prati，R.C.、Batista，G.和Monard，M.C.（2004年）。《班级失衡与班级重叠：学习系统行为分析》，墨西哥人工智能国际会议，墨西哥墨西哥城，第312-321页。
[36]	Ramentol，E.、Verbist，N.、Bello，R.、Caballero，Y.、Cornelis，C.和Herrera，F.（2012）。SMOTE-FRST：使用模糊粗糙集理论的新重采样方法，第十届国际FLINS知识工程和决策不确定性建模会议，土耳其伊斯坦布尔。
[37]	Sáez，J.A.、Galar，M.、Luengo，J.和Herrera，F.（2013）。《使用多分类器系统处理含噪数据的分类问题：性能和鲁棒性分析》，《信息科学》247:1-20。
[38]	Sanz，J.A.、Bernardo，D.、Herrera，F.、Bustince，H.和Hagras，H.（2015）。一个紧凑的进化区间值模糊规则分类系统，用于建模和预测具有不平衡数据的现实世界金融应用，IEEE模糊系统交易23（4）：973-990。
[39]	Stefanowski，J.（2016）。在从不平衡数据中学习的同时处理数据困难因素，见S.Matwin和J.Mielniczuk（编辑），《计算统计和数据挖掘的挑战》，Springer，Heilderberg，第333-363页。
[40]	Stefanowski，J.和Wilk，S.（2008）。不平衡数据的选择性预处理以提高分类性能，数据仓库和知识发现国际会议，意大利都灵，第283-292页。
[41]	Sun，Y.、Wong，A.K.和Kamel，M.S.（2009年）。《不平衡数据的分类：综述》，《国际模式识别与人工智能杂志》23（04）：687-719。
[42]	Tomek，I.（1976年）。美国有线电视新闻网（CNN）的两次修改，《IEEE系统、人与控制论汇刊》6（11）：769-772·Zbl 0341.68066号
[43]	Triguero，I.、del Río，S.、López，V.、Bacardit，J.、Benítez，J.M.和Herrera，F.（2015）。ROSEFW-RF：ECBDL14大数据竞赛的获胜者算法。一个极不平衡的大数据生物信息学问题，基于知识的系统87:69-79。
[44]	Van Hulse，J.、Khoshgoftaar，T.M.和Napolitano，A.（2007年）。歪斜的类分布和标签错误的示例，第七届IEEE数据挖掘研讨会国际会议（ICDMW 2007），美国东北部奥马哈，第477-482页。
[45]	Verbist，N.、Ramentol，E.、Cornelis，C.和Herrera，F.（2014）。使用SMOTE预处理带噪声的不平衡数据集，增强了模糊粗糙原型选择，应用软计算22:511-517。
[46]	Wang，S.和Yao，X.（2012）。多类不平衡问题：分析与潜在解决方案，IEEE系统、人与控制论汇刊B：控制论42（4）：1119-1130。
[47]	Wei，W.、Li，J.、Cao，L.、Ou，Y.和Chen，J.（2013）。有效检测基于极不平衡数据的复杂网上银行欺诈，万维网16（4）：449-475。
[48]	Wilson，D.L.（1972）。使用编辑数据的最近邻规则的渐近性质，IEEE系统、人和控制论事务2（3）：408-421·Zbl 0276.62060号
[49]	Yu，H.、Ni，J.和Zhao，J.（2013）。ACO采样：一种基于蚁群优化的欠采样方法，用于分类不平衡DNA微阵列数据，神经计算101:309-318。
[50]	Zhang，H.和Li，M.（2014）。RWO抽样：不平衡数据分类的随机遍历抽样方法，信息融合20:99-116。
[51]	Z.Zhang、B.Krawczyk、S.García、a.Rosales-Pérez和F.Herrera（2016）。利用集成学习实现多类不平衡数据的一对一分解，基于知识的系统106:251-263。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

CCR：一种用于不平衡数据分类的组合清洗和重采样算法。（英语） Zbl 1396.68097号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

CCR：一种用于不平衡数据分类的组合清洗和重采样算法。 （英语） Zbl 1396.68097号

MSC公司：

关键词：

软件：

参考文献：

CCR：一种用于不平衡数据分类的组合清洗和重采样算法。（英语） Zbl 1396.68097号