×

使用不平衡数据训练和评估分类规则。 (英语) Zbl 1281.68198号

摘要:利用横截面数据建模二元响应的问题已经得到解决,并利用参数和非参数方法获得了许多令人满意的解决方案。然而,在许多实际情况下,两种反应中的一种(通常是分析中最有趣的)是罕见的。据大量报道,这种课堂失衡严重影响了学习过程,因为这种模式往往侧重于流行的课堂,而忽视了罕见的事件。然而,分类模型的估计不仅受到类的偏态分布的影响,而且其准确性的评估也受到了影响,因为数据的稀缺性导致对模型准确性的估计较差。在这项工作中,讨论了班级不平衡对模型训练和模型评估的影响。此外,基于平滑自举重采样技术,提出了一个统一、系统的框架来处理不平衡分类问题。该技术建立在良好的理论基础上,一项广泛的实证研究表明,在面对不平衡学习问题时,它优于其他主要的补救方法。

MSC公司:

68吨10 模式识别、语音识别
62G07年 密度估算
62G09号 非参数统计重采样方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Akbani R,Kwek S,Japkowicz N(2004)将支持向量机应用于非平衡数据集。In:Boulicaut JF,Esposito F,Giannotti F,Pedreschi D,eds.计算机科学讲座笔记,第15届欧洲机器学习会议论文集,ECML,Springer,Pisa,3201:39–50·兹比尔1132.68523
[2] 亚松森A,纽曼DJ(2007)UCI机器学习库网址:http://www.ics.uci.edu/\(\sim\)mlearn/MLRepository.html。加利福尼亚大学信息与计算学院。科学。,欧文
[3] Barandela R、SÃnchez JS、GarcÃ子a1a V、Rangel E(2003)《课堂学习不平衡问题的策略》。Patt识别36:849–851
[4] Batista G、Prati R、Monard M(2004)《平衡机器学习训练数据的几种方法的行为研究》。SIGKDD探索6(1):20–29·Zbl 05442721号 ·数字对象标识代码:10.1145/1007730.1007735
[5] Batuwita R,Palade V(2010)FSVM-CIL:用于类不平衡学习的模糊支持向量机。IEEE Trans Fuzzy系统18(3):558–571·doi:10.1109/TFUZZ.2010.2042721
[6] Bowman AW,Azzalini A(1997)《数据分析应用平滑技术:带S-plus图解的核方法》。牛津大学出版社·Zbl 0889.62027号
[7] Breiman L(1996)装袋预测值。马赫学习24:123–140·Zbl 0858.68080号
[8] Breiman L、Friedman JH、Olshen RA、Stone CJ(1984)分类和回归树。华兹华斯国际集团,加利福尼亚州贝尔蒙特
[9] Burez J,Vanden Poel D(2009)《客户流失预测中的等级失衡处理》。专家系统应用36:44626–4636·doi:10.1016/j.eswa.2008.05.027
[10] Chawla NV(2003)C4.5和不平衡数据集:调查抽样方法、概率估计和决策树结构的影响。ICML'03阶级不平衡研讨会会议记录
[11] Chawla NV、Bowyer KW、Kegelmeyer WP(2002)SMOTE:合成少数人过采样技术。Artif Intell Res杂志16:321–357·Zbl 0994.68128号
[12] Chernick M,Murthy V,Nealy C(1985),自举和其他重采样方法的应用:分类器性能评估。图案识别Lett 3:167–178·doi:10.1016/0167-8655(85)90049-2
[13] Cieslak D,Chawla N(2008)针对不平衡数据的学习决策树。莱克特。计算中的注释。科学。5211: 241–256 ·Zbl 05372957号 ·doi:10.1007/978-3-540-87479-9_34
[14] Cramer JS(1999)二元logit模型在非平衡样本中的预测性能。统计学家48:85–94
[15] Davis J,Goadrich M(2006),《精确复测和ROC曲线之间的关系》。收录:Cohen W,Moore A编辑,《第23届机器学习国际会议论文集》,ACM出版社,宾夕法尼亚州匹兹堡,第233-240页
[16] Demsar J(2006)多数据集分类器的统计比较。J马赫学习研究7(7):1-30
[17] Drummond C,Holte RC(2006)《成本曲线:可视化分类器性能的改进方法》。马赫学习65(1):95–130·Zbl 05075646号 ·doi:10.1007/s10994-006-8199-5
[18] Efron B,Tibshirani R(1993)《引导程序简介》。查普曼和霍尔,纽约·Zbl 0835.62038号
[19] Eitrich T,Kless A,Druska C,Meyer W,Grotendorst J(2007)使用成本敏感的机器学习技术对高度不平衡的药物CYP450数据进行分类。化学信息杂志47(1):92–103·doi:10.1021/ci6002619
[20] Estabrooks A,Taeho J,Japkovicz N(2004)从不平衡数据集学习的多重重采样方法。计算智能20:18–36·doi:10.1111/j.0824-7935.2004.t01-1-00228.x
[21] Fernandez A、Barrenechea E、Bustince H、Herrera F(2012)《阶级失衡问题的群体综述:装袋、助推和基于杂交的方法》。IEEE Trans-Syst,Man,Cybern,C 42:463–484·doi:10.1109/TSMCC.2011.2179028
[22] García S,Derrac J,Triguero I,Carmona CJ,Herrera F(2012)基于进化的非平衡分类广义实例选择。基于知识的系统25:3–12·doi:10.1016/j.knosys.2011.01.012
[23] Guo H,Viktor HL(2004)《数据生成促进:改进难学示例的分类》。SIGKDD探索者6(1):30–39·Zbl 05442742号 ·数字对象标识代码:10.1145/1007730.1007736
[24] Hand D(2006)分类器技术与进步幻觉。统计科学21(1):1–14·Zbl 1426.62188号 ·doi:10.1214/08834230600000060
[25] Hand D,Vinciotti V(2003)为类不平衡的两类最近邻分类器选择K。Patt Recognit Lett第24:1555–1562页·兹比尔1048.68081 ·doi:10.1016/S0167-8655(02)00394-X
[26] He H,Garcia EA(2009)从不平衡数据中学习。IEEE Trans Knowl数据工程,21(9)
[27] Japkowicz N,Stephen S(2002)《阶级失衡问题:一项系统研究》。智能数据An J 6·Zbl 1085.68628号
[28] Jo T,Japkowicz N(2004),阶级失衡与小分离。SIGKDD探索6(1):40–49·Zbl 05442773号 ·doi:10.145/1007730.1007737
[29] Khoshgoftaar TM、Golawala M、Van Hulse J(2007)《使用随机森林从不平衡数据中学习的实证研究》。第19届IEEE智能工具国际会议论文集,第2卷,华盛顿特区
[30] Khoshgoftaar TM、Van Hulse J、Napolitano A(2011),增压和装袋技术与噪声和不平衡数据的比较。IEEE Trans-on Syst、Man、Cybern-A部分:人类系统41(3):552-568·doi:10.1109/TSMCA.2010.2084081
[31] King EN,Ryan TP(2002)最大似然逻辑回归与精确逻辑回归的初步研究。美国统计局56:163–170·数字对象标识代码:10.1198/00031300283
[32] King G,Zeng L(2001)罕见事件数据的Logistic回归。政治分析9:137–163·doi:10.1093/oxfordjournals.pan.a004868
[33] Kotsiantis S、Kanellopoulos D、Pintelas P(2006)《处理不平衡数据集:综述》。GESTS国际计算机科学与工程汇刊,第30卷
[34] Kukar M,Kononenko I(1998),神经网络的成本敏感学习。第13届欧洲人工智能会议记录,纽约威利,第445-449页
[35] Kubat M,Matwin S(1997)《解决不平衡训练集的诅咒:单边选择》。第14届机器学习国际会议论文集。纳什维尔ICML,第179-186页
[36] Lee S(2000)偏斜二进制分类中的噪声复制。计算统计数据An 34:165–191·Zbl 1046.62063号 ·doi:10.1016/S0167-9473(99)00095-X
[37] Lee S(1999)倾斜二进制分类中的正则化。计算统计14:277–292·Zbl 0933.62050号 ·数字标识代码:10.1007/s001800050018
[38] Lin Y,Lee Y,Wahba G(2002)非标准情况下分类的支持向量机。马赫学习46:191–202·Zbl 0998.68103号 ·doi:10.1023/A:1012406528296
[39] Liu Y,Chawla NV,Harper MP,Shriberg E,Stolcke A(2006)语音句子边界检测中不平衡数据的机器学习研究。计算机语音;郎朗20:468–494·doi:10.1016/j.csl.2005.06.002
[40] Mazurowski MA(2008)为医疗决策训练神经网络分类器:不平衡数据集对分类性能的影响。神经网络21:427–436·兹比尔06126286 ·doi:10.1016/j.neunet.2007.12.031
[41] McCarthy K,Zabar B,Weiss G(2005),成本敏感型学习在分类稀有类时是否优于抽样?第一届基于效用的数据挖掘国际研讨会论文集,纽约ACM出版社,第69–77页
[42] Mease D,Wyner A,Buja A(2007),增强分类树和类概率分位数估计。J Mach学习研究8:409–439·Zbl 1222.68261号
[43] Oommen T,BaiseL Vogel R(2011)最大似然逻辑回归中的抽样偏差和类别不平衡。数学地质学43:99–120·Zbl 1204.86025号 ·doi:10.1007/s11004-010-9311-8
[44] Pavón R、Laza R、Reboiro-Jato M、Fdez-Riverola F(2011)《评估分类失衡数据对相关/不相关医学文献分类的影响》。高级智能软计算93:345–353·doi:10.1007/978-3-642-19914-1.45
[45] Percannella G,Soda P,Vento M(2011),类倾斜下HEp-2细胞的有丝分裂识别。计算机科学课堂讲稿(包括人工智能课堂讲稿和生物信息学课堂讲稿),第353–362页
[46] Riddle P、Segal R、Etzioni O(1994)《波音制造领域的表现设计和暴力诱导》。应用Artif Intell 8:125–147·Zbl 05387092号 ·数字对象标识代码:10.1080/08839519408945435
[47] Schiavo RA,Hand DJ(2000)十年以上的错误率研究。国际统计版次68(3):295–310·Zbl 1107.62339号
[48] Silverman BW(1986)统计和数据分析密度估计。查普曼和霍尔,纽约·Zbl 0617.62042号
[49] Ström F,Koker R(2011)预测帕金森病的并行神经网络方法。专家系统应用38(10):12470–12474·doi:10.1016/j.eswa.2011.04.028
[50] Sun Y,Kamel MS,Wong AKC,Wang Y(2007)不平衡数据分类的成本敏感增强。Patt Recogn 40(12):3358–3378·Zbl 1122.68505号 ·doi:10.1016/j.patcog.2007.04.009
[51] Sun Y,Wong AKC,Kamel MS(2009)《不平衡数据的分类:综述》。国际J Patt Recogn Artif Intell 23(4):687–719·Zbl 05782847号 ·doi:10.1142/S0218001409007326
[52] Ting KM(2002)诱导成本敏感树木的实例加权方法。IEEE Trans Knowl Data Eng 14(3):659–665·Zbl 05109097号 ·doi:10.10109/TKDE.2002.1000348
[53] Thomas J,Jouve P,Nicoloyannis N(2006),非平衡数据集随机森林的优化和评估。计算机科学课堂讲稿,Springer 4203:622-631·Zbl 05282227号 ·doi:10.1007/1187560469
[54] Veropoulos K,Campbell C,Cristianini N(1999)控制支持向量机的灵敏度。国际人工智能联合会议记录,斯德哥尔摩,第55–60页
[55] Wasikowski M,Chen XW(2010)使用特征选择解决小样本类不平衡问题。IEEE Trans Knowl Data Eng 22(10):1388–1400·doi:10.1109/TKDE.2009.187
[56] Wehberg S,Schumacher M(2004)分类问题中非参数错误率估计方法的比较。生物杂志46(1):35–47·doi:10.1002/bimj.200410011
[57] Weiss GM(2004)《稀有采矿:统一框架》。ACM SIGKDD Explore。新闻稿6(1)
[58] Weiss GM,Provost F(2001)《班级分布对分类器学习的影响:一项实证研究》。新泽西州罗格斯大学计算机科学系ML-TR-44技术报告
[59] 吴XLJ,周Z(2009)《班级均衡学习的探索性欠采样》。IEEE Trans:关于系统。,人,赛博。,乙39:539–550·doi:10.10109/TSMCB.2008207853
[60] Yen S,Lee Y(2006)改进不平衡数据集中少数群体预测的欠采样方法。智能控制与自动化。系列:控制与信息科学课堂讲稿,第731-740页·Zbl 1115.93105号
[61] Zhou Z,Liu X(2006)用解决班级不平衡问题的方法训练成本敏感型神经网络。IEEE Trans Knowl Data Eng 18(1):63–77·Zbl 05108655号 ·doi:10.1109/TKDE.2006.17
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。