文件Zbl 1281.68198-zbMATH Open

使用不平衡数据训练和评估分类规则。（英语） Zbl 1281.68198号

数据最小知识。发现。 28，第1期，92-122（2014）.

摘要：利用横截面数据建模二元响应的问题已经得到解决，并利用参数和非参数方法获得了许多令人满意的解决方案。然而，在许多实际情况下，两种反应中的一种（通常是分析中最有趣的）是罕见的。据大量报道，这种课堂失衡严重影响了学习过程，因为这种模式往往侧重于流行的课堂，而忽视了罕见的事件。然而，分类模型的估计不仅受到类的偏态分布的影响，而且其准确性的评估也受到了影响，因为数据的稀缺性导致对模型准确性的估计较差。在这项工作中，讨论了班级不平衡对模型训练和模型评估的影响。此外，基于平滑自举重采样技术，提出了一个统一、系统的框架来处理不平衡分类问题。该技术建立在良好的理论基础上，一项广泛的实证研究表明，在面对不平衡学习问题时，它优于其他主要的补救方法。

引用于8文件

MSC公司：

68吨10	模式识别、语音识别
62G07年	密度估算
62G09号	非参数统计重采样方法

关键词：

精确；二进制分类；引导数据库；核密度估计；不平衡学习

软件：

UCI-毫升；引导数据库；平方米；SMOTE公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Akbani R，Kwek S，Japkowicz N（2004）将支持向量机应用于非平衡数据集。In:Boulicaut JF，Esposito F，Giannotti F，Pedreschi D，eds.计算机科学讲座笔记，第15届欧洲机器学习会议论文集，ECML，Springer，Pisa，3201:39–50·兹比尔1132.68523
[2]	亚松森A，纽曼DJ（2007）UCI机器学习库网址：http://www.ics.uci.edu/\（\sim\）mlearn/MLRepository.html。加利福尼亚大学信息与计算学院。科学。，欧文
[3]	Barandela R、SÃnchez JS、GarcÃ子a1a V、Rangel E（2003）《课堂学习不平衡问题的策略》。Patt识别36:849–851
[4]	Batista G、Prati R、Monard M（2004）《平衡机器学习训练数据的几种方法的行为研究》。SIGKDD探索6（1）：20–29·Zbl 05442721号 ·数字对象标识代码：10.1145/1007730.1007735
[5]	Batuwita R，Palade V（2010）FSVM-CIL：用于类不平衡学习的模糊支持向量机。IEEE Trans Fuzzy系统18（3）：558–571·doi:10.1109/TFUZZ.2010.2042721
[6]	Bowman AW，Azzalini A（1997）《数据分析应用平滑技术：带S-plus图解的核方法》。牛津大学出版社·Zbl 0889.62027号
[7]	Breiman L（1996）装袋预测值。马赫学习24:123–140·Zbl 0858.68080号
[8]	Breiman L、Friedman JH、Olshen RA、Stone CJ（1984）分类和回归树。华兹华斯国际集团，加利福尼亚州贝尔蒙特
[9]	Burez J，Vanden Poel D（2009）《客户流失预测中的等级失衡处理》。专家系统应用36:44626–4636·doi:10.1016/j.eswa.2008.05.027
[10]	Chawla NV（2003）C4.5和不平衡数据集：调查抽样方法、概率估计和决策树结构的影响。ICML'03阶级不平衡研讨会会议记录
[11]	Chawla NV、Bowyer KW、Kegelmeyer WP（2002）SMOTE：合成少数人过采样技术。Artif Intell Res杂志16:321–357·Zbl 0994.68128号
[12]	Chernick M，Murthy V，Nealy C（1985），自举和其他重采样方法的应用：分类器性能评估。图案识别Lett 3:167–178·doi:10.1016/0167-8655（85）90049-2
[13]	Cieslak D，Chawla N（2008）针对不平衡数据的学习决策树。莱克特。计算中的注释。科学。5211: 241–256 ·Zbl 05372957号 ·doi:10.1007/978-3-540-87479-9_34
[14]	Cramer JS（1999）二元logit模型在非平衡样本中的预测性能。统计学家48:85–94
[15]	Davis J，Goadrich M（2006），《精确复测和ROC曲线之间的关系》。收录：Cohen W，Moore A编辑，《第23届机器学习国际会议论文集》，ACM出版社，宾夕法尼亚州匹兹堡，第233-240页
[16]	Demsar J（2006）多数据集分类器的统计比较。J马赫学习研究7（7）：1-30
[17]	Drummond C，Holte RC（2006）《成本曲线：可视化分类器性能的改进方法》。马赫学习65（1）：95–130·Zbl 05075646号 ·doi:10.1007/s10994-006-8199-5
[18]	Efron B，Tibshirani R（1993）《引导程序简介》。查普曼和霍尔，纽约·Zbl 0835.62038号
[19]	Eitrich T，Kless A，Druska C，Meyer W，Grotendorst J（2007）使用成本敏感的机器学习技术对高度不平衡的药物CYP450数据进行分类。化学信息杂志47（1）：92–103·doi:10.1021/ci6002619
[20]	Estabrooks A，Taeho J，Japkovicz N（2004）从不平衡数据集学习的多重重采样方法。计算智能20:18–36·doi:10.1111/j.0824-7935.2004.t01-1-00228.x
[21]	Fernandez A、Barrenechea E、Bustince H、Herrera F（2012）《阶级失衡问题的群体综述：装袋、助推和基于杂交的方法》。IEEE Trans-Syst，Man，Cybern，C 42:463–484·doi:10.1109/TSMCC.2011.2179028
[22]	García S，Derrac J，Triguero I，Carmona CJ，Herrera F（2012）基于进化的非平衡分类广义实例选择。基于知识的系统25:3–12·doi:10.1016/j.knosys.2011.01.012
[23]	Guo H，Viktor HL（2004）《数据生成促进：改进难学示例的分类》。SIGKDD探索者6（1）：30–39·Zbl 05442742号 ·数字对象标识代码：10.1145/1007730.1007736
[24]	Hand D（2006）分类器技术与进步幻觉。统计科学21（1）：1–14·Zbl 1426.62188号 ·doi:10.1214/08834230600000060
[25]	Hand D，Vinciotti V（2003）为类不平衡的两类最近邻分类器选择K。Patt Recognit Lett第24:1555–1562页·兹比尔1048.68081 ·doi:10.1016/S0167-8655（02）00394-X
[26]	He H，Garcia EA（2009）从不平衡数据中学习。IEEE Trans Knowl数据工程，21（9）
[27]	Japkowicz N，Stephen S（2002）《阶级失衡问题：一项系统研究》。智能数据An J 6·Zbl 1085.68628号
[28]	Jo T，Japkowicz N（2004），阶级失衡与小分离。SIGKDD探索6（1）：40–49·Zbl 05442773号 ·doi:10.145/1007730.1007737
[29]	Khoshgoftaar TM、Golawala M、Van Hulse J（2007）《使用随机森林从不平衡数据中学习的实证研究》。第19届IEEE智能工具国际会议论文集，第2卷，华盛顿特区
[30]	Khoshgoftaar TM、Van Hulse J、Napolitano A（2011），增压和装袋技术与噪声和不平衡数据的比较。IEEE Trans-on Syst、Man、Cybern-A部分：人类系统41（3）：552-568·doi:10.1109/TSMCA.2010.2084081
[31]	King EN，Ryan TP（2002）最大似然逻辑回归与精确逻辑回归的初步研究。美国统计局56:163–170·数字对象标识代码：10.1198/00031300283
[32]	King G，Zeng L（2001）罕见事件数据的Logistic回归。政治分析9:137–163·doi:10.1093/oxfordjournals.pan.a004868
[33]	Kotsiantis S、Kanellopoulos D、Pintelas P（2006）《处理不平衡数据集：综述》。GESTS国际计算机科学与工程汇刊，第30卷
[34]	Kukar M，Kononenko I（1998），神经网络的成本敏感学习。第13届欧洲人工智能会议记录，纽约威利，第445-449页
[35]	Kubat M，Matwin S（1997）《解决不平衡训练集的诅咒：单边选择》。第14届机器学习国际会议论文集。纳什维尔ICML，第179-186页
[36]	Lee S（2000）偏斜二进制分类中的噪声复制。计算统计数据An 34:165–191·Zbl 1046.62063号 ·doi:10.1016/S0167-9473（99）00095-X
[37]	Lee S（1999）倾斜二进制分类中的正则化。计算统计14:277–292·Zbl 0933.62050号 ·数字标识代码：10.1007/s001800050018
[38]	Lin Y，Lee Y，Wahba G（2002）非标准情况下分类的支持向量机。马赫学习46：191–202·Zbl 0998.68103号 ·doi:10.1023/A:1012406528296
[39]	Liu Y，Chawla NV，Harper MP，Shriberg E，Stolcke A（2006）语音句子边界检测中不平衡数据的机器学习研究。计算机语音；郎朗20:468–494·doi:10.1016/j.csl.2005.06.002
[40]	Mazurowski MA（2008）为医疗决策训练神经网络分类器：不平衡数据集对分类性能的影响。神经网络21:427–436·兹比尔06126286 ·doi:10.1016/j.neunet.2007.12.031
[41]	McCarthy K，Zabar B，Weiss G（2005），成本敏感型学习在分类稀有类时是否优于抽样？第一届基于效用的数据挖掘国际研讨会论文集，纽约ACM出版社，第69–77页
[42]	Mease D，Wyner A，Buja A（2007），增强分类树和类概率分位数估计。J Mach学习研究8:409–439·Zbl 1222.68261号
[43]	Oommen T，BaiseL Vogel R（2011）最大似然逻辑回归中的抽样偏差和类别不平衡。数学地质学43:99–120·Zbl 1204.86025号 ·doi:10.1007/s11004-010-9311-8
[44]	Pavón R、Laza R、Reboiro-Jato M、Fdez-Riverola F（2011）《评估分类失衡数据对相关/不相关医学文献分类的影响》。高级智能软计算93:345–353·doi:10.1007/978-3-642-19914-1.45
[45]	Percannella G，Soda P，Vento M（2011），类倾斜下HEp-2细胞的有丝分裂识别。计算机科学课堂讲稿（包括人工智能课堂讲稿和生物信息学课堂讲稿），第353–362页
[46]	Riddle P、Segal R、Etzioni O（1994）《波音制造领域的表现设计和暴力诱导》。应用Artif Intell 8:125–147·Zbl 05387092号 ·数字对象标识代码：10.1080/08839519408945435
[47]	Schiavo RA，Hand DJ（2000）十年以上的错误率研究。国际统计版次68（3）：295–310·Zbl 1107.62339号
[48]	Silverman BW（1986）统计和数据分析密度估计。查普曼和霍尔，纽约·Zbl 0617.62042号
[49]	Ström F，Koker R（2011）预测帕金森病的并行神经网络方法。专家系统应用38（10）：12470–12474·doi:10.1016/j.eswa.2011.04.028
[50]	Sun Y，Kamel MS，Wong AKC，Wang Y（2007）不平衡数据分类的成本敏感增强。Patt Recogn 40（12）：3358–3378·Zbl 1122.68505号 ·doi:10.1016/j.patcog.2007.04.009
[51]	Sun Y，Wong AKC，Kamel MS（2009）《不平衡数据的分类：综述》。国际J Patt Recogn Artif Intell 23（4）：687–719·Zbl 05782847号 ·doi:10.1142/S0218001409007326
[52]	Ting KM（2002）诱导成本敏感树木的实例加权方法。IEEE Trans Knowl Data Eng 14（3）：659–665·Zbl 05109097号 ·doi:10.10109/TKDE.2002.1000348
[53]	Thomas J，Jouve P，Nicoloyannis N（2006），非平衡数据集随机森林的优化和评估。计算机科学课堂讲稿，Springer 4203:622-631·Zbl 05282227号 ·doi:10.1007/1187560469
[54]	Veropoulos K，Campbell C，Cristianini N（1999）控制支持向量机的灵敏度。国际人工智能联合会议记录，斯德哥尔摩，第55–60页
[55]	Wasikowski M，Chen XW（2010）使用特征选择解决小样本类不平衡问题。IEEE Trans Knowl Data Eng 22（10）：1388–1400·doi:10.1109/TKDE.2009.187
[56]	Wehberg S，Schumacher M（2004）分类问题中非参数错误率估计方法的比较。生物杂志46（1）：35–47·doi:10.1002/bimj.200410011
[57]	Weiss GM（2004）《稀有采矿：统一框架》。ACM SIGKDD Explore。新闻稿6（1）
[58]	Weiss GM，Provost F（2001）《班级分布对分类器学习的影响：一项实证研究》。新泽西州罗格斯大学计算机科学系ML-TR-44技术报告
[59]	吴XLJ，周Z（2009）《班级均衡学习的探索性欠采样》。IEEE Trans:关于系统。，人，赛博。，乙39:539–550·doi:10.10109/TSMCB.2008207853
[60]	Yen S，Lee Y（2006）改进不平衡数据集中少数群体预测的欠采样方法。智能控制与自动化。系列：控制与信息科学课堂讲稿，第731-740页·Zbl 1115.93105号
[61]	Zhou Z，Liu X（2006）用解决班级不平衡问题的方法训练成本敏感型神经网络。IEEE Trans Knowl Data Eng 18（1）：63–77·Zbl 05108655号 ·doi:10.1109/TKDE.2006.17

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

使用不平衡数据训练和评估分类规则。 （英语） Zbl 1281.68198号

MSC公司：

关键词：

软件：

参考文献：

使用不平衡数据训练和评估分类规则。（英语） Zbl 1281.68198号