×

基于g-均值和f-测度的不平衡问题的逻辑判别。 (英语) Zbl 1366.62120号

摘要:作为一种众所周知的统计方法,逻辑判别法已成功应用于医疗诊断和个人信用评估等许多实际应用中。本文将该模型应用于不平衡问题,该问题也称为偏态或稀有类问题,其特征是一类(负类或多数类)的实例比另一类(正类或少数类)的多。然而,传统的逻辑辨析试图通过假设所有类的大小都相似来追求高精度,这导致了这样一个事实,即具有积极类的实例往往被忽略,并被错误地归类为消极类。为了充分考虑阶级不平衡,我们重新学习了不平衡问题的两个基本度量,即g-均值和f-测度,并设计了两个新的代价函数,即基于g-均值的度量(GM)和基于f-测度的度量(FM),以监督学习相应参数的逻辑判别,其中GM是作为g-均值的正类和负类召回的几何均值估计,FM是作为f-测度的正类召回和精度之间的调和均值。在UCI数据集上的实验表明,与现有的分类方法相比,该方法在本文使用的所有指标(包括准确度、召回率、f度量和g平均值)上具有显著的优势。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] He,《从不平衡数据中学习》,IEEE知识与数据工程汇刊21,第1263页–(2009)·doi:10.1109/TKDE.2008.239
[2] 姚,基于cs-boosting的不平衡训练数据故障诊断方法,《振动、测量与诊断杂志》33(1),第111页–(2013)
[3] 刘,IEEE第13届数据挖掘国际会议论文集,第478页–(2013)
[4] Martin,《评估:从精确性、召回和f-measure到ROC、信息性、标记性和相关性》,《机器学习技术杂志》2(1)第37页–(2011)
[5] 刘,课堂不平衡学习的探索性欠采样,第六届IEEE数据挖掘国际会议论文集,第965页–(2006)
[6] Jo,《阶级不平衡与小分离》,ACM SgKDD探索新闻稿6(1),第40页–(2004)·Zbl 05442773号 ·数字对象标识代码:10.1145/1007730.1007737
[7] Varassin,第24届IEEE DEXA国际研讨会论文集,第85页–(2013)
[8] Zhang,RWO-Sampling:不平衡数据分类的随机游走过采样方法,信息融合20 pp 99–(2014)·doi:10.1016/j.inffus.2013.12.003
[9] Chawla,SMOTE:合成少数人过采样技术,《人工智能研究杂志》,第16页,第321页–(2002年)·兹比尔0994.68128
[10] Sáez,SMOTE-CIPF:通过带滤波的重新采样方法解决不平衡分类中的噪声和边界示例问题,信息科学291第184页–(2015)·Zbl 06681917号 ·doi:10.1016/j.ins.2014.08.051
[11] Zieba,第七届亚洲智能信息和数据库系统会议记录,第一部分,第377页–(2015)
[12] Joshi,ACM SIGMOD国际数据管理会议记录第91页–(2001)
[13] 张,成本敏感人脸识别,IEEE模式分析和机器智能学报32(10),第1758页–(2010)·doi:10.1109/TPAMI.2009.195
[14] Zhang,IRUSRT:将逆随机欠采样和随机树相结合的一种新的不平衡学习技术,统计学中的通信-模拟和计算43(10)第2714页–(2014)·Zbl 1466.62224号 ·doi:10.1080/03610918.2013.765467
[15] Merigó,诱导广义OWA算子,信息科学179 pp 729–(2009)·Zbl 1156.91336号 ·doi:10.1016/j.ins.2008.11.013
[16] Merigó,广义移动平均值、距离度量和OWA算子,《国际不确定性、模糊性和基于知识的系统杂志》21,第533页–(2013)·兹比尔1323.68506 ·doi:10.1142/S0218488513500268
[17] Sun,不平衡数据分类的成本敏感增强,模式识别40(12)pp 3358–(2007)·Zbl 1122.68505号 ·doi:10.1016/j.patcog.2007.04.009
[18] 贾普科维奇,《阶级失衡问题:一项系统研究》,《智能数据分析》6(5),第429页–(2002)·兹比尔1085.68628
[19] Tomek,CNN的两次修改,IEEE Transactions on Systems Man and Communications 6(11)pp 769–(1976)·Zbl 0341.68066号 ·doi:10.1109/TSMC.1976.4309452
[20] Angiulli,第22届国际机器学习会议论文集,第25页–(2005)
[21] Kubat,《第14届国际机器学习大会论文集》,第179页-(1997)
[22] Laurikkala,第八届欧洲医学人工智能会议论文集,第63页–(2001)
[23] He,《国际神经网络联合会议论文集》,第1322页–(2008年)
[24] Chawla,第七届欧洲数据库知识发现原则与实践会议,第107页–(2003年)
[25] 巴蒂斯塔,《平衡机器学习训练数据的几种方法的行为研究》,SIGKDD Explorations 6(1)pp 20–(2004)·Zbl 05442721号 ·doi:10.145/1007730.1007735
[26] Estabrooks,《从不平衡数据集学习的多重重采样方法》,计算智能20(1),第18页–(2004)·doi:10.1111/j.0824-7935.2004.t01-1-00228.x
[27] Demsar,多数据集分类器的统计比较,《机器学习研究杂志》,第6页,第1页–(2006年)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。