×

可靠的依赖实例的成本敏感分类。 (英语) Zbl 07773162号

摘要:实例相关成本敏感(IDCS)学习方法已被证明对二进制分类任务有用,其中单个实例与可变的误分类成本相关。然而,我们在本文中通过一系列实验证明,IDCS方法对与实例相关的误分类代价相关的噪声和离群值敏感,其性能强烈依赖于数据样本的代价分布。因此,我们提出了一个通用的三步框架,以使IDCS方法更加稳健:(i)自动检测离群值,(ii)以数据驱动的方式校正离群成本信息,以及(iii)使用调整后的成本信息构建IDCS学习方法。我们将该框架应用于cslogit,一种基于逻辑回归的IDCS方法,以获得其稳健版本,即r-cslogit。该方法的稳健性在步骤(i)和(ii)中介绍,其中我们使用稳健性估计来检测和估算单个实例的外围成本。新提出的r-cslogit方法在合成和半合成数据上进行了测试,并证明在不同噪声和离群值水平下,与非稳健方法相比,其节省的成本更高。我们的所有代码都可以在线获取,网址为https://github.com/SimonDeVos/Robust-IDCS.

MSC公司:

62J12型 广义线性模型(逻辑模型)
90B50型 管理决策,包括多个目标
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bahnsen AC、Aouada D、Ottersten B(2014)《信用评分的实例依赖性成本敏感逻辑回归》,2014年第13届机器学习和应用国际会议,第263-269页。doi:10.1109/CIMLA.2014.48
[2] 巴恩森,AC;Aouada,D。;Ottersten,B.,示例相关成本敏感决策树,Exp Sys Appl,42,19,6609-6619(2015)·doi:10.1016/j.eswa.2015.04.042
[3] 巴恩森,AC;Aouada,D。;A.斯托亚诺维奇。;Ottersten,B.,《信用卡欺诈检测的特征工程策略》,Exp Sys Appl,51,134-142(2016)·doi:10.1016/j.eswa.2015.12.030
[4] Bergesio,A。;Yohai,VJ,广义线性模型的投影估计,J Am Stat Assoc,106,494,661-671(2011)·Zbl 1232.62085号 ·doi:10.1198/jasa.2011.tm09774
[5] Bianco AM,Yohai VJ(1996)逻辑回归模型中的稳健估计。稳健统计、数据分析和计算机密集型方法,柏林施普林格,第17-34页·Zbl 0839.62030号
[6] Bondell,HD,logistic回归模型的最小距离估计,Biometrika,92,3,724-731(2005)·Zbl 1152.62324号 ·doi:10.1093/biomet/92.3.724
[7] Bondell,HD,有偏抽样模型的特征函数方法,及其在稳健logistic回归中的应用,J Stat Plann Infer,138,3,742-755(2008)·Zbl 1133.62020年 ·doi:10.1016/j.jspi.2007.01.004
[8] Brefeld U、Geibel P、Wysotzki F(2003),成本依赖于实例的支持向量机。欧洲机器学习会议,第23-34页·Zbl 1257.68121号
[9] 坎通尼,E。;Ronchetti,E.,广义线性模型的稳健推断,美国统计协会杂志,96,455,1022-1030(2001)·Zbl 1072.62610号 ·doi:10.1198/016214501753209004
[10] 卡罗尔,RJ;Pederson,S.,《关于逻辑回归模型的稳健性》,《皇家统计学会杂志:Ser B(Methodol)》,55,3,693-706(1993)·Zbl 0794.62021号
[11] Claude Sammut,GIW,《机器学习和数据挖掘百科全书》(2017),美国:斯普林格,美国·Zbl 1434.68001号 ·doi:10.1007/9781-4899-7687-1
[12] 克罗克斯,C。;Haesbroeck,G.,为逻辑回归实现bianco和yohai估计,计算统计与数据分析,44,1-2,273-295(2003)·Zbl 1429.62317号 ·doi:10.1016/S0167-9473(03)00042-2
[13] Elkan,C.,《成本敏感学习的基础》,国际联合会议,第17期,第973-978页(2001年)
[14] Fan W,Stolfo SJ,Zhang J,Chan PK(1999)Adacost:错误分类成本敏感助推。Icml,第99卷,第97-105页
[15] Ghosh,A。;Basu,A.,广义线性模型中的稳健估计:密度幂散度方法,TEST,25,2,269-290(2016)·Zbl 1342.62126号 ·doi:10.1007/s11749-015-0445-3
[16] Höppner,S。;Baesens,B。;韦贝克,W。;Verdonck,T.,《检测转移欺诈的实例依赖性成本敏感学习》,《欧洲运营研究杂志》,297,1,291-300(2022)·兹比尔1487.91169 ·doi:10.1016/j.ejor.2021.05.028
[17] 侯赛因,S。;Morgenthaler,S.,稳健二元回归,J Stat Plann Infer,141,4,1497-1509(2011)·Zbl 1204.62065号 ·doi:10.1016/j.jspi.2010.11.015
[18] Huber PJ(1964)位置参数的稳健估计。《数学统计年鉴》,35(1),73-101。检索自http://www.jstor.org/stable/2238020 ·Zbl 0136.39805号
[19] PJ Huber;Ronchetti,E.,《稳健统计》,第2期(2009年),霍博肯:威利·Zbl 1276.62022号 ·doi:10.1002/9780470434697
[20] 昆施,人力资源;路易斯安那州斯特凡斯基;Carroll,RJ,《一般回归模型中的条件无偏有界影响估计及其在广义线性模型中的应用》,美国统计协会杂志,84,406,460-466(1989)·Zbl 0679.62024号
[21] 莱斯曼,S。;Haupt,J。;库塞门特,K。;KW De Bock,《以盈利为目标的客户:支持营销决策的集成学习框架》,《信息科学》,557,286-301(2021)·doi:10.1016/j.ins.2019.05.027
[22] 玛丽娜,RA;马丁,RD;尤海,VJ;Salibián-Barrera,M.,《稳健统计:理论和方法(与r)》(2019年),霍布罗肯:威利·Zbl 1409.62009号
[23] 蒙蒂,GS;Filzmoser,P.,微生物组分数据的稳健逻辑零和回归,高级数据分析分类,16,2,301-324(2021)·Zbl 07597418号 ·doi:10.1007/s11634-021-00465-4
[24] Morgenthaler,S.,《最小绝对偏差适用于广义线性模型》,Biometrika,79,4,747-754(1992)·Zbl 0850.62562号 ·doi:10.1093/biomet/79.4.747
[25] 彼得里德斯,G。;摩尔多瓦,D。;科宁,L。;枪,T。;韦贝克,W.,《利润驱动信用评分的成本敏感学习》,《运营研究社会杂志》,73,2,338-350(2022)·网址:10.1080/01605682.200.1843975
[26] 彼得里德斯,G。;Verbeke,W.,成本敏感的集成学习:一个统一的框架,Data Min Knoll Discov,36,1,1-28(2022)·Zbl 1494.68227号 ·网址:10.1007/s10618-021-00790-4
[27] 罗素,PJ;Hubert,M.,《离群值检测的稳健统计》,威利Interdiscip:Rev Data Min Knowl Discov,1,1,73-79(2011)
[28] 罗素,PJ;Leroy,AM,稳健回归和离群值检测(1987),霍布罗肯:威利·Zbl 0711.62030号 ·doi:10.1002/0471725382
[29] 萨欣,Y。;Bulkan,S。;Duman,E.,用于欺诈检测的成本敏感决策树方法,Exp Sys Appl,40,15,5916-5923(2013)·doi:10.1016/j.eswa.2013.05.021
[30] Štefelová,N。;Alfons,A。;Palarea-Albaladejo,J。;Filzmoser,P。;Hron,K.,含有成分协变量(包括细胞异常值)的稳健回归,高级数据分析分类,15,4,869-909(2021)·Zbl 07538933号 ·doi:10.1007/s11634-021-00436-9
[31] Thai-Nghe N,Gantner Z,Schmidt-Thieme L(2010),不平衡数据的成本敏感学习方法。2010年国际神经网络联合会议(IJCNN)p1-8.doi:10.1109/IJCNN.2010.5596486
[32] ULB MLG(2018)匿名信用卡交易标记为欺诈或真实。https://www.kaggle.com/mlg-ulb/信用卡欺诈
[33] 瓦尔多拉,M。;Yohai,VJ,广义线性模型的稳健估计,J Stat Plann Infer,146,31-48(2014)·Zbl 1279.62148号 ·doi:10.1016/j.jspi.2013.09.016
[34] Vanderschueren,T。;Verdonck,T。;Baesens,B。;韦贝克,W.,Predictthen-optimize还是predict-and-optimize?成本敏感学习策略的实证评估,《信息科学》,594400-415(2022)·doi:10.1016/j.ins.2022.021
[35] Verbeke W、Olaya D、Berrevoets J、Verboven S、Maldonado S(2020)《成本敏感因果分类的基础》。arXiv:2007.12582
[36] 惠特罗,C。;手,DJ;Juszczak,P。;韦斯顿,D。;Adams,NM,作为信用卡欺诈检测策略的交易聚合,Data Min Knowl Discov,18,1,30-55(2009)·数字对象标识代码:10.1007/s10618-008-0116-z
[37] Zelenkov,Y.,《示例依赖性成本敏感自适应增强》,实验系统应用,135,71-82(2019)·doi:10.1016/j.eswa.2019.06.09
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。