×

非平衡回归和极值预测。 (英语) Zbl 1524.68294号

摘要:不平衡领域学习的研究几乎完全集中于解决分类任务,以准确预测标有罕见类的案例。由于两个主要因素,在回归任务中解决此类问题的方法仍然很少。首先,标准回归任务假设每个域值同等重要。其次,标准评估指标侧重于评估模型在数据分布最常见值上的性能。在本文中,我们提出了一种处理不平衡回归任务的方法,其目标是预测极端(罕见)值。我们提出了一种方法来正式化这些任务并优化/评估预测模型,克服了相关工作中提到的因素和问题。我们提出一种自动的非参数方法来获得相关函数,建立在相关性概念的基础上,将目标值映射为非一致领域偏好。那么,我们建议SERA公司这是一种新的评估指标,能够评估有效性,优化模型以预测极值,同时惩罚严重的模型偏差。一项实验研究表明SERA公司为不平衡回归任务中模型的性能提供了有效且有用的见解。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62克08 非参数回归和分位数回归
62G32型 极值统计;尾部推断
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal,CC,离群值分析(2013),柏林:施普林格,柏林·Zbl 1291.68004号
[2] O.阿基利奇。;博兹多安,H。;Balaban,ME,作为预测者的新型混合RBF神经网络模型,统计与计算,24,3,365-375(2014)·Zbl 1325.62193号
[3] Aldrin,M.,《加法模型中惩罚斜率和曲率的改进预测》,计算统计与数据分析,50,2,267-284(2006)·Zbl 1431.62134号
[4] 奥尔德林,M。;Haff,IH,空气污染、交通量和气象学的广义加性模型,大气环境,39,11,2145-2155(2005)
[5] 巴克,PM;McDougall,TJ,《使用多旋转分段三次hermite插值多项式的两种插值方法》,《大气与海洋技术杂志》,37,4,605-619(2020)
[6] 巴苏,K。;Mariani,M。;塞尔帕,L。;Sinha,R.,《插值函数拟合地震时间序列能力的评估》,《数学》,3,3,666-689(2015)·Zbl 1331.86014号
[7] Benavoli,A.、Mangili,F.、Corani,G.、Zaffalon,M.和Ruggeri,F.(2014)。基于Dirichlet过程的Bayesian Wilcoxon签名秩检验。机器学习国际会议第31届国际会议论文集,ICML’14(第32卷,第II-1026-II-1034页),JMLR.org。
[8] Benavoli,A。;Corani,G。;德姆沙尔,J。;Zaffalon,M.,《改变的时间:通过贝叶斯分析比较多个分类器的教程》,《机器学习研究杂志》,18,1,2653-2688(2017)·Zbl 1440.62237号
[9] Bi,J.和Bennett,K.P.(2003)。回归误差特征曲线。在第20届机器学习国际会议论文集(第43-50页)。D类
[10] Branco,P。;托戈,L。;Ribeiro,RP,不平衡领域预测建模调查,ACM计算调查,49,2,31:1-31:50(2016)
[11] Branco,P。;托戈,L。;Ribeiro,RP,回归中不平衡分布的预处理方法,神经计算,343,76-99(2019)
[12] Braddil,P。;Giraud Carrier,C.公司。;苏亚雷斯,C。;Villata,R.,《元学习:数据挖掘应用》(2008),柏林:施普林格出版社,柏林·Zbl 1173.68625号
[13] 布莱斯,G。;休伯特,M。;Struyf,A.,《偏度的稳健度量》,《计算与图形统计杂志》,1996-1017年,第13期,第4期(2004年)
[14] 凯恩,M。;Janssen,C.,不对称损失下的房地产价格预测,统计数学研究所年鉴,47,3,401-414(1995)
[15] V·钱多拉。;Banerjee,A。;Kumar,V.,《异常检测:一项调查》,ACM Computing Surveys,41,3,1541882(2009)
[16] Christoffersen,PF;Diebold,FX,《不对称损失下预测和模型选择的进一步结果》,《应用计量经济学杂志》,11,5,561-571(1996)
[17] Christoffersen,PF;Diebold,FX,不对称损失下的最优预测,计量经济学理论,13,6,808-817(1997)
[18] 克利夫兰,WS;Grosse,E。;Shyu,WM,局部回归模型(1992),贝尔蒙特:华兹华斯和布鲁克斯/科尔
[19] Crone,S.F.、Lessmann,S.和Stahlbock,R.(2005)。用于时间序列分析的基于效用的数据挖掘:神经网络预测器的成本敏感学习。在第一届基于效用的数据挖掘国际研讨会的会议记录中。(第59-68页)。ACM公司。
[20] 丁·D、张·M、潘·X、杨·M和何·X(2019)。在时间序列预测中建模极端事件。第25届ACM SIGKDD会议记录(第1114-1122页)。ACM公司。
[21] 多尔蒂,RL;Edelman,A。;Hyman,JM,非负性、单调性或保凸三次和五次Hermite插值,计算数学,52,186,471-494(1989)·Zbl 0693.41004号
[22] Drucker,H.、Burges,C.J.C.、Kaufman,L.、Smola,A.和Vapnik,V.(1996)。支持向量回归机。《第九届神经信息处理系统国际会议论文集》,NIPS’96(第155-161页),麻省理工学院出版社。
[23] Fawcett,T.和Provost,F.(1999)。活动监控:注意行为中有趣的变化。第五届ACM SIGKDD会议记录,KDD’99(第53-62页)。ACM公司。
[24] 费尔南德斯,A。;南卡罗来纳州加西亚。;加拉尔,M。;普拉蒂,RC;克劳奇克,B。;Herrera,F.,《从不平衡数据集中学习》(2018年),柏林:施普林格出版社,柏林
[25] 弗里梅特奥。(2017年)。http://freemeteo.com.pt/。2017年3月30日查阅。
[26] Fritsch,FN;Carlson,RE,单调分段三次插值,SIAM数值分析杂志,17,238-246(1980)·Zbl 0423.65011号
[27] Geman,S。;Bienenstock,E。;Doursat,R.,《神经网络与偏差/方差困境》,神经计算,4,1,1-58(1992)
[28] Giraud-Carrier,C.(2005年)。数据挖掘顾问:为从业者服务的元学习。第四届机器学习和应用国际会议论文集,ICMLA'05(第113-119页)。美国IEEE计算机学会10.1109/ICMLA.2005.65。
[29] 古德温,P。;Wright,G.,预测方法在预测罕见事件中的局限性,《技术预测与社会变革》,77,3,355-368(2010)
[30] Granger,CW,使用广义成本函数的预测理论概述,《西班牙经济评论》,1,2,161-173(1999)
[31] Hald,AA,《1750年至1930年的数学统计史》(1998),纽约:威利,纽约·Zbl 0979.01012号
[32] He,X.,Zhao,K.,&Chu,X.(2019)。Automl:最先进技术的调查。1908.00709。
[33] He,H。;Ma,Y.,《非平衡学习:基础、算法和应用》(2013),纽约:Wiley-IEEE出版社,纽约·Zbl 1272.68022号
[34] Hernández-Orallo,J.,回归的Roc曲线,模式识别,46,12,3395-3411(2013)·Zbl 1326.62138号
[35] Herrera,M。;托戈,L。;伊兹基尔多,J。;Pérez-García,R.,《城市小时需水量预测模型》,《水文学杂志》,387141-150(2010)
[36] Hoaglin,DC;Mosteller,F。;Tukey,JW,《理解稳健和探索性数据分析》(1983),纽约:威利,纽约·Zbl 0599.62007号
[37] 霍奇,V。;Austin,J.,《异常值检测方法的调查》,《人工智能评论》,22,2,85-126(2004)·Zbl 1101.68023号
[38] 休伯特,M。;Vandervieren,E.,《倾斜分布的调整箱线图》,计算统计与数据分析,52,12,5186-5201(2008)·Zbl 1452.62074号
[39] Hutter,F.、Hoos,H.H.和Leyton-Brown,K.(2011年)。基于序列模型的通用算法配置优化。在第五届学习与智能优化国际会议论文集,LION'05(第507-523页)。施普林格,柏林,海德堡。10.1007/978-3-642-25566-3_40。
[40] Koprinska,I.、Rana,M.和Agelidis,V.(2011年)。电力负荷预测的年度和季节模型。在IJCNN会议记录中(第1474-1481页)。
[41] Krawczyk,B.,《从不平衡数据中学习:开放的挑战和未来的方向》,《人工智能进展》,5,4,221-232(2016)
[42] Kruschke,JK,《做贝叶斯数据分析》(2015),波士顿:学术出版社,波士顿
[43] Kruschke,JK;Liddell,TM,《贝叶斯新统计:两种历史趋势的融合》(The Bayesian new statistics:Two historical trends convergence)(2015),纽约:SSRN eLibrary,纽约
[44] Kruschke,JK;Liddell,TM,《贝叶斯新统计:从贝叶斯的角度进行假设检验、估计、元分析和功效分析》,《心理学通报与评论》,2017年,1-29(2017)
[45] Lee,T.H.(2007)。时间序列预测中的损失函数。国际社会科学百科全书。
[46] 李,L。;杰米森,K。;DeSalvo,G。;Rostamizadeh,A。;Talwalkar,A.,《超波段:基于盗贼的超参数优化新方法》,《机器学习研究杂志》,18,1,6765-6816(2017)·Zbl 1468.68204号
[47] 洛佩兹,V。;费尔南德斯,A。;南卡罗来纳州加西亚。;帕拉德五世。;Herrera,F.,《对不平衡数据分类的洞察:使用数据内在特征的实证结果和当前趋势》,《信息科学》,250,113-141(2013)
[48] Meyer,D.、Dimitriadou,E.、Hornik,K.、Weingessel,A.和Leisch,F.(2019年)。e1071:TU Wien概率论小组统计部其他职能部门(原名:e1071)。R包装v1.7-0.1。
[49] Milborrow,S.(2019年)。地球:多元自适应回归样条。R包v4.7.0。
[50] Moniz,N.、Ribeiro,R.、Cerqueira,V.和Chawla,N.(2018年)。Smoteboost回归:改进极值预测。2018年IEEE第五届数据科学和高级分析国际会议(DSAA)(第150-159页)。
[51] 莫尼兹,N。;Branco,P。;Torgo,L.,《不平衡时间序列预测的重采样策略》,国际数据科学与分析杂志,3,3,161-181(2017)
[52] 莫尼兹,N。;托戈,L。;艾里纳基,M。;Branco,P.,《缺乏社会反馈的高度流行新闻推荐框架》,《新一代计算》,35,4,417-450(2017)
[53] 组织,W.H.(2005)。世界卫生组织关于颗粒物、臭氧、二氧化氮和二氧化硫的空气质量指南。
[54] Pebesma,E.,时空:r中的时空数据,《统计软件杂志》,文章,51,7,1-30(2012)
[55] Peters,A.和Hothorn,T.(2018年)。ipred:改进的预测器。R包v0.9-8。
[56] Phillips,G.(2003)。多项式插值和逼近。CMS数学书籍。施普林格,https://books.google.pt/books?id=87vciTxMcF8C。 ·Zbl 1023.41002号
[57] Pinto,F.、Cerqueira,V.、Soares,C.和Mendes-Moreira,J.(2017年)。自动装袋:学习将装袋工作流与元学习进行排序。1706.09367.
[58] R核心团队(2017)。R: 统计计算语言和环境。R统计计算基础。
[59] Ribeiro,R.P.(2011)。基于效用的回归。波尔图大学科学学院计算机科学系博士论文。
[60] Rijsbergen,CJV,信息检索(1979),牛津:Butterworth-Heinemann,牛津
[61] 罗伊斯顿,P。;奥尔特曼,DG;Sauerbrei,W.,《多元回归中的二分连续预测因子:一个坏主意》,《医学统计学》,25,1,127-141(2006)
[62] Siffer,A.、Fouque,P.A.、Termier,A.和Largouet,C.(2017年)。基于极值理论的流异常检测。第23届ACM SIGKDD会议记录,KDD’17(第1067-1075页)。ACM公司。
[63] Therneau,T.和Atkinson,B.(2018年)。rpart:递归分区和回归树。R包v4.1-12。
[64] Torgo,L.(2005)。回归误差特征曲面。第十一届ACM SIGKDD会议记录,KDD’05(第697-702页)。ACM公司。
[65] Torgo,L.和Ribeiro,R.(2007年)。基于效用的回归。《第11届欧洲数据库知识发现原则与实践会议论文集》,PKDD(第597-604页)。施普林格柏林海德堡。
[66] 托戈,L。;Branco,P。;里贝罗,RP;Pfahringer,B.,回归重采样策略,专家系统,32,3,465-476(2013)
[67] Tukey,JW,探索性数据分析(1970),阅读:Addison-Wesley,阅读
[68] Wang,X.、Varol,O.和Eliassi-Rad,T.(2019年)。L2P:一种用于估计重尾结果的算法。CoRR绝对值/1908.04628。
[69] Wickham,H.和Stryjewski,L.(2012)。40年的箱线图。技术代表,had.co.nz。
[70] Wilcox,RR,《比较两个独立组的平均值》,《生物医学杂志》,32,7,771-780(1990)
[71] Wilcox,R.,稳健估计和假设检验简介。统计建模与决策科学(2005),阿姆斯特丹:Elsevier science,阿姆斯特朗·Zbl 1113.62036号
[72] 明尼苏达州赖特;Ziegler,A.,ranger:C++和R中高维数据随机森林的快速实现,统计软件杂志,77,1,1-17(2017)
[73] Zellner,A.,使用不对称损失函数的贝叶斯估计和预测,美国统计协会杂志,81,394,446-451(1986)·Zbl 0603.62037号
[74] Zheng,Y.、Liu,F.和Hsieh,H.P.(2013)。U-Air:当城市空气质量推断遇到大数据时。第19届ACM SIGKDD会议记录(第1436-1444页)。ACM公司。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。