文件Zbl 1524.68294-zbMATH Open

非平衡回归和极值预测。（英语） Zbl 1524.68294号

机器。学习。 109，编号9-10，1803-1835（2020）。

摘要：不平衡领域学习的研究几乎完全集中于解决分类任务，以准确预测标有罕见类的案例。由于两个主要因素，在回归任务中解决此类问题的方法仍然很少。首先，标准回归任务假设每个域值同等重要。其次，标准评估指标侧重于评估模型在数据分布最常见值上的性能。在本文中，我们提出了一种处理不平衡回归任务的方法，其目标是预测极端（罕见）值。我们提出了一种方法来正式化这些任务并优化/评估预测模型，克服了相关工作中提到的因素和问题。我们提出一种自动的非参数方法来获得相关函数，建立在相关性概念的基础上，将目标值映射为非一致领域偏好。那么，我们建议SERA公司这是一种新的评估指标，能够评估有效性，优化模型以预测极值，同时惩罚严重的模型偏差。一项实验研究表明SERA公司为不平衡回归任务中模型的性能提供了有效且有用的见解。

引用于2文件

MSC公司：

68T05型	人工智能中的学习和自适应系统
62克08	非参数回归和分位数回归
62G32型	极值统计；尾部推断

关键词：

监督学习;非平衡领域学习;不平衡回归;极值预测

软件：

知识产权保护;地球;R（右）;护林员;e1071号;时空;r零件;L2P公司;自动打包;SMAC公司;超波段;个人电脑

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Aggarwal，CC，离群值分析（2013），柏林：施普林格，柏林·Zbl 1291.68004号
[2]	O.阿基利奇。；博兹多安，H。；Balaban，ME，作为预测者的新型混合RBF神经网络模型，统计与计算，24，3，365-375（2014）·Zbl 1325.62193号
[3]	Aldrin，M.，《加法模型中惩罚斜率和曲率的改进预测》，计算统计与数据分析，50，2，267-284（2006）·Zbl 1431.62134号
[4]	奥尔德林，M。；Haff，IH，空气污染、交通量和气象学的广义加性模型，大气环境，39，11，2145-2155（2005）
[5]	巴克，PM；McDougall，TJ，《使用多旋转分段三次hermite插值多项式的两种插值方法》，《大气与海洋技术杂志》，37，4，605-619（2020）
[6]	巴苏，K。；Mariani，M。；塞尔帕，L。；Sinha，R.，《插值函数拟合地震时间序列能力的评估》，《数学》，3，3，666-689（2015）·Zbl 1331.86014号
[7]	Benavoli，A.、Mangili，F.、Corani，G.、Zaffalon，M.和Ruggeri，F.（2014）。基于Dirichlet过程的Bayesian Wilcoxon签名秩检验。机器学习国际会议第31届国际会议论文集，ICML’14（第32卷，第II-1026-II-1034页），JMLR.org。
[8]	Benavoli，A。；Corani，G。；德姆沙尔，J。；Zaffalon，M.，《改变的时间：通过贝叶斯分析比较多个分类器的教程》，《机器学习研究杂志》，18，1，2653-2688（2017）·Zbl 1440.62237号
[9]	Bi，J.和Bennett，K.P.（2003）。回归误差特征曲线。在第20届机器学习国际会议论文集（第43-50页）。D类
[10]	Branco，P。；托戈，L。；Ribeiro，RP，不平衡领域预测建模调查，ACM计算调查，49，2，31:1-31:50（2016）
[11]	Branco，P。；托戈，L。；Ribeiro，RP，回归中不平衡分布的预处理方法，神经计算，343，76-99（2019）
[12]	Braddil，P。；Giraud Carrier，C.公司。；苏亚雷斯，C。；Villata，R.，《元学习：数据挖掘应用》（2008），柏林：施普林格出版社，柏林·Zbl 1173.68625号
[13]	布莱斯，G。；休伯特，M。；Struyf，A.，《偏度的稳健度量》，《计算与图形统计杂志》，1996-1017年，第13期，第4期（2004年）
[14]	凯恩，M。；Janssen，C.，不对称损失下的房地产价格预测，统计数学研究所年鉴，47，3，401-414（1995）
[15]	V·钱多拉。；Banerjee，A。；Kumar，V.，《异常检测：一项调查》，ACM Computing Surveys，41，3，1541882（2009）
[16]	Christoffersen，PF；Diebold，FX，《不对称损失下预测和模型选择的进一步结果》，《应用计量经济学杂志》，11，5，561-571（1996）
[17]	Christoffersen，PF；Diebold，FX，不对称损失下的最优预测，计量经济学理论，13，6，808-817（1997）
[18]	克利夫兰，WS；Grosse，E。；Shyu，WM，局部回归模型（1992），贝尔蒙特：华兹华斯和布鲁克斯/科尔
[19]	Crone，S.F.、Lessmann，S.和Stahlbock，R.（2005）。用于时间序列分析的基于效用的数据挖掘：神经网络预测器的成本敏感学习。在第一届基于效用的数据挖掘国际研讨会的会议记录中。（第59-68页）。ACM公司。
[20]	丁·D、张·M、潘·X、杨·M和何·X（2019）。在时间序列预测中建模极端事件。第25届ACM SIGKDD会议记录（第1114-1122页）。ACM公司。
[21]	多尔蒂，RL；Edelman，A。；Hyman，JM，非负性、单调性或保凸三次和五次Hermite插值，计算数学，52，186，471-494（1989）·Zbl 0693.41004号
[22]	Drucker，H.、Burges，C.J.C.、Kaufman，L.、Smola，A.和Vapnik，V.（1996）。支持向量回归机。《第九届神经信息处理系统国际会议论文集》，NIPS’96（第155-161页），麻省理工学院出版社。
[23]	Fawcett，T.和Provost，F.（1999）。活动监控：注意行为中有趣的变化。第五届ACM SIGKDD会议记录，KDD’99（第53-62页）。ACM公司。
[24]	费尔南德斯，A。；南卡罗来纳州加西亚。；加拉尔，M。；普拉蒂，RC；克劳奇克，B。；Herrera，F.，《从不平衡数据集中学习》（2018年），柏林：施普林格出版社，柏林
[25]	弗里梅特奥。（2017年）。http://freemeteo.com.pt/。2017年3月30日查阅。
[26]	Fritsch，FN；Carlson，RE，单调分段三次插值，SIAM数值分析杂志，17，238-246（1980）·Zbl 0423.65011号
[27]	Geman，S。；Bienenstock，E。；Doursat，R.，《神经网络与偏差/方差困境》，神经计算，4，1，1-58（1992）
[28]	Giraud-Carrier，C.（2005年）。数据挖掘顾问：为从业者服务的元学习。第四届机器学习和应用国际会议论文集，ICMLA'05（第113-119页）。美国IEEE计算机学会10.1109/ICMLA.2005.65。
[29]	古德温，P。；Wright，G.，预测方法在预测罕见事件中的局限性，《技术预测与社会变革》，77，3，355-368（2010）
[30]	Granger，CW，使用广义成本函数的预测理论概述，《西班牙经济评论》，1，2，161-173（1999）
[31]	Hald，AA，《1750年至1930年的数学统计史》（1998），纽约：威利，纽约·Zbl 0979.01012号
[32]	He，X.，Zhao，K.，&Chu，X.（2019）。Automl：最先进技术的调查。1908.00709。
[33]	He，H。；Ma，Y.，《非平衡学习：基础、算法和应用》（2013），纽约：Wiley-IEEE出版社，纽约·Zbl 1272.68022号
[34]	Hernández-Orallo，J.，回归的Roc曲线，模式识别，46，12，3395-3411（2013）·Zbl 1326.62138号
[35]	Herrera，M。；托戈，L。；伊兹基尔多，J。；Pérez-García，R.，《城市小时需水量预测模型》，《水文学杂志》，387141-150（2010）
[36]	Hoaglin，DC；Mosteller，F。；Tukey，JW，《理解稳健和探索性数据分析》（1983），纽约：威利，纽约·Zbl 0599.62007号
[37]	霍奇，V。；Austin，J.，《异常值检测方法的调查》，《人工智能评论》，22，2，85-126（2004）·Zbl 1101.68023号
[38]	休伯特，M。；Vandervieren，E.，《倾斜分布的调整箱线图》，计算统计与数据分析，52，12，5186-5201（2008）·Zbl 1452.62074号
[39]	Hutter，F.、Hoos，H.H.和Leyton-Brown，K.（2011年）。基于序列模型的通用算法配置优化。在第五届学习与智能优化国际会议论文集，LION'05（第507-523页）。施普林格，柏林，海德堡。10.1007/978-3-642-25566-3_40。
[40]	Koprinska，I.、Rana，M.和Agelidis，V.（2011年）。电力负荷预测的年度和季节模型。在IJCNN会议记录中（第1474-1481页）。
[41]	Krawczyk，B.，《从不平衡数据中学习：开放的挑战和未来的方向》，《人工智能进展》，5，4，221-232（2016）
[42]	Kruschke，JK，《做贝叶斯数据分析》（2015），波士顿：学术出版社，波士顿
[43]	Kruschke，JK；Liddell，TM，《贝叶斯新统计：两种历史趋势的融合》（The Bayesian new statistics:Two historical trends convergence）（2015），纽约：SSRN eLibrary，纽约
[44]	Kruschke，JK；Liddell，TM，《贝叶斯新统计：从贝叶斯的角度进行假设检验、估计、元分析和功效分析》，《心理学通报与评论》，2017年，1-29（2017）
[45]	Lee，T.H.（2007）。时间序列预测中的损失函数。国际社会科学百科全书。
[46]	李，L。；杰米森，K。；DeSalvo，G。；Rostamizadeh，A。；Talwalkar，A.，《超波段：基于盗贼的超参数优化新方法》，《机器学习研究杂志》，18，1，6765-6816（2017）·Zbl 1468.68204号
[47]	洛佩兹，V。；费尔南德斯，A。；南卡罗来纳州加西亚。；帕拉德五世。；Herrera，F.，《对不平衡数据分类的洞察：使用数据内在特征的实证结果和当前趋势》，《信息科学》，250，113-141（2013）
[48]	Meyer，D.、Dimitriadou，E.、Hornik，K.、Weingessel，A.和Leisch，F.（2019年）。e1071：TU Wien概率论小组统计部其他职能部门（原名：e1071）。R包装v1.7-0.1。
[49]	Milborrow，S.（2019年）。地球：多元自适应回归样条。R包v4.7.0。
[50]	Moniz，N.、Ribeiro，R.、Cerqueira，V.和Chawla，N.（2018年）。Smoteboost回归：改进极值预测。2018年IEEE第五届数据科学和高级分析国际会议（DSAA）（第150-159页）。
[51]	莫尼兹，N。；Branco，P。；Torgo，L.，《不平衡时间序列预测的重采样策略》，国际数据科学与分析杂志，3，3，161-181（2017）
[52]	莫尼兹，N。；托戈，L。；艾里纳基，M。；Branco，P.，《缺乏社会反馈的高度流行新闻推荐框架》，《新一代计算》，35，4，417-450（2017）
[53]	组织，W.H.（2005）。世界卫生组织关于颗粒物、臭氧、二氧化氮和二氧化硫的空气质量指南。
[54]	Pebesma，E.，时空：r中的时空数据，《统计软件杂志》，文章，51，7，1-30（2012）
[55]	Peters，A.和Hothorn，T.（2018年）。ipred：改进的预测器。R包v0.9-8。
[56]	Phillips，G.（2003）。多项式插值和逼近。CMS数学书籍。施普林格，https://books.google.pt/books？id=87vciTxMcF8C。 ·Zbl 1023.41002号
[57]	Pinto，F.、Cerqueira，V.、Soares，C.和Mendes-Moreira，J.（2017年）。自动装袋：学习将装袋工作流与元学习进行排序。1706.09367.
[58]	R核心团队（2017）。R：统计计算语言和环境。R统计计算基础。
[59]	Ribeiro，R.P.（2011）。基于效用的回归。波尔图大学科学学院计算机科学系博士论文。
[60]	Rijsbergen，CJV，信息检索（1979），牛津：Butterworth-Heinemann，牛津
[61]	罗伊斯顿，P。；奥尔特曼，DG；Sauerbrei，W.，《多元回归中的二分连续预测因子：一个坏主意》，《医学统计学》，25，1，127-141（2006）
[62]	Siffer，A.、Fouque，P.A.、Termier，A.和Largouet，C.（2017年）。基于极值理论的流异常检测。第23届ACM SIGKDD会议记录，KDD’17（第1067-1075页）。ACM公司。
[63]	Therneau，T.和Atkinson，B.（2018年）。rpart：递归分区和回归树。R包v4.1-12。
[64]	Torgo，L.（2005）。回归误差特征曲面。第十一届ACM SIGKDD会议记录，KDD’05（第697-702页）。ACM公司。
[65]	Torgo，L.和Ribeiro，R.（2007年）。基于效用的回归。《第11届欧洲数据库知识发现原则与实践会议论文集》，PKDD（第597-604页）。施普林格柏林海德堡。
[66]	托戈，L。；Branco，P。；里贝罗，RP；Pfahringer，B.，回归重采样策略，专家系统，32，3，465-476（2013）
[67]	Tukey，JW，探索性数据分析（1970），阅读：Addison-Wesley，阅读
[68]	Wang，X.、Varol，O.和Eliassi-Rad，T.（2019年）。L2P：一种用于估计重尾结果的算法。CoRR绝对值/1908.04628。
[69]	Wickham，H.和Stryjewski，L.（2012）。40年的箱线图。技术代表，had.co.nz。
[70]	Wilcox，RR，《比较两个独立组的平均值》，《生物医学杂志》，32，7，771-780（1990）
[71]	Wilcox，R.，稳健估计和假设检验简介。统计建模与决策科学（2005），阿姆斯特丹：Elsevier science，阿姆斯特朗·Zbl 1113.62036号
[72]	明尼苏达州赖特；Ziegler，A.，ranger：C++和R中高维数据随机森林的快速实现，统计软件杂志，77，1，1-17（2017）
[73]	Zellner，A.，使用不对称损失函数的贝叶斯估计和预测，美国统计协会杂志，81，394，446-451（1986）·Zbl 0603.62037号
[74]	Zheng，Y.、Liu，F.和Hsieh，H.P.（2013）。U-Air：当城市空气质量推断遇到大数据时。第19届ACM SIGKDD会议记录（第1436-1444页）。ACM公司。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

非平衡回归和极值预测。（英语） Zbl 1524.68294号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

非平衡回归和极值预测。 （英语） Zbl 1524.68294号

MSC公司：

关键词：

软件：

参考文献：

非平衡回归和极值预测。（英语） Zbl 1524.68294号