×

元学习研究中稳健模型选择标准的比较。 (英语) Zbl 1455.62089号

马蒂亚克(编辑)等人,《统计分析方法》。非盟驻苏丹特派团。研讨会记录,2019年9月16日至19日,捷克共和国利伯雷克。查姆:斯普林格。Springer程序。数学。《美国联邦法律大全》第329卷第125-141页(2020年)。
摘要:自动方法选择(元学习)方法允许根据在数据集训练数据库中学习到的信息,从给定数据集的几种备选方案中推荐最合适的方法(例如算法或统计估计器)。从业者已经习惯于在回归建模的背景下使用元学习,这在不同领域的各种应用中都很有用。尽管如此,以往关于回归的元学习研究都没有针对回归复杂性问题,大多数现有的回归元学习研究均将标准均方误差视为预测误差度量。本文提出了一项元学习研究,旨在比较回归任务的不同方法选择标准。在31个训练数据集上构造了一个预测规则,推荐最佳回归估计量(可能稳健)。这些是公开的数据集,在这些数据集中,线性模型被仔细检查是否合适。如果最佳估计器的选择是基于Akaike信息准则的稳健版本,特别是从MM-估计器导出的版本,则可以获得分类精度最高的结果。这项工作还提倡隐式加权稳健预测均方误差。
有关整个系列,请参见[Zbl 1451.62005年].

MSC公司:

62克08 非参数回归和分位数回归
62G35型 非参数稳健性
62J05型 线性回归;混合模型
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Akaike,H.:信息理论和最大似然原理的扩展。参见:Petrov,B.,Csaki,F.(编辑)第二届信息理论国际研讨会,第267-281页。布达佩斯,Kaido学院(1973年)·Zbl 0283.62006号
[2] Borra,S.,Di Ciaccio,A.:测量预测误差。交叉验证、bootstrap和协方差惩罚方法的比较。计算。统计师。数据分析。54, 2976-2989 (2010) ·Zbl 1284.62147号 ·doi:10.1016/j.csda.2010.03.004
[3] Braddil,P.、Giraud-Carrier,C.、Soares,C.、Villata,E.:元学习:数据挖掘的应用。柏林施普林格出版社(2009)·兹比尔1173.68625 ·doi:10.1007/978-3-540-73263-1
[4] Braddil,P.,Giraud-Carrier,C.:元学习和算法选择:进展、现状和2018年特刊简介。机器。学习。107, 1-14 (2018) ·Zbl 1386.68125号 ·doi:10.1007/s10994-017-5692-y
[5] 加利福尼亚住房数据集。https://github.com/ageron/handson-ml/tree/master/datasets/housing网站 (2019)
[6] Collins,A.,Beel,J.,Tkaczyk,D.:一次一个:微观层面上推荐算法选择的元学习推荐系统。阿希夫:1805.12118(2020)
[7] Crotti,R.,Misrahi,T.:《2015年旅游竞争力报告》。通过冲击实现增长。世界经济论坛,日内瓦(2015)
[8] Dua,D.,Graff,C.:UCI机器学习库。加州大学欧文分校。http://archive.ics.uci.edu/ml (2019)
[9] Ewald,R.:复杂模拟问题的自动算法选择。威斯巴登Vieweg+Teubner Verlag(2012)·doi:10.1007/978-3-8348-8151-9
[10] Guo,Y.,Hastie,T.,Tibshirani,R.:正则化判别分析及其在微阵列中的应用。生物统计学886-100(2007)·Zbl 1170.62382号 ·doi:10.1093/biostatistics/kxj035
[11] Güney,Y.,Tuaç,Y。,Arslan,O.:具有自回归误差项的回归模型的条件最大Lq-likelihood估计。ArXiv:1804.07600(2020)·Zbl 1436.62087号
[12] Haykin,S.O.:《神经网络和学习机器:综合基础》,第2版。Prentice Hall,Upper Saddle River(2009年)
[13] Huber,P.J.,Ronchetti,E.M.:稳健统计,第二版。威利,纽约(2009)·Zbl 1276.62022号 ·doi:10.1002/9780470434697
[14] Jurečková,J.、Picek,J.和Schindler,M.:稳健统计方法与R,第二版。博卡拉顿CRC出版社(2019年)·Zbl 1411.62003号 ·doi:10.1201/b21993年
[15] Jurečková,J.,Sen,P.K.,Picek,J.:稳健和非参数统计方法论。CRC出版社,博卡拉顿(2013)·Zbl 1281.62127号
[16] Kalina,J.:关于从高维数据中提取稳健信息。塞尔维亚人。J.管理。9, 131-144 (2014) ·doi:10.5937/sjm9-5520
[17] Kalina,J.:稳健回归诊断的三大贡献。J.应用。数学。统计信息11(2),69-78(2015)·Zbl 1334.62095号
[18] Kalina,J.:论元学习的敏感性:稳健回归的例证研究。摘自:2018年ISNPS会议记录。接受(出版中)(2020年)
[19] Kersche,P.,Hoos,H.H.,Neumann,F.,Trautmann,H.:自动算法选择:调查与展望。进化。计算。27, 3-45 (2018) ·doi:10.1162/evcoa_00242
[20] Kmenta,J.:《计量经济学要素》。麦克米伦,纽约(1986)·Zbl 0935.62129号
[21] Koenker,R.:分位数回归。剑桥大学出版社,剑桥(2005)·Zbl 1111.62037号 ·doi:10.1017/CBO9780511754098
[22] Koller,M.,Mächler,M.:Robustbase中可用的\(\psi\)-函数的定义。https://cran.r-project.org/web/packages/robustbase/vignettes网站/ (2019)
[23] Kudová,P.:通过正规化网络学习。论文论文。英国MFF,布拉格(2006)·Zbl 1133.68395号
[24] Lorena,A.C.,Maciel,A.I.,de Miranda,P.B.C.,Costa,I.G.,Prudéncio,R.B.C.:回归问题的数据复杂性元特征。机器。学习。107, 209-246 (2018) ·Zbl 1462.62392号 ·doi:10.1007/s10994-017-5681-1
[25] Luo,G.:机器学习算法和超参数值的自动选择方法综述。网络模型。分析。健康信息生物信息。5, 5-18 (2016) ·doi:10.1007/s13721-016-0112-y
[26] Maechler,M.、Rousseeuw,P.、Croux,C.、Todorov,V.、Ruckstuhl,A.、Salibián-Barrera,M.、Verbeke,T.、Koller,M.、Conceicao,E.L.T.、di Palma,M.A.:Robustbase:基本稳健统计R包版本0.92-7(2016)
[27] Maronna,R.A.,Martin,R.D.,Yohai,V.J.,Salibián-Barrera,M.:稳健统计学:理论与方法(与R一起),第二版。牛津大学威利分校(2019年)·Zbl 1409.62009号
[28] Reif,M.,Shafait,F.,Dengel,A.:分类器进化参数优化的元学习。机器。学习。87, 357-380 (2012) ·doi:10.1007/s10994-012-5286-7
[29] Ridd,P.,Giraud-Carrier,C.:使用元学习预测参数优化何时可能提高分类精度。摘自:《关于元学习和算法选择的国际会议论文集》MLAS’14,第18-23页(2014)
[30] Roelat,E.,Van Aelst,S.,Willems,G.:最小加权协方差行列式估计量。Metrika 70177-204(2009年)·Zbl 1433.62167号 ·doi:10.1007/s00184-008-0186-3
[31] Ronchetti,E.:回归中的稳健模型选择。统计概率。莱特。3, 21-23 (1985) ·doi:10.1016/0167-7152(85)90006-9
[32] Rousseeuw,P.J.,Leroy,A.M.:稳健回归和异常检测。威利,纽约(1987)·Zbl 0711.62030号 ·doi:10.1002/0471725382
[33] Rousseeuw,P.J.,van Driessen,K.:计算大型数据集的LTS回归。数据挖掘知识。Discovery 12,29-45(2006)·doi:10.1007/s10618-005-0024-4
[34] Rusiecki,A.、Kordos,M.、Kamiñski,T.、Greñ,K.:在含噪数据上训练神经网络。莱克特。注释计算。科学。8467, 131-142 (2014) ·doi:10.1007/978-3-319-07173-2_13
[35] Smucler,E.,Yohai,V.J.:线性回归模型的稳健和稀疏估计。计算。统计数据分析。111, 116-130 (2017) ·Zbl 1464.62164号 ·doi:10.1016/j.csda.2017.02.002
[36] Spaeth,H.:线性回归的数学算法。剑桥学术出版社(1991)
[37] Tharmaratnam,K.,Claeskens,G.:基于M-S和MM-估计器的AIC稳健版本的比较。统计47,216-235(2013)·Zbl 1440.62101号 ·doi:10.1080/02331888.2011.568120
[38] Vanschoren,J.:元学习。在Hutter,F.、Kotthoff,L.、Vanschoren,J.(编辑):自动机器学习。方法、系统、挑战,第2章,第35-61页。施普林格,商会(2019)
[39] Vasant,P.M.:工程、商业、经济和金融领域的元神经优化算法。IGI Global,好时(2012)
[40] 维舍克,J.á.:稳健的误差项尺度估计。IMS收集。7, 254-267 (2010)
[41] 维舍克,J.á.:异方差下最小加权平方的一致性。基辅47179-206(2011年)·Zbl 1220.62064号
[42] Wang,G.,Song,Q.,Sun,H.,Zhang,X.,Xu,B.,Zhou,Y.:一种特征子集选择算法自动推荐方法。J.阿蒂夫。智力。第47号决议,第1-34号决议(2013年)·Zbl 1276.68136号 ·doi:10.1613/jair.3831
[43] Wilcox,R.R.:稳健估计和假设检验导论,第3版。Waltham Elsevier(2012)·Zbl 1270.62051号
[44] 尤海,V·Zbl 0624.62037号 ·doi:10.1214/aos/1176350366
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。