×

非参数回归的计算方法:自举CMARS方法。 (英语) Zbl 1343.62025号

摘要:引导是一种计算机密集型统计方法,将数据集视为一个总体,并用替换从中抽取样本。这种重采样方法有着广泛的应用领域,特别是在数学难题中。在本研究中,它用于获得参数的经验分布,以确定在非参数回归的特殊情况下,参数是否具有统计显著性,即圆锥多元自适应回归样条(CMARS),这是一种统计机器学习算法。CMARS是著名的非参数回归模型多元自适应回归样条(MARS)的改进版,它使用二次曲线优化。CMARS至少与MARS一样复杂,尽管它在几个标准上表现得更好。为了在模型不太复杂的情况下获得更好的CMARS性能,在四个不同大小和规模的数据集上应用了三种不同的自举回归方法,即random-X、fixed-X和wild-bootstrap。然后,使用包括准确性、精度、复杂性、稳定性、鲁棒性和计算效率在内的各种标准来比较模型的性能。结果表明,bootstrap方法虽然计算效率较低,但能提供更精确的参数估计,尤其是对于中等规模和规模的数据集,随机X重采样能产生更好的模型。

MSC公司:

62G08号 非参数回归和分位数回归
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aldrin,M.(2006年)。改进了在可加模型中惩罚斜率和曲率的预测。计算统计与数据分析,50(2),267-284·Zbl 1431.62134号 ·doi:10.1016/j.csda.2004.08.002
[2] Aster,R.C.、Borchers,B.和Thurber,C.(2012)。参数估计和反问题。伯灵顿:学术出版社·Zbl 1273.35306号
[3] Austin,P.(2008)。使用bootstrap改进使用向后变量消除选择的回归系数的估计和置信区间。医学统计学,27(17),3286-3300·doi:10.1002/sim.3104
[4] 伊利诺伊州巴特马。,耶利卡亚·奥兹科特(Yerlikaya-zkurt,F.)、卡尔塔尔·科奇(Kartal-Koç),E.、科克萨尔(Köksal,G.)、韦伯(Weber,G.W.)(2010年)。评估CMARS对非线性建模的性能。《第三届全球电力控制和优化会议论文集》,黄金海岸(澳大利亚),第1239卷,第351-357页。
[5] 乔利克·G(2010)。圆锥二次规划广义部分线性模型的参数估计。土耳其安卡拉METU科学计算系应用数学研究生院硕士论文。
[6] Chernick,M.(2008)。Bootstrap方法:从业者和研究人员指南。纽约:Wiley·Zbl 1136.62029号
[7] Cortez,P.和Morais。,A.(2007)。使用气象数据预测森林火灾的数据挖掘方法。J.Neves,M.F.Santos,J.Machado(编辑),《人工智能的新趋势,2007年第13届EPIA会议记录——葡萄牙人工智能会议》,12月,吉马雷斯(葡萄牙),第512-523页。
[8] Deconinck,E.,Zhang,M.H.,Petitet,F.,Dubus,E.,Ijjaali,I.,Coomans,D.等人(2008年)。增强回归树、多元自适应回归样条及其与多元线性回归或偏最小二乘的两步组合预测血脑屏障通过:案例研究。《分析化学学报》,609(1),13-23·doi:10.1016/j.aca.2007.12.033
[9] Denison,D.G.T.、Mallick,B.K.和Smith,F.M.(1998)。贝叶斯MARS。统计与计算,8(4),337-346·doi:10.1023/A:1008824606259
[10] Efron,B.(1988年)。统计回归中的计算机密集型方法。工业和应用数学学会,30(3),421-449·Zbl 0661.62061号
[11] Efron,B.和Tibshirani,R.J.(1991)。计算机时代的统计数据分析。《科学》,253,390-395·doi:10.1126/science.253.5018.390
[12] Efron,B.和Tibshirani,R.J.(1993)。引导程序简介。纽约:查普曼和霍尔出版社·Zbl 0835.62038号 ·doi:10.1007/978-1-4899-4541-9
[13] Flachaire,E.(2005)。自举异方差回归模型:野自举与配对自举。计算统计与数据分析,49(2),361-376·Zbl 1429.62153号 ·doi:10.1016/j.csda.2004.05.018
[14] Fox,J.(2002)。引导回归模型。应用回归的R和S-plus伴侣:该书的Web附录。加利福尼亚州塞奇:千橡树。
[15] Freedman,D.A.(1981年)。引导回归模型。《统计年鉴》,9(6),1218-1228·Zbl 0449.62046号 ·doi:10.1214/aos/1176345638
[16] Friedman,J.(1991)。多元自适应回归样条。《统计年鉴》,19(1),1-67·Zbl 0765.62064号 ·doi:10.1214/aos/1176347963
[17] Gentle,J.E.(2009)。计算统计。纽约:斯普林格·Zbl 1179.62001号 ·doi:10.1007/978-0-387-98144-4
[18] Ghasemi,J.B.和Zolfonoun,E.(2013)。主成分分析-多元自适应回归样条在胶束介质中同时荧光光谱法测定二烷基锡中的应用。光谱化学学报A部分:分子和生物分子光谱学,115,357-363·doi:10.1016/j.saa.2013.06.054
[19] Hastie,T.、Tibshirani,R.和Friedman,J.(2001)。统计学习、数据挖掘、推理和预测的要素。纽约:斯普林格·Zbl 0973.62007号
[20] Hjorth,J.S.U.(1994年)。计算机密集型统计方法:验证模型选择和引导。纽约:查普曼和霍尔出版社·Zbl 0829.62001号
[21] C.C.Holmes和D.G.T.Denison(2003)。贝叶斯MARS分类。机器学习,50,159-173·Zbl 1048.62061号 ·doi:10.1023/A:1020254013004
[22] Kartal,E.(2007)。使用线性和非线性回归方法对复杂系统进行元建模。土耳其安卡拉METU统计系自然与应用科学研究生院硕士论文·Zbl 1416.65169号
[23] Kriner,M.(2007)。多元自适应回归样条的生存分析。慕尼黑大学数学、计算机科学与统计学院论文·Zbl 1185.62181号
[24] Lee,Y.和Wu,H.(2012)。微分方程模型全局敏感性分析的MARS方法及其在流感感染动力学中的应用。《数学生物学公报》,7473-90·Zbl 1318.92034号 ·doi:10.1007/s11538-011-9664-2
[25] Lin,C.J.、Chen,H.F.和Lee,T.S.(2011年)。利用时间序列、人工神经网络和多元自适应回归样条预测旅游需求:来自台湾的证据。《国际工商管理杂志》,2(2),14-24·doi:10.5430/ijba.v2n2p14
[26] Martinez,W.L.和Martinex,A.R.(2002年)。Matlab计算统计手册。纽约:查普曼和霍尔·Zbl 0986.62104号
[27] MATLAB 7.8.0版(2009)。数学工作,美国。
[28] Milborrow,S.(2009)。地球:多元自适应回归样条模型·Zbl 1429.62153号
[29] Montgomery,D.C.、Peck,E.A.和Vining,G.G.(2006)。线性回归分析简介。纽约:Wiley·Zbl 1229.62092号
[30] MOSEK,第6版。一个非常强大的商业软件,适用于CQP,ApS,丹麦。网址:http://www.mosek.com。2011年1月7日查阅。
[31] Osei-Byson,K.M.(2004)。决策树评估:一种多标准方法。计算机与运筹学,311933-1945·Zbl 1068.68055号 ·doi:10.1016/S0305-0548(03)00156-4
[32] 奥兹曼,A.,韦伯,G.W.,伊斯坦布尔巴特马Kropat,E.(2011)。RCMARS:多面体不确定性集下不同场景下CMARS的鲁棒性。非线性科学与数值模拟通信(CNSNS),16(12),4780-4787·Zbl 1416.65169号 ·doi:10.1016/j.cnsns.2011.04.001
[33] Salibian-Barrera,M.和Zamar,R.Z.(2002年)。引导稳健回归估计。《统计年鉴》,30(2),556-582·Zbl 1012.62028号 ·doi:10.1214/aos/1021379865
[34] Sezgin-Alp,O.S.,Büyükbebeci,E.,Iscanoglu Cekic,A.,Yerlikaya-Øzkurt,F.,Taylan,P.,&Weber,G.-W.(2011)。CMARS和GAM&CQP现代优化方法应用于国际信用违约预测。计算与应用数学杂志(JCAM),2354639-4651·Zbl 1217.91203号 ·doi:10.1016/j.cam.2010.04.039
[35] Taylan,P.,Weber,G.-W.,&Yerlikaya-Øzkurt,F.(2010年)。基于Tikhonov正则化和连续优化的多元自适应回归样条新方法。TOP(《SEIO运筹学杂志》(西班牙统计与运筹学学会),18(2),377-395·兹比尔1208.41007
[36] 韦伯,G.W.,伊利诺伊州巴特马。,Köksal,G.,Taylan,P.,&Yerlikaya-Øzkurt,F.(2012)。CMARS:通过连续优化支持的多元自适应回归样条对非参数回归的新贡献。科学与工程中的反问题,20(3),371-400·Zbl 1254.65020号 ·doi:10.1080/17415977.2011.624770
[37] Wegman,E.(1988)。计算统计学:统计理论和实践的新议程。华盛顿科学院学报,78,310-322。
[38] Yazácá,c.(2011年)。非参数回归的一种计算方法:Bootstrapping CMARS方法。土耳其安卡拉METU统计系自然与应用科学研究生院硕士论文·Zbl 1343.62025号
[39] 雅兹·科恩,c.,耶利卡亚·科特,F.,&巴特马,伊利诺伊州。(2011). 非参数回归的计算方法:Bootstrapping CMARS方法。在ERCIM’11:ERCIM W&G关于计算和统计的第四届国际会议上。英国伦敦,12月17-19日。《文摘》,第129页·Zbl 1343.62025号
[40] Yeh,I.-C.(2007)。使用二阶回归和人工神经网络对混凝土坍落度流动进行建模。《水泥与混凝土复合材料》,29(6),474-480·doi:10.1016/j.cemconcomp.2007.02.001
[41] Yerlikaya,F.(2008)。对mars非线性稳健回归和分类的新贡献及其在制造业质量控制数据挖掘中的应用。土耳其安卡拉METU科学计算系应用数学研究生院硕士论文。
[42] 耶利卡亚·奥兹科特,F.,Batmaz,Is.,&韦伯,G.-W.(2014)。圆锥多元自适应回归样条(CMARS)综述:预测数据挖掘的强大工具,将作为本书的一章出现。在D.Zilberman、A.Pinto(编辑)Springer体积建模、优化、动力学和生物经济学中,Springer数学系列丛书。
[43] Yetere-Kuršun,&A.,伊利诺伊州巴特马。(2010). 采用自举方法比较回归方法。COMPSTAT2010:第19届国际计算统计会议。法国巴黎。8月22日至27日。《文摘》,92。
[44] York,T.P.、Eaves,L.J.、Van Den Oord,E.和JC,G.(2006)。多元自适应回归样条:检测亚组间疾病风险关系差异的有效方法。医学统计学,25(8),1355-1367·doi:10.1002/sim.2292
[45] Zakeri,I.F.、Adolph,A.L.、Puyau,M.R.、Vohra,F.A.和Butte,N.F.(2010年)。儿童和青少年能量消耗预测的多元自适应回归样条模型。应用物理学杂志,108128-136。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。