×

使用信息复杂性作为适应度函数的多元自适应回归样条(MARS)中的模型选择。 (英语) Zbl 1383.62115号

摘要:本文引入了多元自适应回归样条(MARS)模型选择的信息理论复杂性度量(ICOMP)准则,以在模型与数据的拟合程度和模型复杂性之间进行有效权衡。众所周知,MARS是一种流行的非参数回归技术,利用分段线性或三次样条函数作为基函数,用于研究响应变量和预测因子集之间的非线性关系。在MARS策略期间确定非参数回归模型形式的一个关键方面是评估子模型组合,以选择在预测子集上具有适当节点数的最佳子模型。在通常的回归建模中,当模型中存在大量预测变量,并且没有关于变量之间精确函数关系的精确信息时,许多模型选择标准仍然超出模型。在本文中,为了找到最简单的模型来平衡模型的过拟合和欠拟合,提出了ICOMP作为MARS建模的强大模型选择准则。这里,模型复杂性是根据参数估计的相互依赖性以及模型中自由参数的数量来处理的。我们开发并研究了ICOMP的性能以及几种最流行的模型选择标准,如Akaike的信息标准、Schwarz的贝叶斯信息标准和MARS建模中的广义交叉验证,以选择最佳子集模型。我们提供了两个蒙特卡罗模拟示例和一个实际的基准示例,以证明所提出的模型选择方法的实用性和通用性,从而确定预测模型的最佳函数形式。我们的数值示例表明,ICOMP提供了一个通用的模型选择标准,它可以洞察所选模型中参数估计之间的相互依赖性和/或相关性结构。这种新方法也适用于许多复杂的统计建模问题。

MSC公司:

62G08号 非参数回归和分位数回归
62J07型 岭回归;收缩估计器(拉索)
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Akaike,H.(1973)。信息论和最大似然原理的推广。B.Petrox,F.Csaki(编辑),第二届信息理论国际研讨会(第267-281页)。布达佩斯Kiado学院·Zbl 0283.62006号
[2] Akaike,H.(1974年)。统计识别模型的新视角。IEEE,19,716-723·Zbl 0314.62039号
[3] Akaike,H.(1979年)。最小AIC过程的贝叶斯分析。统计数学研究所年鉴,30,9-14·Zbl 0441.62007号 ·doi:10.1007/BF02480194
[4] Amemiya,T.(1980)。回归变量的选择。《国际经济评论》,21,331-354·兹比尔0467.62057 ·doi:10.2307/2526185
[5] Barron,A.R.和Xiao,X.(1991)。讨论:多元自适应回归样条。《统计年鉴》,第19期,第67-82页·doi:10.1214/aos/1176347964
[6] Bozdogan,H.(1987)。模型选择和akaike的信息准则:一般理论及其分析扩展。《心理测量学》,52,345-370·兹比尔0627.62005 ·doi:10.1007/BF02294361
[7] 博兹多安,H。;Bock,H.(编辑),《Icomp:新模型选择标准》(1988年),荷兰阿姆斯特丹·Zbl 0729.62551号
[8] Bozdogan,H.(1990年)。协方差复杂性的信息度量及其在多元线性模型评估中的应用。《统计学、理论和方法的传播》,第19期,第221-278页·Zbl 0900.62041号 ·doi:10.1080/03610929008830199
[9] Bozdogan,H.(1994)。使用模型选择标准和新的复杂性信息度量的混合模型聚类分析,第2卷。H.Bozdogan(编辑)《第一届美日统计建模前沿会议论文集:信息方法》(第69-113页)。荷兰多德雷赫特:Kluwer学术出版社。
[10] Bozdogan,H.(2000)。Akaike的信息标准和信息复杂性的最新发展。数学心理学杂志,44,62-91·Zbl 1047.62501号 ·doi:10.1006/jmps.1999.1277
[11] 博兹多安,H。;Bozdogan,H.(编辑),《具有信息复杂性和遗传算法的智能统计数据挖掘》(2004),佛罗里达州博卡拉顿
[12] Bozdogan,H.(2010)。一种新的信息复杂性(ICOMP)标准,用于客户分析和细分。伊斯坦布尔大学学院和工商管理杂志,39370-398。
[13] Bozdogan,H.和Bearse,P.(1998年)。以信息复杂度为适应度函数的遗传算法在向量自回归模型中选择子集。系统分析建模与仿真,31,61-91·Zbl 0944.62075号
[14] Bozdogan,H.和Haughton,D.(1998年)。回归模型的信息复杂性标准。计算统计与数据分析,28,51-76·Zbl 1042.62504号 ·doi:10.1016/S0167-9473(98)00025-5
[15] Bozdogan,H.和Howe,J.A.(2012年)。使用遗传算法和信息复杂性作为适应度函数的指定错误的多元回归模型。《欧洲纯粹与应用数学杂志》,5211-249·Zbl 1389.62108号
[16] Chaloner,K.和Verdinelli,I.(1995年)。贝叶斯实验设计综述。统计科学,10273-304·Zbl 0955.62617号 ·doi:10.1214/ss/1177009939
[17] Chou,S.M.、Lee,T.S.、Shao,Y.E.和Chen,I.F.(2004)。使用人工神经网络和多元自适应回归样条挖掘乳腺癌模式。应用专家系统,27(1),133-142·doi:10.1016/j.eswa.2003.12013
[18] Cramér,H.(1946)。统计学的数学方法。新泽西州普林斯顿:普林斯顿大学出版社·Zbl 0063.01014号
[19] Craven,P.和Wahba,G.(1979年)。用样条函数平滑噪声数据:用广义交叉验证方法估计平滑的正确程度。数字数学,31377-403·Zbl 0377.65007号 ·doi:10.1007/BF01404567
[20] Friedman,J.H.(1991)。多元自适应回归样条。统计年鉴,19,1-61·Zbl 0765.62064号 ·doi:10.1214/aos/1176347963
[21] Friedman,J.H.和Silverman,B.W.(1989)。灵活的精简平滑和添加建模。技术计量学,31,3-21·Zbl 0672.65119号 ·doi:10.1080/00401706.1989.10488470
[22] Hastie,T.J.、Tibshirani,R.和Friedman,J.(2001)。统计学习、数据挖掘、推理和预测的要素。纽约:斯普林格·Zbl 0973.62007号
[23] Hild,C.和Bozdogan,H.(1995)。在GMDH算法中使用基于信息的模型评估标准。系统分析建模仿真,20,29-50·Zbl 0846.6202号
[24] Ivakhnenko,A.G.(1966年)。数据处理的分组方法:随机近似方法的竞争对手。苏联自动控制,13,43-71。
[25] Jekabsons,G.(2011年)。ARESLab:matlab/Octave的自适应回归样条工具箱。网址:http://www.cs.rtu.lv/jekabsons/。
[26] Kartal Koc,E.,Iyigun,C.(2013)。使用基于映射方法的新节点选择程序重构mars算法的前向步骤。全球优化杂志。doi:10.1007/s10898-013-0107-5·Zbl 1299.65015号
[27] Kullback,A.和Leibler,R.(1951年)。关于信息和充分性。数理统计年鉴,2279-86·Zbl 0042.38403号 ·doi:10.1214/aoms/1177729694
[28] 库尔贝克,S.(1968年)。信息理论与统计学。纽约:多佛·Zbl 0897.62003号
[29] Lee,T.S.、Chiu,C.C.、Chou,Y.C.和Lu,C.J.(2006)。使用分类和回归树以及多元自适应回归样条挖掘客户信用。计算统计与数据分析,50(4),1113-1130·Zbl 1431.62645号 ·doi:10.1016/j.csda.2004.11.006
[30] Mukkamala,S。;宋,AH;亚伯拉罕。;Ramos,V.,《使用自适应回归棘的入侵检测系统》,211-218(2006),柏林·doi:10.1007/1-4020-3675-2_25
[31] Ozmen,A.、Weber,G.W.和Batmaz,I.(2011年)。RCMARS:多面体不确定性集下不同场景下CMARS的鲁棒性。非线性科学与数值模拟通信(CNSNS):非线性、分数和复数,16,4780-4787·Zbl 1416.65169号 ·doi:10.1016/j.cnsns.2011.04.001
[32] Pitmann,J.和McCulloch,C.(2002年)。自适应样条和遗传算法。计算与图形统计杂志,11(3),615-638·doi:10.1198/106186002448
[33] Poskitt,D.(1987)。精确性、复杂性和贝叶斯模型确定。英国皇家统计学会杂志,B辑(方法学),49(2),199-208·Zbl 0624.62010号
[34] Put,R.和Vander Heyden,Y.(2007年)。用于肽色谱保留预测的两步多元自适应回归样条的评估。蛋白质组学,7(10),1664-1677·doi:10.1002/米.200600676
[35] Rao,C.(1945年)。统计参数估计中可获得的信息和准确性。加尔各答数学学会公报,37,81-91·Zbl 0063.06420号
[36] Rao,C.(1947)。最小方差和几个参数的估计。剑桥哲学学会会刊,43280·Zbl 0030.20501号 ·doi:10.1017/S0305004100023471
[37] Rao,C.(1948年)。足够的统计数据和最小方差估计。剑桥哲学学会会刊,45213·Zbl 0037.36702号 ·文件编号:10.1017/S0305004100024737
[38] Rissanen,J。;Mehra,RK(编辑);Lainiotis,DG(编辑),向量过程模型的最小熵估计,97-119(1976),纽约
[39] Rissanen,J.(1978年)。通过最短数据描述建模。Automatica,第14页,第465-471页·Zbl 0418.93079号 ·doi:10.1016/0005-1098(78)90005-5
[40] Schwarz,G.(1978年)。估算模型的维度。《统计年鉴》,第6461-464页·Zbl 0379.62005年 ·doi:10.1214/aos/1176344136
[41] Sclove,S.L.(1987)。模型选择准则在多元分析中的应用。《心理测量学》,52,333-343·doi:10.1007/BF02294360
[42] Shurygin,A.(1983年)。最简单鉴别器和费希尔鉴别器的线性组合。在Nauka(编辑)《应用统计学》中。俄罗斯莫斯科·Zbl 0572.62048号
[43] Stevens,J.(1991)。用于单变量和半变量时间序列系统建模和分析的多元自适应回归样条的研究。海军研究生院博士论文。
[44] Taylan,P.、Weber,G.W.和Ozkurt Yerlikaya,F.(2010年)。一种利用tikhonov正则化和连续优化的多元自适应回归样条的新方法。顶部,18(2),377-395·Zbl 1208.41007号 ·doi:10.1007/s11750-010-0155-7
[45] Thomaz,C.(2004)。统计模式识别的最大熵协方差估计。伦敦大学博士论文和帝国理工学院文凭。
[46] Van Emden,M.(1971)。对复杂性的分析。《数学中心丛书》,第35卷。阿姆斯特丹:Mathematisch Centrum·Zbl 0225.68015号
[47] Weber,G.W.,Batmaz,I.,Köksal,G.,Taylan,P.,&Yerlikaya-Øzkurt,F.(2012)。CMARS:通过连续优化支持的多元自适应回归样条对非参数回归的新贡献。科学与工程中的反问题,20371-400·Zbl 1254.65020号 ·doi:10.1080/17415977.2011.624770
[48] Xu,Q.S.、Daszykowski,M.、Walczak,B.、Daeyaert,F.、De Jonge,M.和Heeres,J.等人(2004年)。HIV逆转录酶抑制剂的多元适应性回归脾脏研究。化学计量学和智能实验室系统,72(1),27-34·doi:10.1016/j.chemolab.2004.02.007
[49] Yazici,C.(2011)。非参数回归的计算方法:自举cmars方法。土耳其安卡拉中东技术大学硕士论文·Zbl 1343.62025号
[50] York,T.P.、Eaves,L.J.和van den Oord,E.J.(2006)。多元自适应回归样条:检测亚组间疾病风险关系差异的有效方法。医学统计学,25(8),1355-1367·doi:10.1002/sim.2292
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。