×

在最优回归树上检测多元函数数据的临界区间。 (英语) Zbl 07706560号

摘要:在本文中,我们定制了最优随机回归树来处理多元函数数据。在预测精度和稀疏性之间寻求折衷。在拟合树模型的同时,检测对预测至关重要的减少的间隔数,并控制其长度。通过在与函数预测变量相关的系数上包含LASSO型正则化项,可以对局部和全局稀疏性进行建模。由此产生的优化问题被表示为具有线性约束的非线性连续光滑模型。所报告的数值经验表明,我们的方法与基准程序相比具有竞争力,并且能够权衡预测准确性和稀疏性。

MSC公司:

90亿xx 运筹学与管理科学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 阿盖伊,S。;A.戈麦斯。;Vayanos,P.,强最优分类树(2022),arXiv预印本arXiv:2103.15965
[2] 阿胡加,R。;Magnanti,T。;Orlin,J.,《网络流:理论、算法和应用》(1993),普伦蒂斯·霍尔:新泽西州普伦蒂斯霍尔·Zbl 1201.90001号
[3] Aneiros,G。;Vieu,P.,无穷维问题中的变量选择,Statist。普罗巴伯。莱特。,94, 12-20 (2014) ·Zbl 1320.62163号
[4] Aneiros,G。;Vieu,P.,功能协变量回归的稀疏非参数模型,J.Nonparametr。Stat.,28,4,839-859(2016)·Zbl 1348.62131号
[5] Balakrishnan,S.,Madigan,D.,2006年。函数变量的决策树。第六届数据挖掘国际会议。ICDM’06,第798-802页。
[6] E.贝利。;Vantini,S.,功能数据的测量诱导分类和回归树,统计分析。数据最小值,15,5,553-569(2021)
[7] 贝尼特斯·佩尼亚,S。;布兰科罗,R。;Carrizosa,E。;Ramírez-Cobo,P.,支持向量机的成本敏感特征选择,计算。操作。决议,106,169-178(2019)·Zbl 1458.68158号
[8] 贝尼特斯·佩尼亚,S。;Carrizosa,E。;格雷罗,V。;医学博士Jiménez-Gamero。;马丁·巴拉根,B。;Molero-Río,C。;Ramírez-Cobo,P。;罗梅罗·莫拉莱斯,D。;Sillero-Denamiel,M.R.,《稀疏集合方法:COVID-19进化的短期预测应用》,欧洲期刊Oper。研究,295,2648-663(2021)·Zbl 1489.62237号
[9] 伯伦多,J.R。;布埃诺·拉拉兹,B。;Cuevas,A.,《函数线性回归中变量选择的RKHS模型》,《多元分析杂志》。,170, 25-45 (2019) ·Zbl 1416.62331号
[10] 贝伦德罗,J.R。;Cuevas,A。;Torrecilla,J.L.,《关于再生核Hilbert空间在函数分类中的应用》,J.Amer。统计师。协会,113,523,1210-1218(2018)·Zbl 1402.68152号
[11] Bertsimas博士。;Dunn,J.,《最佳分类树》,马赫。学习。,106, 7, 1039-1082 (2017) ·Zbl 1455.68159号
[12] Bixby,R.E.,《线性和混合整数编程计算简史》,Doc。数学。,2012, 107-121 (2012) ·1270.90003赞比亚比索
[13] 布兰科罗,R。;Carrizosa,E。;Chis,O。;埃斯特班,N。;Jiménez-Cordero,A。;罗德里格斯,J.F。;Sillero-Denamiel,M.R.,《关于测量不完全的化学反应网络中的极端浓度》,《工业工程化学》。决议,55,44,11417-11430(2016)
[14] 布兰科罗,R。;Carrizosa,E。;Jiménez-Cordero,A。;Martín-Barragán,B.,多变量函数数据的支持向量回归时间瞬间和间隔的选择,计算。操作。第123号决议,第105050条,pp.(2020)·Zbl 1458.62322号
[15] 布兰科罗,R。;Carrizosa,E。;Molero-Río,C。;Romero Morales,D.,最优随机分类树中的稀疏性,欧洲期刊。研究,284,1,255-272(2020)·Zbl 1441.62163号
[16] 布兰科罗,R。;Carrizosa,E。;Molero-Río,C。;罗梅罗·莫拉莱斯,D.,最优随机分类树,计算机。操作。Res.,132,第105281条,第(2021)页·Zbl 1510.90306号
[17] 布兰科罗,R。;Carrizosa,E。;Molero-Río,C。;罗梅罗·莫拉莱斯,D.,《稀疏最优回归树》,《欧洲期刊》。研究,299,3,1045-1054(2022)·兹比尔1495.62049
[18] 布兰科罗,R。;Carrizosa,E。;Ramírez-Cobo,P。;Sillero-Denamiel,M.R.,《成本敏感性约束套索》,高级数据分析。分类。,15, 121-158 (2021) ·Zbl 07363868号
[19] 博加德,C。;Thodberg,H.H.,光谱的最佳最小神经解释。化学。,64, 5, 545-551 (1992)
[20] Breiman,L.,《随机森林》,马赫。学习。,45, 1, 5-32 (2001) ·Zbl 1007.68152号
[21] Cai,T.T。;霍尔,P.,《函数线性回归中的预测》,《统计年鉴》。,34, 5, 2159-2179 (2006) ·Zbl 1106.62036号
[22] Carrizosa,E。;Molero-Río,C。;Romero Morales,D.,分类和回归树中的数学优化,TOP,29,1,5-33(2021)·Zbl 1467.90021号
[23] Carrizosa,E。;Restrepo,M.G。;Romero Morales,D.,《广义线性模型中分类预测因子的聚类类别》,专家系统。申请。,182,第115245条pp.(2021)
[24] Chan,H。;赖斯,E。;Vayanos,P。;Tambe,M。;Morton,M.,《从实证分析到公共政策:评估无家可归青年的住房系统》,(欧洲机器学习和数据库知识发现联合会议(2018),施普林格),69-85
[25] Cuevas,A.,功能数据统计学理论的部分概述,J.Statist。计划。推断,147,1-23(2014)·Zbl 1278.62012号
[26] Demirović,E。;卢基纳,A。;希伯拉德,E。;陈,J。;Bailey,J。;Leckie,C。;Ramamohanarao,K。;Stuckey,P.J.,MurTree:通过动态编程和搜索实现最佳分类树,J.Mach。学习。第23、26、1-47号决议(2022年)·Zbl 07625179号
[27] Dunn,J.,《预测和处方的最优树》(2018),麻省理工学院(博士论文)
[28] 范,Y。;詹姆斯·G·M。;Radchenko,P.,函数加性回归,Ann.Statist。,43, 5, 2296-2325 (2015) ·Zbl 1327.62252号
[29] Febrero-Bande,M。;de la Fuente,M.O.,功能数据分析中的统计计算:R包fda.usc,J.Stat.Softw。,51, 4, 1-28 (2012)
[30] Febrero-Bande,M。;González-Manteiga,W。;Oviedo De La Fuente,M.,函数加性回归模型中的变量选择,计算。统计人员。,34, 2, 469-487 (2019) ·Zbl 1417.62077号
[31] 费拉蒂,F。;霍尔,P。;Vieu,P.,功能数据预测器的大多数预测设计点,Biometrika,97,4,807-824(2010)·Zbl 1204.62064号
[32] 费拉蒂,F。;Vieu,P.,《非参数函数数据分析:理论与实践》,第76卷(2006年),施普林格出版社·Zbl 1119.62046号
[33] 弗拉特,M。;Crognier,G。;加博,A。;Hurkens,C。;Zhang,Y.,基于列生成的分类树启发式算法,计算。操作。第116号决议,第104866条pp.(2019)·Zbl 1458.68201号
[34] Freitas,A.,《可理解的分类模型:立场文件》,ACM SIGKDD Explor。纽斯利特。,15, 1, 1-10 (2014)
[35] 乔治阿诺斯,S。;格里帕,T。;Gadiaga,A.N。;Linard,C。;Lennert,M。;Vanhuysse,S。;姆博加,N。;沃尔夫,E。;Kalogirou,S.,《地理随机森林:随机森林算法的空间扩展,以解决遥感和种群建模中的空间异质性》,Geocarto Int.,36,2121-136(2021)
[36] 戈亚,A。;Vieu,P.,《高维/无限维统计最新进展介绍》,《多元分析杂志》。,146, 1-6 (2016) ·Zbl 1384.00073号
[37] 古德曼,B。;Flaxman,S.,欧盟关于算法决策和“解释权”的规定,AI Mag.,38,3,50-57(2017)
[38] Griswold,C.K。;Gomulkiewicz,R。;Heckman,N.,功能值性状的比较和实验研究中的假设检验,进化,62,5,1229-1242(2008)
[39] Grollemund,P.-M。;亚伯拉罕,C。;巴拉加蒂,M。;Pudlo,P.,具有稀疏阶跃函数的贝叶斯函数线性回归,贝叶斯分析。,14, 1, 111-135 (2019) ·Zbl 1409.62060号
[40] Günlük,O。;Kalagnanam,J。;李,M。;Menickelly,M。;Scheinberg,K.,通过整数规划实现分类数据的最优决策树,J.Global Optim。,81, 233-260 (2021) ·Zbl 1475.90039号
[41] 哈斯蒂,T。;Buja,A。;Tibshirani,R.,惩罚判别分析,Ann.Statist。,23, 1, 73-102 (1995) ·Zbl 0821.62031号
[42] Horváth,L.公司。;Kokoszka,P.,《功能数据与应用推断》,第200卷(2012年),施普林格科学与商业媒体·Zbl 1279.62017号
[43] 胡,X。;鲁丁,C。;Seltzer,M.,最优稀疏决策树,(神经信息处理系统进展32(2019)),7265-7273
[44] 詹姆斯·G·M。;Wang,J。;Zhu,J.,可解释的函数线性回归,Ann.Statist。,37、5A、2083-2108(2009)·Zbl 1171.62041号
[45] Januschowski,T。;Wang,Y。;托科拉,K。;埃尔基拉,T。;哈森,H。;Gasthaus,J.,《树木预测》,《国际预测杂志》。,38, 4, 1473-1481 (2022)
[46] Jiménez Cordero,M.A.,《函数数据的分类和回归:数学优化方法》(2019年),塞维利亚大学(博士论文)
[47] D.孔。;薛,K。;姚,F。;Zhang,H.H.,高维部分功能线性回归,Biometrika,103,1,147-159(2016)·兹比尔1452.62500
[48] Kraft,D.,序列二次编程技术的软件包。代表(1988),DFVLR-FB 88-28,DLR德国航空航天中心-飞行力学研究所,德国科隆·Zbl 0646.90065号
[49] Laukaitis,A。;Račkauskas,A.,《客户细分任务的功能数据分析》,欧洲期刊。决议,163,1,210-216(2005)·Zbl 1067.90118号
[50] 冷,X。;Müller,H.-G.,使用功能数据分析对时间基因表达数据进行分类,生物信息学,22,1,68-76(2005)
[51] Liaw,A。;Wiener,M.,《随机森林分类与回归》,R News,2,3,18-22(2002)
[52] Lin,J.,Zhong,C.,Hu,D.,Rudin,C.,Seltzer,M.,2020年。广义和可扩展的最优稀疏决策树。参加:机器学习国际会议。第6150-6160页。
[53] Loh,W.-Y.,《五十年分类和回归树》,国际。统计师。版次:82、3、329-348(2014)·Zbl 1416.62347号
[54] 北卡罗来纳州明绍森,《节点收获》,安。统计,42049-2072年(2010年)·Zbl 1220.62084号
[55] Narodytska,N.,Ignatiev,A.,Pereira,F.,Marques-Silva,J.,2018年。用SAT学习最优决策树。收录:第二十七届国际人工智能联合会议论文集。IJCAI-18,第1362-1368页·Zbl 1511.68249号
[56] 奥斯卡尔斯多蒂尔,M。;艾哈迈德·W。;安东尼奥,K。;Baesens,B。;丹迪维尔,R。;多纳斯,T。;Reynkens,T.,保险监督欺诈检测的社交网络分析,风险分析。,42, 8, 1872-1890 (2022)
[57] 皮奇尼,V。;Servien,R。;Villa-Vialaneix,N.,功能数据的可解释稀疏SIR,统计计算。,29, 2, 255-267 (2019) ·Zbl 1430.62079号
[58] Python核心团队,V.,《Python:一种动态的开源编程语言》(2015),Python-Software Foundation,URLhttps://www.python.org
[59] 拉蒙,Y。;Martens,D。;Provost,F。;Evgeniou,T.,行为数据和文本数据实例级反事实解释算法的比较:SEDC、LIMEC和SHAP-C,高级数据分析。分类。,14, 4, 801-819 (2020) ·Zbl 1474.90384号
[60] Ramsay,J。;Silverman,B.,《应用功能数据分析:方法和案例研究》(2002),Springer:Springer New York·Zbl 1011.62002号
[61] Ramsay,J。;Silverman,B.,功能数据分析(2005),Springer:Springer New York·Zbl 1079.62006号
[62] Ribeiro,M.,Singh,S.,Guestrin,C.,2016年。“我为什么要相信你?”:解释任何分类器的预测。摘自:第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集。第1135-1144页。
[63] 萨哈,A。;巴苏,S。;Datta,A.,《空间相关数据的随机森林》,J.Amer。统计师。协会,1-19(2021)
[64] Soenksen,L.R。;马云(Ma,Y.)。;曾,C。;Boussioux,L。;Villalobos Carballo,K。;Na,L。;Wiberg,H.M。;李,M.L。;富恩特斯,I。;Bertsimas,D.,《医疗应用的集成多模式人工智能框架》,NPJ Digit。医学,5,1,1-10(2022年)
[65] 斯特扎尔科夫斯卡-科米尼亚克,E。;Romo,J.,未完成随访研究的审查功能数据,《医学总汇》,40,12,2821-2838(2021)
[66] Verhaeghe,H.,Nijssen,S.,Pesant,G.,Quimper,C.-G.,Schaus,P.,2019年。使用约束规划学习最优决策树。摘自:第25届约束编程原理与实践国际会议。CP2019·Zbl 07446942号
[67] Verwer,S。;Zhang,Y.,使用整数优化学习具有灵活约束和目标的决策树,(Salvagnin,D.;Lombardi,M.,《约束编程中人工智能和操作规则技术的集成:第14届国际会议》,2017年6月5日至8日,意大利巴多瓦CPAIOR 2017,会议记录(2017)),94-103·兹比尔1489.68259
[68] Verwer,S。;Zhang,Y。;Ye,Q.,使用回归树和线性模型作为整数程序的拍卖优化,人工智能,244368-395(2017)·Zbl 1404.68122号
[69] Verwer,S。;Zhang,Y。;Ye,Q.,使用二进制线性规划公式学习最优分类树,(AAAI人工智能会议论文集,第33卷(2019)),1625-1632
[70] Vieu,P.,《关于功能数据的维度缩减模型》,Statist。普罗巴伯。莱特。,136, 134-138 (2018) ·Zbl 1489.62421号
[71] Virtanen,P。;Gommers,R。;Oliphant,T.E。;哈伯兰,M。;Reddy,T。;库纳波,D。;Burovski,E。;彼得森,P。;Weckesser,W。;Bright,J。;范德沃尔特,S.J。;布雷特,M。;Wilson,J。;Millman,K.J。;北马约罗夫。;Nelson,A.R.J。;Jones,E。;科恩,R。;Larson,E。;Carey,C.J。;伊利诺伊州波拉特。;Feng,Y。;摩尔,E.W。;范德普拉斯,J。;Laxalde博士。;佩克托尔德,J。;Cimrman,R。;亨利克森,I。;昆特罗,E.A。;哈里斯·C·R。;阿奇博尔德,A.M。;里贝罗,A.H。;佩德雷戈萨,F。;van Mulbregt,P。;SciPy 1.0贡献者,SciPy 1.0:Python中科学计算的基本算法,自然方法,17,261-272(2020)
[72] Wang,J.-L。;Chiou,J.-M。;Müller,H.-G.,《功能数据分析》,年。修订状态申请。,3, 257-295 (2016)
[73] 王,P。;范,E。;Wang,P.,基于传统机器学习和深度学习的图像分类算法比较分析,模式识别。莱特。,141, 61-67 (2021)
[74] Yu,J.、Ignatiev,A.、Stuckey,P.、Le Bodic,P.,2020年。用SAT计算最优决策集。In:约束编程原理与实践国际会议。第952-970页·Zbl 1522.68489号
[75] Zafar,M。;瓦莱拉,I。;戈麦斯·罗德里格斯,M。;Gummadi,K.,《公平约束:公平分类机制》,(人工智能与统计(2017),PMLR),962-970
[76] 马蹄莲,V。;库斯纳,M。;Niculae,V.,《通过稀疏松弛学习二叉树》(2020),arXiv预印本arXiv:2010.04627
[77] 朱,H。;穆拉利,P。;Phan,D。;Nguyen,L。;Kalagnanam,J.,学习最优多元决策树的基于MIP的可扩展方法,高级神经信息处理。系统。,33, 1771-1781 (2020)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。