拉斐尔·布兰科罗;埃米利奥·卡里佐萨;克里斯蒂娜·莫勒罗·里奥;多洛雷斯罗梅罗·莫拉莱斯 关于稀疏最优回归树。 (英语) 兹比尔1495.62049 欧洲药典。物件。 299,第3号,1045-1054(2022). 摘要:在本文中,我们通过一个连续优化问题来建模一个最优回归树,在这个问题中,我们寻求预测精度和两种类型的稀疏性(即局部稀疏性和全局稀疏性)之间的折衷。我们的方法可以适应回归任务的重要理想属性,例如成本敏感性和公平性。由于预测的平滑性,我们可以得到连续预测变量的局部解释。所报告的计算经验表明,与CART、OLS和LASSO等标准基准回归方法相比,我们的方法在预测精度方面表现得更好。此外,还说明了我们的方法相对于训练样本大小的可伸缩性。 引用于2文件 MSC公司: 62H30型 分类和区分;聚类分析(统计方面) 68T05年 人工智能中的学习和自适应系统 90立方 非线性规划 90 C90 数学规划的应用 91G40型 信用风险 关键词:机器学习;分类和回归树;最优回归树;稀疏性;非线性规划 软件:r零件;形状;随机森林;DFVLR-SQP公司;蟒蛇;格尔姆奈特;SciPy公司;UCI-毫升 PDF格式BibTeX公司 XML格式引用 \textit{R.Blankero}等人,《欧洲药典》。第299号决议,第3号,1045--1054(2022年;Zbl 1495.62049) 全文: DOI程序 OA许可证 参考文献: [1] Aghaei,S。;阿齐兹,M。;Vayanos,P.,《学习非歧视决策的最优和公平决策树》,《AAAI人工智能会议论文集》,第33卷,1418-1426(2019) [2] Athey,S.,《机器学习对经济学的影响》,《人工智能经济学:议程》(2018年),芝加哥大学出版社 [3] Baesens,B。;塞蒂奥诺,R。;梅斯,C。;Vanthienen,J.,使用神经网络规则提取和决策表进行信用风险评估,管理科学,49,3311-329(2003)·Zbl 1232.91684号 [4] Bennett,K.P。;Blue,J.,最优决策树,伦斯勒理工学院数学报告214(1996) [5] Bertsimas博士。;Dunn,J。;Paschalidis,A.,《使用最优决策树进行回归和分类》,本科生研究技术会议(URTC),2017年IEEE MIT,1-4(2017) [6] 更好,M。;手套,F。;Samorani,M.,《通过垂直和切割多超平面决策树归纳进行分类》,《决策支持系统》,48,3,430-436(2010) [7] Biau,G。;Scornet,E.,《随机森林导览》,TEST,25,2,197-227(2016)·Zbl 1402.62133号 [8] 布兰科罗,R。;Carrizosa,E。;Molero-Río,C。;Romero Morales,D.,最优随机分类树的稀疏性,欧洲运筹学杂志,284,1,255-272(2020)·Zbl 1441.62163号 [9] 布兰科罗,R。;Carrizosa,E。;Molero-Río,C。;Romero Morales,D.,最优随机分类树,计算机与运筹学,132105281(2021)·Zbl 1510.90306号 [10] 布兰科罗,R。;Carrizosa,E。;Ramírez-Cobo,P。;Sillero-Denamiel,M.R.,《成本敏感性约束套索》,《数据分析和分类进展》,第15期,第121-158页(2021年)·Zbl 07363868号 [11] Breiman,L.,《随机森林,机器学习》,45,1,5-32(2001)·Zbl 1007.68152号 [12] 布雷曼,L。;弗里德曼,J。;斯通,C.J。;Olshen,R.A.,分类和回归树(1984),CRC出版社·Zbl 0541.62042号 [13] Carrizosa,E。;马丁·巴拉根,B。;Romero Morales,D.,《在监督分类中检测相关变量和交互作用》,《欧洲运筹学杂志》,2131260-269(2011) [14] Carrizosa,E。;Molero-Río,C。;Romero Morales,D.,分类和回归树中的数学优化,TOP,29,1,5-33(2021)·兹比尔1467.90021 [15] 奇卡洛夫,I。;侯赛因,S。;Moshkov,M.,决策树的双标准优化及其在数据分析中的应用,《欧洲运筹学杂志》,266,2,689-701(2018)·兹比尔1403.91106 [16] 邓,H。;Runger,G.,通过正则化树进行特征选择,2012年国际神经网络联合会议(IJCNN),1-8(2012),IEEE [17] 邓,H。;Runger,G.,引导正则化随机森林的基因选择,模式识别,46,123483-3489(2013) [18] Dunn,J.,《预测和处方的最优树》(2018),麻省理工学院博士论文。 [19] 费尔南德斯·德尔加多,M。;Cernadas,E。;巴罗,S。;Amorim,D.,我们需要数百个分类器来解决现实世界的分类问题吗?,机器学习研究杂志,15,1,3133-3181(2014)·Zbl 1319.62005号 [20] 弗拉特,M。;Crognier,G。;加博,A。;Hurkens,C。;Zhang,Y.,基于列生成的分类树启发式算法,计算机与运筹学,116104866(2019)·Zbl 1458.68201号 [21] Freitas,A.,《可理解的分类模型:立场文件》,ACM SIGKDD Explorations Newsletter,15,1,1-10(2014) [22] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,统计软件杂志,33,1,1-22(2010) [23] Genuer,R。;波吉,J.-M。;Tuleau-Malot,C。;Villa-Vialaneix,N.,大数据随机森林,大数据研究,9,28-46(2017) [24] Gevrey,M。;迪莫普洛斯,I。;Lek,S.,《人工神经网络模型中变量贡献研究方法的回顾与比较》,生态建模,160,3,249-264(2003) [25] 古德曼,B。;Flaxman,S.,欧盟关于算法决策和“解释权”的规定,AI杂志,38,3,50-57(2017) [26] Günlük,O。;Kalagnanam,J。;Li,M。;Menickelly,M。;Scheinberg,K.,通过整数规划实现分类数据的最优决策树,《全球优化杂志》,81,233-260(2021)·Zbl 1475.90039号 [27] 哈里森,D。;Rubinfeld,D.L.,《Hedonic房价与清洁空气需求》,《环境经济与管理杂志》,第5期,第1期,第81-102页(1978年)·Zbl 0375.90023号 [28] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素》(2009),Springer:Springer New York·兹比尔1273.62005 [29] Hu,X.、Rudin,C.和Seltzer,M.(2019)。最优稀疏决策树。神经信息处理系统的进展。 [30] Hyafil,L。;Rivest,R.L.,《构建最优二叉决策树是NP-完全的》,《信息处理快报》,5,1,15-17(1976)·Zbl 0333.68029号 [31] Jones,E.、Oliphant,T.、Peterson,P.等人(2001年)。SciPy:Python的开源科学工具。 [32] Jung,J.、Concannon,C.、Shroff,R.、Goel,S.和Goldstein,D.G.(2017年)。复杂决策的简单规则。arXiv预打印arXiv:1702.04690。 [33] Kraft,D.,序列二次规划软件包,技术报告DFVLR-FB 88-28,DLR德国航空航天中心-飞行力学研究所,德国科隆(1988)·Zbl 0646.90065号 [34] Liaw,A。;Wiener,M.,《随机森林分类与回归》,R News,2,3,18-22(2002) [35] Lichman,M.(2013)。UCI机器学习库。加州大学欧文分校信息与计算机科学学院。http://archive.ics.uci.edu/ml。 [36] 伦德伯格,S。;埃里昂,G。;陈,H。;DeGrave,A。;普鲁特金,J。;奈尔,B。;Katz,R。;Himmelfarb,J。;北班萨尔。;Lee,S.I.,《利用可解释的人工智能对树木从局部解释到全球理解》,《自然机器智能》,第2期,第1期,第2522-5839页(2020年) [37] 伦德伯格,S。;Lee,S.-I.,解释模型预测的统一方法,神经信息处理系统进展,4765-4774(2017) [38] Martens,D。;Baesens,B。;Van Gestel,T。;Vantheinen,J.,《使用支持向量机规则提取的可理解信用评分模型》,《欧洲运筹学杂志》,183,3,1466-1476(2007)·Zbl 1278.91177号 [39] 马丁·巴拉根,B。;里洛,R。;Romo,J.,功能数据的可解释支持向量机,《欧洲运筹学杂志》,232,1,146-155(2014) [40] Meinshausen,N.,分位数回归森林,机器学习研究杂志,7983-999(2006)·Zbl 1222.68262号 [41] Molnar,C.、Casalicchio,G.和Bischl,B.(2020年)。可解释机器学习——简史、现状和挑战。arXiv预打印arXiv:2010.09337。 [42] 北卡罗来纳州纳罗迪茨卡。;伊格纳季耶夫,A。;佩雷拉,F。;Marques-Silva,J。;Ras,I.,使用SAT学习最优决策树,Ijcai,1362-1368(2018) [43] Python核心团队(2015)。Python:一种动态的开源编程语言。Python软件基础。https://www.python.org。 [44] 里贝罗,M。;辛格,S。;Guestrin,C.,“我为什么要相信你?”:解释任何分类器的预测,第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集,1135-1144(2016) [45] 里奇韦,G.,《预测的陷阱》,《国家司法研究所期刊》,271,34-40(2013) [46] Rudin,C.,停止解释高风险决策的黑箱机器学习模型,转而使用可解释模型,《自然机器智能》,1,5,206-215(2019) [47] Ruggieri,S.,《决策树中特征选择的完全搜索》,《机器学习研究杂志》,20,104,1-34(2019)·Zbl 1446.68141号 [48] Therneau,T.、Atkinson,B.和Ripley,B.(2015)。rpart:递归分区和回归树。https://CRAN.R-project.org/package=rpart。 [49] Tibshirani,R。;温赖特,M。;Hastie,T.,《稀疏性统计学习》。套索和概括(2015),查普曼和霍尔/CRC·Zbl 1319.68003号 [50] Ustun,B。;Rudin,C.,优化医疗评分系统的超解析线性整数模型,机器学习,102,3,349-391(2016)·Zbl 1406.62144号 [51] Verwer,S。;Zhang,Y.,使用整数优化学习具有灵活约束和目标的决策树,组合优化问题约束编程中AI和OR技术国际会议,94-103(2017),Springer·Zbl 1489.68259号 [52] Verwer,S。;Zhang,Y.,使用二进制线性规划公式学习最优分类树,第三十三届AAAI人工智能会议(AAAI-19),第33卷,1625-1632(2019),AAAI出版社 [53] Yang,L。;刘,S。;佐卡,S。;Papageorgiou,L.G.,使用数学编程的回归树方法,应用专家系统,78,347-357(2017) 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。