×

关于稀疏最优回归树。 (英语) 兹比尔1495.62049

摘要:在本文中,我们通过一个连续优化问题来建模一个最优回归树,在这个问题中,我们寻求预测精度和两种类型的稀疏性(即局部稀疏性和全局稀疏性)之间的折衷。我们的方法可以适应回归任务的重要理想属性,例如成本敏感性和公平性。由于预测的平滑性,我们可以得到连续预测变量的局部解释。所报告的计算经验表明,与CART、OLS和LASSO等标准基准回归方法相比,我们的方法在预测精度方面表现得更好。此外,还说明了我们的方法相对于训练样本大小的可伸缩性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T05年 人工智能中的学习和自适应系统
90立方 非线性规划
90 C90 数学规划的应用
91G40型 信用风险
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Aghaei,S。;阿齐兹,M。;Vayanos,P.,《学习非歧视决策的最优和公平决策树》,《AAAI人工智能会议论文集》,第33卷,1418-1426(2019)
[2] Athey,S.,《机器学习对经济学的影响》,《人工智能经济学:议程》(2018年),芝加哥大学出版社
[3] Baesens,B。;塞蒂奥诺,R。;梅斯,C。;Vanthienen,J.,使用神经网络规则提取和决策表进行信用风险评估,管理科学,49,3311-329(2003)·Zbl 1232.91684号
[4] Bennett,K.P。;Blue,J.,最优决策树,伦斯勒理工学院数学报告214(1996)
[5] Bertsimas博士。;Dunn,J。;Paschalidis,A.,《使用最优决策树进行回归和分类》,本科生研究技术会议(URTC),2017年IEEE MIT,1-4(2017)
[6] 更好,M。;手套,F。;Samorani,M.,《通过垂直和切割多超平面决策树归纳进行分类》,《决策支持系统》,48,3,430-436(2010)
[7] Biau,G。;Scornet,E.,《随机森林导览》,TEST,25,2,197-227(2016)·Zbl 1402.62133号
[8] 布兰科罗,R。;Carrizosa,E。;Molero-Río,C。;Romero Morales,D.,最优随机分类树的稀疏性,欧洲运筹学杂志,284,1,255-272(2020)·Zbl 1441.62163号
[9] 布兰科罗,R。;Carrizosa,E。;Molero-Río,C。;Romero Morales,D.,最优随机分类树,计算机与运筹学,132105281(2021)·Zbl 1510.90306号
[10] 布兰科罗,R。;Carrizosa,E。;Ramírez-Cobo,P。;Sillero-Denamiel,M.R.,《成本敏感性约束套索》,《数据分析和分类进展》,第15期,第121-158页(2021年)·Zbl 07363868号
[11] Breiman,L.,《随机森林,机器学习》,45,1,5-32(2001)·Zbl 1007.68152号
[12] 布雷曼,L。;弗里德曼,J。;斯通,C.J。;Olshen,R.A.,分类和回归树(1984),CRC出版社·Zbl 0541.62042号
[13] Carrizosa,E。;马丁·巴拉根,B。;Romero Morales,D.,《在监督分类中检测相关变量和交互作用》,《欧洲运筹学杂志》,2131260-269(2011)
[14] Carrizosa,E。;Molero-Río,C。;Romero Morales,D.,分类和回归树中的数学优化,TOP,29,1,5-33(2021)·兹比尔1467.90021
[15] 奇卡洛夫,I。;侯赛因,S。;Moshkov,M.,决策树的双标准优化及其在数据分析中的应用,《欧洲运筹学杂志》,266,2,689-701(2018)·兹比尔1403.91106
[16] 邓,H。;Runger,G.,通过正则化树进行特征选择,2012年国际神经网络联合会议(IJCNN),1-8(2012),IEEE
[17] 邓,H。;Runger,G.,引导正则化随机森林的基因选择,模式识别,46,123483-3489(2013)
[18] Dunn,J.,《预测和处方的最优树》(2018),麻省理工学院博士论文。
[19] 费尔南德斯·德尔加多,M。;Cernadas,E。;巴罗,S。;Amorim,D.,我们需要数百个分类器来解决现实世界的分类问题吗?,机器学习研究杂志,15,1,3133-3181(2014)·Zbl 1319.62005号
[20] 弗拉特,M。;Crognier,G。;加博,A。;Hurkens,C。;Zhang,Y.,基于列生成的分类树启发式算法,计算机与运筹学,116104866(2019)·Zbl 1458.68201号
[21] Freitas,A.,《可理解的分类模型:立场文件》,ACM SIGKDD Explorations Newsletter,15,1,1-10(2014)
[22] 弗里德曼,J。;哈斯蒂,T。;Tibshirani,R.,通过坐标下降广义线性模型的正则化路径,统计软件杂志,33,1,1-22(2010)
[23] Genuer,R。;波吉,J.-M。;Tuleau-Malot,C。;Villa-Vialaneix,N.,大数据随机森林,大数据研究,9,28-46(2017)
[24] Gevrey,M。;迪莫普洛斯,I。;Lek,S.,《人工神经网络模型中变量贡献研究方法的回顾与比较》,生态建模,160,3,249-264(2003)
[25] 古德曼,B。;Flaxman,S.,欧盟关于算法决策和“解释权”的规定,AI杂志,38,3,50-57(2017)
[26] Günlük,O。;Kalagnanam,J。;Li,M。;Menickelly,M。;Scheinberg,K.,通过整数规划实现分类数据的最优决策树,《全球优化杂志》,81,233-260(2021)·Zbl 1475.90039号
[27] 哈里森,D。;Rubinfeld,D.L.,《Hedonic房价与清洁空气需求》,《环境经济与管理杂志》,第5期,第1期,第81-102页(1978年)·Zbl 0375.90023号
[28] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素》(2009),Springer:Springer New York·兹比尔1273.62005
[29] Hu,X.、Rudin,C.和Seltzer,M.(2019)。最优稀疏决策树。神经信息处理系统的进展。
[30] Hyafil,L。;Rivest,R.L.,《构建最优二叉决策树是NP-完全的》,《信息处理快报》,5,1,15-17(1976)·Zbl 0333.68029号
[31] Jones,E.、Oliphant,T.、Peterson,P.等人(2001年)。SciPy:Python的开源科学工具。
[32] Jung,J.、Concannon,C.、Shroff,R.、Goel,S.和Goldstein,D.G.(2017年)。复杂决策的简单规则。arXiv预打印arXiv:1702.04690。
[33] Kraft,D.,序列二次规划软件包,技术报告DFVLR-FB 88-28,DLR德国航空航天中心-飞行力学研究所,德国科隆(1988)·Zbl 0646.90065号
[34] Liaw,A。;Wiener,M.,《随机森林分类与回归》,R News,2,3,18-22(2002)
[35] Lichman,M.(2013)。UCI机器学习库。加州大学欧文分校信息与计算机科学学院。http://archive.ics.uci.edu/ml。
[36] 伦德伯格,S。;埃里昂,G。;陈,H。;DeGrave,A。;普鲁特金,J。;奈尔,B。;Katz,R。;Himmelfarb,J。;北班萨尔。;Lee,S.I.,《利用可解释的人工智能对树木从局部解释到全球理解》,《自然机器智能》,第2期,第1期,第2522-5839页(2020年)
[37] 伦德伯格,S。;Lee,S.-I.,解释模型预测的统一方法,神经信息处理系统进展,4765-4774(2017)
[38] Martens,D。;Baesens,B。;Van Gestel,T。;Vantheinen,J.,《使用支持向量机规则提取的可理解信用评分模型》,《欧洲运筹学杂志》,183,3,1466-1476(2007)·Zbl 1278.91177号
[39] 马丁·巴拉根,B。;里洛,R。;Romo,J.,功能数据的可解释支持向量机,《欧洲运筹学杂志》,232,1,146-155(2014)
[40] Meinshausen,N.,分位数回归森林,机器学习研究杂志,7983-999(2006)·Zbl 1222.68262号
[41] Molnar,C.、Casalicchio,G.和Bischl,B.(2020年)。可解释机器学习——简史、现状和挑战。arXiv预打印arXiv:2010.09337。
[42] 北卡罗来纳州纳罗迪茨卡。;伊格纳季耶夫,A。;佩雷拉,F。;Marques-Silva,J。;Ras,I.,使用SAT学习最优决策树,Ijcai,1362-1368(2018)
[43] Python核心团队(2015)。Python:一种动态的开源编程语言。Python软件基础。https://www.python.org。
[44] 里贝罗,M。;辛格,S。;Guestrin,C.,“我为什么要相信你?”:解释任何分类器的预测,第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集,1135-1144(2016)
[45] 里奇韦,G.,《预测的陷阱》,《国家司法研究所期刊》,271,34-40(2013)
[46] Rudin,C.,停止解释高风险决策的黑箱机器学习模型,转而使用可解释模型,《自然机器智能》,1,5,206-215(2019)
[47] Ruggieri,S.,《决策树中特征选择的完全搜索》,《机器学习研究杂志》,20,104,1-34(2019)·Zbl 1446.68141号
[48] Therneau,T.、Atkinson,B.和Ripley,B.(2015)。rpart:递归分区和回归树。https://CRAN.R-project.org/package=rpart。
[49] Tibshirani,R。;温赖特,M。;Hastie,T.,《稀疏性统计学习》。套索和概括(2015),查普曼和霍尔/CRC·Zbl 1319.68003号
[50] Ustun,B。;Rudin,C.,优化医疗评分系统的超解析线性整数模型,机器学习,102,3,349-391(2016)·Zbl 1406.62144号
[51] Verwer,S。;Zhang,Y.,使用整数优化学习具有灵活约束和目标的决策树,组合优化问题约束编程中AI和OR技术国际会议,94-103(2017),Springer·Zbl 1489.68259号
[52] Verwer,S。;Zhang,Y.,使用二进制线性规划公式学习最优分类树,第三十三届AAAI人工智能会议(AAAI-19),第33卷,1625-1632(2019),AAAI出版社
[53] Yang,L。;刘,S。;佐卡,S。;Papageorgiou,L.G.,使用数学编程的回归树方法,应用专家系统,78,347-357(2017)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。