拉斐尔·布兰科罗;埃米利奥·卡里佐萨;克里斯蒂娜·莫勒罗·里奥;多洛雷斯罗梅罗·莫拉莱斯 最优随机分类树。 (英语) Zbl 1510.90306号 计算。操作。物件。 132,文章ID 105281,13 p.(2021). 摘要:分类和回归树(CART)是现代统计学和机器学习中的一种现成技术。CART传统上是通过贪婪过程构建的,依次决定分裂预测变量和相关阈值。这种贪婪的方法训练树的速度非常快,但就其本质而言,它们的分类精度可能无法与其他最先进的程序相匹敌。此外,很难控制关键问题,例如每个类的误分类率。为了解决这些缺点,文献中最近提出了最优决策树,它使用离散决策变量来建模树中每个观测点将遵循的路径。相反,我们提出了一种基于连续优化的新方法。我们的分类器可以看作是一棵随机树,因为在决策树的每个节点上都会做出随机决策。报告的计算经验证明了我们程序的良好性能。 引用于10文件 MSC公司: 90摄氏度 数学规划的应用 68T05型 人工智能中的学习和自适应系统 62H30型 分类和区分;聚类分析(统计方面) 90立方厘米 混合整数编程 关键词:分类树和回归树;成本敏感分类;非线性规划 软件:伊波特;UCI-毫升;r零件;皮奥莫;随机森林;蟒蛇;斜树;github;中央情报局 PDF格式BibTeX公司 XML格式引用 \textit{R.Blankero}等人,计算。操作。Res.132,文章ID 105281,第13页(2021;兹bl 1510.90306) 全文: 内政部 arXiv公司 参考文献: [1] Baesens,B。;塞提诺,R。;梅斯,C。;Vantheinen,J.,《使用神经网络规则提取和决策表进行信用风险评估》,管理。科学。,49, 3, 312-329 (2003) ·Zbl 1232.91684号 [2] Bennett,K.P.,Blue,J.,1996年。最优决策树,伦斯勒理工学院数学报告214。 [3] Bertsimas,D。;Dunn,J.,《最佳分类树》,马赫。学习。,106, 7, 1039-1082 (2017) ·Zbl 1455.68159号 [4] Bertsimas,D。;King,A.,线性回归的算法方法,Oper。第64、1、2-16号决议(2015年)·Zbl 1338.90272号 [5] Bertsimas,D。;Mazumder,R.,《通过现代优化实现最小分位数回归》,《Ann.Stat.》,42,6,2494-2525(2014)·Zbl 1302.62154号 [6] Bertsimas,D。;Shioda,R.,通过整数优化进行分类和回归,Oper。研究,55,2,252-271(2007)·Zbl 1167.90593号 [7] Bertsimas,D。;奥黑尔,A。;雷利亚,S。;Silberholz,J.,设计癌症联合化疗方案的分析方法,管理。科学。,62, 5, 1511-1531 (2016) [8] Biau,G。;Scornet,E.,随机森林导游,测试,25,2197-227(2016)·Zbl 1402.62133号 [9] 博图,L。;柯蒂斯,F。;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·Zbl 1397.65085号 [10] Breiman,L.,《随机森林》,马赫。学习。,45, 1, 5-32 (2001) ·兹比尔1007.68152 [11] 布雷曼,L。;弗里德曼,J。;斯通,C.J。;Olshen,R.A.,分类和回归树(1984),CRC出版社·Zbl 0541.62042号 [12] Brooks,J.P.,《带有斜坡损失和硬边损失的支持向量机》,Oper。研究,59,2,467-479(2011)·Zbl 1228.90057号 [13] Carrizosa,E。;罗梅罗·莫拉莱斯,D.,《监督分类和数学优化》,《计算机操作》。第40号、第1号、第150-165号决议(2013年)·Zbl 1349.68135号 [14] Carrizosa,E。;诺加莱斯·戈麦斯,A。;Romero Morales,D.,支持向量机中的聚类类别,Omega,66,28-37(2017) [15] Carrizosa,E。;格雷罗,V。;Romero Morales,D.,通过DC(凸差)优化将数据可视化,数学。程序。,169, 1, 119-140 (2018) ·Zbl 1390.90616号 [16] Chaovalitwingse,W.A。;范,Y.-J。;Sachdeo,R.C.,异常脑活动分类的新型优化模型,Oper。第56、6、1450-1460号决议(2008年)·Zbl 1167.92325号 [17] 奇卡洛夫,I。;侯赛因,S。;Moshkov,M.,《决策树的双标准优化及其在数据分析中的应用》,欧洲期刊Oper。第266、2689-701号决议(2018年)·Zbl 1403.91106号 [18] Cárdi,G.,Truong,A.,2012年。斜树,https://github.com/cran/oblique.tree。 [19] Dunn,J.,2018年。预测和处方的最优树,麻省理工学院博士论文。 [20] 方,X。;Sheng,O.R.L。;Goes,P.,更新从数据中发现的知识的正确时间是什么时候?,操作。研究,61,1,32-44(2013)·Zbl 1267.90166号 [21] 费尔南德斯·德尔加多,M。;Cernadas,E。;巴罗,S。;Amorim,D.,我们需要数百个分类器来解决现实世界的分类问题吗?,J.马赫。学习。研究,15,1,3133-3181(2014)·Zbl 1319.62005号 [22] Fortunato,S.,《图形中的社区检测》,Phys。众议员,486,3,75-174(2010) [23] Fountoulakis,K。;Gondzio,J.,强凸的二阶方法ℓ_1-正则化问题,数学。程序。,156, 1, 189-219 (2016) ·Zbl 1364.90255号 [24] Freitas,A.,《可理解的分类模型:立场论文》,ACM SIGKDD探索通讯,15,1,1-10(2014) [25] Genuer,R。;波吉,J.-M。;Tuleau-Malot,C。;Villa-Vialaneix,N.,《大数据随机森林》,大数据研究,9,28-46(2017) [26] 古德曼,B。;Flaxman,S.,欧盟关于算法决策和“解释权”的规定,AI杂志,38,3,50-57(2017) [27] Günlük,O。;Kalagnanam,J。;Menickelly,M。;Scheinberg,K.,《通过整数规划实现分类数据的最优决策树》,J.Glob。最佳方案。(2021) ·Zbl 1475.90039号 [28] 哈特·W·E。;沃森,J.-P。;伍德拉夫,D.L.,《Pyomo:用Python数学建模和求解数学程序》。编程计算。,3, 3, 219-260 (2011) [29] Hart,W.E.,Laird,C.D.,Watson,J.-P.,Woodruff,D.L.,Hackebeil,G.A.,Nicholson,B.L.,Siirola,J.D.,2017年。Python中的Pyomo-Optimization建模,第2版,第67卷,Springer Science&Business Media·Zbl 1370.90003号 [30] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素》(2009),Springer:Springer New York·Zbl 1273.62005年 [31] Hyafil,L。;Rivest,R.L.,构建最优二叉决策树是NP-完全的,Inform。处理Lett。,5, 1, 15-17 (1976) ·Zbl 0333.68029号 [32] Jakaitiene,A。;桑吉奥瓦尼,M。;瓜拉西诺,M。;Pardalos,P.,基因组数据的多维标度,129-139(2016),Springer International Publishing:Springer国际出版公司Cham·兹比尔1359.62478 [33] Jung,J.、Concannon,C.、Shroff,R.、Goel,S.、Goldstein,D.G.,2017年。复杂决策的简单规则,arXiv预打印arXiv:1702.04690。 [34] Khalil,E.B.,Bodic,P.L.,Song,L.,Nemhauser,G.,Dilkina,B.,2016年。学习混合整数编程中的分支。摘自:《第三十届AAAI人工智能会议论文集》,AAAI'16,AAAI出版社,第724-731页。 [35] Kleinberg,J。;Lakkaraju,H。;Leskovec,J。;路德维希,J。;Mullainathan,S.,《人类决策和机器预测》,Q.J.Econ。,133, 1, 237-293 (2018) ·Zbl 1405.91119号 [36] 李,X.-B。;Sarkar,S.,《反对分类攻击:数据挖掘中隐私保护的决策树修剪方法》,Oper。Res.,57,6,1496-1509(2009)·Zbl 1230.68171号 [37] Liaw,A。;Wiener,M.,《随机森林分类与回归》,R News,2,3,18-22(2002) [38] Lichman,M.,2013年。UCI机器学习库。http://archive.ics.uci.edu/ml。加州大学欧文分校信息与计算机科学学院。 [39] Martens,D。;Baesens,B。;Gestel,T。;Vanthienen,J.,《使用支持向量机规则提取的可理解信用评分模型》,欧洲期刊Oper。Res.,183,3,1466-1476(2007)·Zbl 1278.91177号 [40] Murthy,S.K。;Kasif,S。;Salzberg,S.,《斜决策树归纳系统》,J.Artif。智力。研究,2,1-32(1994)·Zbl 0900.68335号 [41] Norouzi,M.,Collins,M..,Johnson,M.A.,Fleet,D.J.,Kohli,P.,2015年。决策树的高效非贪婪优化。《神经信息处理系统进展》,第1729-1737页。 [42] Olafsson,S。;李,X。;Wu,S.,《运筹学和数据挖掘》,欧洲期刊Oper。Res.,187,3,1429-1448(2008)·Zbl 1137.90776号 [43] Orsenigo,C。;Vercellis,C.,基于最小特征离散支持向量机的多元分类树,IMA J.Manage。数学。,14221-234(2003年)·Zbl 1115.90406号 [44] (Pardalos,P.;Boginski,V.;Vazacopoulos,A.,《生物医学中的数据挖掘》(2007),Springer:Springer-Springer Optimization及其应用)·Zbl 1130.92034号 [45] Python核心团队,2015年。Python:一种动态的开源编程语言,Python软件基金会,https://www.python.org。 [46] Ridgeway,G.,《预测的陷阱》,美国国家司法研究所J,271,34-40(2013) [47] 萨维克·P。;克拉什卡,J。;Antoch,J.,最优分类树,(COMPSTAT(2000),Springer),427-432·Zbl 1455.62128号 [48] 夏皮罗,A。;Dentcheva,D。;Ruszczynski,A.,随机规划讲座:建模与理论(2009),SIAM·兹比尔1183.90005 [49] 西苏伊拉德-曼达。;Davis,R。;鲁丁,C。;金、红。;利本,D。;Swenson,R。;价格,C。;拉马尔,M。;Penney,D.,从数字时钟绘制测试中的细微行为学习认知条件的分类模型,Mach。学习。,102, 3, 393-441 (2016) [50] Therneau,T.、Atkinson,B.、Ripley,B.,2015年。rpart:递归分区和回归树,https://CRAN.R-project.org/package=rpart。 [51] Truong,A.,2009年。牛津大学博士论文,通过逻辑回归模型快速生长和可解释的斜树。 [52] Ustun,B。;Rudin,C.,用于优化医疗评分系统的超解析线性整数模型,马赫。学习。,102, 3, 349-391 (2016) ·Zbl 1406.62144号 [53] Van Vlasselaer,V。;Eliassi-Rad,T。;Akoglu,L。;斯诺克,M。;贝森斯,B,明白了!基于网络的社会安全欺诈检测,管理。科学。,63, 9, 3090-3110 (2017) [54] Verwer,S.,Zhang,Y.,2017年。使用整数优化学习具有灵活约束和目标的决策树。摘自:组合优化问题约束编程中AI和OR技术国际会议,Springer,第94-103页·Zbl 1489.68259号 [55] 弗沃,S。;张,Y。;Ye,Q.C.,使用回归树和线性模型作为整数程序的拍卖优化,Artif。整数。,244, 368-395 (2017) ·Zbl 1404.68122号 [56] 瓦希特,A。;Biegler,L.T.,《关于大规模非线性规划中点内滤波器线性搜索算法的实现》,数学。程序。,106, 1, 25-57 (2006) ·Zbl 1134.90542号 [57] Wang,J。;Fujimaki,R。;Motohashi,Y.,《准确度的交易可解释性:斜树稀疏加性模型》,(第21届ACM SIGKDD国际知识发现和数据挖掘会议论文集(2015),ACM),1245-1254 [58] Yang,L.等人。;刘,S。;佐卡,S。;Papageorgiou,L.G.,使用数学编程的回归树方法,专家系统。申请。,78, 347-357 (2017) [59] 曾杰。;Ustun,B。;Rudin,C.,《累犯预测的可解释分类模型》,J.R.Stat.Soc.:系列A,180,3,689-722(2017) 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。