×

最优随机分类树。 (英语) Zbl 1510.90306号

摘要:分类和回归树(CART)是现代统计学和机器学习中的一种现成技术。传统上,CART是通过贪婪过程构建的,顺序决定分裂预测变量和相关阈值。这种贪婪的方法训练树的速度非常快,但就其本质而言,它们的分类精度可能无法与其他最先进的程序相匹敌。此外,很难控制关键问题,例如每个类的误分类率。为了解决这些缺点,文献中最近提出了最优决策树,它使用离散决策变量来建模树中每个观测点将遵循的路径。相反,我们提出了一种基于连续优化的新方法。我们的分类器可以看作是一棵随机树,因为在决策树的每个节点上都会做出随机决策。报告的计算经验证明了我们程序的良好性能。

MSC公司:

90 C90 数学规划的应用
68T05年 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
90立方厘米 混合整数编程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Baesens,B。;塞提诺,R。;梅斯,C。;Vantheinen,J.,《使用神经网络规则提取和决策表进行信用风险评估》,管理。科学。,49, 3, 312-329 (2003) ·Zbl 1232.91684号
[2] Bennett,K.P.,Blue,J.,1996年。最优决策树,伦斯勒理工学院数学报告214。
[3] Bertsimas,D。;Dunn,J.,《最佳分类树》,马赫。学习。,10671039-1082(2017)·Zbl 1455.68159号
[4] Bertsimas,D。;King,A.,线性回归的算法方法,Oper。第64、1、2-16号决议(2015年)·Zbl 1338.90272号
[5] Bertsimas,D。;Mazumder,R.,《通过现代优化实现最小分位数回归》,《Ann.Stat.》,42,6,2494-2525(2014)·Zbl 1302.62154号
[6] Bertsimas,D。;Shioda,R.,通过整数优化进行分类和回归,Oper。研究,55,2,252-271(2007)·Zbl 1167.90593号
[7] Bertsimas,D。;奥黑尔,A。;雷利亚,S。;Silberholz,J.,设计癌症联合化疗方案的分析方法,管理。科学。,62, 5, 1511-1531 (2016)
[8] Biau,G。;Scornet,E.,《随机森林导览》,TEST,25,2,197-227(2016)·Zbl 1402.62133号
[9] 博图,L。;柯蒂斯,F。;Nocedal,J.,《大规模机器学习的优化方法》,SIAM Rev.,60,2,223-311(2018)·Zbl 1397.65085号
[10] Breiman,L.,《随机森林》,马赫。学习。,45, 1, 5-32 (2001) ·Zbl 1007.68152号
[11] 布雷曼,L。;弗里德曼,J。;斯通,C.J。;Olshen,R.A.,分类和回归树(1984),CRC出版社·Zbl 0541.62042号
[12] Brooks,J.P.,《带有斜坡损失和硬边损失的支持向量机》,Oper。研究,59,2,467-479(2011)·Zbl 1228.90057号
[13] Carrizosa,E。;罗梅罗·莫拉莱斯,D.,《监督分类和数学优化》,《计算机操作》。Res.,40,1150-165(2013)·Zbl 1349.68135号
[14] Carrizosa,E。;Nogales-Gómez,A。;Romero Morales,D.,支持向量机中的聚类类别,Omega,66,28-37(2017)
[15] Carrizosa,E。;格雷罗,V。;Romero Morales,D.,通过DC(凸差)优化将数据可视化,数学。程序。,169, 1, 119-140 (2018) ·Zbl 1390.90616号
[16] Chaovalitwingse,W.A。;范,Y.-J。;Sachdeo,R.C.,异常脑活动分类的新型优化模型,Oper。第56、6、1450-1460号决议(2008年)·Zbl 1167.92325号
[17] 奇卡洛夫,I。;侯赛因,S。;Moshkov,M.,《决策树的双标准优化及其在数据分析中的应用》,欧洲期刊Oper。第266、2689-701号决议(2018年)·Zbl 1403.91106号
[18] Cárdi,G.,Truong,A.,2012年。斜树,https://github.com/cran/oblixe.tree。
[19] Dunn,J.,2018年。预测和处方的最优树,麻省理工学院博士论文。
[20] 方,X。;Sheng,O.R.L。;Goes,P.,更新从数据中发现的知识的正确时间是什么时候?,操作。Res.,61,1,32-44(2013)·Zbl 1267.90166号
[21] 费尔南德斯·德尔加多,M。;Cernadas,E。;巴罗,S。;Amorim,D.,我们需要数百个分类器来解决现实世界的分类问题吗?,J.马赫。学习。研究,15,1,3133-3181(2014)·Zbl 1319.62005号
[22] Fortunato,S.,《图形中的社区检测》,Phys。众议员,486,3,75-174(2010)
[23] Fountoulakis,K。;Gondzio,J.,强凸的二阶方法ℓ_1-正则化问题,数学。程序。,156, 1, 189-219 (2016) ·Zbl 1364.90255号
[24] Freitas,A.,《可理解的分类模型:立场文件》,ACM SIGKDD Explorations Newsletter,15,1,1-10(2014)
[25] Genuer,R。;波吉,J.-M。;图洛·马洛特,C。;Villa-Vialaneix,N.,《大数据随机森林》,大数据研究,9,28-46(2017)
[26] 古德曼,B。;Flaxman,S.,欧盟关于算法决策和“解释权”的规定,AI杂志,38,3,50-57(2017)
[27] 葛兰吕克,O。;Kalagnanam,J。;Menickelly,M。;Scheinberg,K.,《通过整数规划实现分类数据的最优决策树》,J.Glob。优化。(2021) ·Zbl 1475.90039号
[28] 哈特,W.E。;沃森,J.-P。;伍德拉夫,D.L.,《Pyomo:用Python数学建模和求解数学程序》。编程计算。,3, 3, 219-260 (2011)
[29] Hart,W.E.,Laird,C.D.,Watson,J.-P.,Woodruff,D.L.,Hackebeil,G.A.,Nicholson,B.L.,Siirola,J.D.,2017年。Python中的Pyomo-Optimization建模,第2版,第67卷,Springer Science&Business Media·Zbl 1370.90003号
[30] 哈斯蒂,T。;Tibshirani,R。;Friedman,J.,《统计学习的要素》(2009),Springer:Springer New York·Zbl 1273.62005年
[31] Hyafil,L。;Rivest,R.L.,构建最优二叉决策树是NP-完全的,Inform。处理Lett。,5, 1, 15-17 (1976) ·Zbl 0333.68029号
[32] Jakaitiene,A。;桑吉奥瓦尼,M。;瓜拉西诺,M。;Pardalos,P.,基因组数据的多维标度,129-139(2016),Springer International Publishing:Springer国际出版公司Cham·Zbl 1359.62478号
[33] Jung,J.、Concannon,C.、Shroff,R.、Goel,S.、Goldstein,D.G.,2017年。复杂决策的简单规则,arXiv预印本arXiv:1702.04690。
[34] Khalil,E.B.,Bodic,P.L.,Song,L.,Nemhauser,G.,Dilkina,B.,2016年。学习混合整数编程中的分支。摘自:《第三十届AAAI人工智能会议论文集》,AAAI'16,AAAI出版社,第724-731页。
[35] Kleinberg,J。;Lakkaraju,H。;Leskovec,J。;路德维希,J。;Mullainathan,S.,《人类决策和机器预测》,Q.J.Econ。,133, 1, 237-293 (2018) ·Zbl 1405.91119号
[36] 李,X.-B。;Sarkar,S.,《反对分类攻击:数据挖掘中隐私保护的决策树修剪方法》,Oper。Res.,57,6,1496-1509(2009)·Zbl 1230.68171号
[37] Liaw,A。;Wiener,M.,《随机森林分类与回归》,R News,2,3,18-22(2002)
[38] Lichman,M.,2013年。UCI机器学习库。http://archive.ics.uci.edu/ml。加州大学欧文分校信息与计算机科学学院。
[39] Martens,D。;Baesens,B。;Gestel,T。;Vanthienen,J.,《使用支持向量机规则提取的可理解信用评分模型》,欧洲期刊Oper。Res.,183,3,1466-1476(2007)·Zbl 1278.91177号
[40] Murthy,S.K。;Kasif,S。;Salzberg,S.,《斜决策树归纳系统》,J.Artif。智力。研究,2,1-32(1994)·Zbl 0900.68335号
[41] Norouzi,M.,Collins,M..,Johnson,M.A.,Fleet,D.J.,Kohli,P.,2015年。决策树的高效非贪婪优化。摘自:《神经信息处理系统进展》,第1729-1737页。
[42] Olafsson,S。;李,X。;Wu,S.,运营研究和数据挖掘,欧洲石油公司。Res.,187,3,1429-1448(2008)·Zbl 1137.90776号
[43] Orsenigo,C。;Vercellis,C.,基于最小特征离散支持向量机的多元分类树,IMA J.Manage。数学。,14, 3, 221-234 (2003) ·兹比尔1115.90406
[44] (Pardalos,P.;Boginski,V.;Vazacopoulos,A.,《生物医学中的数据挖掘》(2007),Springer:Springer-Springer Optimization及其应用)·Zbl 1130.92034号
[45] Python核心团队,2015年。Python:一种动态的开源编程语言,Python软件基金会,https://www.python.org。
[46] 里奇韦(Ridgeway,G.),《预测的陷阱》,《国家司法研究所期刊》,271,34-40(2013)
[47] 萨维克·P。;克拉什卡,J。;Antoch,J.,最优分类树,(COMPSTAT(2000),Springer),427-432·Zbl 1455.62128号
[48] 夏皮罗,A。;Dentcheva,D。;Ruszczynski,A.,随机规划讲座:建模与理论(2009),SIAM·邮编:1183.90005
[49] 西苏伊拉德-曼达。;Davis,R。;鲁丁,C。;金、红。;利本,D。;斯文森,R。;价格,C。;拉马尔,M。;Penney,D.,从数字时钟绘制测试中的细微行为学习认知条件的分类模型,Mach。学习。,102, 3, 393-441 (2016)
[50] Therneau,T.、Atkinson,B.、Ripley,B.,2015年。rpart:递归分区和回归树,https://CRAN.R-project.org/package=rpart。
[51] Truong,A.,2009年。牛津大学博士论文,通过逻辑回归模型快速生长和可解释的斜树。
[52] Ustun,B。;Rudin,C.,优化医疗评分系统的超解析线性整数模型,马赫。学习。,102, 3, 349-391 (2016) ·Zbl 1406.62144号
[53] Van Vlasselaer,V。;Eliassi-Rad,T。;Akoglu,L.公司。;斯诺克,M。;贝森、B、GOTCHA!基于网络的社会安全欺诈检测,管理。科学。,63, 9, 3090-3110 (2017)
[54] Verwer,S.,Zhang,Y.,2017年。使用整数优化学习具有灵活约束和目标的决策树。摘自:组合优化问题约束编程中AI和OR技术国际会议,Springer,第94-103页·Zbl 1489.68259号
[55] Verwer,S。;张,Y。;Ye,Q.C.,使用回归树和线性模型作为整数程序的拍卖优化,Artif。智力。,244, 368-395 (2017) ·Zbl 1404.68122号
[56] 瓦希特,A。;Biegler,L.T.,《关于大规模非线性规划中点内滤波器线性搜索算法的实现》,数学。程序。,106, 1, 25-57 (2006) ·Zbl 1134.90542号
[57] Wang,J。;Fujimaki,R。;Motohashi,Y.,《准确度的交易可解释性:斜树稀疏加性模型》,(第21届ACM SIGKDD国际知识发现和数据挖掘会议论文集(2015),ACM),1245-1254
[58] Yang,L。;刘,S。;佐卡,S。;Papageorgiou,L.G.,使用数学编程的回归树方法,专家系统。申请。,78, 347-357 (2017)
[59] 曾杰。;Ustun,B。;Rudin,C.,《累犯预测的可解释分类模型》,J.R.Stat.Soc.:系列A,180,3,689-722(2017)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。