×

通过数学编程学习定制和优化的规则列表。 (英文) Zbl 1411.90234号

摘要:我们介绍了一种数学编程方法来构建规则列表,这是一种涉及IF-THEN规则的可解释、非线性和逻辑机器学习分类器。与CART和C5.0等传统决策树算法不同,该方法不使用贪婪分割和剪枝。相反,它的目标是完全优化准确性和稀疏性的组合,遵守用户定义的约束。该方法可用于生成非黑箱预测模型,并具有在训练精度和稀疏性之间进行明确的用户定义权衡的优点。数学编程的灵活框架允许用户创建具有可证明的优化保证的自定义模型。作为提交文件的一部分,审查的软件被授予DOI(数字对象标识符)doi:10.5281/zenodo.1344142.

MSC公司:

90立方厘米 混合整数编程
62-04 统计相关问题的软件、源代码等
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Agrawal,R.,Srikant,R.:挖掘关联规则的快速算法。摘自:《第20届超大数据库国际会议论文集》,第487-499页(1994年)
[2] Angelino,E.,Larus-Stone,N.,Alabi,D.,Seltzer,M.,Rudin,C.:学习分类数据的可证明最优规则列表。In:第23届ACM SIGKDD知识发现和数据挖掘国际会议(KDD)会议记录(2017)·Zbl 1473.68134号
[3] Angelino,E.,Larus-Stone,N.,Alabi,D.,Seltzer,M.,Rudin,C.:学习分类数据的可证明最优规则列表。J.马赫。学习。第18号决议,第1-78号决议(2018年)·Zbl 1473.68134号
[4] Anthony,M.:决策列表。技术代表,CDM研究报告LSE-CDAM-2005-23(2005)
[5] Bache,K.,Lichman,M.:UCI机器学习库。http://archive.ics.uci.edu/ml (2013)
[6] Bayardo,R.J.,Agrawal,R.:挖掘最有趣的规则。摘自:第五届ACM SIGKDD知识发现和数据挖掘国际会议记录,第145-154页(1999)
[7] Bennett,K.P.,Blue,J.A.:最优决策树。技术代表,R.P.I.数学报告第214号,伦斯勒理工学院(1996年)
[8] Bertsimas,D.,Dunn,J.:最佳分类树。机器。学习。7, 1039-1082 (2017) ·Zbl 1455.68159号 ·doi:10.1007/s10994-017-5633-9
[9] Boros,E.,Hammer,P.L.,Ibaraki,T.,Kogan,A.,Mayoraz,E.,Muchnik,I.:数据逻辑分析的实现。IEEE传输。知识。数据工程12(2),292-306(2000)·数字对象标识代码:10.1109/69.842268
[10] Breiman,L.:随机森林。马赫学习45(1),5-32(2001)·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[11] Breiman,L.、Friedman,J.H.、Olshen,R.A.、Stone,C.J.:分类和回归树。贝尔蒙特·沃兹沃思(1984)·Zbl 0541.62042号
[12] Chang,A.:机器学习的整数优化方法。麻省理工学院博士论文(2012年)
[13] Chen,C.,Rudin,C.:学习下降规则列表的优化方法。摘自:《人工智能与统计学报》(AISTATS)(2018年)
[14] Chipman,H.A.,George,E.I.,McCulloch,R.E.:贝叶斯CART模型搜索。《美国统计协会期刊》93(443),935-948(1998)·doi:10.1080/01621459.1998.10473750
[15] Cieslak,DA;内华达州查拉;Daelemans,W.(编辑);Goethals,B.(编辑);Morik,K.(编辑),《非平衡数据的学习决策树》,第5211、241-256号(2008),柏林·doi:10.1007/978-3-540-87479-9_34
[16] Cohen,W.W.:快速有效的规则归纳。摘自:《第十二届机器学习国际会议论文集》,第115-123页。Morgan Kaufmann(1995)
[17] Cusick,G.R.、Courtney,M.E.、Havlicek,J.、Hess,N.:成年过渡期的犯罪:年轻人离开户外护理时的境遇。美国司法部司法项目办公室国家司法研究所(2010年)
[18] Dobkin,D.,Fulton,T.,Gunopulos,D.,Kasif,S.,Salzberg,S.:浅决策树的归纳(1996)
[19] Farhangfar,A.,Greiner,R.,Zinkevich,M.:一种快速生成最优固定深度决策树的方法。参加:人工智能和数学国际研讨会(ISAIM 2008),美国佛罗里达州劳德代尔堡,2008年1月2日至4日
[20] Fawcett,T.:Prie:生成规则列表以最大化roc性能的系统。数据最小知识。发现。17(2), 207-224 (2008) ·doi:10.1007/s10618-008-0089-y
[21] Freitas,A.A.:可理解的分类模型:立场文件。ACM SIGKDD探索。新闻。15(1), 1-10 (2014) ·doi:10.1145/2594473.2594475
[22] Freund,Y.,Schapire,R.E.:在线学习的决策理论概括及其在助推中的应用。J.计算。系统。科学。55(1), 119-139 (1997) ·Zbl 0880.68103号 ·doi:10.1006/jcss.1997.1504
[23] Friedman,J.H.,Popescu,B.E.:通过规则集合进行预测学习。附录申请。《统计》第2(3)卷,第916-954页(2008年)·Zbl 1149.62051号 ·doi:10.1214/07-AOAS148
[24] Geng,L.,Hamilton,H.J.:数据挖掘的有趣度量:一项调查。ACM计算。Surv公司。(2006). https://doi.org/10.1145/1132960.1132963 ·doi:10.145/1132960.1132963
[25] Goethals,B.:频繁模式挖掘调查。赫尔辛基信息技术研究所技术代表(2003年)
[26] Goh,S.T.,Rudin,C.:利用不平衡数据进行学习的方框图。摘自:第20届ACM SIGKDD知识发现和数据挖掘(KDD)会议记录(2014)
[27] Hall,M.、Frank,E.、Holmes,G.、Pfahringer,B.、Reutemann,P.、Witten,I.H.:weka数据挖掘软件:更新。SIGKDD探索者。新闻。11(1), 10-18 (2009). https://doi.org/10.1145/1656274.1656278 ·数字对象标识代码:10.1145/1656274.1656278
[28] Han,J.,Cheng,H.,Xin,D.,Yan,X.:频繁模式挖掘:现状和未来方向。数据最小知识。发现。15, 55-86 (2007) ·doi:10.1007/s10618-006-0059-1
[29] Hata,I.,Veloso,A.,Ziviani,N.:使用最佳多准则规则学习准确且可解释的分类器。J.信息数据管理。4(3) (2013)
[30] Hipp,J.,Güntzer,U.,Nakheizadeh,G.:关联规则挖掘算法:一般调查和比较。SIGKDD探索。2, 58-64 (2000) ·数字对象标识代码:10.1145/360402.360421
[31] Huysmans,J.、Dejaeger,K.、Mues,C.、Vantheinen,J.和Baesens,B.:基于决策表、树和规则的预测模型可理解性的实证评估。Decis公司。支持系统。51(1), 141-154 (2011) ·doi:10.1016/j.dss.2010.12.003
[32] DL詹宁斯;阿马比尔,TM;罗斯,L。;Kahneman,D.(编辑);斯洛文尼亚语,P.(编辑);Tversky,A.(编辑),《非正式协变量评估:基于数据与基于理论的判断》,211-230(1982),剑桥·doi:10.1017/CBO9780511809477.016
[33] Klivans,A.R.,Servedio,R.A.:关于决策列表和平价的属性高效学习。J.马赫。学习。第7号决议,587-602(2006年)·Zbl 1222.68087号
[34] Kuhn,M.,Weston,S.,Coulter,N.:C50:C5.0决策树和基于规则的模型,R.Quinlan编写的C5.0 C代码。http://CRAN.R-project.org/package=C50。r包版本0.1.0-013(2012)
[35] Lakkaraju,H.,Rudin,C.:以规则列表的形式学习成本效益高且可解释的治疗制度。摘自:《人工智能与统计学报》(AISTATS)(2017年)
[36] Leondes,C.T.:《专家系统:21世纪的知识管理和决策技术》。伦敦学术出版社(2002年)
[37] Letham,B.,Rudin,C.,McCormick,T.H.,Madigan,D.:使用规则和贝叶斯分析的可解释分类器:构建更好的中风预测模型。附录申请。统计9(3),1350-1371(2015)·Zbl 1454.62348号 ·doi:10.1214/15-OAS848
[38] Li,W.,Han,J.,Pei,J.:CMAR:基于多类关联规则的准确高效分类。IEEE数据挖掘国际会议,第369-376页(2001年)
[39] Liu,B.,Hsu,W.,Ma,Y.:集成分类和关联规则挖掘。摘自:《第四届知识发现和数据挖掘国际会议论文集》,第80-96页(1998年)
[40] Long,P.M.,Servedio,R.A.:非集中分布下决策列表和线性阈值函数的属性有效学习。高级神经信息处理。系统。19, 921-928 (2007)
[41] Malioutov,D.,Varshney,K.:通过布尔压缩感知实现精确规则学习。摘自:《第30届机器学习国际会议论文集》,第765-773页(2013)
[42] Marchand,M.,Sokolova,M.:使用数据相关特性的决策列表进行学习。J.马赫。学习。第6号决议,427-451(2005年)·Zbl 1222.68257号
[43] McCormick,T.H.,Rudin,C.,Madigan,D.:预测医疗条件的贝叶斯层次模型。附录申请。Stat.6(2),652-668(2012)·Zbl 1243.62036号 ·doi:10.1214/11-AOAS522
[44] McGarry,K.:关于知识发现兴趣度的调查。知识。工程修订版20,39-61(2005)·doi:10.1017/S0269888905000408
[45] 明绍森,N.:节点收获。附录申请。《统计》第4(4)卷,2049-272年(2010年)·Zbl 1220.62084号 ·doi:10.1214/10-AOAS367
[46] Miller,G.A.:神奇的数字7,加或减2:我们处理信息的能力受到一些限制。精神病。修订版63(2),81-97(1956)·doi:10.1037/h0043158
[47] Muggleton,S.,De Raedt,L.:归纳逻辑编程:理论和方法。J.日志。程序。19, 629-679 (1994) ·Zbl 0816.68043号 ·doi:10.1016/0743-1066(94)90035-3
[48] Naumov,G.:最优决策树构造问题的NP-完备性。Sov公司。物理学。多克。36(4), 270-271 (1991) ·Zbl 0800.68856号
[49] Nijssen,S.,Fromont,E.:从项集格挖掘最优决策树。摘自:ACM SIGKDD知识发现和数据挖掘(KDD)会议记录(2007年)
[50] Nijssen,S.,Fromont,E.:从项集格中归纳出基于约束的最优决策树。数据最小知识。发现。21(1), 9-51 (2010) ·doi:10.1007/s10618-010-0174-x
[51] Norouzi,M.,Collins,M..,Johnson,M.A.,Fleet,D.J.,Kohli,P.:决策树的高效非贪婪优化。高级神经信息处理。系统。28, 1729-1737 (2015)
[52] Plate,T.A.:灵活建模中的准确性与可解释性:使用高斯过程模型实现权衡。行为测量学26,29-50(1999)·doi:10.2333/bhmk.26.29
[53] Quinlan,J.R.:C4.5:机器学习程序。Morgan Kaufmann,Los Altos(1993)
[54] 里奇韦:预测的陷阱。NIJ J.国家。《Inst.Justice》271,34-40(2013)
[55] Rivest,R.L.:学习决策列表。机器。学习。2(3), 229-246 (1987)
[56] 吕克特,美国:规则学习的统计方法。慕尼黑理工大学博士论文(2008年)
[57] Rudin,C.,Letham,B.,Salleb-Aouissi,A.,Kogan,E.,Madigan,D.:关联规则的顺序事件预测。摘自:第24届学习理论年会(COLT)会议记录(2011年)
[58] Rudin,C.,Letham,B.,Madigan,D.:关联规则和序列事件预测的学习理论分析。J.马赫。学习。第14号决议,3384-3436(2013年)·Zbl 1317.68184号
[59] 吕平,S.:学习可解释模型。多特蒙德大学博士论文(2006年)
[60] Simon,G.J.,Kumar,V.,Li,P.W.:用于分类的简单统计模型和关联规则过滤。摘自:第17届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第823-831页(2011年)
[61] Su,G.,Wei,D.,Varshney,K.R.,Malioutov,D.M.:分类的可解释两级布尔规则学习。摘自:ICML机器学习中人类可理解性研讨会(WHI 2016)(2016)。arXiv:1606.05798
[62] Tan,P.N.,Kumar,V.:关联模式的有趣度量:一个视角。明尼苏达大学计算机科学系技术代表(2000年)
[63] Thabtah,F.:关联分类挖掘综述。知识。工程修订版22,37-65(2007)·网址:10.1017/S0269888907001026
[64] Ustun,B.,Rudin,C.:优化医疗评分系统的超解析线性整数模型。机器。学习。102(3), 349-391 (2016) ·Zbl 1406.62144号 ·doi:10.1007/s10994-015-5528-6
[65] Ustun,B.,Rudin,C.:优化风险评分。摘自:第23届ACM SIGKDD知识发现和数据挖掘国际会议记录(2017年)·Zbl 1406.62144号
[66] Vanhoof,K.,Depaire,B.:关联规则分类器的结构:综述。摘自:《智能系统与知识工程国际会议论文集》,第9-12页(2010年)
[67] Vapnik,V.:统计学习理论。威利,纽约(1998)·Zbl 0935.62007号
[68] Vellido,A.,Martín-Guerrero,J.D.,Lisboa,P.J.:使机器学习模型可解释。在:欧洲人工神经网络、计算智能和机器学习研讨会论文集(2012)
[69] Verwer,S.,Zhang,Y.:使用整数优化学习具有灵活约束和目标的决策树。2017年CPAIOR。《计算机科学讲义》,第10335卷,第94-103页。施普林格(2017)·Zbl 1489.68259号
[70] Wang,F.,Rudin,C.:下降规则列表。摘自:《人工智能与统计学报》(AISTATS)(2015年)
[71] Wang,T.,Rudin,C.,Doshi-Velez,F.,Liu,Y.,Klampfl,E.,MacNeille,P.:可解释分类学习规则集的贝叶斯框架。J.马赫。学习。第18(70)号决议,1-37(2017)·Zbl 1434.68467号
[72] Wu,Y.,Tjelmeland,H.,West,M.:贝叶斯CART:先验规范和后验模拟。J.计算。图表。Stat.16(1),44-66(2007)·doi:10.1198/106186007X180426
[73] Yang,H.,Rudin,C.,Seltzer,M.:可伸缩贝叶斯规则列表。摘自:第34届国际机器学习会议(ICML)会议记录(2017)
[74] 尹晓欣;Han,Jiawei,CPAR:基于预测关联规则的分类,331-335(2003),宾夕法尼亚州费城·doi:10.1137/1.9781611972733.40
[75] Zeng,J.,Ustun,B.,Rudin,C.:累犯预测的可解释分类模型。J.R.统计社会服务。A(Stat.Soc.)180(3),689-722(2017)·doi:10.1111/rssa.12227
[76] Zhang,Y.,Laber,E.B.,Tsiatis,A.,Davidian,M.:使用决策列表构建可解释和节俭的治疗制度。生物计量学71(4),895-904(2015)·Zbl 1419.62490号 ·doi:10.1111/biom.12354
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。