×

兹马思-数学第一资源

SIRUS:用于分类的稳定且可解释的规则集。(英语) Zbl 1458.62126号
提出了一种新的回归规则算法SIRUS。该算法的主要思想是从随机森林中提取规则。证明了该方法具有渐近稳定性。在两个流行的基准数据集上验证了该方法的有效性。

理学硕士:
62小时30分 分类和区分;聚类分析(统计方面)
62G05型 非参数估计
62G35型 非参数鲁棒性
6220国集团 非参数推理的渐近性质
PDF格式 BibTeX公司 XML 引用
参考文献:
[1] 【Agrawal,Imielinski和Swami(1993年)】Agrawal,R.,Imielinski,T.和Swami,A.(1993年)。在大型数据库中挖掘项目集之间的关联规则。1993年ACM SIGMOD国际数据管理会议记录207-216。纽约ACM。
[2] 【Alelyani,Zhao和Liu(2011年)】Alelyani,S.,Zhao,Z.和Liu,H.(2011年)。特征选择算法稳定性评估中的一个困境。第13届IEEE高性能计算与通信国际会议701-707。IEEE,皮斯卡塔韦。
[3] 【Angelino等人(2017年)】Angelino,E.,Larus Stone,N.,Alabi,D.,Seltzer,M.和Rudin,C.(2017年)。学习分类数据的可证明的最优规则列表,机器学习研究杂志18 8753-8830。
[4] 【贝纳德和赖特(2020年)】贝纳德,C.和赖特,M.N.(2020年)。sirus:稳定和可解释的规则集R包版本,0.3.1。
[5] 【Biau和Scornet(2016年)】Biau,G.和Scornet,E.(2016年)。随机森林导游(附有作者的评论和反驳),测试25197-268·Zbl 1402.62134号
[6] 【Boulesteix和Slawski(2009年)】Boulesteix,A.L.和Slawski,M.(2009年)。排序基因表的稳定性和聚集性,生物信息学简报10 556-568。
[7] [Bousquet and Elisseeff(2002)]Bousquet,O.和Elisseeff,A.(2002年)。稳定性与泛化,机器学习研究杂志2 499-526·Zbl 1007.68083
[8] [布雷曼(1996)]布雷曼,L.(1996年)。装袋预测,机器学习24 123-140·Zbl 0858.68080
[9] [布雷曼(2001a)]布雷曼,L.(2001a)。统计建模:两种文化(附作者的评论和反驳),统计科学16 199-231·Zbl 1059.62505
[10] [布雷曼(2001b)]布雷曼,L.(2001b)。随机森林,机器学习45 5-32·Zbl 1007.68152号
[11] [布雷曼(2003a)]布雷曼,L.(2003a)。设置、使用和理解random forests V3.1。技术报告,加州大学伯克利分校。
[12] [Breiman等人(1984)]Breiman,L.,Friedman,J.H.,Olshen,R.A.和Stone,C.J.(1984年),分类和回归树。查普曼和霍尔/CRC,博卡拉顿·Zbl 0541.62042
[13] [Chao等人(2006)]Chao,A.,Chazdon,R.L.,Colwell,R.K.和Shen,T.J.(2006年)。基于丰度的相似性指数及其在样本中存在未知物种时的估计,生物特征学62 361-371·Zbl 1097.62141
[14] [Clark and Niblett(1989)]Clark,P.和Niblett,T.(1989年)。感应机器学习算法CN283-261。
[15] [科恩(1995)]科恩,W.W.(1995)。快速有效的规则归纳。第十二届机器学习国际会议论文集115-123。摩根考夫曼出版社,旧金山。
[16] [科恩和辛格(1999)]科恩,W.W.和辛格,Y.(1999)。一个简单、快速、有效的规则学习者。年,《第十六届全国人工智能大会暨第十一届人工智能创新应用大会论文集》335-342。AAI出版社,帕洛阿尔托。
[17] [Cvitkovic,Smith and Pande(2017)]Cvitkovic,M.,Smith,A.S.和Pande,J.(2017年)。两个大参数超几何函数的渐近展开在圈闭场中晶格气体配分函数中的应用,物理学报a:数学与理论50 265206·Zbl 1454.82034号
[18] 【Dembczynski,Kotlowski和Slowinski(2010年)】Dembczynski,K.,Kotlowski,W.和Slowinski,R.(2010年)。恩德:促进决策规则、数据挖掘和知识发现的统计框架21 52-90·Zbl 1185.68521
[19] 【Devroye和Wagner(1979年)】Devroye,L.和Wagner,T.(1979年)。删除和保持误差估计的无分布不等式,IEEE信息理论汇刊25 202-207·Zbl 0408.62055
[20] 【Doshi Velez和Kim(2017年)】Doshi Velez,F.和Kim,B.(2017年)。《迈向可解释机器学习的严谨科学》,arXiv:1702.08608。
[21] 【Dua和Graff(2017年)】Dua,D.和Graff,C.(2017年)。UCI机器学习,知识库。
[22] 【Fokkema(2020年)】Fokkema,M.(2020年)。用R软件包拟合预测规则集合,统计软件杂志92 1-30。
[23] [Frank and Witten(1998)]Frank,E.和Witten,I.H.(1998年)。生成精确的规则集而不需要全局优化。第十五届机器学习国际会议论文集144-151。摩根考夫曼出版社,旧金山。
[24] [Freitas(2014)]弗雷塔斯,A.A.(2014年)。可理解的分类模型:立场文件,ACM SIGKDD探索通讯15 1-10。
[25] [Friedman,Hastie and Tibshirani(2001)]Friedman,J.,Hastie,T.和Tibshirani,R.(2001年),《统计学习要素》1。纽约统计的斯普林格系列·Zbl 0973.62007
[26] [弗里德曼和波佩斯库(2003)]弗里德曼,J.H.和波佩斯库,B.E.(2003)。重要抽样学习组合技术报告,斯坦福大学。
[27] [弗里德曼和波佩斯库(2008)]弗里德曼,J.H.和波佩斯库,B.E.(2008)。通过规则集合进行预测性学习,《应用统计学年鉴》2 916-954·Zbl 1149.62051
[28] [Fürnkranz and Widmer(1994)]Fürnkranz,J.和Widmer,G.(1994年)。增量减少错误修剪。年,第11届机器学习国际会议论文集70-77。摩根考夫曼出版社,旧金山。
[29] 【Guidotti和Ruggieri(2019年)】Guidotti,R.和Ruggieri,S.(2019年)。关于可解释模型的稳定性。年,神经网络国际联席会议1-8。IEEE,皮斯卡塔韦。
[30] 【Guidotti等人(2018年)】Guidotti,R.,Monreale,A.,Ruggieri,S.,Turini,F.,Giannotti,F.和Pedreschi,D.(2018年)。黑匣子模型解释方法调查,ACM计算调查51 1-42。
[31] 【何、于(2010)】何志明、余伟(2010)。生物标记物发现的稳定特征选择,计算生物学和化学34 215-225·Zbl 1403.92068
[32] [霍夫丁(1948)]霍夫丁,W.(1948年)。一类具有渐近正态分布的统计量。《数理统计年鉴》19 293-325·Zbl 0032.04101
[33] [Hornik,Buchta and Zeileis(2009)]霍尼克,K.,Buchta,C.和Zeileis,A.(2009年)。开放源码机器学习:R符合Weka.,计算统计学24 225-232·Zbl 1232.62007
[34] 【Johnson和Hahsler(2020年)】Johnson,I.和Hahsler,M.(2020年)。arulesCBA:基于关联规则的分类R包版本,1.1.6。
[35] 【Kuhn和Quinlan(2020年)】Kuhn,M.和Quinlan,R.(2020年)。C50:C5.0决策树和基于规则的模型R包版本,0.1.3。
[36] 【Kumbier等人(2018年)】Kumbier,K.,Basu,S.,Brown,J.B.,Celniker,S.和Yu,B.(2018年)。通过有符号迭代随机森林优化交互搜索,arXiv:1810.07287。
[37] 【Lakkaraju,Bach和Leskovec(2016年)】Lakkaraju,H.,Bach,S.H.和Leskovec,J.(2016年)。可解释决策集:描述与预测的联合框架。年,第22届ACM-SIGKDD知识发现与数据挖掘国际会议论文集1675-1684。纽约ACM。
[38] 【莱瑟姆(2015年)】莱瑟姆,B.(2015年)。决策的统计学习:可解释性、不确定性和推理,麻省理工学院博士论文。
[39] 【Letham等人(2015年)】Letham,B.,Rudin,C.,McCormick,T.H.和Madigan,D.(2015年)。可解释分类器使用规则和贝叶斯分析:建立一个更好的中风预测模型,应用统计学年鉴9 1350-1371·Zbl 1454.62348
[40] 【Lipton(2016年)】Lipton,Z.C.(2016年)。第1606章,解释神话的能力。
[41] [刘,许,马(1998)]刘,乙,许,W,马云(1998)。集成分类和关联规则挖掘。年,第14届知识发现与数据挖掘国际会议论文集98 80-86。纽约ACM。
[42] 【Meinshausen(2010年)】梅因绍森,N.(2010年)。《应用统计学年鉴》2049-2072·Zbl 1220.62084
[43] 【Meinshausen(2015年)】Meinshausen,N.(2015年)。Node harvest R包版本,0.7-3。
[44] 【门奇和胡克(2016年)】门奇,L.和胡克,G.(2016年)。通过置信区间和假设检验量化随机森林中的不确定性,机器学习研究杂志17 841-881·Zbl 1360.62095
[45] [米哈尔斯基(1969)]米哈尔斯基,R.S.(1969)。关于一般覆盖问题的拟极小解。年,第五届信息处理国际研讨会论文集125-128。纽约ACM。
[46] 【默多克等人(2019年)】默多克,W.J.,辛格,C.,Kumbier,K.,Abbasi Asl,R.和Yu,B.(2019年)。可解释机器学习:定义,方法和应用,arXiv:1901.04592·Zbl 1431.62266
[47] [Oates and Jensen(1997)]Oates,T.和Jensen,D.(1997年)。训练集大小对决策树复杂度的影响。第十四届机器学习国际会议论文集254-262。摩根考夫曼出版社,旧金山。
[48] [Olver等人(2010)]Olver,F.W.J.,Lozier,D.W.,Boisvert,R.F.和Clark,C.W.(2010年),《NIST数学函数手册》精装本和光盘,剑桥大学出版社。
[49] [Piech(2016年)]Piech,C.(2016年)。泰坦尼克号数据集。,https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/problem12.html。访问日期:2020-10-26。
[50] 【Poggio等人(2004年)】Poggio,T.,Rifkin,R.,Mukherjee,S.和Niyogi,P.(2004年)。学习理论预测性的一般条件,自然428 419-422。
[51] [昆兰(1990)]昆兰,J.R.(1990)。从关系中学习逻辑定义,机器学习5 239-266。
[52] [Quinlan(1992)]Quinlan,J.R.(1992),C4.5:机器学习程序。摩根考夫曼出版社,圣马特奥。
[53] [昆兰和卡梅隆琼斯(1995)]昆兰,J.R.和卡梅隆琼斯,R.M.(1995)。逻辑程序归纳:箔片和相关系统,新一代计算机13 287-312。
[54] 【Ribeiro,Singh和Guestrin(2016年)】Ribeiro,M.T.,Singh,S.和Guestrin,C.(2016年)。我为什么要相信你?解释任何分类器的预测。年,第22届ACM-SIGKDD知识发现与数据挖掘国际会议论文集1135-1144。纽约ACM。
[55] [Rivest(1987年)]Rivest,R.L.(1987年)。学习决策表,机器学习229-246。
[56] [罗杰斯和瓦格纳(1978)]罗杰斯,W.H.和瓦格纳,T.J.(1978)。一个有限样本分布的自由性能界的地方歧视规则,,《统计年鉴》6 506-514·Zbl 0385.62041
[57] 【鲁丁(2018年)】鲁丁,C.(2018年)。请停止解释高风险决策的黑箱模型,arXiv:1811.10154。
[58] [吕平(2006)]吕平,S.(2006)。学习可解释模型,博士论文,多特蒙德大学。
[59] [Serfling(2009)]Serfling,R.J.(2009),数理统计的逼近定理162。约翰威利父子公司。
[60] 【Strobl等人(2006年)】Strobl,C.,Boulesteix,A.L.,Zeileis,A.和Hothorn,T.(2006年)。随机森林变量重要性测度的偏差。年,复杂系统统计建模研讨会。城市人。
[61] 【塞诺和阿特金森(2019年)】塞诺,T.和阿特金森,B.(2019年)。rpart:递归分区和回归树R包版本,4.1-15。
[62] 【蒂布什拉尼(1996年)】蒂布什拉尼,R.(1996年)。回归收缩和选择通过套索,皇家统计学会杂志。B系列(方法学)58 267-288·Zbl 0850.62538
[63] 【Tolomei等人(2017年)】Tolomei,G.,Silvestri,F.,Haines,A.和Lalmas,M.(2017年)。基于树的集合的可解释预测通过可操作的特征调整。年,第23届ACM SIGGDD知识发现与数据挖掘国际会议论文集465-474。纽约ACM。
[64] 〔Vapnik(1998)〕Vapnik,V.(1998).《统计学习理论》。威利,纽约·Zbl 0935.62007
[65] [Weiss and Indurkhya(2000)]韦斯,S.M.和Indurkhya,N.(2000年)。轻量级规则归纳法。年,第十七届机器学习国际会议论文集1135-1142。摩根考夫曼出版社,旧金山·68ZB104673
[66] [赖特和齐格勒(2017)]赖特,M.N.和齐格勒,A.(2017)。ranger:C++和R中高维数据随机森林的快速实现,统计软件杂志771-17。
[67] 【Yang,Rudin和Seltzer(2017年)】Yang,H.,Rudin,C.和Seltzer,M.(2017年)。可伸缩的贝叶斯规则列表。年,第34届机器学习国际会议论文集3921-3930。JMLR,马萨诸塞州剑桥市。
[68] [尹与汉(2003)]尹,X.与韩,J.(2003)。CPAR:基于预测关联规则的分类。2003年暹罗数据挖掘国际会议论文集331-335。暹罗,费城。
〔69〕 [Yu(2013)]于博(2013)。稳定性,伯努利19 1484-1500·Zbl 1440.62402
[70] 【Yu和Kumbier(2019年)】Yu,B.和Kumbier,K.(2019年)。数据科学的三大原则:可预测性、可计算性和稳定性(PCS),arXiv:1901.08152。
[71] 【Zaki等人(1997年)】Zaki,M.J.,Parthasarathy,S.,Ogihara,M.和Li,W.(1997年)。关联规则发现、数据挖掘和知识发现的并行算法1343-373。
[72] [扎克尼克,理查森和斯特罗纳(2008)]扎克尼克,M·Zbl 1276.92033
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。