×

使用规则和贝叶斯分析的可解释分类器:构建更好的笔画预测模型。 (英语) Zbl 1454.62348号

小结:我们的目标是生成不仅准确,而且可由人类专家解释的预测模型。我们的模型是决策列表,由一系列如果…那么…声明(例如。,如果高血压,那么中风)它将高维、多元特征空间离散化为一系列简单、易于解释的决策语句。我们引入了一个称为贝叶斯规则列表的生成模型,该模型在可能的决策列表上产生后验分布。它采用新颖的优先结构来鼓励稀疏性。我们的实验表明,贝叶斯规则列表的预测精度与当前机器学习中的顶级预测算法相当。我们的方法受到个性化医学最新发展的推动,可以用于生成高度准确和可解释的医学评分系统。我们通过生成一个替代\(\mathrm{字串}_{2} \)分数,积极用于临床实践中评估心房颤动患者中风风险。我们的模型可以解释为{字串}_{2} \),但更准确。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62C10个 贝叶斯问题;贝叶斯过程的特征
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agrawal,R.和Srikant,R.(1994)。关联规则挖掘的快速算法。在VLDB’94第20届超大数据库国际会议论文集487-499中。Morgan Kaufmann,加利福尼亚州旧金山。
[2] Antman,E.M.、Cohen,M.、Bernink,P.J.L.M.、McCabe,C.H.、Horacek,T.、Papuchis,G.、Mautner,B.、Corbalan,R.、Radley,D.和Braunwald,E.(2000年)。不稳定型心绞痛/非ST段抬高型心肌梗死的TIMI风险评分:一种预测和治疗决策的方法。JAMA 284 835-842号。
[3] Bache,K.和Lichman,M.(2013)。UCI机器学习库。可从获取。
[4] Borgelt,C.(2005)。FP-growth算法的实现。OSDM’05第一届开源数据挖掘国际研讨会论文集:频繁模式挖掘实现1-5。纽约ACM。
[5] Bratko,I.(1997)。机器学习:介于准确性和可解释性之间。《学习、网络和统计》(G.Della Riccia、H.-J.Lenz和R.Kruse主编)。国际机械科学中心382 163-177。施普林格,维也纳·Zbl 0932.68088号
[6] Breiman,L.(1996年a)。装袋预测器。机器。学习。24 123-140. ·Zbl 0858.68080号
[7] Breiman,L.(1996年b)。模型选择中不稳定性和稳定性的启发。安。统计师。24 2350-2383. ·Zbl 0867.62055号 ·doi:10.1214/aos/1032181158
[8] Breiman,L.(2001a)。随机森林。机器。学习。45 5-32·Zbl 1007.68152号 ·doi:10.1023/A:1010933404324
[9] Breiman,L.(2001年b)。统计建模:两种文化。统计师。科学。16 199-231. ·Zbl 1059.62505号 ·doi:10.1214/ss/1009213726
[10] Breiman,L.、Friedman,J.H.、Olshen,R.A.和Stone,C.J.(1984年)。分类和回归树。加利福尼亚州贝尔蒙特市沃兹沃斯·Zbl 0541.62042号
[11] Chang,C.-C.和Lin,C.-J.(2011)。LIBSVM:支持向量机库。ACM智能系统与技术汇刊2 27:1-27:27。
[12] Chipman,H.A.、George,E.I.和McCulloch,R.E.(1998)。贝叶斯CART模型搜索。J.Amer。统计师。协会93 935-948·Zbl 1072.62650号 ·doi:10.2307/2670105
[13] Chipman,H.A.、George,E.I.和McCulloch,R.E.(2002)。贝叶斯树模型。机器。学习。48 299-320. ·Zbl 0998.68072号 ·doi:10.1023/A:1013916107446
[14] Chipman,H.A.、George,E.I.和McCulloch,R.E.(2010年)。BART:贝叶斯加性回归树。附录申请。统计数据4 266-298·Zbl 1189.62066号 ·doi:10.1214/09-AOAS285
[15] Dawes,R.M.(1979)。决策中不适当线性模型的鲁棒性之美。美国心理学家34 571-582。
[16] Denison,D.G.T.、Mallick,B.K.和Smith,A.F.M.(1998)。贝叶斯CART算法。生物特征85 363-377·Zbl 1048.62502号 ·doi:10.1093/biomet/85.2.363
[17] Dougherty,J.、Kohavi,R.和Sahami,M.(1995)。连续特征的有监督和无监督离散化。ICML’95第12届194-202年国际机器学习会议论文集。Morgan Kaufmann,加利福尼亚州旧金山。
[18] Fan,R.-E.,Chang,K.-W.,Xieh,C.-J.,Wang,X.-R.和Lin,C.-J(2008)。LIBLINER:一个大型线性分类库。J.马赫。学习。1871-1874年第9号决议·Zbl 1225.68175号
[19] Fayyad,U.M.和Irani,K.B.(1993年)。用于分类学习的连续值属性的多间隔离散化。1993年国际人工智能联合会议论文集1022-1027。Morgan Kaufmann,加利福尼亚州旧金山。
[20] Freitas,A.A.(2014)。可理解的分类模型:立场文件。ACM SIGKDD探索新闻稿15 1-10。
[21] Friedman,J.H.和Popescu,B.E.(2008)。通过规则集合进行预测学习。附录申请。统计数字2 916-954·兹比尔1149.62051 ·doi:10.1214/07-AOAS148
[22] Gage,B.F.、Waterman,A.D.、Shannon,W.、Boechler,M.、Rich,M.W.和Radford,M.J.(2001)。中风预测临床分类方案的验证。美国医学会杂志285 2864-2870。
[23] Gelman,A.和Rubin,D.B.(1992年)。使用多序列的迭代模拟推断。统计师。科学。7 457-472. ·Zbl 1386.65060号
[24] Giraud-Carrier,C.(1998年)。超越预测准确性:什么?技术报告,英国布里斯托尔大学。
[25] Goh,S.T.和Rudin,C.(2014)。使用不平衡数据进行学习的方框图。在KDD’14第20届ACM SIGKDD知识发现和数据挖掘会议论文集333-342。
[26] Holte,R.C.(1993)。非常简单的分类规则在最常用的数据集上表现良好。机器。学习。11 63-91. ·Zbl 0850.68278号 ·doi:10.1023/A:1022631118932
[27] Huysmans,J.、Dejaeger,K.、Mues,C.、Vantheinen,J.和Baesens,B.(2011年)。对基于决策表、树和规则的预测模型的可理解性进行实证评估。决策支持系统51 141-154。
[28] Jennings,D.L.、Amabile,T.M.和Ross,L.(1982)。非正式协变量评估:基于数据的与基于理论的判断。《不确定性下的判断:启发式和偏见》,(D.Kahneman,P.Slovic和A.Tversky编辑)211-230。剑桥大学出版社,马萨诸塞州剑桥。
[29] King,G.、Lam,P.和Roberts,M.(2014)。从非结构化文本中发现计算机辅助的关键字和文档集。哈佛大学技术报告。
[30] Knaus,W.A.、Draper,E.A.、Wagner,D.P.和Zimmerman,J.E.(1985)。APACHE II:疾病严重程度分类系统。危重病护理医学13 818-829。
[31] Leondes,C.T.(2002)。专家系统:面向21世纪的知识管理和决策技术。学术出版社,加利福尼亚州圣地亚哥。
[32] Letham,B.、Rudin,C.、McCormick,T.H.和Madigan,D.(2013)。使用规则和贝叶斯分析的可解释中风预测模型。AAAI最新突破赛道会议记录。麻省理工学院,马萨诸塞州剑桥·Zbl 1454.62348号
[33] Letham,B.、Rudin,C.、McCormick,T.H.和Madigan,D.(2014)。使用规则和贝叶斯分析进行中风预测的可解释模型。2014年KDD社会公益数据科学研讨会论文集。麻省理工学院,马萨诸塞州剑桥。
[34] Letham,B.、Rudin,C.、McCormick,T.H.和Madigan,D.(2015)。补充“使用规则和贝叶斯分析的可解释分类器:构建更好的中风预测模型”,DOI:10.1214/15-AOAS848SUPPB·Zbl 1454.62348号
[35] Levenshtein,V.I.(1965)。能够纠正删除、插入和反转的二进制代码。苏联物理学博士。10 707-710. ·Zbl 0149.15905号
[36] Li,W.,Han,J.和Pei,J.(2001)。CMAR:基于多类关联规则的准确高效的分类。IEEE数据挖掘国际会议论文集369-376。IEEE,纽约。
[37] Lim,W.S.、van der Eerden,M.M.、Laing,R.、Boersma,W.G.、Karalus,N.、Town,G.I.、Lewis,S.A.和Macfarlane,J.T.(2003)。确定社区获得性肺炎在医院的严重程度:一项国际衍生和验证研究。胸部58 377-382。
[38] Lip,G.Y.H.、Frison,L.、Halperin,J.L.和Lane,D.A.(2010a)。识别抗凝治疗后卒中高危患者:抗凝心房颤动队列中当代卒中风险分层方案的比较。冲程41 2731-2738。
[39] Lip,G.Y.H.、Nieuwlaat,R.、Pister,R.,Lane,D.A.和Crijns,H.J.G.M.(2010b)。使用一种基于风险因素的新方法改进临床风险分层,以预测心房颤动中的中风和血栓栓塞:心房颤动的欧洲心脏调查。胸围137 263-272。
[40] Liu,B.,Hsu,W.和Ma,Y.(1998)。集成了分类和关联规则挖掘。KDD’98第四届知识发现和数据挖掘国际会议论文集80-96。AAAI出版社,加利福尼亚州帕洛阿尔托。
[41] Madigan,D.、Mittal,S.和Roberts,F.(2011年)。集装箱检验操作的高效顺序决策算法。海军后勤研究。58 637-654. ·Zbl 1245.90021号 ·doi:10.1002/nav.20472
[42] Madigan,D.、Mosurski,K.和Almond,R.G.(1997)。信仰网络中的解释。J.计算。图表。统计师。6 160-181.
[43] Marchand,M.和Sokolova,M.(2005年)。使用数据相关特征的决策列表进行学习。J.马赫。学习。第6 427-451号决议·Zbl 1222.68257号
[44] McCormick,T.H.、Rudin,C.和Madigan,D.(2012年)。用于预测医疗状况的贝叶斯层次规则建模。附录申请。统计数字6 622-668·Zbl 1243.62036号 ·doi:10.1214/11-AOAS522
[45] Meinshausen,N.(2010年)。节点收获。附录申请。统计数据4 2049-272·Zbl 1220.62084号 ·doi:10.1214/10-AOAS367
[46] Miller,G.A.(1956年)。神奇的数字七,加或减二:我们处理信息的能力受到了一些限制。《心理评论》63 81-97。
[47] Muggleton,S.和De Raedt,L.(1994年)。归纳逻辑程序设计:理论和方法。J.逻辑编程19 629-679·Zbl 0816.68043号 ·doi:10.1016/0743-1066(94)90035-3
[48] 昆兰,J.R.(1993)。C 4。5:机器学习程序。Morgan Kaufmann,圣马特奥·Zbl 1037.68938号
[49] Rivest,R.L.(1987年)。学习决策列表。机器。学习。2 229-246.
[50] Rudin,C.和Ertekin,ö。(2015). 学习优化的分类规则列表。麻省理工学院技术报告,马萨诸塞州剑桥。
[51] Rudin,C.、Letham,B.和Madigan,D.(2013年)。关联规则和序列事件预测的学习理论分析。J.马赫。学习。第14号决议3441-3492·Zbl 1317.68184号
[52] 吕平,S.(2006)。学习可解释的模型。多特蒙德大学博士论文。
[53] Shmueli,G.(2010年)。解释还是预测?统计师。科学。25 289-310. ·Zbl 1329.62045号 ·doi:10.1214/10-STS330
[54] 苏亚尔·曼达尔(Souillard-Mandar,W.)、戴维斯(Davis,R.)、鲁丁(Rudin,C.)、奥·R.、利本(Libon,D.J.)、斯文森(Swenson,R.,Price,C.C.)、拉马尔(Lamar,M.)和彭尼(Penney,D.L.)(2015年)。从数字钟绘图测试中的细微行为中学习认知条件的分类模型。机器学习·Zbl 06679347号
[55] Srikant,R.和Agrawal,R.(1996)。在大型关系表中挖掘定量关联规则。1996年ACM SIGMOD国际数据管理会议的SIGMOD'96会议记录1-12。纽约ACM。
[56] Stang,P.E.、Ryan,P.B.、Racoosin,J.A.、Overhage,J.M.、Hartzema,A.G.、Reich,C.、Welebob,E.、Scarneccia,T.和Woodcock,J.(2010年)。推进主动监测的科学:观察性医疗结果伙伴关系的原理和设计。Ann.实习生。医学153 600-606。
[57] Taddy,M.A.、Gramacy,R.B.和Polson,N.G.(2011年)。用于学习和设计的动态树。J.Amer。统计师。协会106 109-123·Zbl 1396.62158号 ·doi:10.1198/jasa.2011.ap09769
[58] Vapnik,V.N.(1995)。统计学习理论的本质。纽约州施普林格·Zbl 0833.62008号
[59] Vellido,A.、Martín-Guerrero,J.D.和Lisboa,P.J.G.(2012)。使机器学习模型具有可解释性。《欧洲人工神经网络、计算智能和机器学习研讨会论文集》。布鲁日·埃桑。
[60] Wang,F.和Rudin,C.(2015)。下降规则列表。JMLR研讨会和会议记录38 1013-1022。加利福尼亚州圣地亚哥。
[61] Wang,T.、Rudin,C.、Doshi,F.、Liu,Y.、Klampfl,E.和MacNeille,P.(2015)。贝叶斯或和的可解释分类,应用于上下文感知推荐系统。可从获取。arXiv公司:1504.0761
[62] Wu,Y.、Tjelmeland,H.和West,M.(2007年)。贝叶斯CART:先验规范和后验模拟。J.计算。图表。统计师。16 44-66. ·doi:10.1198/106186007X180426
[63] Wu,X.、Zhang,C.和Zhang,S.(2004年)。有效挖掘正关联规则和负关联规则。ACM信息系统交易22 381-405·Zbl 1317.68184号
[64] Yin,X.和Han,J.(2003)。CPAR:基于预测关联规则的分类。2003年SIAM国际数据挖掘会议论文集331-335。宾夕法尼亚州费城SIAM。
[65] Zaki,M.J.(2000年)。关联挖掘的可扩展算法。IEEE知识与数据工程汇刊12 372-390。
[66] Zhang,Y.、Laber,E.B.、Tsiatis,A.和Davidian,M.(2015)。使用决策列表构建可解释和节约的治疗制度。可从获取。arXiv公司:1504.0771·Zbl 1419.62490号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。