×

用于识别具有增强治疗效果的子组的因果规则集。 (英语) Zbl 07552226号

总结:因果推理分析中的一个关键问题是如何找到治疗效果提高的亚组。本文采用机器学习方法,引入了一种用于可解释子群发现的生成模型——因果规则集(CRS)。CRS模型使用一组短决策规则来捕获平均治疗效果提高的子组。我们提出了一个用于学习因果规则集的贝叶斯框架。贝叶斯模型由偏好简单模型以获得更好解释性以及避免过拟合的先验和捕获数据可能性的贝叶斯逻辑回归组成,描述结果、属性和子组成员之间的关系。贝叶斯模型具有可调参数,可以表征不同大小的子组,为用户提供更灵活的模型选择治疗有效前沿在规则集和参数的联合解空间中,我们使用迭代离散蒙特卡罗步骤找到最大后验模型。为了提高搜索效率,我们提供了基于理论的启发式和边界策略来修剪和限制搜索空间。实验表明,该搜索算法能够有效地恢复真实的底层子群。我们将CRS应用于公共和真实世界数据集,这些数据集来自可解释性不可或缺的领域。我们将CRS与最先进的基于规则的子组发现模型进行了比较。结果表明,CRS在各个领域的数据集上取得了一致的竞争性能,表现为处理效率高的前沿。
贡献总结:本文的动机是,在许多应用中,治疗效果存在很大的异质性,需要准确定位亚组以增强治疗效果。现有的方法要么依赖于先前的假设来发现子组,要么依赖于贪婪方法,例如基于树的递归划分。我们的方法采用机器学习的方法来寻找一个最优的子群,该子群具有仔细的全局目标。与基于树的基线相比,通过使用一组短决策规则,我们的模型在捕获子组方面更加灵活。我们使用一种新的衡量标准,即治疗效率边界来评估我们的模型,该标准描述了亚组规模和可实现治疗效果之间的权衡,并且我们的模型表现出比基线模型更好的性能。

MSC公司:

90倍X 运筹学、数学规划
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Angelino E、Larus-Stone N、Alabi D、Seltzer M、Rudin C(2017),学习分类数据的可证明最佳规则列表。J.机器学习。物件。18(1):8753-8830.谷歌学者·Zbl 1473.68134号
[2] Angrist JD、Imbens GW、Rubin DB(1996)使用工具变量确定因果关系。J.Amer。统计师。协会。91(434):444-455.Crossref,谷歌学者·Zbl 0897.62130号 ·网址:10.1080/01621459.1996.10476902
[3] Assmann SF、Pocock SJ、Enos LE、Kasten LE(2000)亚组分析和临床试验中基线数据的其他(错误)使用。柳叶刀355(9209):1064-1069。Crossref,谷歌学者·doi:10.1016/S0140-6736(00)02039-0
[4] Atzmueller M(2015)子组发现。威利跨学科Rev.数据挖掘知识发现5(1):35-49.Crossref,谷歌学者·doi:10.1002/widm.1144
[5] Atzmueller M,Puppe F(2006)Sd-Map-一种用于穷举子群发现的快速算法。欧洲会议原理数据挖掘知识发现(施普林格,柏林,海德堡),6-17.谷歌学者
[6] Baselga J,Perez EA,Pienkowski T,Bell R(2006),辅助曲妥珠单抗:治疗her-2阳性早期乳腺癌的里程碑。肿瘤科医生11(1):4-12. Crossref,谷歌学者·doi:10.1634/theoncologist.11-90001-4
[7] Borgelt C(2005)FP-growth算法的实现。程序。第一国际。研讨会开源数据挖掘频繁模式挖掘实现(ACM),1-5.谷歌学者
[8] Brijain M,Patel R,Kushik M,Rana K(2014)分类决策树算法综述。国际。J.工程开发研究。2(1).谷歌学者
[9] Carmona CJ、González P、del Jesus MJ、Herrera F(2009)《在子组发现中使用不同类型模糊规则的进化算法分析》。IEEE国际。Conf.Fuzzy Systems(IEEE,韩国济州岛),1706-1711年。谷歌学者
[10] Chen G,Liu H,Yu L,Wei Q,Zhang X(2006)基于关联规则挖掘的分类新方法。决策支持系统42(2):674-689.Crossref,谷歌学者·doi:10.1016/j.dss.2005.03.005
[11] Chetty R、Hendren N、Katz LF(2016)《接触更好的社区对儿童的影响:从迁移到机会实验的新证据》。阿默尔。经济。修订版。106(4):855-902.Crossref,谷歌学者·doi:10.1257/aer.20150572
[12] Cleophas TJ,Zwinderman AH,Cleopha TF(2002)使用多元线性回归的亚组分析:混杂,相互作用,协同作用。统计学在临床试验中的应用(施普林格,多德雷赫特),95-104.Crossref,谷歌学者·doi:10.1007/978-94-010-0337-7_9
[13] Cohen J、Cohen P、West SG、Aiken LS(2013)行为科学的应用多元回归/相关分析(劳特利奇)。Crossref,谷歌学者·doi:10.4324/9780203774441
[14] Cook SA(1971)理论证明程序的复杂性。程序。第三届ACM年度交响曲。理论计算。(ACM),151-158.谷歌学者·Zbl 0253.68020号
[15] Dash S,Gunluk O,Wei D(2018)《通过列生成的布尔决策规则》。程序。第32届国际。Conf.神经信息。处理系统,加拿大蒙特利尔,4655-4665.谷歌学者
[16] Del Jesus MJ、González P、Herrera F、Mesonero M(2007)《亚组发现的进化模糊规则归纳过程:营销案例研究》。IEEE传输。模糊系统15(4):578-592.Crossref,谷歌学者·doi:10.10109/TFUZZ.2006.890662
[17] Dusseldorp E,Van Mechelen I(2014)定性相互作用树:识别定性治疗亚组相互作用的工具。统计师。医学33(2):219-237.Crossref,谷歌学者·数字对象标识代码:10.1002/sim.5933
[18] Figlio D、Guryan J、Karbownik K、Roth J(2014)《新生儿健康不良对儿童认知发展的影响》。阿默尔。经济。修订版。104(12):3921-3955.Crossref,谷歌学者·doi:10.1257/aer.104.12.3921
[19] Foster JC、Taylor JM、Ruberg SJ(2011),随机临床试验数据的亚组识别。统计师。医学30(24):2867-2880.谷歌学者Crossref·doi:10.1002/sim.4322
[20] Gamberger D,Lavrac N(2002),专家指导的亚组发现:方法论和应用。J.人工智能研究。17(1):501-527.Crossref,谷歌学者·Zbl 1045.68134号 ·doi:10.1613/jair.1089
[21] 韩J,裴J,尹Y(2000)挖掘无候选代的频繁模式。SIGMOD记录。29(2):1-12.Crossref,谷歌学者·数字对象标识代码:10.1145/335191.335372
[22] Holbein JB,Hillygus DS(2016)《打造年轻选民:预先登记对年轻选民投票率的影响》。阿默尔。《政治科学杂志》。60(2):364-382.Crossref,谷歌学者·doi:10.1111/ajps.12177
[23] Hu X,Rudin C,Seltzer M(2019)最优稀疏决策树。神经信息研究进展。处理系统,加拿大温哥华,7267-7275.谷歌学者
[24] Kavšek B,LavračN(2006)APRIORI-SD:将关联规则学习应用于子组发现。申请。人工智能20(7):543-583.Crossref,谷歌学者·doi:10.1080/08839510600779688
[25] Kim K(2016)通过半监督决策树进行子空间划分的混合分类算法。模式识别60:157-163.Crossref,谷歌学者·doi:10.1016/j.patcog.2016.04.016
[26] Lagakos SW(2006)亚组分析的挑战——在不失真的情况下进行报告。新英格兰医学杂志354(16):1667-1669。Crossref,谷歌学者·doi:10.1056/NEJMp068070
[27] Lakkaraju H,Rudin C(2017)学习具有成本效益和可解释的治疗方案。程序。第20国际。Conf.人工智能统计师。,佛罗里达州劳德代尔堡,166-175.谷歌学者
[28] Lakkaraju H,Bach SH,Leskovec J(2016)可解释决策集:描述和预测的联合框架。ACM SIGKDD(ACM,加利福尼亚州旧金山),1675-1684.谷歌学者
[29] Lavrac N、Kavsek B、Flach P、Todorovski L(2004)《CN2-SD的亚群发现》。J.机器学习。物件。5(2):153-188.谷歌学者
[30] Lee K,Bargagli-Soffi FJ,Dominici F(2020)因果规则集合:异质治疗效应的可解释推断。9月18日提交的预印本,https://arxiv.org/abs/2009.09036谷歌学者
[31] Lemmerich F,Atzmueller M,Puppe F(2016)使用数值目标概念快速穷举子组发现。数据挖掘知识发现30(3):711-762.Crossref,谷歌学者·Zbl 1411.68113号 ·doi:10.1007/s10618-015-0436-8
[32] Letham B,Rudin C,McCormick TH,Madigan D(2015)《使用规则和贝叶斯分析的可解释分类器:构建更好的中风预测模型》。附录申请。统计师。9(3):1350-1371.Crossref,谷歌学者·Zbl 1454.62348号 ·doi:10.1214/15-AOAS848
[33] 李伟,韩杰,裴杰(2001)CMAR:基于多类关联规则的准确高效分类。程序。2001年IEEE国际。Conf.数据挖掘(IEEE),369-376.谷歌学者
[34] Lin J,Zhong C,Hu D,Rudin C,Seltzer M(2020)广义和可扩展最优稀疏决策树。国际。Conf.机器学习。谷歌学者
[35] Lipkovich I,Dmitrienko A,Denne J,Enas G(2011)基于差异效应搜索的亚组识别——建立患者亚群治疗反应的递归分割方法。统计师。医学30(21):2601-2621.Crossref,谷歌学者·doi:10.1002/sim.4289
[36] Malhotra R,Craven T,Ambrosius WT,Killeen AA,Haley WE,Cheung AK,Chonchol M,et al.(2019)强化降压对CKD肾小管损伤的影响:短跑中的纵向亚组分析。阿默尔。J.肾脏疾病73(1):21-30.Crossref,谷歌学者·doi:10.1053/j.ajkd.2018.07.015
[37] McFowland E III,Somanchi S,Neill DB(2018)通过异常模式检测在随机实验中高效发现异质治疗效果。预印本,3月24日提交,https://arxiv.org/abs/1803.09159.谷歌学者
[38] Michalski RS、Carbonell JG、Mitchell TM(2013)机器学习:一种人工智能方法(施普林格科技与商业媒体)。谷歌学者
[39] Moodie EE、Chakraborty B、Kramer MS(2012)Q-学习,用于从观测数据中估计最佳动态治疗规则。加拿大统计学家J。40(4):629-645.Crossref,谷歌学者·兹比尔1349.62371 ·doi:10.1002/cjs.11162
[40] Morucci M,Orlandi V,Roy S,Rudin C,Volfovsky A(2020)用于可解释的个体化治疗效果估计的自适应超盒匹配。程序。第36届会议不确定性人工智能(PMLR),1089-1098年。谷歌学者
[41] Nagpal C、Wei D、Vinzamuri B、Shekhar M、Berger SE、Das S、Varshney KR(2020)在阿片类药物处方指南应用的治疗效果评估中的可解释亚组发现。程序。ACM Conf.健康推断学习。,19-29.Crossref,谷歌学者·数字对象标识代码:10.1145/3368555.3384456
[42] Neill DB(2012)空间模式检测的快速子集扫描。J.罗伊。统计师。Soc.系列。B.统计。方法74(2):337-360.Crossref,谷歌学者·Zbl 1411.94028号 ·文件编号:10.1111/j.1467-9868.2011.01014.x
[43] Novak PK,LavračN,Webb GI(2009)《监督描述性规则发现:对比集、新兴模式和子组挖掘的统一调查》。J.机器学习。物件。10:377-403.谷歌学者·Zbl 1235.68178号
[44] Osofsky JD(1995)《接触暴力对幼儿的影响》。阿默尔。心理学。50(9):782-788.Crossref,谷歌学者·doi:10.1037/0003-066X.50.9.782
[45] Pan D、Wang T、Hara S(2020)《黑匣子模型的可解释同伴》。人工智能统计师。108:2444-2454.谷歌学者
[46] Rijnbeek PR,Kors JA(2010)通过穷举搜索在析取范式中找到简短准确的决策规则。机器学习。80(1):33-62.Crossref,谷歌学者·Zbl 1470.68164号 ·doi:10.1007/s10994-010-5168-9
[47] Rothwell PM(2005)随机对照试验中的分组分析:重要性、适应症和解释。柳叶刀365(9454):176-186。Crossref,谷歌学者·doi:10.1016/S0140-6736(05)17709-5
[48] Rubin DB(1974)在随机和非随机研究中估计治疗的因果效应。心理学杂志编辑。66(5):688-701.Crossref,谷歌学者·doi:10.1037/h0037350
[49] Sekhon JS(2011)带自动平衡优化的多元和倾向评分匹配软件:r。J.统计。软件42(7):1-52.Crossref,谷歌学者·doi:10.18637/jss.v042.i07
[50] Solomon A、Turunen H、Ngandu T、Peltonen M、Levälahti E、Helisalmi S、Antikainen R等人(2018)载脂蛋白E基因型对多领域生活方式干预期间认知变化的影响:一项随机临床试验的亚组分析。神经病学75(4):462-470.Crossref,谷歌学者·doi:10.1001/jamaneurol.2017.4365
[51] Su X,Tsai CL,Wang H,Nickerson DM,Li B(2009)通过递归划分的子群分析。J.机器学习。物件。10:141-158.谷歌学者
[52] Wang T(2018)基于特征有效表示的可解释分类的多值规则集。高级神经信息。处理系统31:10835-10845谷歌学者
[53] Wang T,Lin Q(2021)混合预测模型:当可解释模型与黑盒模型协作时。J.机器学习。物件。22(137):1-38谷歌学者·Zbl 07415080号
[54] Wang F,Rudin C(2015)《坠落规则列表》。程序。第18届国际米兰。Conf.人工智能统计师。(PMLR),1013-1022.谷歌学者
[55] Wang T,Rudin C,Doshi F,Liu Y,Klampfl E,MacNeille P(2017)可解释分类学习规则集的贝叶斯框架。J.机器学习。物件。18(70):1-37谷歌学者·Zbl 1434.68467号
[56] Wang T,Morucci M,Awan MU,Liu Y,Roy S,Rudin C,Volfovsky A(2021)Flame:一种快速大规模几乎完全匹配的因果推断方法。J.机器学习。物件。22:31-1.谷歌学者·Zbl 07370548号
[57] Wei D,Dash S,Gao T,Gunluk O(2019)广义线性规则模型。国际。Conf.机器学习。,加利福尼亚州长滩, 6687-6696. 谷歌学者
[58] Yang H,Rudin C,Seltzer M(2017)可扩展贝叶斯规则列表。国际。Conf.机器学习。(PMLR),3921-3930.谷歌学者
[59] 殷X,韩J(2003)CPAR:基于预测关联规则的分类。程序。2003年SIAM国际。Conf.数据挖掘(SIAM,旧金山),331-335.Crossref,谷歌学者·doi:10.1137/1.9781611972733.40
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。