艾丽卡·E·M·穆迪。;查克拉波蒂,比哈斯;迈克尔·克莱默(Michael S.Kramer)。 Q-学习用于从观测数据估计最佳动态治疗规则。 (英语。法语摘要) Zbl 1349.62371号 可以。J.统计。 40,第4期,629-645(2012). 总结:动态治疗方案(DTR)领域旨在推断临床实践中的适应性多阶段决策。DTR是一组决策规则,每个治疗间隔一个决策规则,其中每个决策都是治疗和协变量历史的函数,返回推荐的治疗。Q学习是最近应用于估计DTR的强化学习文献中的一种流行方法。虽然Q-learning原则上可用于随机和观察数据,但迄今为止,文献中的重点仅限于随机治疗设置。我们使用直接调整和各种倾向评分方法,将该方法扩展到合并测量的混杂协变量。在包括非常规场景在内的各种设置下检查这些方法。我们根据“促进母乳喂养干预试验”的数据,说明了检查母乳喂养对词汇测试影响的方法。 引用于12文件 MSC公司: 62升12 序贯估计 62页第10页 统计学在生物学和医学中的应用;元分析 关键词:偏差;混淆;动态处理制度;治疗权重的逆概率;非规则性;倾向得分 软件:q学习;匹配 PDF格式BibTeX公司 XML格式引用 \textit{E.E.M.Moodie}等人,加拿大。J.Stat.40,No.4,629--645(2012;Zbl 1349.62371) 全文: 内政部 链接 参考文献: [1] 安德森,母乳喂养与认知发展:一项荟萃分析,《美国临床营养学杂志》70(4),第525页–(1999) [2] Arjas,《最佳动态机制:提出预测推理案例》,《国际生物统计学杂志》第6期(2010年)·doi:10.2202/1557-4679.1204 [3] Bellman,动态规划(1957) [4] Bertsekas,《神经动力学程序设计》(1996) [5] Chakraborty,《管理慢性健康状况的动态治疗制度:统计视角》,《美国公共卫生杂志》101(1)第40页–(2011)·doi:10.105/AJPH.2010.198937 [6] Chakraborty,B.Laber,E.B.Zhao,Y.2012使用自适应m取n自举方案推断最佳动态治疗方案·Zbl 1418.62182号 [7] Chakraborty,B.Moodie,E.M.2012使用跨阶段共享决策规则评估最佳动态治疗方案:Q-学习的扩展 [8] Chakraborty,最佳动态治疗方案中非常规参数的推断,《医学研究统计方法》19(3),第317页–(2010)·Zbl 1365.62411号 ·doi:10.1177/0962280209105013 [9] Henderson,最佳动态治疗方案的回归分析,《生物统计学》6第1192页–(2010年)·Zbl 1233.62180号 ·doi:10.1111/j.1541-0420.2009.01368.x [10] Hernán,通过逆概率加权比较动态治疗方案,《基础与临床药理学与毒理学》98,第237页–(2006)·doi:10.1111/j.1742-7843.2006.pto329.x [11] Kramer,母乳喂养与儿童认知发展:一项大型随机试验的新证据,《普通精神病学档案》65,第578页–(2008)·doi:10.1001/archpsyc.65.5.578 [12] Kramer,《促进母乳喂养干预试验(PROBIT):白俄罗斯共和国的一项随机试验》,《美国医学会杂志》285页413–(2001)·doi:10.1001/jama.285.4.413 [13] Kramer,婴儿生长和健康结果与3个月与6个月纯母乳喂养的比较,《美国临床营养学杂志》78第291页–(2003) [14] 克莱默,母乳喂养与婴儿生长:生物学还是偏见?,《儿科》110第343页–(2002年)·doi:10.1542/peds.110.2.343 [15] Kramer,婴儿期喂养对生长的影响,《儿科杂志》145 pp 600–(2004)·doi:10.1016/j.jpeds.2004.06.069 [16] Kramer,长期纯母乳喂养对6.5岁儿童身高、体重、肥胖和血压的影响:一项大型随机试验的证据,《美国临床营养学杂志》第86卷第1717页–(2007) [17] Laber,E.B.Qian,M.Lizotte,D.Murphy,S.2012动态治疗方案中的统计推断 [18] 穆迪(Moodie),《估计最佳动态机制:在零条件下修正偏差》(Estimating optimal dynamic systems:Correcting bias under the null),《斯堪的纳维亚统计杂志》(Scandinavian Journal of Statistics)37第126页–(2010)·Zbl 1224.62139号 ·文件编号:10.1111/j.1467-9469.2009.00661.x [19] 墨菲,最佳动态治疗方案(含讨论),《皇家统计学会杂志》,B辑65 pp 331–(2003)·Zbl 1065.62006号 ·doi:10.1111/1467-9868.00389 [20] 墨菲,Q学习的泛化错误,《机器学习研究杂志》,第6页,1073–(2005)·Zbl 1222.68271号 [21] Pineau,使用计算机科学的方法构建循证治疗策略,药物和酒精依赖88 pp S52–(2007)·doi:10.1016/j.drugaldep.2007.01.05 [22] Robins,《流行病学统计模型:环境和临床试验》,第95页–(1999) [23] 罗宾斯,第二届西雅图生物统计学研讨会论文集,第189页–(2004)·Zbl 1279.62024号 ·doi:10.1007/978-1-4419-9076-1_11 [24] Robins,流行病学中的边缘结构模型和因果推断,流行病学11,第550页–(2000)·doi:10.1097/00001648-200009000-00011 [25] 罗宾斯,最佳治疗和测试策略的估计和推断,《医学统计学》27页4678–(2008)·doi:10.1002/sim.3301 [26] Rosenbaum,《因果效应观察性研究中倾向评分的中心作用》,Biometrika 70第41页–(1983)·兹伯利0522.62091 ·doi:10.1093/biomet/70.1.41 [27] Sekhon,《带自动平衡优化的多元和倾向评分匹配软件:R的匹配包》,《统计软件杂志》42(7),第1页–(2011)·doi:10.18637/jss.v042.i07 [28] Shortreed,《通过强化学习为序贯临床决策提供信息:一项实证研究》,机器学习84(1),第109页–(2011)·Zbl 06031592号 ·doi:10.1007/s10994-10-5229-0 [29] Song,R.Wang,W.Zeng,D.Kosorok,M.2012针对动态治疗方案的惩罚Q学习 [30] 萨顿,《强化学习:导论》(1998年) [31] Thall,《临床试验中多种治疗方案的评估》,《医学统计学》30第1011页-(2000)·doi:10.1002/(SICI)1097-0258(20000430)19:8<1011::AID-SIM414>3.0.CO;2个月 [32] van der Laan,现实个体化治疗的因果模型和意向治疗规则,《国际生物统计学杂志》3(2007)·Zbl 1165.62357号 ·doi:10.2202/1557-4679.1022 [33] 赵,癌症临床试验强化学习设计,《医学统计学》28页3294–(2009)·doi:10.1002/sim.3720 [34] 赵,非小细胞肺癌临床试验的强化学习策略,《生物统计学》67页1422–(2011)·Zbl 1274.62922号 ·文件编号:10.1111/j.1541-0420.2011.01572.x 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。