×

Q-学习用于从观测数据估计最佳动态治疗规则。 (英语。法语摘要) Zbl 1349.62371号

总结:动态治疗方案(DTR)领域旨在推断临床实践中的适应性多阶段决策。DTR是一组决策规则,每个治疗间隔一个决策规则,其中每个决策都是治疗和协变量历史的函数,返回推荐的治疗。Q学习是最近应用于估计DTR的强化学习文献中的一种流行方法。虽然Q-learning原则上可用于随机和观察数据,但迄今为止,文献中的重点仅限于随机治疗设置。我们使用直接调整和各种倾向评分方法,将该方法扩展到合并测量的混杂协变量。在包括非常规场景在内的各种设置下检查这些方法。我们根据“促进母乳喂养干预试验”的数据,说明了检查母乳喂养对词汇测试影响的方法。

MSC公司:

62升12 序贯估计
62页第10页 统计学在生物学和医学中的应用;元分析

软件:

q学习匹配
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 安德森,母乳喂养与认知发展:一项荟萃分析,《美国临床营养学杂志》70(4),第525页–(1999)
[2] Arjas,《最佳动态机制:提出预测推理案例》,《国际生物统计学杂志》第6期(2010年)·doi:10.2202/1557-4679.1204
[3] Bellman,动态规划(1957)
[4] Bertsekas,《神经动力学程序设计》(1996)
[5] Chakraborty,《管理慢性健康状况的动态治疗制度:统计视角》,《美国公共卫生杂志》101(1)第40页–(2011)·doi:10.105/AJPH.2010.198937
[6] Chakraborty,B.Laber,E.B.Zhao,Y.2012使用自适应m取n自举方案推断最佳动态治疗方案·Zbl 1418.62182号
[7] Chakraborty,B.Moodie,E.M.2012使用跨阶段共享决策规则评估最佳动态治疗方案:Q-学习的扩展
[8] Chakraborty,最佳动态治疗方案中非常规参数的推断,《医学研究统计方法》19(3),第317页–(2010)·Zbl 1365.62411号 ·doi:10.1177/0962280209105013
[9] Henderson,最佳动态治疗方案的回归分析,《生物统计学》6第1192页–(2010年)·Zbl 1233.62180号 ·doi:10.1111/j.1541-0420.2009.01368.x
[10] Hernán,通过逆概率加权比较动态治疗方案,《基础与临床药理学与毒理学》98,第237页–(2006)·doi:10.1111/j.1742-7843.2006.pto329.x
[11] Kramer,母乳喂养与儿童认知发展:一项大型随机试验的新证据,《普通精神病学档案》65,第578页–(2008)·doi:10.1001/archpsyc.65.5.578
[12] Kramer,《促进母乳喂养干预试验(PROBIT):白俄罗斯共和国的一项随机试验》,《美国医学会杂志》285页413–(2001)·doi:10.1001/jama.285.4.413
[13] Kramer,婴儿生长和健康结果与3个月与6个月纯母乳喂养的比较,《美国临床营养学杂志》78第291页–(2003)
[14] 克莱默,母乳喂养与婴儿生长:生物学还是偏见?,《儿科》110第343页–(2002年)·doi:10.1542/peds.110.2.343
[15] Kramer,婴儿期喂养对生长的影响,《儿科杂志》145 pp 600–(2004)·doi:10.1016/j.jpeds.2004.06.069
[16] Kramer,长期纯母乳喂养对6.5岁儿童身高、体重、肥胖和血压的影响:一项大型随机试验的证据,《美国临床营养学杂志》第86卷第1717页–(2007)
[17] Laber,E.B.Qian,M.Lizotte,D.Murphy,S.2012动态治疗方案中的统计推断
[18] 穆迪(Moodie),《估计最佳动态机制:在零条件下修正偏差》(Estimating optimal dynamic systems:Correcting bias under the null),《斯堪的纳维亚统计杂志》(Scandinavian Journal of Statistics)37第126页–(2010)·Zbl 1224.62139号 ·文件编号:10.1111/j.1467-9469.2009.00661.x
[19] 墨菲,最佳动态治疗方案(含讨论),《皇家统计学会杂志》,B辑65 pp 331–(2003)·Zbl 1065.62006号 ·doi:10.1111/1467-9868.00389
[20] 墨菲,Q学习的泛化错误,《机器学习研究杂志》,第6页,1073–(2005)·Zbl 1222.68271号
[21] Pineau,使用计算机科学的方法构建循证治疗策略,药物和酒精依赖88 pp S52–(2007)·doi:10.1016/j.drugaldep.2007.01.05
[22] Robins,《流行病学统计模型:环境和临床试验》,第95页–(1999)
[23] 罗宾斯,第二届西雅图生物统计学研讨会论文集,第189页–(2004)·Zbl 1279.62024号 ·doi:10.1007/978-1-4419-9076-1_11
[24] Robins,流行病学中的边缘结构模型和因果推断,流行病学11,第550页–(2000)·doi:10.1097/00001648-200009000-00011
[25] 罗宾斯,最佳治疗和测试策略的估计和推断,《医学统计学》27页4678–(2008)·doi:10.1002/sim.3301
[26] Rosenbaum,《因果效应观察性研究中倾向评分的中心作用》,Biometrika 70第41页–(1983)·兹伯利0522.62091 ·doi:10.1093/biomet/70.1.41
[27] Sekhon,《带自动平衡优化的多元和倾向评分匹配软件:R的匹配包》,《统计软件杂志》42(7),第1页–(2011)·doi:10.18637/jss.v042.i07
[28] Shortreed,《通过强化学习为序贯临床决策提供信息:一项实证研究》,机器学习84(1),第109页–(2011)·Zbl 06031592号 ·doi:10.1007/s10994-10-5229-0
[29] Song,R.Wang,W.Zeng,D.Kosorok,M.2012针对动态治疗方案的惩罚Q学习
[30] 萨顿,《强化学习:导论》(1998年)
[31] Thall,《临床试验中多种治疗方案的评估》,《医学统计学》30第1011页-(2000)·doi:10.1002/(SICI)1097-0258(20000430)19:8<1011::AID-SIM414>3.0.CO;2个月
[32] van der Laan,现实个体化治疗的因果模型和意向治疗规则,《国际生物统计学杂志》3(2007)·Zbl 1165.62357号 ·doi:10.2202/1557-4679.1022
[33] 赵,癌症临床试验强化学习设计,《医学统计学》28页3294–(2009)·doi:10.1002/sim.3720
[34] 赵,非小细胞肺癌临床试验的强化学习策略,《生物统计学》67页1422–(2011)·Zbl 1274.62922号 ·文件编号:10.1111/j.1541-0420.2011.01572.x
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。