文件Zbl 1349.62371-zbMATH Open

艾丽卡·E·M·穆迪。；查克拉波蒂，比哈斯；迈克尔·克莱默（Michael S.Kramer）。

Q-学习用于从观测数据估计最佳动态治疗规则。（英语。法语摘要） Zbl 1349.62371号

可以。J.统计。 40，第4期，629-645（2012）.

总结：动态治疗方案（DTR）领域旨在推断临床实践中的适应性多阶段决策。DTR是一组决策规则，每个治疗间隔一个决策规则，其中每个决策都是治疗和协变量历史的函数，返回推荐的治疗。Q学习是最近应用于估计DTR的强化学习文献中的一种流行方法。虽然Q-learning原则上可用于随机和观察数据，但迄今为止，文献中的重点仅限于随机治疗设置。我们使用直接调整和各种倾向评分方法，将该方法扩展到合并测量的混杂协变量。在包括非常规场景在内的各种设置下检查这些方法。我们根据“促进母乳喂养干预试验”的数据，说明了检查母乳喂养对词汇测试影响的方法。

引用于12文件

MSC公司：

62升12	序贯估计
62页第10页	统计学在生物学和医学中的应用；元分析

关键词：

偏差；混淆；动态处理制度；治疗权重的逆概率；非规则性；倾向得分

软件：

q学习；匹配

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

参考文献：

[1]	安德森，母乳喂养与认知发展：一项荟萃分析，《美国临床营养学杂志》70（4），第525页–（1999）
[2]	Arjas，《最佳动态机制：提出预测推理案例》，《国际生物统计学杂志》第6期（2010年）·doi:10.2202/1557-4679.1204
[3]	Bellman，动态规划（1957）
[4]	Bertsekas，《神经动力学程序设计》（1996）
[5]	Chakraborty，《管理慢性健康状况的动态治疗制度：统计视角》，《美国公共卫生杂志》101（1）第40页–（2011）·doi:10.105/AJPH.2010.198937
[6]	Chakraborty，B.Laber，E.B.Zhao，Y.2012使用自适应m取n自举方案推断最佳动态治疗方案·Zbl 1418.62182号
[7]	Chakraborty，B.Moodie，E.M.2012使用跨阶段共享决策规则评估最佳动态治疗方案：Q-学习的扩展
[8]	Chakraborty，最佳动态治疗方案中非常规参数的推断，《医学研究统计方法》19（3），第317页–（2010）·Zbl 1365.62411号 ·doi:10.1177/0962280209105013
[9]	Henderson，最佳动态治疗方案的回归分析，《生物统计学》6第1192页–（2010年）·Zbl 1233.62180号 ·doi:10.1111/j.1541-0420.2009.01368.x
[10]	Hernán，通过逆概率加权比较动态治疗方案，《基础与临床药理学与毒理学》98，第237页–（2006）·doi:10.1111/j.1742-7843.2006.pto329.x
[11]	Kramer，母乳喂养与儿童认知发展：一项大型随机试验的新证据，《普通精神病学档案》65，第578页–（2008）·doi:10.1001/archpsyc.65.5.578
[12]	Kramer，《促进母乳喂养干预试验（PROBIT）：白俄罗斯共和国的一项随机试验》，《美国医学会杂志》285页413–（2001）·doi:10.1001/jama.285.4.413
[13]	Kramer，婴儿生长和健康结果与3个月与6个月纯母乳喂养的比较，《美国临床营养学杂志》78第291页–（2003）
[14]	克莱默，母乳喂养与婴儿生长：生物学还是偏见？，《儿科》110第343页–（2002年）·doi:10.1542/peds.110.2.343
[15]	Kramer，婴儿期喂养对生长的影响，《儿科杂志》145 pp 600–（2004）·doi:10.1016/j.jpeds.2004.06.069
[16]	Kramer，长期纯母乳喂养对6.5岁儿童身高、体重、肥胖和血压的影响：一项大型随机试验的证据，《美国临床营养学杂志》第86卷第1717页–（2007）
[17]	Laber，E.B.Qian，M.Lizotte，D.Murphy，S.2012动态治疗方案中的统计推断
[18]	穆迪（Moodie），《估计最佳动态机制：在零条件下修正偏差》（Estimating optimal dynamic systems:Correcting bias under the null），《斯堪的纳维亚统计杂志》（Scandinavian Journal of Statistics）37第126页–（2010）·Zbl 1224.62139号 ·文件编号：10.1111/j.1467-9469.2009.00661.x
[19]	墨菲，最佳动态治疗方案（含讨论），《皇家统计学会杂志》，B辑65 pp 331–（2003）·Zbl 1065.62006号 ·doi:10.1111/1467-9868.00389
[20]	墨菲，Q学习的泛化错误，《机器学习研究杂志》，第6页，1073–（2005）·Zbl 1222.68271号
[21]	Pineau，使用计算机科学的方法构建循证治疗策略，药物和酒精依赖88 pp S52–（2007）·doi:10.1016/j.drugaldep.2007.01.05
[22]	Robins，《流行病学统计模型：环境和临床试验》，第95页–（1999）
[23]	罗宾斯，第二届西雅图生物统计学研讨会论文集，第189页–（2004）·Zbl 1279.62024号 ·doi:10.1007/978-1-4419-9076-1_11
[24]	Robins，流行病学中的边缘结构模型和因果推断，流行病学11，第550页–（2000）·doi:10.1097/00001648-200009000-00011
[25]	罗宾斯，最佳治疗和测试策略的估计和推断，《医学统计学》27页4678–（2008）·doi:10.1002/sim.3301
[26]	Rosenbaum，《因果效应观察性研究中倾向评分的中心作用》，Biometrika 70第41页–（1983）·兹伯利0522.62091 ·doi:10.1093/biomet/70.1.41
[27]	Sekhon，《带自动平衡优化的多元和倾向评分匹配软件：R的匹配包》，《统计软件杂志》42（7），第1页–（2011）·doi:10.18637/jss.v042.i07
[28]	Shortreed，《通过强化学习为序贯临床决策提供信息：一项实证研究》，机器学习84（1），第109页–（2011）·Zbl 06031592号 ·doi:10.1007/s10994-10-5229-0
[29]	Song，R.Wang，W.Zeng，D.Kosorok，M.2012针对动态治疗方案的惩罚Q学习
[30]	萨顿，《强化学习：导论》（1998年）
[31]	Thall，《临床试验中多种治疗方案的评估》，《医学统计学》30第1011页-（2000）·doi:10.1002/（SICI）1097-0258（20000430）19:8<1011:：AID-SIM414>3.0.CO；2个月
[32]	van der Laan，现实个体化治疗的因果模型和意向治疗规则，《国际生物统计学杂志》3（2007）·Zbl 1165.62357号 ·doi:10.2202/1557-4679.1022
[33]	赵，癌症临床试验强化学习设计，《医学统计学》28页3294–（2009）·doi:10.1002/sim.3720
[34]	赵，非小细胞肺癌临床试验的强化学习策略，《生物统计学》67页1422–（2011）·Zbl 1274.62922号 ·文件编号：10.1111/j.1541-0420.2011.01572.x

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

Q-学习用于从观测数据估计最佳动态治疗规则。（英语。法语摘要） Zbl 1349.62371号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

Q-学习用于从观测数据估计最佳动态治疗规则。 （英语。法语摘要） Zbl 1349.62371号

MSC公司：

关键词：

软件：

参考文献：

Q-学习用于从观测数据估计最佳动态治疗规则。（英语。法语摘要） Zbl 1349.62371号