×

稳健的Q学习。 (英语) Zbl 1457.62341号

总结:Q学习是一种基于回归的方法,广泛用于规范化最优动态治疗策略的开发。有限维工作模型通常用于估计某些有害参数,这些工作模型的错误指定可能会导致残余混淆和/或效率损失。我们提出了一种鲁棒的Q学习方法,该方法允许使用数据自适应技术来估计这种干扰参数。我们研究了估计量的渐近行为,并提供了仿真研究,强调了所提方法在实践中的必要性和实用性。我们使用“延长纳曲酮治疗效果”多阶段随机试验的数据来说明我们提出的方法。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
2012年12月62日 参数估计量的渐近性质
62焦耳10 方差和协方差分析(ANOVA)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Austin,P.C.,“在观测研究中使用标准化差异比较两组之间二进制变量的流行率,统计中的通信——模拟和计算,38,1228-1234(2009)·Zbl 1167.62473号 ·doi:10.1080/03610910902859574
[2] Bai,X。;Tsiatis,A.A。;O'Brien,S.M.,“分层抽样观察研究中治疗特异性生存分布的双稳健估计,生物统计学,69,830-839(2013)·Zbl 1285.62124号 ·doi:10.111/生物量12076
[3] Benkeser,D。;Carone,M。;范德拉恩,M。;Gilbert,P.,“关于平均治疗效果的双稳健非参数推断,生物统计学,104,863-880(2017)·Zbl 07072333号 ·doi:10.1093/biomet/asx053
[4] 伯克,R。;布朗,L。;Buja,A。;张凯。;Zhao,L.,“有效的选后推断,统计年鉴,41,802-837(2013)·Zbl 1267.62080号 ·doi:10.1214/12-AOS1077
[5] 巴特勒,E.L。;拉伯,E.B。;Davis,S.M。;Kosorok,M.R.,“将患者偏好纳入最佳个体化治疗规则的评估,生物统计学,74,18-26(2018)·Zbl 1415.62088号 ·doi:10.1111/biom.12743
[6] 曹伟。;Tsiatis,A.A。;Davidian,M.,“提高不完全数据总体平均值的双稳健估计的效率和稳健性,生物特征,96,723-734(2009)·兹比尔1170.62007 ·doi:10.1093/biomet/asp033
[7] 查克拉波蒂,B。;拉伯,E.B。;Zhao,Y.,“利用自适应m-Out-of-n Bootstrap方案推断最佳动态治疗方案,生物计量学,69,714-723(2013)·Zbl 1418.62182号 ·doi:10.1111/biom.12052
[8] 查克拉波蒂,B。;Moodie,E.,《动态治疗方案的统计方法》(2013),纽约:Springer,纽约·兹比尔1278.62169
[9] 切尔诺朱科夫,V。;Chetverikov,D。;Demirer,M。;杜弗洛,E。;Hansen,C。;纽伊,W。;Robins,J.,“治疗和结构参数的双/借记机器学习,计量经济学杂志,21,C1-C68(2018)·Zbl 07565928号 ·doi:10.1111/ectj.12097
[10] Davidian,M。;Tsiatis,A。;拉伯,E。;乔治·S。;王,X。;Pang,H.,《癌症临床试验:设计和分析中的当前和争议问题》,《动态治疗方案》,409-446(2016),佛罗里达州博卡拉顿:CRC出版社,佛罗里达州波卡拉顿·Zbl 1367.92004号
[11] Dudoit,S.和van der Laan,M.J.(2003),“模型选择和性能评估中交叉验证风险估计的渐近性”,技术代表,工作文件126,加州大学伯克利分校生物统计系·Zbl 1248.62004号
[12] Ertefaie,A。;肖特里德,S。;Chakraborty,B.,“Q-Learning残差分析:应用于精神分裂症患者抗精神病药物序列的有效性,医学统计,352221-2234(2016)·数字对象标识代码:10.1002/sim.6859
[13] Fithian,W.、Sun,D.和Taylor,J.(2014),“模型选择后的最佳推断”,arXiv编号1410.2597。
[14] Hastie,T.(2019),“gam:广义加法模型”,R包版本1.16.1。
[15] Kang,J.D。;Schafer,J.L.,“双重稳健性的解密:从不完全数据估计人口平均数的替代策略比较”,《统计科学》,22,523-539(2007)·Zbl 1246.62073号 ·doi:10.1214/07-STS227
[16] 拉伯,E.B。;Lizotte,D.J。;钱,M。;佩勒姆,W.E。;Murphy,S.A.,“动态治疗制度:技术挑战和应用”,《电子统计杂志》,8,1225(2014)·Zbl 1298.62189号 ·doi:10.1214/14-ejs920
[17] 拉沃里,P.W。;Dawson,R.,“测试临床策略的设计:有偏适应的受试者随机化”,《皇家统计学会杂志》,A辑,163,29-38(2000)·doi:10.1111/1467-985X.00154
[18] Lei,H。;Nahum-Shani,I。;Lynch,K。;奥斯陆,D。;Murphy,S.,“建立个性化治疗序列的‘SMART’设计,临床心理学年度评论,8,21-48(2012)·doi:10.1146/annurev-clinpsy-032511-143152
[19] Liaw,A。;Wiener,M.,“随机森林的分类和回归”,R News,2,18-22(2002)
[20] Meyer,D.、Dimitriadou,E.、Hornik,K.、Weingessel,A.和Leisch,F.(2019年),“e1071:概率理论小组统计部的杂项功能(原名:e1071),TU Wien,”R包版本1.7-2。
[21] Milborrow,S.(2019),“地球:多元自适应回归样条”,R包5.1.1版。由Trevor Hastie和Rob Tibshirani从mda:mars衍生而来。使用Alan Miller的Fortran实用程序和Thomas Lumley的跳跃包装器。
[22] Moodie,E.E.M.和Kosorok,M.R.编辑(2015年),《实践中的适应性治疗策略》,ASA-SIAM统计和应用数学系列,宾夕法尼亚州费城:工业和应用数学学会。
[23] Murphy,S.A.,“最佳动态治疗方案”,英国皇家统计学会期刊,B辑,65333-355(2003)·Zbl 1065.62006号 ·doi:10.1111/1467-9868.00389
[24] Murphy,S.A.,“开发适应性治疗策略的实验设计,医学统计学,241455-1481(2005)
[25] Nahum-Shani,I。;钱,M。;阿尔米拉尔,D。;佩勒姆,W.E。;格尼,B。;法比亚诺,G.A。;Waxmonsky,J.G。;Yu,J。;Murphy,S.A.,“比较适应性干预的实验设计和主要数据分析方法,心理学方法,17,457(2012)·doi:10.1037/a0029372
[26] Nahum-Shani,I。;钱,M。;阿尔米拉尔,D。;佩勒姆,W.E。;格尼,B。;法比亚诺,G.A。;Waxmonsky,J.G。;Yu,J。;Murphy,S.A.,“Q学习:构建适应性干预的数据分析方法,心理学方法,17478(2012)
[27] Polley,E.、LeDell,E.、Kennedy,C.和van der Laan,M.(2019),“超级学习者:超级学习者预测”,R软件包版本2.0-25。
[28] 罗宾斯,J.M。;Mark,S.D。;Newey,W.K.,“通过对混淆者接触条件期望的建模来估计接触效应,生物计量学,48,479-495(1992)·Zbl 0768.62099号 ·doi:10.2307/2532304
[29] Robinson,P.M.,“根-N-一致半参数回归,计量经济学,56931-954(1988)·Zbl 0647.62100号 ·doi:10.307/1912705
[30] Rotnitzky,A。;罗宾斯,J.M。;Scharfstein,D.O.,“不可忽视无反应重复结果的半参数回归,美国统计协会杂志,93,1321-1339(1998)·Zbl 1064.62520号 ·doi:10.1080/01621459.1998.10473795
[31] Schulte,P.J。;Tsiatis,A.A。;拉伯,E.B。;Davidian,M.,“估算最佳动态治疗方案的Q和A学习方法,统计科学,29,640-661(2014)·兹比尔1331.62437 ·doi:10.1214/13-STS450
[32] Scornet,E。;Biau,G。;Vert,J.-P,“随机森林的一致性,统计年鉴,43,1716-1741(2015)·Zbl 1317.62028号 ·doi:10.1214/15-AOS1321
[33] Shi,C。;风扇,A。;宋,R。;Lu,W.,“优化动态治疗方案的高维A-Learning,Annals of Statistics,46,925-957(2018)·Zbl 1398.62029号 ·doi:10.1214/17-AOS1570
[34] Simoneau,G。;穆迪,E.E。;普拉特·R·W。;Chakraborty,B.,“动态加权普通最小二乘法的非规则推断:了解婴儿固体食物摄入对儿童体重的影响,生物统计,19,233-246(2018)·doi:10.1093/biostatistics/kxx035
[35] 宋,R。;科索罗克,M。;曾博士。;Zhao,Y。;拉伯,E。;Yuan,M.,“关于惩罚结果加权学习的最优个体化治疗选择的稀疏表示,Stat,4,59-68(2015)·doi:10.1002/sta4.78
[36] Tsiatis,A.,半参数理论与缺失数据(2007),Springer:Springer,统计学系列,纽约:Springer·Zbl 1105.6202号
[37] van der Laan,M.J.,“有针对性地估计有害参数以获得有效的统计推断,国际生物统计杂志,10,29-57(2014)·doi:10.1515/ijb-2012-0038
[38] van der Laan,M.J.和Dudoit,S.(2003),“估计器选择的统一交叉验证方法和通用交叉验证自适应Epsilon-Net估计器:有限样本Oracle不等式和示例”,技术代表,工作论文130,加州大学伯克利分校生物统计学部。
[39] 范德拉恩,M.J。;波利,E.C。;Hubbard,A.E.,“超级学习者,遗传学和分子生物学中的统计应用”,6,25(2007)·Zbl 1166.62387号 ·doi:10.2202/1544-6115.1309
[40] van der Laan,M.J.和Robins,J.M.(2003),《经审查的纵向数据和因果关系的统一方法》,《统计学中的斯普林格系列》,纽约:斯普林格出版社·Zbl 1013.62034号
[41] 范德法特,A.W。;Dudoit,S。;van der Laan,M.J.,“Oracle多倍交叉验证不等式、统计和决策,24,351-371(2006)·Zbl 1117.62042号
[42] Vermeulen,K。;Vansteelandt,S.,“减少偏差的双重稳健估计”,《美国统计协会杂志》,1101024-1036(2015)·Zbl 1373.62218号 ·doi:10.1080/01621459.2014.958155
[43] Vermeulen,K。;Vansteelandt,S.,“数据自适应偏差简化双稳健估计”,《国际生物统计杂志》,第12期,第253-282页(2016年)
[44] 华莱士,M.P。;Moodie,E.E.,“通过加权最小二乘法进行双抗动态治疗方案评估,生物统计学,71,636-644(2015)·Zbl 1419.62467号 ·doi:10.1111/biom.12306
[45] 沃特金斯,C.J。;Dayan,P.,“Q-Learning,机器学习,8279-292(1992)·Zbl 0773.68062号 ·doi:10.1007/BF00992698
[46] 张,B。;Tsiatis,A.A。;拉伯,E.B。;Davidian,M.,“估算最佳治疗方案的稳健方法,生物统计学,68,1010-1018(2012)·Zbl 1258.62116号 ·doi:10.1111/j.1541-0420.2012.01763.x
[47] 张,B。;Tsiatis,A.A。;拉伯,E.B。;Davidian,M.,“序贯治疗决策中最佳动态治疗方案的稳健估计,生物统计学,100681-694(2013)·Zbl 1284.62508号
[48] Zhao,Y。;科索罗克,M.R。;曾博士,“癌症临床试验的强化学习设计”,《医学统计学》,2009年第28期,第3294-3315页·doi:10.1002/sim.3720
[49] Zhao,Y。;曾博士。;拉什,A.J。;Kosorok,M.R.,“使用结果加权学习评估个体化治疗规则,美国统计协会杂志,107,1106-1118(2012)·Zbl 1443.62396号 ·doi:10.1080/01621459.2012.695674
[50] Zhao,Y。;曾博士。;Socinski,硕士。;Kosorok,M.R.,“非小细胞肺癌临床试验的强化学习策略,生物统计学,671422-1433(2011)·Zbl 1274.62922号 ·文件编号:10.1111/j.1541-0420.2011.01572.x
[51] 赵永清。;曾博士。;拉伯,E.B。;Kosorok,M.R.,“估算最佳动态治疗方案的新统计学习方法”,《美国统计协会杂志》,110,583-598(2015)·Zbl 1373.62557号 ·doi:10.1080/016214592014.937488
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。