文件Zbl 1457.62341-zbMATH打开

稳健的Q学习。（英语） Zbl 1457.62341号

美国统计协会。 116，编号533，368-381（2021）.

总结：Q学习是一种基于回归的方法，广泛用于规范化最优动态治疗策略的开发。有限维工作模型通常用于估计某些有害参数，这些工作模型的错误指定可能会导致残余混淆和/或效率损失。我们提出了一种鲁棒的Q学习方法，该方法允许使用数据自适应技术来估计这种干扰参数。我们研究了估计量的渐近行为，并提供了仿真研究，强调了所提方法在实践中的必要性和实用性。我们使用“延长纳曲酮治疗效果”多阶段随机试验的数据来说明我们提出的方法。

引用于4文件

MSC公司：

62页第10页	统计学在生物学和医学中的应用；元分析
2012年12月62日	参数估计量的渐近性质
62焦耳10	方差和协方差分析（ANOVA）

关键词：

交叉配件;数据自适应技术;动态治疗策略;剩余混杂

软件：

超级学习者;伽马;地球;e1071号;q学习;跳跃;随机森林

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司链接

参考文献：

[1]	Austin，P.C.，“在观测研究中使用标准化差异比较两组之间二进制变量的流行率，统计中的通信——模拟和计算，38，1228-1234（2009）·Zbl 1167.62473号 ·doi:10.1080/03610910902859574
[2]	Bai，X。；Tsiatis，A.A。；O'Brien，S.M.，“分层抽样观察研究中治疗特异性生存分布的双稳健估计，生物统计学，69，830-839（2013）·Zbl 1285.62124号 ·doi:10.111/生物量12076
[3]	Benkeser，D。；Carone，M。；范德拉恩，M。；Gilbert，P.，“关于平均治疗效果的双稳健非参数推断，生物统计学，104，863-880（2017）·Zbl 07072333号 ·doi:10.1093/biomet/asx053
[4]	伯克，R。；布朗，L。；Buja，A。；张凯。；Zhao，L.，“有效的选后推断，统计年鉴，41，802-837（2013）·Zbl 1267.62080号 ·doi:10.1214/12-AOS1077
[5]	巴特勒，E.L。；拉伯，E.B。；Davis，S.M。；Kosorok，M.R.，“将患者偏好纳入最佳个体化治疗规则的评估，生物统计学，74，18-26（2018）·Zbl 1415.62088号 ·doi:10.1111/biom.12743
[6]	曹伟。；Tsiatis，A.A。；Davidian，M.，“提高不完全数据总体平均值的双稳健估计的效率和稳健性，生物特征，96，723-734（2009）·兹比尔1170.62007 ·doi:10.1093/biomet/asp033
[7]	查克拉波蒂，B。；拉伯，E.B。；Zhao，Y.，“利用自适应m-Out-of-n Bootstrap方案推断最佳动态治疗方案，生物计量学，69，714-723（2013）·Zbl 1418.62182号 ·doi:10.1111/biom.12052
[8]	查克拉波蒂，B。；Moodie，E.，《动态治疗方案的统计方法》（2013），纽约：Springer，纽约·兹比尔1278.62169
[9]	切尔诺朱科夫，V。；Chetverikov，D。；Demirer，M。；杜弗洛，E。；Hansen，C。；纽伊，W。；Robins，J.，“治疗和结构参数的双/借记机器学习，计量经济学杂志，21，C1-C68（2018）·Zbl 07565928号 ·doi:10.1111/ectj.12097
[10]	Davidian，M。；Tsiatis，A。；拉伯，E。；乔治·S。；王，X。；Pang，H.，《癌症临床试验：设计和分析中的当前和争议问题》，《动态治疗方案》，409-446（2016），佛罗里达州博卡拉顿：CRC出版社，佛罗里达州波卡拉顿·Zbl 1367.92004号
[11]	Dudoit，S.和van der Laan，M.J.（2003），“模型选择和性能评估中交叉验证风险估计的渐近性”，技术代表，工作文件126，加州大学伯克利分校生物统计系·Zbl 1248.62004号
[12]	Ertefaie，A。；肖特里德，S。；Chakraborty，B.，“Q-Learning残差分析：应用于精神分裂症患者抗精神病药物序列的有效性，医学统计，352221-2234（2016）·数字对象标识代码：10.1002/sim.6859
[13]	Fithian，W.、Sun，D.和Taylor，J.（2014），“模型选择后的最佳推断”，arXiv编号1410.2597。
[14]	Hastie，T.（2019），“gam:广义加法模型”，R包版本1.16.1。
[15]	Kang，J.D。；Schafer，J.L.，“双重稳健性的解密：从不完全数据估计人口平均数的替代策略比较”，《统计科学》，22，523-539（2007）·Zbl 1246.62073号 ·doi:10.1214/07-STS227
[16]	拉伯，E.B。；Lizotte，D.J。；钱，M。；佩勒姆，W.E。；Murphy，S.A.，“动态治疗制度：技术挑战和应用”，《电子统计杂志》，8，1225（2014）·Zbl 1298.62189号 ·doi:10.1214/14-ejs920
[17]	拉沃里，P.W。；Dawson，R.，“测试临床策略的设计：有偏适应的受试者随机化”，《皇家统计学会杂志》，A辑，163，29-38（2000）·doi:10.1111/1467-985X.00154
[18]	Lei，H。；Nahum-Shani，I。；Lynch，K。；奥斯陆，D。；Murphy，S.，“建立个性化治疗序列的‘SMART’设计，临床心理学年度评论，8，21-48（2012）·doi:10.1146/annurev-clinpsy-032511-143152
[19]	Liaw，A。；Wiener，M.，“随机森林的分类和回归”，R News，2，18-22（2002）
[20]	Meyer，D.、Dimitriadou，E.、Hornik，K.、Weingessel，A.和Leisch，F.（2019年），“e1071:概率理论小组统计部的杂项功能（原名：e1071），TU Wien，”R包版本1.7-2。
[21]	Milborrow，S.（2019），“地球：多元自适应回归样条”，R包5.1.1版。由Trevor Hastie和Rob Tibshirani从mda:mars衍生而来。使用Alan Miller的Fortran实用程序和Thomas Lumley的跳跃包装器。
[22]	Moodie，E.E.M.和Kosorok，M.R.编辑（2015年），《实践中的适应性治疗策略》，ASA-SIAM统计和应用数学系列，宾夕法尼亚州费城：工业和应用数学学会。
[23]	Murphy，S.A.，“最佳动态治疗方案”，英国皇家统计学会期刊，B辑，65333-355（2003）·Zbl 1065.62006号 ·doi:10.1111/1467-9868.00389
[24]	Murphy，S.A.，“开发适应性治疗策略的实验设计，医学统计学，241455-1481（2005）
[25]	Nahum-Shani，I。；钱，M。；阿尔米拉尔，D。；佩勒姆，W.E。；格尼，B。；法比亚诺，G.A。；Waxmonsky，J.G。；Yu，J。；Murphy，S.A.，“比较适应性干预的实验设计和主要数据分析方法，心理学方法，17，457（2012）·doi:10.1037/a0029372
[26]	Nahum-Shani，I。；钱，M。；阿尔米拉尔，D。；佩勒姆，W.E。；格尼，B。；法比亚诺，G.A。；Waxmonsky，J.G。；Yu，J。；Murphy，S.A.，“Q学习：构建适应性干预的数据分析方法，心理学方法，17478（2012）
[27]	Polley，E.、LeDell，E.、Kennedy，C.和van der Laan，M.（2019），“超级学习者：超级学习者预测”，R软件包版本2.0-25。
[28]	罗宾斯，J.M。；Mark，S.D。；Newey，W.K.，“通过对混淆者接触条件期望的建模来估计接触效应，生物计量学，48，479-495（1992）·Zbl 0768.62099号 ·doi:10.2307/2532304
[29]	Robinson，P.M.，“根-N-一致半参数回归，计量经济学，56931-954（1988）·Zbl 0647.62100号 ·doi:10.307/1912705
[30]	Rotnitzky，A。；罗宾斯，J.M。；Scharfstein，D.O.，“不可忽视无反应重复结果的半参数回归，美国统计协会杂志，93，1321-1339（1998）·Zbl 1064.62520号 ·doi:10.1080/01621459.1998.10473795
[31]	Schulte，P.J。；Tsiatis，A.A。；拉伯，E.B。；Davidian，M.，“估算最佳动态治疗方案的Q和A学习方法，统计科学，29，640-661（2014）·兹比尔1331.62437 ·doi:10.1214/13-STS450
[32]	Scornet，E。；Biau，G。；Vert，J.-P，“随机森林的一致性，统计年鉴，43，1716-1741（2015）·Zbl 1317.62028号 ·doi:10.1214/15-AOS1321
[33]	Shi，C。；风扇，A。；宋，R。；Lu，W.，“优化动态治疗方案的高维A-Learning，Annals of Statistics，46，925-957（2018）·Zbl 1398.62029号 ·doi:10.1214/17-AOS1570
[34]	Simoneau，G。；穆迪，E.E。；普拉特·R·W。；Chakraborty，B.，“动态加权普通最小二乘法的非规则推断：了解婴儿固体食物摄入对儿童体重的影响，生物统计，19，233-246（2018）·doi:10.1093/biostatistics/kxx035
[35]	宋，R。；科索罗克，M。；曾博士。；Zhao，Y。；拉伯，E。；Yuan，M.，“关于惩罚结果加权学习的最优个体化治疗选择的稀疏表示，Stat，4，59-68（2015）·doi:10.1002/sta4.78
[36]	Tsiatis，A.，半参数理论与缺失数据（2007），Springer:Springer，统计学系列，纽约：Springer·Zbl 1105.6202号
[37]	van der Laan，M.J.，“有针对性地估计有害参数以获得有效的统计推断，国际生物统计杂志，10，29-57（2014）·doi:10.1515/ijb-2012-0038
[38]	van der Laan，M.J.和Dudoit，S.（2003），“估计器选择的统一交叉验证方法和通用交叉验证自适应Epsilon-Net估计器：有限样本Oracle不等式和示例”，技术代表，工作论文130，加州大学伯克利分校生物统计学部。
[39]	范德拉恩，M.J。；波利，E.C。；Hubbard，A.E.，“超级学习者，遗传学和分子生物学中的统计应用”，6，25（2007）·Zbl 1166.62387号 ·doi:10.2202/1544-6115.1309
[40]	van der Laan，M.J.和Robins，J.M.（2003），《经审查的纵向数据和因果关系的统一方法》，《统计学中的斯普林格系列》，纽约：斯普林格出版社·Zbl 1013.62034号
[41]	范德法特，A.W。；Dudoit，S。；van der Laan，M.J.，“Oracle多倍交叉验证不等式、统计和决策，24，351-371（2006）·Zbl 1117.62042号
[42]	Vermeulen，K。；Vansteelandt，S.，“减少偏差的双重稳健估计”，《美国统计协会杂志》，1101024-1036（2015）·Zbl 1373.62218号 ·doi:10.1080/01621459.2014.958155
[43]	Vermeulen，K。；Vansteelandt，S.，“数据自适应偏差简化双稳健估计”，《国际生物统计杂志》，第12期，第253-282页（2016年）
[44]	华莱士，M.P。；Moodie，E.E.，“通过加权最小二乘法进行双抗动态治疗方案评估，生物统计学，71，636-644（2015）·Zbl 1419.62467号 ·doi:10.1111/biom.12306
[45]	沃特金斯，C.J。；Dayan，P.，“Q-Learning，机器学习，8279-292（1992）·Zbl 0773.68062号 ·doi:10.1007/BF00992698
[46]	张，B。；Tsiatis，A.A。；拉伯，E.B。；Davidian，M.，“估算最佳治疗方案的稳健方法，生物统计学，68，1010-1018（2012）·Zbl 1258.62116号 ·doi:10.1111/j.1541-0420.2012.01763.x
[47]	张，B。；Tsiatis，A.A。；拉伯，E.B。；Davidian，M.，“序贯治疗决策中最佳动态治疗方案的稳健估计，生物统计学，100681-694（2013）·Zbl 1284.62508号
[48]	Zhao，Y。；科索罗克，M.R。；曾博士，“癌症临床试验的强化学习设计”，《医学统计学》，2009年第28期，第3294-3315页·doi:10.1002/sim.3720
[49]	Zhao，Y。；曾博士。；拉什，A.J。；Kosorok，M.R.，“使用结果加权学习评估个体化治疗规则，美国统计协会杂志，107，1106-1118（2012）·Zbl 1443.62396号 ·doi:10.1080/01621459.2012.695674
[50]	Zhao，Y。；曾博士。；Socinski，硕士。；Kosorok，M.R.，“非小细胞肺癌临床试验的强化学习策略，生物统计学，671422-1433（2011）·Zbl 1274.62922号 ·文件编号：10.1111/j.1541-0420.2011.01572.x
[51]	赵永清。；曾博士。；拉伯，E.B。；Kosorok，M.R.，“估算最佳动态治疗方案的新统计学习方法”，《美国统计协会杂志》，110，583-598（2015）·Zbl 1373.62557号 ·doi:10.1080/016214592014.937488

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
右心室	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

稳健的Q学习。（英语） Zbl 1457.62341号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

稳健的Q学习。 （英语） Zbl 1457.62341号

MSC公司：

关键词：

软件：

参考文献：

稳健的Q学习。（英语） Zbl 1457.62341号