×

兹马思-数学第一资源

稳健的Q-学习。(英语) Zbl 1457.62341号
总结:Q-学习是一种基于回归的方法,被广泛用于形式化最优动态治疗策略的开发。有限维工作模型通常用于估计某些干扰参数,而这些工作模型的错误指定可能会导致残余混杂和/或效率损失。我们提出了一种稳健的Q-学习方法,该方法允许使用数据自适应技术来估计此类干扰参数。我们研究我们的估计器的渐近行为,并提供模拟研究,强调所提出的方法在实践中的必要性和有用性。我们使用“纳曲酮扩大治疗效果”多阶段随机试验的数据来说明我们提出的方法。
理学硕士:
第62页 统计学在生物学和医学科学中的应用;荟萃分析
62层12层 参数估计量的渐近性质
62J10 方差和协方差分析(ANOVA)
PDF格式 BibTeX公司 XML 引用
全文: 内政部
参考文献:
[1] Austin,P.C.,“在观察研究中使用标准化差异比较二元变量在两组之间的流行率,统计学模拟和计算通信,381228-1234(2009)·Zbl 1167.62473
[2] 白,X。;齐亚蒂斯,A.A。;O'Brien,S.M.,《分层抽样观察研究中治疗特异性生存分布的双稳健估计》,生物统计学,69830-839(2013)·Zbl 1285.62124
[3] 本克瑟,D。;卡隆,M。;范德兰,M。;Gilbert,P.,“平均治疗效果的双稳健非参数推断”,Biometrika,104863-880(2017年)·Zbl 07072333
[4] 伯克,R。;布朗,L。;Buja,A。;张克。;Zhao,L.,“有效的后选择推理,《统计年鉴》,41802-837(2013)·Zbl 1267.62080
[5] 巴特勒,E.L。;Laber,E.B。;戴维斯,S.M。;Kosorok,M.R.,“将患者偏好纳入最佳个体化治疗规则的估计中”,生物识别,74,18-26(2018年)·Zbl 1415.62088
[6] 曹伟。;齐亚蒂斯,A.A。;Davidian,M.,“提高不完全数据总体平均值的双稳健估计的效率和稳健性,生物计量学,96723-734(2009)·Zbl 1170.62007
[7] 查克拉博蒂,B。;B.拉伯。;Zhao,Y.,“使用自适应m-Out-of-n引导方案的最佳动态治疗方案推断”,生物识别,69714-723(2013)·Zbl 1418.62182号
[8] 查克拉博蒂,B。;Moodie,E.,动态治疗方案的统计方法(2013),纽约:Springer,纽约·Zbl 1278.62169
[9] 切尔诺朱科夫五世。;切特维利科夫D。;除雾器,M。;杜弗洛,E。;汉森,C。;纽伊,W。;Robins,J.,“治疗和结构参数的双/借记机器学习”,计量经济学杂志,21,C1-C68(2018)
[10] 大卫安,M。;齐亚蒂斯,A。;拉伯,E。;乔治,S。;王,X。;Pang,H.,癌症临床试验:设计和分析中的当前和争议性问题,动态治疗方案,409-446(2016),佛罗里达州博卡拉顿:CRC出版社,佛罗里达州博卡拉顿
[11] Dudoit,S.和van der Laan,M.J.(2003),“模型选择和性能评估中交叉验证风险估计的渐近性”,技术代表,工作论文126,生物统计系,加利福尼亚大学伯克利分校·Zbl 1248.62004
[12] 埃特菲,A。;肖特里德,S。;Chakraborty,B.,“Q-学习残差分析:应用于精神分裂症患者抗精神病药物序列的有效性,医学统计,352221-2234(2016)
[13] Fithian,W.,Sun,D.和Taylor,J.(2014年),“模型选择后的最优推理”,arXiv第1410.2597号。
[14] Hastie,T.(2019年),“gam:广义加性模型”,R包1.16.1版。
[15] 康博士。;Schafer,J.L.,“消除双重稳健性:从不完全数据估计总体平均值的替代策略的比较”,统计科学,22523-539(2007)·Zbl 1246.62073
[16] Laber,E.B。;利佐特,D.J。;钱,M。;威尔士佩勒姆。;Murphy,S.A.,“动态治疗机制:技术挑战和应用”,电子统计杂志,81225(2014)·Zbl 1298.62189
[17] 拉沃里,P.W。;Dawson,R.,“临床策略测试的设计:受试者内有偏适应性随机化”,皇家统计学会杂志,A辑,163,29-38(2000)
[18] 雷,H。;纳胡姆·沙尼,我。;林奇,K。;奥斯林,D。;Murphy,S.,“构建个性化治疗序列的‘智能’设计”,《临床心理学年鉴》,8,21-48(2012)
[19] Liaw,A。;Wiener,M.,“随机森林分类和回归”,R News,2,18-22(2002)
[20] Meyer,D.,Dimitriadou,E.,Hornik,K.,Weingessel,A.和Leisch,F.(2019年),“e1071:统计部的其他功能,概率理论组(原:e1071),图维恩”,R包1.7-2版。
[21] Milbrow,S.(2019年),“地球:多元自适应回归样条线”,R软件包版本5.1.1。来源于mda:mars,作者:Trevor Hastine和Rob Tibshirani。使用Alan Miller的Fortran实用程序和Thomas Lumley的leaps包装器。
[22] Moodie,E.E.M.和Kosorok,M.R.编辑(2015年),《实践中的适应性治疗策略》,ASA-SIAM统计和应用数学系列,宾夕法尼亚州费城:工业和应用数学学会。
[23] Murphy,S.A.,“最佳动态治疗方案”,皇家统计学会杂志,B辑,65331-355(2003)·Zbl 1065.62006
[24] Murphy,S.A.,“适应治疗策略发展的实验设计”,医学统计学,241455-1481(2005)
[25] 纳胡姆·沙尼,我。;钱,M。;衣橱,D。;威尔士佩勒姆。;纳吉,B。;法比亚诺,乔治亚州。;韦克斯蒙斯基。;于,J。;Murphy,S.A.,“比较适应性干预措施的实验设计和主要数据分析方法,心理学方法”,17457(2012)
[26] 纳胡姆·沙尼,我。;钱,M。;衣橱,D。;威尔士佩勒姆。;纳吉,B。;法比亚诺,乔治亚州。;韦克斯蒙斯基。;于,J。;Murphy,S.A.,“Q-学习:构建适应性干预的数据分析方法”,心理学方法,17478(2012)
[27] Polley,E.,LeDell,E.,Kennedy,C.,and van der Laan,M.(2019年),“超级学习者:超级学习者预测”,R软件包2.0-25版。
[28] 罗宾斯,J.M。;马克,S.D。;Newey,W.K.,“通过对混杂因素的暴露预期进行建模来估计暴露效果”,生物识别,48479-495(1992)·6207ZB68
[29] Robinson,P.M.,“根-N-一致半参数回归,计量经济学,56931-954(1988)·京保0647.62100
[30] 罗特尼茨基,A。;罗宾斯,J.M。;Scharfstein,D.O.,“具有不可忽略无反应的重复结果的半参数回归,美国统计协会杂志,931321-1339(1998)·Zbl 1064.62520号
[31] 舒尔特,P.J。;齐亚蒂斯,A.A。;Laber,E.B。;Davidian,M.,“用于估计最佳动态治疗方案的Q-和A-学习方法”,统计科学,29640-661(2014)·Zbl 1331.62437
[32] 蔑视者E。;彪,G。;Vert,J.-P.,“随机森林的一致性,《统计年鉴》,431716-1741(2015)·Zbl 1317.62028
[33] 石,C。;范,A。;宋,R。;Lu,W.,“最佳动态治疗方案的高维A-学习”,统计年鉴,46925-957(2018年)·Zbl 1398.62029
[34] 西莫诺,G。;欧洲东部的穆迪。;普拉特,R.W。;Chakraborty,B.,“动态加权普通最小二乘法的非规则推理:了解婴儿期固体食物摄入对儿童体重的影响”,生物统计学,19233-246(2018年)
[35] 宋,R。;科索洛克,M。;曾德。;赵勇。;拉伯,E。;Yuan,M.,“基于惩罚结果加权学习的最优个体化治疗选择的稀疏表示法”,Stat,459-68(2015)
[36] Tsiatis,A.,半参数理论和缺失数据(2007),Springer:Springer,统计学系列,纽约:Springer,Springer:Springer,统计学系列,纽约·Zbl 1105.62002
[37] van der Laan,M.J.,“为获得有效的统计推断而对干扰参数进行有针对性的估计”,《国际生物统计学杂志》,10,29-57(2014)
[38] van der Laan,M.J.和Dudoit,S.(2003年),“选择估计器和一般交叉验证自适应Epsilon网络估计器的统一交叉验证方法:有限样本Oracle不等式和实例”,技术代表,工作论文130,生物统计系,加州大学伯克利分校。
[39] 范德兰,M.J。;波利,E.C。;哈伯德,A.E.,“超级学习者,遗传学和分子生物学的统计应用,6,25(2007)·Zbl 1166.62387
[40] 范德兰,M.J.,和Robins,J.M.(2003),删失纵向数据和因果关系的统一方法,斯普林格统计学,纽约:斯普林格·Zbl 1013.62034
[41] 范德法特,A.W。;Dudoit公司。;van der Laan,M.J.,“Oracle多重交叉验证、统计和决策不等式,24351-371(2006)·Zbl 1117.62042
[42] 维梅伦,K。;Vansteelandt,S.,“偏差减少双稳健估计”,美国统计协会杂志,1101024-1036(2015)·Zbl 1373.62218
[43] 维梅伦,K。;Vansteelandt,S.,“数据自适应偏差减少双稳健估计”,《国际生物统计学杂志》,12253-282(2016)
[44] 华莱士医学博士。;Moodie,E.E.,“通过加权最小二乘法估计双稳健动态治疗方案,生物特征学,71636-644(2015)·Zbl 1419.62467
[45] 沃特金斯,C.J。;P.Dayan,P.,“Q-学习,机器学习,8279-292(1992)·Zbl 0773.68062
[46] 张,B。;齐亚蒂斯,A.A。;Laber,E.B。;Davidian,M.,“估计最佳治疗方案的稳健方法,生物特征学,681010-1018(2012)·Zbl 1258.62116
[47] 张,B。;齐亚蒂斯,A.A。;Laber,E.B。;Davidian,M.,《序贯治疗决策的最佳动态治疗方案的稳健估计》,Biometrika,100681-694(2013年)·兹布1284.62508
[48] 赵勇。;科索洛克,医学博士。;Zeng,D.,《癌症临床试验强化学习设计》,医学统计学,283294-3315(2009)
[49] 赵勇。;曾德。;拉什,A.J。;Kosorok,M.R.,“使用结果加权学习估计个体化治疗规则”,美国统计协会杂志,1071106-1118(2012)·Zbl 1443.62396
[50] 赵勇。;曾德。;Socinski,文学硕士。;Kosorok,M.R.,《非小细胞肺癌临床试验的强化学习策略》,生物识别,671422-1433(2011)·Zbl 1274.62922
[51] 赵琰。;曾德。;Laber,E.B。;Kosorok,M.R.,“估计最佳动态治疗方案的新统计学习方法”,美国统计协会杂志,110583-598(2015)·Zbl 1373.62557
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。