×

在动态治疗方案的高维Q学习中对值函数进行适当推断。 (英语) Zbl 1428.62246号

总结:动态治疗方案是一组决策规则,每个治疗决策都是根据患者对以往治疗的反应以及协变量历史随时间而调整的。人们对开发最佳动态治疗方案的正确统计推断越来越感兴趣,以便在无应答者存在零治疗效应的情况下处理非规则性问题的挑战,特别是当剪裁变量的维数较高时。在本文中,我们提出了一种高维Q学习(HQ-learning),以便于推断最佳值和参数。该方法允许我们同时估计最佳动态治疗方案,并选择真正有助于个人奖励的重要变量。同时,该方法引入了硬阈值,以消除无响应信号的影响。然后通过调整阈值偏差,建立了参数估计量和估计最优值函数的渐近性质。仿真研究和实际数据分析都表明,在获得最佳动态处理方案的值函数的适当推断方面,具有令人满意的性能。

MSC公司:

62甲12 多元分析中的估计
62C05型 统计决策理论的一般考虑
2012年12月62日 参数估计量的渐近性质
62J07型 岭回归;收缩估计器(拉索)

软件:

q学习
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] Altman,T。;Leger,C.,交叉验证,Bootstrap和相关调整参数选择方法,1-23(1994)
[2] 查克拉波蒂,B。;拉伯,E。;Zhao,Y.,使用自适应m取n自举方案推断最佳动态治疗方案,生物统计学,69,714-723(2013)·Zbl 1418.62182号
[3] 查克拉波蒂,B。;Moodie,E.E.M.,《动态治疗方案的统计方法》(2013),纽约:Springer,纽约·Zbl 1278.62169号
[4] 查克拉波蒂,B。;Murphy,S。;Strecher,V.,最佳动态治疗方案中非规则参数的推断,医学研究中的统计方法,19,317-343(2010)·Zbl 1365.62411号
[5] 范,J。;Li,R.,《基于非关联惩罚可能性的变量选择及其Oracle属性》,美国统计协会杂志,96,1348-1360(2001)·Zbl 1073.62547号
[6] 范,J。;Lv,J.,具有NP维的非凹面惩罚可能性,IEEE信息理论汇刊,57,5467-5484(2011)·Zbl 1365.62277号
[7] 法瓦,M。;拉什,A.J。;特里维迪,M.H。;尼伦伯格,A.A。;Thase,M.E。;Sackeim,H.A。;基特金,F.M。;Wisniewski,S。;拉维里,P.W。;罗森鲍姆,J.F。;Kupfer,D.J.,《缓解抑郁顺序治疗替代方案(STAR*D)研究的背景和原理》,北美精神病临床,26457-494(2003)
[8] 拉伯,E。;Lizotte,D。;钱,M。;佩勒姆,W。;Murphy,S.,《动态治疗方案:技术挑战和应用》,《电子统计杂志》,8,1225-1272(2014)·Zbl 1298.62189号
[9] 吕特克,A.R。;Van Der Laan,M.J.,《平均值的统计推断——采用可能的非唯一最优治疗策略》,《统计年鉴》,44,713-742(2016)·Zbl 1338.62089号
[10] 吕杰。;Fan,Y.,使用正则化最小二乘法进行模型选择和稀疏恢复的统一方法,《统计年鉴》,373498-3528(2009)·Zbl 1369.62156号
[11] 穆迪,E。;Richardson,T.,《估算最佳动态机制:在零位下纠正偏差》,《斯堪的纳维亚统计杂志》,第37期,第126-146页(2010年)·Zbl 1224.62139号
[12] 钱,M。;Murphy,S.A.,《个体化治疗规则的性能保证》,《统计年鉴》,第39期,第1180-1210页(2011年)·Zbl 1216.62178号
[13] Robins,J.M.,最优序列决策的最优结构嵌套模型,第二届西雅图生物统计学研讨会论文集,189-326(2004),Springer·Zbl 1279.62024号
[14] 拉什,A.J。;法瓦,M。;Wisniewski,S.R。;拉维里,P.W。;特里维迪,M.H。;Sackeim,H.A。;Thase,M.E。;尼伦伯格,A.A。;基特金,F.M。;Kashner,T.M。;库普弗·D·J。;罗森鲍姆,J.F。;Alpert,J。;斯图尔特,J.W。;McGrath,P.J。;比格斯,M.M。;Shores-Wilson,K。;勒博维茨,B.D。;里兹,L。;Niederehe,G.,《缓解抑郁症的顺序治疗替代方案(STAR*D):原理和设计》,对照临床试验,25119-142(2004)
[15] 宋,R。;Wang,W。;曾博士。;Kosorok,M.R.,《动态治疗方案的惩罚Q-学习》,中国统计局,25901-920(2015)·兹比尔1415.62054
[16] Watkins,C.J.,《从延迟奖励中学习》(1989年),英国剑桥大学
[17] Zhang,C.,Minimax凹板惩罚下的几乎无偏变量选择,《统计年鉴》,38894-942(2010)·Zbl 1183.62120号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。