×

通过优化重定目标实现更高效的策略学习。 (英语) Zbl 1464.62445号

总结:政策学习可用于从医疗、公民、电子商务等领域的观察数据中提取个性化治疗方案。政策学习的一大障碍是不同行动的数据普遍缺乏重叠,这可能导致难以进行的政策评估和学习到的政策表现不佳。我们研究了一种基于重定目标的解决方案,即改变优化策略的种群。我们首先认为,在人口水平上,重定目标可能导致很少甚至没有偏见。然后,我们描述了二进制操作和多操作设置中的最佳参考策略和重定目标权重。我们这样做是根据新学习目标的渐近有效估计方差。我们进一步考虑额外控制因重定目标导致的潜在偏差的权重。一项模拟研究和个性化工作咨询案例研究的大量实证结果表明,重定目标是显著改进应用于观察数据的任何政策学习程序的一种相当简单的方法。

MSC公司:

62页第10页 统计学在生物学和医学中的应用;元分析
62D20型 观察性研究的因果推断
2012年12月62日 参数估计量的渐近性质
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Athey,S.和Wager,S.(2017),“高效政策学习”,arXiv编号1702.02896。
[2] 比哈尔,L。;克雷蓬,B。;Gurgand,M.,“为求职者提供私人和公共咨询:来自大型受控实验的证据”,《美国经济期刊:应用经济学》,第6期,第142-174页(2014年)·数字对象标识代码:10.1257/app.6.4.142
[3] Bennett,A。;Kallus,N.(2020年)
[4] Bertsimas,D。;Kallus,北卡罗来纳州。;温斯坦,A.M。;Zhuo,Y.D.,“使用电子病历进行个性化糖尿病管理,糖尿病护理,40,210-217(2017)·doi:10.2337/dc16-0826
[5] Beygelzimer,A。;Langford,J.,The Offset Tree for Learning With Partial Labels,第15届ACM SIGKDD国际会议(2009)·数字对象标识代码:10.1145/1557019.1557040
[6] 比克尔,P。;克拉森,C。;Ritov,Y。;Wellner,J.,半参数模型的有效和自适应估计(1993),纽约:Springer,纽约·Zbl 0786.62001号
[7] 陈,G。;曾博士。;Kosorok,M.R.,“使用结果加权学习进行个性化剂量测定,美国统计协会杂志,1111509-1521(2016)·doi:10.1080/01621459.2016.1148611
[8] 切尔诺朱科夫,V。;Chetverikov博士。;Demirer,M。;杜弗洛,E。;Hansen,C。;纽伊,W。;Robins,J.,“治疗和结构参数的双/去偏机器学习”,《计量经济学杂志》,21,C1-C68(2018)·Zbl 07565928号 ·doi:10.1111/ectj.12097
[9] 科克伦,W.G。;Rubin,D.B.,“控制观察性研究中的偏见:综述”,Sankhyā:《印度统计杂志》,A辑,35117-446(1973)·Zbl 0291.62012号
[10] 右Crump。;霍茨,V.J。;Imbens,G。;Mitnik,O.,“移动目标:通过改变估计值解决平均治疗效果评估中的有限重叠,工作文件,330(2006)
[11] D'Amour,A.、Ding,P.、Feller,A.、Lei,L.和Sekhon,J.(2017),“高维协变量观测研究中的重叠”,arXiv编号1711.02582·Zbl 1471.62501号
[12] Dehejia,R.H。;Wahba,S.,“非实验研究中的因果关系:重新评估培训计划的评估”,《美国统计协会杂志》,941053-1062(1999)·doi:10.1080/01621459.1999.10473858
[13] Dudík,M.、Langford,J.和Li,L.(2011),“双重稳健的政策评估和学习”,《第28届国际机器学习会议论文集》,第1097-1104页。
[14] Hahn,J.,“关于倾向得分在平均治疗效果有效半参数估计中的作用,计量经济学,66,315-331(1998)·Zbl 1055.62572号 ·doi:10.2307/298560
[15] 赫克曼,J.J。;一村,H。;Todd,P.E.,“作为计量经济学评估估算者的匹配:评估职业培训计划的证据”,《经济研究评论》,64,605-654(1997)·Zbl 0887.90039号 ·doi:10.2307/2971733
[16] Hirano,K。;Imbens,G.W。;Ridder,G.,“使用估计倾向得分有效估计平均治疗效果,计量经济学,71,1161-1189(2003)·Zbl 1152.62328号 ·数字对象标识代码:10.1111/1468-0262.00442
[17] Hirano,K。;Porter,J.R.,“统计处理规则的渐近性,计量经济学,71683-1701(2009)·Zbl 1186.62010年
[18] Iacus,S.M。;金·G。;Porro,G.,“单调不平衡边界的多元匹配方法,美国统计协会杂志,106345-361(2011)·Zbl 1396.62011年 ·doi:10.1198/jasa.2011.tm09599
[19] Ionides,E.L.,“截断重要性抽样,计算与图形统计杂志,17295-311(2008)·doi:10.1198/106186008X320456
[20] Kallus,N.(2016),“因果推理的广义最优匹配方法”,arXiv第1612.08321号·Zbl 1498.62035号
[21] ---《利用观测数据进行个性化递归分区》,1789-1798(2017)
[22] ---,“平衡政策评估和学习,神经信息处理系统进展,8895-8906(2018)
[23] Kallus,北卡罗来纳州。;Zhou,A.,困惑——稳健的政策改进,神经信息处理系统的进展,9269-9279(2018)
[24] 北卡罗来纳州卡卢斯。;周,A.,“连续处理的政策评估和优化,国际人工智能与统计会议,1243-1251(2018)
[25] Kallus,N.和Zhou,A.(2019),“评估个性化干预的不同影响:可识别性和界限”,arXiv编号1906.01552。
[26] 北川,T。;Tetenov,A.,“应该治疗谁?治疗选择的经验福利最大化方法”,《计量经济学》,86,591-616(2018)·Zbl 1419.91280号 ·doi:10.3982/ECTA13288
[27] 科索罗克,M.R。;Laber,E.B.,“精准医学,统计及其应用年度回顾,6,263-286(2019)·doi:10.1146/annurev-statistics-030718-105251
[28] Kube,A。;达斯,S。;Fowler,P.J.,“基于预测结果的干预措施分配:无家可归服务的案例研究”,《AAAI人工智能会议论文集》(2019年)·doi:10.1609/aaai.v33i01.3301622
[29] 拉伯,E.B。;Lizotte,D.J。;钱,M。;佩勒姆,W.E。;Murphy,S.A.,“动态治疗方案:技术挑战和应用”,《电子统计杂志》,81225(2014)·Zbl 1298.62189号 ·doi:10.1214/14-ejs920
[30] LaLonde,R.J.,“用实验数据评估培训项目的计量经济学评估”,《美国经济评论》,76,604-620(1986)
[31] 李,F。;摩根·K·L。;Zaslavsky,A.M.,“通过倾向得分加权平衡协变量,美国统计协会杂志,113,390-400(2018)·Zbl 1398.62075号 ·doi:10.1080/01621459.2016.1260466
[32] 李,L。;楚·W。;Langford,J。;Wang,X.,基于上下文带宽的新闻文章推荐算法的无偏离线评估,第四届ACM国际会议(2011)·doi:10.1145/1935826.1935878
[33] Mandel,T。;刘玉英。;莱文,S。;Brunskill,E。;波波维奇,Z.,1077-1084(2014)
[34] Pollard,D.(1990年),“经验过程:理论和应用”,收录于NSF-CBMS概率统计区域会议系列·Zbl 0741.60001号
[35] 钱,M。;Murphy,S.A.,“个性化治疗规则的性能保证”,《统计年鉴》,391180(2011)·Zbl 1216.62178号 ·doi:10.1214/10-AOS864
[36] 罗宾斯,J.M。;罗特尼茨基,A。;赵L.P.,“当某些回归因子不总是被观测时回归系数的估计”,《美国统计协会杂志》,89846-866(1994)·Zbl 0815.62043号 ·doi:10.1080/01621459.1994.10476818
[37] Rubin,D.B.,“关于‘实验数据的随机化分析:Fisher随机化测试评论’的评论,美国统计协会杂志,75,591-593(1980)·doi:10.2307/2287653
[38] Rubin,D.B.,“关于比较有效性研究的局限性,医学统计学,291991-1995(2010)
[39] Santacaterina,M。;Bottai,M.,“限制精度推理的最佳概率权重”,《美国统计协会杂志》,113983-991(2018)·Zbl 1402.62034号 ·网址:10.1080/01621459.2017.1375932
[40] Smith,J.A。;Todd,P.E.,“匹配是否克服了Lalonde对非实验估计的批评?”,《计量经济学杂志》,125,305-353(2005)·Zbl 1334.62225号
[41] Stoye,J.,“有限样本下的Minimax后悔治疗选择”,《计量经济学杂志》,151,70-81(2009)·Zbl 1431.62031号 ·doi:10.1016/j.jeconom.2009.02.013
[42] 斯瓦米纳坦,A。;Joachims,T.,《反事实风险最小化》,机器学习国际会议(2015)·Zbl 1351.68236号
[43] Swaminathan,A。;Joachims,T.,“反事实学习的自我规范化估计,神经信息处理系统的进展,3231-3239(2015)
[44] Tsiatis,A.,半参数理论与缺失数据(2007),纽约:Springer,纽约·Zbl 1105.6202号
[45] Van der Vaart,A.W.,《渐进统计》(1998),纽约:剑桥大学出版社,纽约·Zbl 0910.62001号
[46] Vapnik,V.,《统计学习理论的本质》(2000),纽约:斯普林格出版社,纽约·兹比尔0934.62009
[47] Zhao,Y。;曾博士。;拉什,A.J。;Kosorok,M.R.,“使用结果加权学习评估个体化治疗规则,美国统计协会杂志,107,1106-1118(2012)·Zbl 1443.62396号 ·doi:10.1080/01621459.2012.695674
[48] 赵永清。;曾博士。;Tangen,C.M。;Leblanc,M.L.,“针对目标人群的稳健试验衍生最佳治疗规则”,《电子统计杂志》,第13期,1717-1743页(2019年)·Zbl 1418.62399号 ·doi:10.1214/19-EJS1540
[49] Zhou,Z.、Athey,S.和Wager,S.(2018),“离线多动作策略学习:泛化和优化”,arXiv编号1810.04778。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。