×

马尔可夫决策过程中高效非策略评估的双强化学习。 (英语) Zbl 1525.68113号

总结:强化学习中的非政策评估(OPE)允许评估新的决策策略,而无需进行探索,这通常是昂贵的或不可行的。我们首次考虑了马尔可夫决策过程(MDP)中OPE的半参数效率极限,其中动作、奖励和状态是无记忆的。我们表明,在这种情况下,现有的OPE估计值可能无法有效。我们基于(q)函数和边缘化密度比的交叉估计开发了一种新的估计量,我们称之为双重强化学习(DRL)。我们证明了当两个分量都按四阶速率估计时,DRL是有效的,并且当只有一个分量一致时,它也是双重鲁棒的。我们对这些特性进行了实证研究,并证明了利用无记忆性带来的性能优势。

MSC公司:

68T05型 人工智能中的学习和自适应系统
90立方厘米 马尔可夫和半马尔可夫决策过程
90 C90 数学规划的应用
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 艾春荣和陈晓红。含有未知函数的条件矩约束模型的有效估计。《计量经济学》,71:1795-18432003年·Zbl 1154.62323号
[2] 艾春荣和陈晓红。含有未知函数的序列矩约束模型的半参数效率界。《计量经济学杂志》,170:442-4572012年·Zbl 1443.62418号
[3] 安德烈亚斯·安托斯(Andr´as Antos)、塞佩斯夫·阿里(Csaba Szepesv´ari)和雷米·穆诺斯(R´emi Munos)。使用基于bellman剩余最小化的拟合策略迭代和单个样本路径学习近最优策略·Zbl 1470.68072号
[4] Peter L.Bartlett、Olivier Bousquet和Shahar Mendelson。局部雷达的复杂性。《统计年鉴》,33:1497-15372005年·Zbl 1083.62034号
[5] 大卫·本克瑟和马克·范德拉恩。高度自适应的套索估计器。2016年IEEE数据科学和高级分析国际会议(DSAA),2016年第卷·Zbl 1451.62049号
[6] Dimitri P Bertsekas。动态规划和最优控制。雅典娜科学优化和计算系列。雅典娜科学出版社,马萨诸塞州贝尔蒙特,第四版,2012年。
[7] 奥列琳·比博和马克·范德拉恩。具有有界分段变差范数的cdlg函数上经验风险最小化的快速率。arXiv预印本arXiv:1907.092442019a。
[8] 奥雷连·比博、伊万娜·马莱尼卡、尼科斯·弗拉西斯和马克·范德拉恩。通过正规化的目标学习进行更有效的非政策评估。第36届会议记录
[9] 奥雷连·比博(Aur´elien F Bibaut)和马克·范德拉恩(Mark J van der Laan)。分段变差范数有界的c\adl\ag函数经验风险最小化的快速率
[10] P.J.Bickel、C.A.J.Klaassen、Y.Ritov和J.A.Wellner。半参数模型的有效自适应估计。斯普林格,1998年·Zbl 0894.62005号
[11] 克莱夫·鲍舍(Clive G.Bowsher)和彼得·斯温(Peter S.Swain)。识别生物化学网络中的变异源和信息流。《美国国家科学院院刊》,2012年第109期。
[12] G.Brockman、V.Cheung、L.Pettersson、J.Schneider、J.舒尔曼、J.Tang和W Zaremba。Openai gym.arXiv预印本arXiv:1606.0154016。
[13] Bibhas Chakraborty和EE Moodie。动态治疗方案的统计方法。施普林格,2013年·Zbl 1278.62169号
[14] 加里·张伯伦。注释:面板数据中的顺序力矩限制。《商业与经济统计杂志》,1992年10月20日至26日。
[15] 陈晓红。第76章半非参数模型的大样本筛选估计。《计量经济学手册》,6:5549-56322007。
[16] 维克托·切尔诺朱科夫(Victor Chernozhukov)、丹尼斯·切特维里科夫(Denis Chetverikov)、默特·德米雷尔(Mert Demirer)、埃丝特·杜弗洛(Esther Duflo)、克里斯蒂安·汉森(Christian Hansen)、惠特尼·纽伊(Wh。用于治疗和结构参数的双/脱苦机器学习。《计量经济学杂志》,21:C1-C682018年·Zbl 07565928号
[17] 伊夫安·德拉兹。因果效应估计中的机器学习:有针对性的最小损失估计和双/差机器学习。生物统计学,2019年。
[18] Miroslav Dudik、Dumitru Erhan、John Langford和Lihong Li。双重稳健的政策评估和优化。《统计科学》,29:485-5112014·Zbl 1331.62059号
[19] Ashkan Ertefaie和Robert L Strawderman。在不确定的时间范围内建立动态治疗制度。《生物统计学》,105:963-9772018年·Zbl 1506.62432号
[20] M.Farajtabar、Y.Chow和M.Ghavamzadeh。更加稳健的双稳健非政策评估。《第35届机器学习国际会议论文集》,第1447-14562018页。
[21] 奥马尔·戈特斯曼(Omer Gottesman)、弗雷德里克·约翰森(Fredrik Johansson)、马蒂厄·科莫罗夫斯基(Matthieu Komorowski)、阿尔多·费萨尔(Aldo Faisal)、大卫·桑塔格(David Sontag)、芬兰·多西·维雷斯(Finale Do。医疗保健强化学习指南。《国家医学杂志》,2019年第25:16-18页。
[22] L´aszl´o Gy¨orfi、Michael Kohler、Adam Krzyzak和Harro Walk。非参数回归的无分布理论。Springer科学与商业媒体,2006年。
[23] J哈恩。序列矩约束下面板数据模型的有效估计。《计量经济学杂志》,79:1-211997年·兹伯利0880.62119
[24] 金庸哈恩。关于倾向得分在平均治疗效果有效半参数估计中的作用。计量经济学,66:315-3311998·Zbl 1055.62572号
[25] 拉尔斯·彼得·汉森。广义矩估计方法的大样本性质。《计量经济学》,50:1029-10541982年·Zbl 0502.62098号
[26] 拉尔斯·彼得·汉森(Lars Peter Hansen)、约翰·希顿(John Heaton)和埃米尔·亚龙(Amir Yaron)。一些替代gmm估计的有限样本性质。《商业与经济统计杂志》,14:262-2801996年。
[27] M.A.Hernan和J.M.Robins。因果推理。博卡拉顿:查普曼和霍尔/CRC,2019年。
[28] Keisuke Hirano、Guido W Imbens和Geert Ridder。使用估计的倾向得分有效估计平均治疗效果。《计量经济学》,71:1161-11892003年·Zbl 1152.62328号
[29] Imaizumi Masaaki和Fukumizu Kenji。深度神经网络有效学习非光滑函数。arXiv预印本arXiv:1802.044742018。
[30] N·江和L·李。用于强化学习的双稳健非政策价值评估。《第33届国际机器学习会议论文集》,第652-661页,2016年。
[31] 内森·卡卢斯和Masatoshi Uehara。用于强化学习的本质高效、稳定和有界的非策略评估。《神经信息处理系统进展》(NeurIPS),2019。
[32] 内森·卡卢斯和Masatoshi Uehara。双重强化学习,实现高效稳健的非政策评估。第37届国际机器会议记录
[33] Khashayar Khosravi、Greg Lewis和Vasilis Syrgkanis。适应内在维度的非参数推理。arXiv预印本arXiv:1901.037192019。
[34] 克里斯·克拉森(Chris A.J.Klaassen)。局部渐近线性估计影响函数的一致估计。《统计年鉴》,15:1548-15621987年·Zbl 0629.62041号
[35] 迈克尔·科索罗克。经验过程和半参数推断导论。统计学中的斯普林格系列。施普林格纽约,纽约州纽约市,2008年·Zbl 1180.62137号
[36] 米歇尔·拉古达基斯和罗纳德·帕尔。最小二乘策略迭代。《机器学习研究杂志》,4:1107-11492004·Zbl 1094.68080号
[37] Hoang Le、Cameron Voloshin和Yisong Yue。约束条件下的批量策略学习。在2019年国际机器学习会议上,第3703-3712页。
[38] L.Li、R.Munos和C.Szepesvari。走向最小最大非保单价值估计。在第18届国际人工智能与统计会议记录中,
[39] 齐莉和杰弗里·斯科特·拉辛。非参数计量经济学:理论与实践。普林斯顿大学出版社,新泽西州普林斯顿,2007年·Zbl 1183.62200号
[40] 刘强(Qiang Liu)、李丽红(Lihong Li)、唐紫阳(Ziyang Tang)和周登勇(Dengyong Zhou)。打破地平线魔咒:无限度非政策估计。神经信息处理系统进展31,第5356-5366页。2018
[41] Daniel J.Luckett、Eric B.Laber、Anna R.Kahkoska、David M.Maahs、Elizabeth MayerDavis和Michael R.Kosorok。使用v-learning评估移动卫生中的动态治疗方案。《美国统计协会杂志》,第1-34页,2018年·Zbl 1445.62279号
[42] A.Rupam Mahmood、Hado P van Hasselt和Richard S Sutton。线性函数近似下非策略学习的加权重要性抽样。神经研究进展
[43] T.Mandel、Y.Liu、S.Levine、E.Brunskill和Z Popovic。教育游戏应用程序的跨表示的非政策评估。第十三届会议记录
[44] 谢曼诺(Shie Mannor)、邓肯·西门斯特(Duncan Simester)、孙鹏(Peng Sun)和约翰·齐齐克利斯(John N Tsitsiklis)。价值函数估计中的偏差和方差近似。管理科学,53(2):308-3222007·Zbl 1232.90344号
[45] 雷米·穆诺斯(Remi Munos)、汤姆·斯特普顿(Tom Stepleton)、安娜·哈鲁图扬扬(Anna Harutyunyan)和马克·贝勒马尔(Marc Bellemare)。安全高效的非政策强化学习。神经信息处理系统研究进展·Zbl 1466.68067号
[46] S.A.墨菲。最佳动态治疗方案。《皇家统计学会杂志:B辑(统计方法)》,65:331-3552003年·Zbl 1065.62006号
[47] S A Murphy、M J van der Laan和J M Robins。动态状态的边际平均模型。《美国统计协会杂志》,96:1410-14232001年·Zbl 1051.62114号
[48] W.K.Newey和D.L.Mcfadden。大样本估计和假设检验。《计量经济学手册》,IV:2113-22451994年。
[49] D.Precup、R.Sutton和S Singh。非保单政策评估的资格跟踪。《第17届机器学习国际会议论文集》,第759-766页,
[50] Ali Rahimi和Benjamin Recht。大型内核机的随机特性。《神经信息处理系统进展》20,第1177-1184页。2008
[51] 詹姆斯·罗宾斯。一种新的死亡率研究因果推断方法,持续暴露周期应用于控制健康工人-幸存者效应。数学·Zbl 0614.62136号
[52] 詹姆斯·罗宾斯。边际结构模型与作为因果推理工具的结构嵌套模型。在流行病学、环境和临床试验的统计模型中,第95-133页。斯普林格,2000年·Zbl 0986.62094号
[53] 詹姆斯·罗宾斯(James M Robins)、米盖尔·安吉尔·埃尔南(Miguel Angel Hern´an)和巴贝特·布伦巴克(Babette Brumback)。流行病学中的边缘结构模型和因果推断。流行病学,11:5512000。
[54] 安德烈亚·罗特尼茨基(Andrea Rotnitzky)和斯蒂恩·范斯蒂兰特(Stijn Vansteelandt)。双半身像法。缺失数据方法手册。《现代统计方法手册》,第185-212页。查普曼
[55] 安德烈亚·罗特尼茨基(Andrea Rotnitzky)、埃泽基尔·斯穆克尔(Ezequiel Smucler)和詹姆斯·罗宾斯(James Robins)。具有混合偏置特性的参数的表征。arXiv预印本arXiv:1509025562019。
[56] D.Scharfstein、A.Rotnizky和J.M.Robins。使用半参数模型调整不可忽视的辍学。《美国统计协会杂志》,94:1096-1146,1999年·Zbl 1072.62644号
[57] 沈晓彤。关于筛分和惩罚的方法。《统计年鉴》,25:2555-25911997年·Zbl 0895.62041号
[58] 查尔斯·斯通。Rejoiner:多项式样条及其张量积在多元函数估计中的应用。《统计年鉴》,22:179-1841994年·兹伯利0827.62038
[59] 理查德·萨顿(Richard S Sutton)。强化学习:简介。麻省理工学院出版社,马萨诸塞州剑桥,2018年·Zbl 1407.68009号
[60] Adith Swaminathan和Thorsten Joachims。反事实学习的自归一化估计器。神经信息处理系统进展28,第3231-3239页。2015. ·兹比尔1351.68236
[61] P.Thomas和E.Brunskill。用于强化学习的数据高效的非政策政策评估。《第33届机器学习国际会议论文集》,第2139-2148页,2016年。
[62] G特里帕蒂。Cauchy-Schwarz不等式的矩阵推广。《经济学快报》,63:1-31999年·Zbl 0916.90082号
[63] 阿纳斯塔西奥斯A Tsiatis。半参数理论和缺失数据。统计学中的斯普林格系列。纽约州纽约市施普林格,2006年·Zbl 1105.6202号
[64] 马克·范德拉恩(Mark J.van der Laan)和詹姆斯·罗宾斯(James M Robins)。删失纵向数据和因果关系的统一方法。斯普林格统计系列,。纽约州纽约市施普林格·Zbl 1013.62034号
[65] A.W范德法特。关于可微泛函。安.统计师。,19:178-204, 03 1991. ·Zbl 0732.62035号
[66] A.W.范德法特。渐进统计。剑桥大学出版社,英国剑桥,1998年·Zbl 0910.62001号
[67] A.W.范德法特。半参数统计。数学课堂讲稿;1781.施普林格-柏林-海德堡,柏林,海德堡·Zbl 1013.62031号
[68] 卡雷尔·弗默伦(Karel Vermeulen)。半参数效率。Gent,Faculteit WetenschappenVakgroep Toegepate Wiskunde en Informatica,2010年。
[69] Stefan Wager和Guenther Walther。回归树的适应性集中,适用于随机森林。arXiv预印本arXiv:153.063882016。
[70] 王玉祥(Yu-Xiang Wang)、阿加瓦尔(Alekh Agarwal)和米罗斯拉夫·杜迪克(Miroslav Dudik)。背景盗贼中的最优和自适应非政策评估。第34届国际会议记录
[71] 谢腾阳(Tengyang Xie)、马一飞(Yifei Ma)和王玉祥(Yu-Xiang Wang)。边缘化重要性抽样强化学习的最优非政策评估。神经研究进展
[72] 明茵和王玉祥。表格强化学习的渐进有效非策略评估。第23届人工智能国际研讨会论文集
[73] Baqun Zhang、Anastasios A.Tsiatis、Eric B.Laber和Marie Davidian。用于顺序治疗决策的最优动态治疗方案的鲁棒估计。Biometrika,100:681-6942013年·Zbl 1284.62508号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。