文件Zbl 1525.68113-zbMATH Open

马尔可夫决策过程中高效非策略评估的双强化学习。（英语） Zbl 1525.68113号

J.马赫。学习。物件。 21，第167号论文，63页（2020年）.

总结：强化学习中的非政策评估（OPE）允许评估新的决策策略，而无需进行探索，这通常是昂贵的或不可行的。我们首次考虑了马尔可夫决策过程（MDP）中OPE的半参数效率极限，其中动作、奖励和状态是无记忆的。我们表明，在这种情况下，现有的OPE估计值可能无法有效。我们基于（q）函数和边缘化密度比的交叉估计开发了一种新的估计量，我们称之为双重强化学习（DRL）。我们证明了当两个分量都按四阶速率估计时，DRL是有效的，并且当只有一个分量一致时，它也是双重鲁棒的。我们对这些特性进行了实证研究，并证明了利用无记忆性带来的性能优势。

引用于8文件

MSC公司：

68T05型	人工智能中的学习和自适应系统
90立方厘米	马尔可夫和半马尔可夫决策过程
90 C90	数学规划的应用

关键词：

非政策性评估;马尔可夫决策过程;半参数效率;双机器学习

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	艾春荣和陈晓红。含有未知函数的条件矩约束模型的有效估计。《计量经济学》，71:1795-18432003年·Zbl 1154.62323号
[2]	艾春荣和陈晓红。含有未知函数的序列矩约束模型的半参数效率界。《计量经济学杂志》，170:442-4572012年·Zbl 1443.62418号
[3]	安德烈亚斯·安托斯（Andr´as Antos）、塞佩斯夫·阿里（Csaba Szepesv´ari）和雷米·穆诺斯（R´emi Munos）。使用基于bellman剩余最小化的拟合策略迭代和单个样本路径学习近最优策略·Zbl 1470.68072号
[4]	Peter L.Bartlett、Olivier Bousquet和Shahar Mendelson。局部雷达的复杂性。《统计年鉴》，33:1497-15372005年·Zbl 1083.62034号
[5]	大卫·本克瑟和马克·范德拉恩。高度自适应的套索估计器。2016年IEEE数据科学和高级分析国际会议（DSAA），2016年第卷·Zbl 1451.62049号
[6]	Dimitri P Bertsekas。动态规划和最优控制。雅典娜科学优化和计算系列。雅典娜科学出版社，马萨诸塞州贝尔蒙特，第四版，2012年。
[7]	奥列琳·比博和马克·范德拉恩。具有有界分段变差范数的cdlg函数上经验风险最小化的快速率。arXiv预印本arXiv:1907.092442019a。
[8]	奥雷连·比博、伊万娜·马莱尼卡、尼科斯·弗拉西斯和马克·范德拉恩。通过正规化的目标学习进行更有效的非政策评估。第36届会议记录
[9]	奥雷连·比博（Aur´elien F Bibaut）和马克·范德拉恩（Mark J van der Laan）。分段变差范数有界的c\adl\ag函数经验风险最小化的快速率
[10]	P.J.Bickel、C.A.J.Klaassen、Y.Ritov和J.A.Wellner。半参数模型的有效自适应估计。斯普林格，1998年·Zbl 0894.62005号
[11]	克莱夫·鲍舍（Clive G.Bowsher）和彼得·斯温（Peter S.Swain）。识别生物化学网络中的变异源和信息流。《美国国家科学院院刊》，2012年第109期。
[12]	G.Brockman、V.Cheung、L.Pettersson、J.Schneider、J.舒尔曼、J.Tang和W Zaremba。Openai gym.arXiv预印本arXiv:1606.0154016。
[13]	Bibhas Chakraborty和EE Moodie。动态治疗方案的统计方法。施普林格，2013年·Zbl 1278.62169号
[14]	加里·张伯伦。注释：面板数据中的顺序力矩限制。《商业与经济统计杂志》，1992年10月20日至26日。
[15]	陈晓红。第76章半非参数模型的大样本筛选估计。《计量经济学手册》，6:5549-56322007。
[16]	维克托·切尔诺朱科夫（Victor Chernozhukov）、丹尼斯·切特维里科夫（Denis Chetverikov）、默特·德米雷尔（Mert Demirer）、埃丝特·杜弗洛（Esther Duflo）、克里斯蒂安·汉森（Christian Hansen）、惠特尼·纽伊（Wh。用于治疗和结构参数的双/脱苦机器学习。《计量经济学杂志》，21:C1-C682018年·Zbl 07565928号
[17]	伊夫安·德拉兹。因果效应估计中的机器学习：有针对性的最小损失估计和双/差机器学习。生物统计学，2019年。
[18]	Miroslav Dudik、Dumitru Erhan、John Langford和Lihong Li。双重稳健的政策评估和优化。《统计科学》，29:485-5112014·Zbl 1331.62059号
[19]	Ashkan Ertefaie和Robert L Strawderman。在不确定的时间范围内建立动态治疗制度。《生物统计学》，105:963-9772018年·Zbl 1506.62432号
[20]	M.Farajtabar、Y.Chow和M.Ghavamzadeh。更加稳健的双稳健非政策评估。《第35届机器学习国际会议论文集》，第1447-14562018页。
[21]	奥马尔·戈特斯曼（Omer Gottesman）、弗雷德里克·约翰森（Fredrik Johansson）、马蒂厄·科莫罗夫斯基（Matthieu Komorowski）、阿尔多·费萨尔（Aldo Faisal）、大卫·桑塔格（David Sontag）、芬兰·多西·维雷斯（Finale Do。医疗保健强化学习指南。《国家医学杂志》，2019年第25:16-18页。
[22]	L´aszl´o Gy¨orfi、Michael Kohler、Adam Krzyzak和Harro Walk。非参数回归的无分布理论。Springer科学与商业媒体，2006年。
[23]	J哈恩。序列矩约束下面板数据模型的有效估计。《计量经济学杂志》，79:1-211997年·兹伯利0880.62119
[24]	金庸哈恩。关于倾向得分在平均治疗效果有效半参数估计中的作用。计量经济学，66:315-3311998·Zbl 1055.62572号
[25]	拉尔斯·彼得·汉森。广义矩估计方法的大样本性质。《计量经济学》，50:1029-10541982年·Zbl 0502.62098号
[26]	拉尔斯·彼得·汉森（Lars Peter Hansen）、约翰·希顿（John Heaton）和埃米尔·亚龙（Amir Yaron）。一些替代gmm估计的有限样本性质。《商业与经济统计杂志》，14:262-2801996年。
[27]	M.A.Hernan和J.M.Robins。因果推理。博卡拉顿：查普曼和霍尔/CRC，2019年。
[28]	Keisuke Hirano、Guido W Imbens和Geert Ridder。使用估计的倾向得分有效估计平均治疗效果。《计量经济学》，71:1161-11892003年·Zbl 1152.62328号
[29]	Imaizumi Masaaki和Fukumizu Kenji。深度神经网络有效学习非光滑函数。arXiv预印本arXiv:1802.044742018。
[30]	N·江和L·李。用于强化学习的双稳健非政策价值评估。《第33届国际机器学习会议论文集》，第652-661页，2016年。
[31]	内森·卡卢斯和Masatoshi Uehara。用于强化学习的本质高效、稳定和有界的非策略评估。《神经信息处理系统进展》（NeurIPS），2019。
[32]	内森·卡卢斯和Masatoshi Uehara。双重强化学习，实现高效稳健的非政策评估。第37届国际机器会议记录
[33]	Khashayar Khosravi、Greg Lewis和Vasilis Syrgkanis。适应内在维度的非参数推理。arXiv预印本arXiv:1901.037192019。
[34]	克里斯·克拉森（Chris A.J.Klaassen）。局部渐近线性估计影响函数的一致估计。《统计年鉴》，15:1548-15621987年·Zbl 0629.62041号
[35]	迈克尔·科索罗克。经验过程和半参数推断导论。统计学中的斯普林格系列。施普林格纽约，纽约州纽约市，2008年·Zbl 1180.62137号
[36]	米歇尔·拉古达基斯和罗纳德·帕尔。最小二乘策略迭代。《机器学习研究杂志》，4:1107-11492004·Zbl 1094.68080号
[37]	Hoang Le、Cameron Voloshin和Yisong Yue。约束条件下的批量策略学习。在2019年国际机器学习会议上，第3703-3712页。
[38]	L.Li、R.Munos和C.Szepesvari。走向最小最大非保单价值估计。在第18届国际人工智能与统计会议记录中，
[39]	齐莉和杰弗里·斯科特·拉辛。非参数计量经济学：理论与实践。普林斯顿大学出版社，新泽西州普林斯顿，2007年·Zbl 1183.62200号
[40]	刘强（Qiang Liu）、李丽红（Lihong Li）、唐紫阳（Ziyang Tang）和周登勇（Dengyong Zhou）。打破地平线魔咒：无限度非政策估计。神经信息处理系统进展31，第5356-5366页。2018
[41]	Daniel J.Luckett、Eric B.Laber、Anna R.Kahkoska、David M.Maahs、Elizabeth MayerDavis和Michael R.Kosorok。使用v-learning评估移动卫生中的动态治疗方案。《美国统计协会杂志》，第1-34页，2018年·Zbl 1445.62279号
[42]	A.Rupam Mahmood、Hado P van Hasselt和Richard S Sutton。线性函数近似下非策略学习的加权重要性抽样。神经研究进展
[43]	T.Mandel、Y.Liu、S.Levine、E.Brunskill和Z Popovic。教育游戏应用程序的跨表示的非政策评估。第十三届会议记录
[44]	谢曼诺（Shie Mannor）、邓肯·西门斯特（Duncan Simester）、孙鹏（Peng Sun）和约翰·齐齐克利斯（John N Tsitsiklis）。价值函数估计中的偏差和方差近似。管理科学，53（2）：308-3222007·Zbl 1232.90344号
[45]	雷米·穆诺斯（Remi Munos）、汤姆·斯特普顿（Tom Stepleton）、安娜·哈鲁图扬扬（Anna Harutyunyan）和马克·贝勒马尔（Marc Bellemare）。安全高效的非政策强化学习。神经信息处理系统研究进展·Zbl 1466.68067号
[46]	S.A.墨菲。最佳动态治疗方案。《皇家统计学会杂志：B辑（统计方法）》，65:331-3552003年·Zbl 1065.62006号
[47]	S A Murphy、M J van der Laan和J M Robins。动态状态的边际平均模型。《美国统计协会杂志》，96:1410-14232001年·Zbl 1051.62114号
[48]	W.K.Newey和D.L.Mcfadden。大样本估计和假设检验。《计量经济学手册》，IV:2113-22451994年。
[49]	D.Precup、R.Sutton和S Singh。非保单政策评估的资格跟踪。《第17届机器学习国际会议论文集》，第759-766页，
[50]	Ali Rahimi和Benjamin Recht。大型内核机的随机特性。《神经信息处理系统进展》20，第1177-1184页。2008
[51]	詹姆斯·罗宾斯。一种新的死亡率研究因果推断方法，持续暴露周期应用于控制健康工人-幸存者效应。数学·Zbl 0614.62136号
[52]	詹姆斯·罗宾斯。边际结构模型与作为因果推理工具的结构嵌套模型。在流行病学、环境和临床试验的统计模型中，第95-133页。斯普林格，2000年·Zbl 0986.62094号
[53]	詹姆斯·罗宾斯（James M Robins）、米盖尔·安吉尔·埃尔南（Miguel Angel Hern´an）和巴贝特·布伦巴克（Babette Brumback）。流行病学中的边缘结构模型和因果推断。流行病学，11:5512000。
[54]	安德烈亚·罗特尼茨基（Andrea Rotnitzky）和斯蒂恩·范斯蒂兰特（Stijn Vansteelandt）。双半身像法。缺失数据方法手册。《现代统计方法手册》，第185-212页。查普曼
[55]	安德烈亚·罗特尼茨基（Andrea Rotnitzky）、埃泽基尔·斯穆克尔（Ezequiel Smucler）和詹姆斯·罗宾斯（James Robins）。具有混合偏置特性的参数的表征。arXiv预印本arXiv:1509025562019。
[56]	D.Scharfstein、A.Rotnizky和J.M.Robins。使用半参数模型调整不可忽视的辍学。《美国统计协会杂志》，94:1096-1146，1999年·Zbl 1072.62644号
[57]	沈晓彤。关于筛分和惩罚的方法。《统计年鉴》，25:2555-25911997年·Zbl 0895.62041号
[58]	查尔斯·斯通。Rejoiner：多项式样条及其张量积在多元函数估计中的应用。《统计年鉴》，22:179-1841994年·兹伯利0827.62038
[59]	理查德·萨顿（Richard S Sutton）。强化学习：简介。麻省理工学院出版社，马萨诸塞州剑桥，2018年·Zbl 1407.68009号
[60]	Adith Swaminathan和Thorsten Joachims。反事实学习的自归一化估计器。神经信息处理系统进展28，第3231-3239页。2015. ·兹比尔1351.68236
[61]	P.Thomas和E.Brunskill。用于强化学习的数据高效的非政策政策评估。《第33届机器学习国际会议论文集》，第2139-2148页，2016年。
[62]	G特里帕蒂。Cauchy-Schwarz不等式的矩阵推广。《经济学快报》，63:1-31999年·Zbl 0916.90082号
[63]	阿纳斯塔西奥斯A Tsiatis。半参数理论和缺失数据。统计学中的斯普林格系列。纽约州纽约市施普林格，2006年·Zbl 1105.6202号
[64]	马克·范德拉恩（Mark J.van der Laan）和詹姆斯·罗宾斯（James M Robins）。删失纵向数据和因果关系的统一方法。斯普林格统计系列，。纽约州纽约市施普林格·Zbl 1013.62034号
[65]	A.W范德法特。关于可微泛函。安.统计师。，19:178-204, 03 1991. ·Zbl 0732.62035号
[66]	A.W.范德法特。渐进统计。剑桥大学出版社，英国剑桥，1998年·Zbl 0910.62001号
[67]	A.W.范德法特。半参数统计。数学课堂讲稿；1781.施普林格-柏林-海德堡，柏林，海德堡·Zbl 1013.62031号
[68]	卡雷尔·弗默伦（Karel Vermeulen）。半参数效率。Gent，Faculteit WetenschappenVakgroep Toegepate Wiskunde en Informatica，2010年。
[69]	Stefan Wager和Guenther Walther。回归树的适应性集中，适用于随机森林。arXiv预印本arXiv:153.063882016。
[70]	王玉祥（Yu-Xiang Wang）、阿加瓦尔（Alekh Agarwal）和米罗斯拉夫·杜迪克（Miroslav Dudik）。背景盗贼中的最优和自适应非政策评估。第34届国际会议记录
[71]	谢腾阳（Tengyang Xie）、马一飞（Yifei Ma）和王玉祥（Yu-Xiang Wang）。边缘化重要性抽样强化学习的最优非政策评估。神经研究进展
[72]	明茵和王玉祥。表格强化学习的渐进有效非策略评估。第23届人工智能国际研讨会论文集
[73]	Baqun Zhang、Anastasios A.Tsiatis、Eric B.Laber和Marie Davidian。用于顺序治疗决策的最优动态治疗方案的鲁棒估计。Biometrika，100:681-6942013年·Zbl 1284.62508号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

马尔可夫决策过程中高效非策略评估的双强化学习。（英语） Zbl 1525.68113号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

马尔可夫决策过程中高效非策略评估的双强化学习。 （英语） Zbl 1525.68113号

MSC公司：

关键词：

参考文献：

马尔可夫决策过程中高效非策略评估的双强化学习。（英语） Zbl 1525.68113号