×

强化学习中用于策略评估的在线自举推理。 (英语) Zbl 07784954号

摘要:最近出现的强化学习(RL)对使用这些算法计算的参数估计的稳健统计推断方法提出了需求。在线学习中现有的推理方法仅限于涉及独立采样观测值的设置,而RL中的推理方法目前仅限于批量设置。bootstrap是在线学习算法中进行统计推断的一种灵活而有效的方法,但它在涉及马尔可夫噪声的环境中(如RL)的有效性尚待探索。在本文中,我们研究了在线引导方法在RL策略评估中的推理应用。特别地,我们关注时间差分(TD)学习和梯度TD(GTD)学习算法,它们本身是马尔可夫噪声下线性随机逼近的特殊实例。该方法对于政策评估中的统计推断具有分布一致性,并通过数值实验证明了该算法在一系列真实RL环境中的有效性。本文的补充材料可在网上获得。

MSC公司:

62至XX 统计学
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Adomavicius,G.和Zhang,J.(2012),“推荐算法的稳定性”,ACM信息系统事务(TOIS),30,1-31。DOI:。
[2] Andrieu,C.、Moulines,E.和Priouret,P.(2005),“可验证条件下随机近似的稳定性”,SIAM控制与优化杂志,44,283-312。内政部:·Zbl 1083.62073号
[3] Bhandari,J.、Russo,D.和Singal,R.(2018),“用线性函数逼近对时间差分学习进行有限时间分析”,《第31届学习理论会议论文集》,《机器学习研究论文集》第75卷,编辑:Bubeck,S.、Perchet,V.和Rigollet,P.,第1691-1692页。PMLR。
[4] Bojun,H.(2020年),“发作性强化学习的稳态分析”,摘自《神经信息处理系统进展》(第33卷),编辑:Larochelle,H.、Ranzato,M.、Hadsell,R.、Balcan,M.F.和Lin,H..,第9335-9345页。Curran Associates公司。
[5] Brockman,G.、Cheung,V.、Pettersson,L.、Schneider,J.、Schulman,J.,Tang,J.和Zaremba,W.(2016),“Openai健身房”,arXiv预印本arXiv:1606.01540。
[6] Chakraborty,B.和Murphy,S.A.(2014),“动态治疗方案”,《统计及其应用年度回顾》,1447-464。DOI:。
[7] Chen,H.,Lu,W.,and Song,R.(2021),“通过随机梯度下降进行在线决策的统计推断”,美国统计协会杂志,116708-719。内政部:·Zbl 1465.62032号
[8] Chen,M.、Beutel,A.、Covington,P.、Jain,S.、Belletti,F.和Chi,E.H.(2019),“加强型推荐系统的Top-k Off-policy校正”,载于第十二届ACM网络搜索和数据挖掘国际会议论文集,第456-464页。DOI:。
[9] Chen,X.,Lee,J.D.,Tong,X.T.和Zhang,Y.(2020),“随机梯度下降模型参数的统计推断”,《统计学年鉴》,48,251-273。内政部:·Zbl 1440.62287号
[10] Chen,Y.、Fan,J.、Ma,C.和Yan,Y..(2019),“噪声矩阵完成的推断和不确定性量化”,《国家科学院学报》,116,22931-22937。内政部:·Zbl 1431.90117号
[11] Chen,Z.、Maguluri,S.T.、Shakkottai,S.和Shanmugam,K.(2021),“异步Q学习和TD学习变量的有限样本保证的Lyapunov理论”,arXiv预印本arXiv:2102.01567。
[12] Cheng,G.(2015),“半参数m估计可交换加权Bootstrap的矩一致性”,《斯堪的纳维亚统计杂志》,42665-684。内政部:·Zbl 1360.62111号
[13] Chung,W.、Nath,S.、Joseph,A.和White,M.(2019),“非线性值函数逼近的双时间尺度网络”,第七届国际学习表征会议,2019年5月6日至9日,美国洛杉矶新奥尔良,2019。OpenReview.net。
[14] Dai,B.、Nachum,O.、Chow,Y.、Li,L.、Szepesvari,C.和Schuurmans,D.(2020),“硬币:非政策置信区间估计”,《神经信息处理系统进展》(第33卷),编辑:Larochelle,H.、Ranzato,M.、Hadsell,R.、Balcan,M.F.和Lin,H,第9398-9411页。Curran Associates公司。
[15] DasGupta,A.(2008),《引导》,纽约:施普林格出版社,第461-497页。
[16] Douc,R.、Moulines,E.、Priouret,P.和Soulier,P.(2018),《马尔可夫链、运营研究和金融工程》,Cham:Springer·Zbl 1429.60002号
[17] Dulac-Arnold,G.、Levine,N.、Mankowitz,D.J.、Li,J.、Paduraru,C.、Gowal,S.和Hester,T.(2021年9月),“现实世界强化学习的挑战:定义、基准和分析”,机器学习,110,2419-2468。内政部:·Zbl 07465677号
[18] Durmus,A.、Moulines,E.、Naumov,A.、Samsonov,S.和Wai,H.-T(2021),“关于马尔可夫噪声随机矩阵乘积的稳定性:线性随机逼近和TD学习的应用”,学习理论会议,第1711-1752页。PMLR公司。
[19] Ertefaie,A.和Strawderman,R.L.(2018),“在不确定的时间范围内构建动态治疗机制”,《生物统计学》,105,963-977。内政部:·Zbl 1506.62432号
[20] Fang,Y.,Xu,J.,and Yang,L.(2018),“随机梯度下降估计的在线Bootstrap置信区间”,《机器学习研究杂志》,19,1-21·Zbl 1476.62060号
[21] Gu,S.、Holly,E.、Lillicrap,T.和Levine,S.(2017),“利用异步非政策更新进行机器人操作的深度强化学习”,2017年IEEE机器人与自动化国际会议(ICRA),第3389-3396页。电气与电子工程师协会。DOI:。
[22] Gupta,H.、Srikant,R.和Ying,L.(2019年),“双时间尺度强化学习的有限时间性能界限和自适应学习速率选择”,摘自《神经信息处理系统进展》第32卷:2019年神经信息处理系统年度会议,2019年12月8日至14日,加拿大不列颠哥伦比亚省温哥华,第。Wallach,H.M.、Larochelle,H.、Beygelzimer,A.、d'Alché-Buc,F.、Fox,E.B.和Garnett,R.,第4706-4715页。
[23] Hall,P.(1992),《Bootstrap and Edgeworth Expansion》,纽约:斯普林格出版社·Zbl 0744.62026号
[24] Hanna,J.P.、Stone,P.和Niekum,S.(2017),“模型引导:非策略评估的置信区间”,载于《第16届自主代理和多代理系统会议论文集》,AAMAS’17,Richland,SC,第538-546页。国际自治代理和多代理系统基金会。
[25] Hao,B.、Abbasi Yadkori,Y.、Wen,Z.和Cheng,G.(2019),《神经信息处理系统进展》(第32卷),编辑Wallach,H.、Larochelle,H.,Beygelzimer,A.、d'Alché-Buc,F.、Fox,E.和Garnett,R.,Curran Associates,Inc。
[26] Hao,B.、Ji,X.、Duan,Y.、Lu,H.、Szepesvári,C.和Wang,M.(2021),“非政策评估的自举统计推断”,arXiv预印本arXiv:2102.03607。
[27] Hu,B.,and Syed,U.A.(2019),“利用马尔可夫跳跃线性系统理论表征时间差分学习算法的精确行为”,载于《神经信息处理系统进展32:2019年神经信息处理体系年度会议》,NeurIPS 2019,eds.Wallach,H.M.,Larochelle,H.,Beygelzimer,A。,d‘Alché-Buc,F.,Fox,E.B.和Garnett,R.,2019年12月8日至14日,加拿大不列颠哥伦比亚省温哥华,第8477-8488页。
[28] Jiang,N.和Huang,J.(2020),《非政策评估和政策优化的最小最大值区间》,载于《神经信息处理系统进展》(第33卷),编辑:Larochelle,H.、Ranzato,M.、Hadsell,R.、Balcan,M.F.和Lin,H,第2747-2758页。Curran Associates公司。
[29] Kaledin,M.,Moulines,E.,Naumov,A.,Tadic,V.,and Wai,H.-T.(2020),“带马尔可夫噪声的线性双时间尺度随机逼近的有限时间分析”,学习理论会议,第2144-2203页。
[30] Kallus,N.和Uehara,M.(2021年),“利用双重强化学习有效打破非政策评估的诅咒”,《运营研究》(即将出版)。内政部:·Zbl 1510.90285号
[31] Kuzborskij,I.、Vernade,C.、Gyorgy,A.和Szepesvari,C.(2021),“通过自我归一化重要性加权进行自信的非政策评估和选择”,载于《第24届人工智能与统计国际会议论文集》,《机器学习研究论文集》第130卷,编辑:Banerjee,A.和Fukumizu,K.,第640-648页。
[32] Lagoudakis,M.G.(2003),“最小二乘策略迭代”,《机器学习研究杂志》,第4期,第1107-1149页·Zbl 1094.68080号
[33] Levin,D.、Peres,Y.和Wilmer,E.L.(2017),“马尔可夫链和混合时间(第二版),普罗维登斯,RI:美国数学学会·Zbl 1390.60001号
[34] Levine,S.、Kumar,A.、Tucker,G.和Fu,J.(2020),“离线强化学习:开放问题的指导、回顾和观点”,arXiv预印本arXiv:2005.01643。
[35] Li,T.、Liu,L.、Kyrillidis,A.和Caramanis,C.(2018),“使用SGD的统计推断”,载于《AAAI人工智能会议论文集》(第32卷)。DOI:。
[36] Li,Y.,Xie,H.,Lin,Y.and Lui,J.C.(2021),“统一离线因果推理和在线盗贼学习以实现数据驱动决策”,《2021年网络会议论文集》,第2291-2303页。DOI:。
[37] Liang,F.(2010),“随机近似MCMC算法的轨迹平均”,《统计年鉴》,38,2823-2856。内政部:·兹比尔1218.60064
[38] Luckett,D.J.、Laber,E.B.、Kahkoska,A.R.、Maahs,D.M.、Mayer-Davis,E.和Kosorok,M.R.(2019年),“使用V-learning评估移动健康中的动态治疗方案”,美国统计协会杂志,115,692-706。内政部:·Zbl 1445.62279号
[39] Meyn,S.和Tweedie,R.L.(2009),马尔可夫链和随机稳定性(第二版),纽约:剑桥大学出版社·Zbl 1165.60001号
[40] Mnih,V.、Kavukcuoglu,K.、Silver,D.、Graves,A.、Antonoglou,I.、Wierstra,D.和Riedmiller,M.(2013),“用深度强化学习来玩Atari”,引自arxiv:1312.5602评论:NIPS深度学习研讨会2013。
[41] Mnih,V.、Kavukcuoglu,K.、Silver,D.、Rusu,A.A.、Veness,J.、Bellemare,M.G.、Graves,A.、Riedmiller,M.、Fidjeland,A.K.、Ostrovski,G.、Petersen,S.、Beattie,C.、Sadik,A.、Antonoglou,I.、King,H.、Kumaran,D.、Wierstra,D.、Legg,S.和Hassabis,D.(2015),《通过深度强化学习实现人的水平控制》,《自然》,518, 529-533. DOI:。
[42] Mou,W.、Pananjady,A.、Wainwright,M.J.和Bartlett,P.L.(2021),“马尔科夫线性随机逼近的最优和实例依赖保证”,arXiv预印本arXiv:2112.12770。
[43] Moulines,E.和Bach,F.(2011),“机器学习随机近似算法的非症状分析”,《神经信息处理系统进展》(第24卷),编辑:Shawe-Taylor,J.、Zemel,R.、Bartlett,P.、Pereira,F.和Weinberger,K.Q.Curran Associates,Inc。
[44] Oberst,M.和Sontag,D.(2019),“使用Gumbel-max结构因果模型进行反事实非政策评估”,载于第36届国际机器学习会议论文集,机器学习研究论文集第97卷,编辑:Chaudhuri,K.和Salakhutdinov,R.,第4881-4890页。PMLR公司。
[45] Parekh,V.S.和Jacobs,M.A.(2019年),“精确医学中的深度学习和放射学”,《精确医学和药物开发专家评论》,第459-72页。DOI:。
[46] Polyak,B.T.和Juditsky,A.B.(1992),“通过平均加速随机近似”,SIAM控制与优化杂志,30838-855。内政部:·Zbl 0762.62022号
[47] Robbins,H.和Monro,S.(1951),“随机近似方法”,《数理统计年鉴》,22400-407。内政部:·Zbl 0054.05901号
[48] Ruppert,D.(1988),“从缓慢收敛的Robbins-Monro过程中进行有效估计”,《技术报告》,康奈尔大学运营研究和工业工程。
[49] Sallab,A.E.、Abdou,M.、Perot,E.和Yogamani,S.(2017),“自动驾驶的深度强化学习框架”,电子成像,2017年,70-76。DOI:。
[50] Shi,C.,Luo,S.,Zhu,H.和Song,R.(2021),“定性治疗效果的在线序列测试”,《机器学习研究杂志》,22,1-51·Zbl 07626801号
[51] Shi,C.,Wang,X.,Luo,S.,Zhu,H.,Ye,J.,and Song,R.(2022),“使用强化学习框架进行a/b测试中的动态因果关系评估”,美国统计协会杂志(刚刚接受),1-29·Zbl 07751828号
[52] Shi,C.,Zhang,S.,Lu,W.,and Song,R.(2021),“无限视野环境下强化学习价值函数的统计推断”,arXiv预印本arXiv:2001.04515。
[53] Srikant,R.和Ying,L.(2019),“线性随机逼近和TD学习的有限时间误差界”,《学习理论会议》,第2803-2830页。PMLR公司。
[54] Sutton,R.S.(1988),“通过时间差异方法学习预测”,机器学习,3,9-44。DOI:。
[55] Sutton,R.S.和Barto,A.G.(2018),《强化学习:导论》,马萨诸塞州剑桥:麻省理工学院出版社·Zbl 1407.68009号
[56] Sutton,R.S.、Maei,H.R.、Precup,D.、Bhatnagar,S.、Silver,D.、Szepesvári,C.和Wiewiora,E.(2009年),《利用线性函数近似进行时差学习的快速渐变-渐变方法》,载于第26届国际机器学习年会论文集,第993-1000页。DOI:。
[57] Sutton,R.S.、Mahmood,A.R.和White,M.(2016),“非政策性时间差异学习问题的强调方法”,《机器学习研究杂志》,17,1-29·Zbl 1360.68712号
[58] Sutton,R.S.、Szepesvári,C.和Maei,H.R.(2008),“利用线性函数逼近实现非政策时差学习的收敛o(n)算法”,摘自《第21届神经信息处理系统国际会议论文集》,NIPS'08,美国,第1609-1616页,Curran Associates Inc。
[59] Tsitsiklis,J.N.和Van Roy,B.(1997年5月),“用函数逼近分析时差学习”,IEEE自动控制学报,42,674-690。内政部:·Zbl 0914.93075号
[60] Ueno,T.、Maeda,S.-i.、Kawanabe,M.和Ishii,S.(2011),“广义TD学习”,《机器学习研究杂志》,1977-2020年第12期·Zbl 1280.68208号
[61] Wang,C.-H.,Yu,Y.,Hao,B.,and Cheng,G.(2020),“Bandit算法的剩余Bootstrap探索”,arXiv预印本arXiv:2002.08436。
[62] White,M.和White,A.(2010),“连续状态域中增强学习算法的区间估计”,《神经信息处理系统进展》(第23卷),编辑:Lafferty,J.、Williams,C.、Shawe-Taylor,J.,Zemel,R.和Culotta,A.,Curran Associates,Inc。
[63] Xu,T.,Wang,Z.,Zhou,Y.和Liang,Y.(2020),“方差减少的时间差异学习的重新分析”,国际学习表征会议。
[64] Xu,Z.,Li,Z.、Guan,Q.、Zhang,D.、Li,Q.,Nan,J.、Liu,C.、Bian,W.和Ye,J.(2018),“按需骑行平台中的大规模订单调度:一种学习和规划方法”,载于第24届ACM SIGKDD国际知识发现与数据挖掘会议论文集,第905-913页。
[65] Zhang,K.W.,Janson,L.和Murphy,S.A.(2021),“Bandit数据的m估计值统计推断”,arXiv预印本arXiv:2104.14074。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。