×

使用单个样本路径的无模型马尔可夫决策过程中的增量非策略搜索。 (英语) Zbl 1465.90116号

摘要:在本文中,我们考虑了具有大状态空间和动作空间的无模型马尔可夫决策过程(MDP)环境中控制问题的一个改进版本。当代文献中最常见的控制问题是找到一个使价值函数最大化的最优策略,即MDP的长期折现报酬。当前设置还假设可以访问MDP的生成模型,其隐藏前提是可以从模型中轻松获得样本轨迹形式的系统行为观察。在本文中,我们考虑了一个修改版本,其中成本函数是价值函数的非凸函数的期望,而不需要访问生成模型。相反,我们假设使用先验选择的行为策略生成的样本轨迹是可用的。在这种受限的环境中,我们从真正意义上解决了修改后的控制问题,即在有限的信息下找到最佳的可能策略。我们提出了一种基于众所周知的交叉熵方法的随机近似算法,该方法具有数据(样本轨迹)高效、稳定、鲁棒性以及计算和存储效率。我们证明了我们的算法收敛到相对于行为策略全局最优的策略。我们还提供了实验结果来证实我们的主张,并证明了在适当选择行为策略的情况下,与最先进的算法相比,我们的算法产生的解决方案的优越性。

理学硕士:

90立方厘米40 马尔可夫和半马尔可夫决策过程

软件:

PILCO公司
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Alon,G;Kroese,DP;拉维夫,T;Rubinstein,RY,交叉熵方法在基于仿真环境中缓冲区分配问题中的应用,运筹学年鉴,134137-151,(2005)·Zbl 1075.90058号
[2] Antos,A.、Szepesvári,C.和Munos,R.(2007)。基于值迭代的拟合策略迭代:用单一轨迹学习。2007年IEEE近似动态规划和强化学习国际研讨会(第330-337页)。
[3] 安托斯,A;塞佩斯瓦里,C;Munos,R,使用Bellman剩余最小化拟合策略迭代和单个样本路径学习近最优策略,机器学习,71,89-129,(2008)·Zbl 1143.68516号
[4] Bagnell,J.A.和Schneider,J.G.(2001)。使用强化学习策略搜索方法的直升机自主控制。2001年ICRA会议记录。IEEE机器人和自动化国际会议第(2)卷(第1615-1620页)。
[5] 巴莱因,BW;迪金森,A,《目标导向的工具性行动:偶然性和激励性学习及其皮层基质》,《神经药理学》,37407-419,(1998)
[6] 巴雷托,ADMS;皮诺,J;Precup,D,基于随机因子分解的策略迭代,《人工智能研究杂志》,50,763-803,(2014)·Zbl 1366.90211号
[7] Barto,AG公司;Bradtke,SJ;Singh,SP,《学习使用实时动态编程进行操作》,《人工智能》,72,81-138,(1995)
[8] 巴克斯特,J;Bartlett,PL,无限时域策略梯度估计,人工智能研究杂志,15119-350,(2001)·Zbl 0994.68119号
[9] Bertsekas,D.P.(1995)。动态规划和最优控制(第1卷)。马萨诸塞州贝尔蒙特:雅典娜科学·Zbl 0904.90170号
[10] Bertsekas,DP;Castanon,DA,无限时域动态规划的自适应聚合方法,IEEE自动控制汇刊,34589-598,(1989)·Zbl 0675.90089号
[11] 巴特纳加,S;萨顿,RS;加瓦姆扎德,M;Lee,M,自然actor-critic算法,Automatica,452471-2482,(2009)·Zbl 1183.93130号
[12] Borkar,V.S.(2008)。随机近似剑桥:剑桥大学出版社·Zbl 1181.62119号
[13] Chang,H.S.、Hu,J.、Fu,M.C.和Marcus,S.I.(2013)。马尔可夫决策过程的仿真算法柏林:施普林格·Zbl 1293.93002号
[14] 丹恩,C;诺依曼,G;Peters,J,《带时间差异的政策评估:调查与比较》,《机器学习研究杂志》,第15期,第809-883页,(2014年)·Zbl 1317.68150号
[15] Deisenroth,M.和Rasmussen,C.E.(2011年)。Pilco:一种基于模型和数据效率的政策搜索方法。第28届机器学习国际会议(ICML)会议记录(第465-472页)。
[16] de Boer,P.T.(2000)。电信系统排队模型的分析和有效仿真。特温特大学远程通信和信息技术中心。
[17] Ertin,E;院长,AN;摩尔,ML;Priddy,KL,《配水系统优化控制的动态优化》,计算智能应用与科学IV,4390142-149,(2001)
[18] Feinberg,E.A.和Shwartz,A.(2012年)。马尔可夫决策过程手册:方法和应用柏林:施普林格·Zbl 0979.90001号
[19] 弗拉卡索,P;巴恩斯,F;Costa,A,《水务设施的优化控制》,Procedia Engineering,70,678-687,(2014)
[20] Glynn,普华永道;Iglehart,DL,随机模拟的重要性抽样,管理科学,351367-1392,(1989)·Zbl 0691.65107号
[21] Helvik,B.E.和Wittner,O.(2001年)。使用交叉熵方法指导/管理网络中的移动代理路径查找。电信应用移动代理国际讲习班(第255-268页)。斯普林格·Zbl 1017.68720号
[22] 新泽西州海姆(1994)。数值线性代数中的分量摄动理论综述。在W.Gautschi(编辑)中,计算数学1943-1993:半个世纪的计算数学(应用数学专题讨论会论文集)(第48卷,第49-77页)。普罗维登斯,RI:美国数学学会·Zbl 0815.65062号
[23] 胡,J;Fu,MC;Marcus,SI,用于全局优化的模型参考自适应搜索方法,运筹学,55,549-568,(2007)·Zbl 1167.90690号
[24] 胡,J;胡,P;Chang,HS,一类随机优化算法的随机近似框架,IEEE自动控制学报,57165-178,(2012)·Zbl 1369.90168号
[25] 伊科宁,E;Bene,J,《配水网络的调度和干扰控制》,国际会计师联合会会议论文集,44,7138-7143,(2011)
[26] Joseph,A.G.和Bhatnagar,S.(2016a)。连续优化的随机算法。2016年12月11日至14日在美国华盛顿特区举行的WSC冬季模拟会议(第907-918页)。
[27] Joseph,A.G.和Bhatnagar,S.(2016年b)。一种基于交叉熵的随机逼近算法,用于线性函数逼近的强化学习。CoRR公司腹肌/1207.0016.
[28] Joseph,A.G.和Bhatnagar,S.(2016年c)。回顾交叉熵方法及其在随机全局优化和强化学习中的应用。人工智能和应用的前沿,285(ECAI 2016),1026-1034。https://doi.org/10.3233/978-1-61499-672-9-1026。 ·Zbl 1396.90053号
[29] Keith,J.和Kroese,D.P.(2002年)。罕见事件模拟和使用交叉熵的组合优化:罕见事件模拟的序列比对。第34届冬季模拟会议记录:探索新领域,冬季模拟会议(第320-327页)。
[30] Koller,D.和Parr,R.(2000年)。分解MDP的策略迭代。第十六届人工智能不确定性会议记录(第326-334页)。摩根考夫曼出版公司。
[31] 康达,VR;Tsitsiklis,JN,Actor-critic algorithms,SIAM控制与优化杂志,421143-1166,(2003)·Zbl 1049.93095号
[32] Kroese,DP;波罗茨基,S;Rubinstein,RY,连续多极值优化的交叉熵方法,应用概率的方法和计算,8,383-407,(2006)·Zbl 1107.65049号
[33] 库马尔,P;Lin,W,未知Markov链的最优自适应控制器,IEEE自动控制汇刊,27765-774,(1982)·Zbl 0488.93036号
[34] MG拉古达基斯;Parr,R,最小平方策略迭代,机器学习研究杂志,41107-1149,(2003)·Zbl 1094.68080号
[35] 李,SW;Shimojo,S;O'Doherty,JP,基于模型和无模型学习之间仲裁的神经计算,Neuron,81,687-699,(2014)
[36] Maei,H.R.、Szepesvári,C.、Bhatnagar,S.和Sutton,R.S.(2010年)。利用函数逼近实现非策略学习控制。第27届机器学习国际会议记录(第719-726页)。
[37] Mannor,S.、Rubinstein,R.Y.和Gat,Y.(2003)。快速策略搜索的交叉熵方法。第20届国际机器学习大会论文集(第512-519页)。
[38] Menache,I;方式,S;Shimkin,N,时差强化学习中的基函数自适应,运筹学年鉴,134215-238,(2005)·Zbl 1075.90073号
[39] 摩尔,AW;Atkeson,CG,Prioritized sweeping:用更少的数据和更少的时间进行强化学习,机器学习,13,103-130,(1993)
[40] Mühlenbein,H.和Paass,G.(1996年)。从基因重组到分布估计i.二进制参数。从自然中解决平行问题国际会议(第178-187页)。斯普林格。
[41] 奥多尔蒂,JP;李,SW;McNamee,D,《人脑中强化学习机制的结构》,《行为科学的当前观点》,194-100,(2015)
[42] Polyak,英国电信;Juditsky,AB,通过平均加速随机近似,SIAM控制与优化杂志,30838-855,(1992)·Zbl 0762.62022号
[43] Puterman,M.L.(2014)。马尔可夫决策过程:离散随机动态规划纽约:Wiley·Zbl 0829.90134号
[44] Rubinstein,R,组合和连续优化的交叉熵方法,应用概率的方法和计算,112-190,(1999)·Zbl 0941.65061号
[45] Rubinstein,RY,最大割集与分割问题的交叉熵与罕见事件,ACM建模与计算机仿真汇刊(TOMACS),12,27-53,(2002)·Zbl 1390.90482号
[46] Rubinstein,R.Y.和Kroese,D.P.(2013)。交叉熵方法:组合优化、蒙特卡罗模拟和机器学习的统一方法柏林:施普林格·Zbl 1140.90005号
[47] 佐藤,M;阿贝,K;武田,H,具有未知转移概率的有限马尔可夫链的学习控制,IEEE自动控制汇刊,27502-505,(1982)·Zbl 0488.93070号
[48] 佐藤,M;阿贝,K;武田,H,《有限马尔可夫链的学习控制与估计和控制之间的显式权衡》,IEEE系统、人与控制论汇刊,18,677-684,(1988)·Zbl 0674.65036号
[49] 辛格,SP;Sutton,RS,《用替换资格痕迹的强化学习》,机器学习,22,123-158,(1996)·1099.68700兹比尔
[50] Spall,JC,使用同时扰动梯度近似的多变量随机近似,IEEE自动控制汇刊,37332-341,(1992)·Zbl 0745.60110号
[51] Sutton,RS,通过时间差异方法学习预测,机器学习,3,9-44,(1988)
[52] Sutton,R.S.和Barto,A.G.(1998年)。强化学习:简介剑桥:麻省理工学院出版社。
[53] JN齐齐克利斯;Roy,B,用函数逼近分析时间差分学习,IEEE自动控制学报,42,674-690,(1997)·兹比尔0914.93075
[54] Varga,RS,关于边界的对角优势参数(\Vert A^{-1}\Vert_{∞}),线性代数及其应用,14,211-217,(1976)·兹比尔0341.15002
[55] Wang,B;Enright,W,使用交叉熵方法对ODE进行参数估计,SIAM科学计算杂志,35,a2718-a2737,(2013)·Zbl 1285.65048号
[56] Watkins,C.J.C.H.(1989)。从延迟的奖励中学习。英国剑桥大学博士论文。
[57] 薛,J,关于马尔可夫链的入口微扰理论的注记,线性代数及其应用,260209-213,(1997)·Zbl 0882.60066号
[58] Yu,H,最小二乘时间差分法:一般条件下的分析,SIAM控制与优化杂志,503310-3343,(2012)·Zbl 1274.90478号
[59] Yu,H.(2015)。强调时间差异学习的收敛性。计算学习理论会议记录.
[60] Zhou,E.,Bhatnagar,S.,Chen,X.(2014)。通过基于梯度的随机搜索进行模拟优化。2014年冬季模拟会议记录(第3869-3879页)。IEEE出版社。
[61] 兹洛钦,M;比拉塔里,M;穆莱奥,N;Dorigo,M,《基于模型的组合优化搜索:一项关键调查》,《运筹学年鉴》,131373-395,(2004)·Zbl 1067.90162号
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。