×

在期望平均奖励标准下寻找POMDP的最优无记忆策略。 (英语) Zbl 1237.90250号

摘要:本文从最新发展的敏感性观点出发,考虑了平均报酬准则下状态和行为空间离散的部分可观测马尔可夫决策过程(POMDP)。通过分析平均报酬性能差异公式,我们提出了一种具有步长的策略迭代算法,以获得最优或局部最优的无记忆策略。该算法沿着与策略迭代相同的方向改进策略,合适的步长保证了算法的收敛性。此外,该算法还可以用于具有相关动作的马尔可夫决策过程(MDP)。给出了两个数值例子来说明该算法的适用性。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程

软件:

POMDP公司
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 巴托,A.G。;Sutton,R.S。;Anderson,C.W.,《可解决学习控制难题的类神经元自适应元件》,IEEE系统、人与控制论汇刊,13,5,835-846(1983)
[2] 巴克斯特,J。;Bartlett,P.L.,Infinite-horizon政策梯度估计,《人工智能研究杂志》,15,319-350(2001)·Zbl 0994.68119号
[3] 巴克斯特,J。;Bartlett,P.L。;Weaver,L.,《无限大策略粒度估计实验》,《人工智能研究杂志》,第15期,第351-381页(2001年)·Zbl 0994.68187号
[4] Bernstein,D.S.,Hansen,E.A.,Zilberstein,S.,2005年。分散pomdps的有界策略迭代。摘自:《第19届国际人工智能联合会议记录》,第1287-1292页。;Bernstein,D.S.,Hansen,E.A.,Zilberstein,S.,2005年。分散pomdps的有界策略迭代。摘自:《第19届国际人工智能联合会议记录》,第1287-1292页。
[5] Bertsekas,D.P。;Tsitsiklis,J.N.,神经动力学编程(1996),雅典娜科学:雅典娜科技贝尔蒙特,马萨诸塞州·Zbl 0924.68163号
[6] Cao,X.R.,基于事件的优化的基本思想,离散事件动态系统:理论与应用,15169-197(2005)·Zbl 1130.90054号
[7] Cao,X.R.,《随机学习与优化:基于灵敏度的方法》(2007),Springer:Springer New York·Zbl 1130.93057号
[8] 曹学良。;Chen,H.F.,马尔可夫过程的扰动实现、势和灵敏度分析,IEEE自动控制汇刊,42,10,1382-1393(1997)·Zbl 0889.93039号
[9] 曹晓荣,方华堂,2002。基于梯度的策略迭代:示例。摘自:第41届IEEE决策与控制会议记录,3367-3371。;曹晓荣,方华堂,2002。基于梯度的策略迭代:示例。摘自:第41届IEEE决策与控制会议记录,3367-3371。
[10] 曹晓瑞。;Zhang,J.Y.,马尔可夫系统的基于事件的优化,IEEE自动控制事务,53,4,1076-1082(2008)·Zbl 1367.90112号
[11] 曹晓瑞。;Zhang,J.Y.,多链马尔可夫决策过程的n阶偏差最优性,IEEE自动控制汇刊,53,24796-508(2008)·Zbl 1367.90111号
[12] 卡桑德拉,A.R.,1998年A。pomdp应用调查。1998年秋季AAAI部分可观测马尔可夫决策过程规划研讨会工作笔记。;卡桑德拉,A.R.,1998年A。pomdp应用调查。AAAI 1998年秋季研讨会关于部分可观测马尔可夫决策过程规划的工作说明。
[13] 卡桑德拉,A.R.,1998年b。部分可观测马氏决策过程的精确和近似算法。布朗大学博士论文。;卡桑德拉,A.R.,1998年b。部分可观测马氏决策过程的精确和近似算法。布朗大学博士论文。
[14] 库珀,W.L。;亨德森,S.G。;Lewis,M.E.,《基于仿真的政策迭代的收敛性》,《工程和信息科学中的概率》,17,213-234(2003)·Zbl 1053.90129号
[15] 戴国平。;尹碧琴(音)。;李永杰。;Xi,H.S.,基于半马尔可夫控制过程潜力的性能优化算法,国际控制杂志,78801-812(2005)·兹比尔1121.90414
[16] Fang,H.T。;Cao,X.R.,马尔可夫决策过程的基于潜力的在线策略迭代算法,IEEE自动控制事务,49493-505(2004)·Zbl 1365.90259号
[17] Hansen,E.A.,通过在政策空间中搜索来解决pomdp,《人工智能不确定性论文集》,211-219(1998)
[18] 胡庆云。;Liu,J.Y.,《马尔可夫决策过程导论》(2000),西安西安电子科技大学出版社
[19] Jaakkola,T。;辛格,S.P。;Jordan,M.I.,部分可观测马尔可夫决策问题的强化学习算法,神经信息处理系统进展,345-352(1995)
[20] 利特曼,M.L.,1994年。无记忆政策:理论局限和实际结果。摘自:第三届模拟适应行为国际会议论文集。;利特曼,M.L.,1994年。无记忆政策:理论局限和实际结果。摘自:第三届自适应行为模拟国际会议论文集。
[21] Loch,J.,Singh,S.,1998年。在部分可观测的马尔可夫决策过程中,使用合格性跟踪来寻找最佳无记忆策略。《第十五届国际机器学习会议论文集》,第321-331页。;Loch,J.,Singh,S.,1998年。在部分可观测的马尔可夫决策过程中,使用合格性跟踪来寻找最佳无记忆策略。《第十五届国际机器学习会议记录》,第321-331页。
[22] Lovejoy,W.S.,部分观测马尔可夫决策过程算法方法的调查,运筹学年鉴,28,47-65(1991)·Zbl 0717.90086号
[23] 马尔巴赫,P。;Tsitsiklis,J.N.,基于仿真的马尔可夫报酬过程优化,IEEE自动控制事务,46,191-209(2001)·Zbl 0992.93088号
[24] Poupart,P。;Boutiler,C.,有界有限状态控制器,《神经信息处理系统学报》,823-830(2003)
[25] Puterman,M.L.,《马尔可夫决策过程:离散随机动态规划》(1994),威利出版社,纽约·Zbl 0829.90134号
[26] Singh,S.P.,Jaakkola,T.,Jordan,M.,1994年。部分可观测马尔可夫决策过程中的无状态估计学习。摘自:第十一届国际机器学习会议记录,第284-292页。;Singh,S.P.,Jaakkola,T.,Jordan,M.,1994年。部分可观测马尔可夫决策过程中的无状态估计学习。摘自:第十一届国际机器学习会议记录,第284-292页。
[27] 斯莫尔伍德,R.D。;Sondik,E.J.,有限时间内部分可观测马尔可夫过程的最优控制,运筹学,211071-1088(1973)·Zbl 0275.93059号
[28] Sutton,R.S。;Barto,A.G.,《强化学习:导论》(1998),麻省理工学院出版社:麻省理工学院出版社,马萨诸塞州剑桥
[29] Sutton,R.S。;McAllester,D。;辛格,S。;Mansour,Y.,《函数逼近强化学习的策略梯度方法》,神经信息处理系统进展,1057-1063(2000)
[30] Tang,H。;周,L。;Arai,T.,具有紧动作集的连续时间马氏决策过程特殊情况的优化,欧洲运筹学杂志,187113-119(2008)·兹比尔1149.90172
[31] 乌萨哈,W。;Barria,J.A.,《使用actor-critic强化学习的不精确信息在manet中的Qos路由》,IEEE无线通信和网络会议,3382-3387(2007)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。