×

具有平均报酬准则的有界参数马尔可夫决策过程。 (英语) Zbl 1203.90175号

Bshouty,Nader H.(编辑)等人,《学习理论》。第20届学习理论年会,COLT 2007,美国加利福尼亚州圣地亚哥,2007年6月13日至15日。诉讼程序。柏林:施普林格出版社(ISBN 978-3-540-72925-9)。计算机科学课堂讲稿4539。人工智能课堂讲稿,263-277(2007)。
摘要:有界参数马尔可夫决策过程(BMDP)解决了处理马尔可夫决定过程(MDP)参数中的不确定性问题。与MDP的情况不同,BMDP的最优策略的概念并不完全简单。我们考虑了基于乐观和悲观准则的两种最优性概念。这些概念已经针对贴现BMDP进行了分析。这里我们提供平均奖励BMDP的结果。
我们建立了折现和平均报酬问题之间的基本关系,证明了Blackwell最优策略的存在性,并针对这两个最优性概念,导出了收敛于最优值函数的算法。
关于整个系列,请参见[Zbl 1121.68002号].

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程

软件:

R-最大
PDF格式BibTeX公司 XML格式引用
全文: 内政部