安布吉·特瓦里;彼得·L·巴特利特。 具有平均报酬准则的有界参数马尔可夫决策过程。 (英语) Zbl 1203.90175号 Bshouty,Nader H.(编辑)等人,《学习理论》。第20届学习理论年会,COLT 2007,美国加利福尼亚州圣地亚哥,2007年6月13日至15日。诉讼程序。柏林:施普林格出版社(ISBN 978-3-540-72925-9)。计算机科学课堂讲稿4539。人工智能课堂讲稿,263-277(2007)。 摘要:有界参数马尔可夫决策过程(BMDP)解决了处理马尔可夫决定过程(MDP)参数中的不确定性问题。与MDP的情况不同,BMDP的最优策略的概念并不完全简单。我们考虑了基于乐观和悲观准则的两种最优性概念。这些概念已经针对贴现BMDP进行了分析。这里我们提供平均奖励BMDP的结果。我们建立了折现和平均报酬问题之间的基本关系,证明了Blackwell最优策略的存在性,并针对这两个最优性概念,导出了收敛于最优值函数的算法。关于整个系列,请参见[Zbl 1121.68002号]. 引用于5文件 MSC公司: 90立方厘米 马尔可夫和半马尔可夫决策过程 软件:R-最大 PDF格式BibTeX公司 XML格式引用 \textit{A.Tewari}和\textit{P.L.Bartlett},莱克特。票据计算。科学。4539、263--277(2007;Zbl 1203.90175) 全文: 内政部