文件Zbl 1203.90175-zbMATH Open

具有平均报酬准则的有界参数马尔可夫决策过程。（英语） Zbl 1203.90175号

Bshouty，Nader H.（编辑）等人，《学习理论》。第20届学习理论年会，COLT 2007，美国加利福尼亚州圣地亚哥，2007年6月13日至15日。诉讼程序。柏林：施普林格出版社（ISBN 978-3-540-72925-9）。计算机科学课堂讲稿4539。人工智能课堂讲稿，263-277（2007）。

摘要：有界参数马尔可夫决策过程（BMDP）解决了处理马尔可夫决定过程（MDP）参数中的不确定性问题。与MDP的情况不同，BMDP的最优策略的概念并不完全简单。我们考虑了基于乐观和悲观准则的两种最优性概念。这些概念已经针对贴现BMDP进行了分析。这里我们提供平均奖励BMDP的结果。
我们建立了折现和平均报酬问题之间的基本关系，证明了Blackwell最优策略的存在性，并针对这两个最优性概念，导出了收敛于最优值函数的算法。
关于整个系列，请参见[Zbl 1121.68002号].

引用于5文件

MSC公司：

90立方厘米

马尔可夫和半马尔可夫决策过程

软件：

R-最大

PDF格式 BibTeX公司 XML格式引用

全文：内政部

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
皮	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑非
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

具有平均报酬准则的有界参数马尔可夫决策过程。（英语） Zbl 1203.90175号

MSC公司：

软件：

示例

领域

操作员

具有平均报酬准则的有界参数马尔可夫决策过程。 （英语） Zbl 1203.90175号

MSC公司：

软件：

具有平均报酬准则的有界参数马尔可夫决策过程。（英语） Zbl 1203.90175号