文件Zbl 1218.90207-zbMATH Open

在线马尔可夫决策过程。（英语） Zbl 1218.90207号

数学。操作。物件。 34，第3726-736号（2009年）.

摘要：我们考虑一个马尔可夫决策过程（MDP）设置，在该设置中，奖励函数在每个时间步后都可以改变（可能以对抗的方式），但动态保持不变。与专家设置类似，我们解决了一个问题，即与在最佳固定政策下获得的奖励相比，代理人的表现如何。我们提供了有效的算法，这些算法具有遗憾边界，与状态空间的大小无关。相反，这些界限仅取决于进程的某个地平线时间，并以对数形式取决于操作数。

引用于14文件

MSC公司：

90立方厘米	马尔可夫和半马尔可夫决策过程
68T05型	人工智能中的学习和自适应系统
68问题32	计算学习理论

关键词：

马尔可夫决策过程；无遗憾算法

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

在线马尔可夫决策过程。（英语） Zbl 1218.90207号

MSC公司：

关键词：

示例

领域

操作员

在线马尔可夫决策过程。 （英语） Zbl 1218.90207号

MSC公司：

关键词：

在线马尔可夫决策过程。（英语） Zbl 1218.90207号