×

在线马尔可夫决策过程。 (英语) Zbl 1218.90207号

摘要:我们考虑一个马尔可夫决策过程(MDP)设置,在该设置中,奖励函数在每个时间步后都可以改变(可能以对抗的方式),但动态保持不变。与专家设置类似,我们解决了一个问题,即与在最佳固定政策下获得的奖励相比,代理人的表现如何。我们提供了有效的算法,这些算法具有遗憾边界,与状态空间的大小无关。相反,这些界限仅取决于进程的某个地平线时间,并以对数形式取决于操作数。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
68T05型 人工智能中的学习和自适应系统
68问题32 计算学习理论
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接