埃亚尔·埃文·达尔;沙姆·卡卡德。M。;伊莎·曼苏尔 在线马尔可夫决策过程。 (英语) Zbl 1218.90207号 数学。操作。物件。 34,第3726-736号(2009年). 摘要:我们考虑一个马尔可夫决策过程(MDP)设置,在该设置中,奖励函数在每个时间步后都可以改变(可能以对抗的方式),但动态保持不变。与专家设置类似,我们解决了一个问题,即与在最佳固定政策下获得的奖励相比,代理人的表现如何。我们提供了有效的算法,这些算法具有遗憾边界,与状态空间的大小无关。相反,这些界限仅取决于进程的某个地平线时间,并以对数形式取决于操作数。 引用于14文件 MSC公司: 90立方厘米 马尔可夫和半马尔可夫决策过程 68T05型 人工智能中的学习和自适应系统 68问题32 计算学习理论 关键词:马尔可夫决策过程;无遗憾算法 PDF格式BibTeX公司 XML格式引用 \textit{E.Even-Dar}等人,数学。操作。第34号决议,第3号,726--736(2009年;Zbl 1218.90207) 全文: 内政部 链接