于佳元;谢·曼诺;纳胡姆·希金 具有任意报酬过程的马尔可夫决策过程。 (英语) Zbl 1218.90206号 数学。操作。物件。 34,第3期,737-757(2009). 摘要:我们考虑一个学习问题,其中决策者与标准马尔可夫决策过程交互,但奖励函数随时间任意变化的情况除外。我们表明,在奖励过程的每一个可能实现过程中,代理人都可以像每一个固定的政策那样事后表现良好。这推广了重复博弈的经典无重结果。具体而言,我们本着强化学习的精神,提出了一种高效的在线算法,确保在环境对代理的行为视而不见的情况下,代理的平均性能损失会随着时间的推移而消失。此外,还可以修改基本算法,以处理奖励观察仅限于代理轨迹的情况。我们提出了进一步的修改,通过使用函数近似来降低计算成本,并通过不频繁的更改来跟踪最优策略。 引用于5文件 MSC公司: 90立方厘米 动态编程 93埃99 随机系统与控制 关键词:马尔可夫决策过程;在线学习;无更新算法 软件:R-最大 PDF格式BibTeX公司 XML格式引用 \textit{J.Y.Yu}等人,数学。操作。第34号决议,第3号,737--757(2009年;Zbl 1218.90206) 全文: 内政部