×

具有任意报酬过程的马尔可夫决策过程。 (英语) Zbl 1218.90206号

摘要:我们考虑一个学习问题,其中决策者与标准马尔可夫决策过程交互,但奖励函数随时间任意变化的情况除外。我们表明,在奖励过程的每一个可能实现过程中,代理人都可以像每一个固定的政策那样事后表现良好。这推广了重复博弈的经典无重结果。具体而言,我们本着强化学习的精神,提出了一种高效的在线算法,确保在环境对代理的行为视而不见的情况下,代理的平均性能损失会随着时间的推移而消失。此外,还可以修改基本算法,以处理奖励观察仅限于代理轨迹的情况。我们提出了进一步的修改,通过使用函数近似来降低计算成本,并通过不频繁的更改来跟踪最优策略。

MSC公司:

90立方厘米 动态编程
93埃99 随机系统与控制

软件:

R-最大
PDF格式BibTeX公司 XML格式引用
全文: 内政部