×

马尔可夫决策过程在线规划中的简单后悔优化。 (英语) Zbl 1366.90216号

摘要:我们考虑马尔可夫决策过程(MDP)中的在线计划。在在线计划中,代理只关注其当前状态,考虑从该状态开始的一组可能的策略,并在中断时,使用探索性考虑的结果来选择下一步要执行的操作。从形式上讲,在线规划算法的性能评估依据是单纯的遗憾,当遵循所选操作而不是最优操作时,代理的预期性能损失。
迄今为止,在一般MDP中,最先进的在线计划算法要么是尽最大努力,要么只保证简单遗憾随时间推移的多项式比率减少。这里我们介绍了一种新的蒙特卡罗树搜索算法,\mathsf{BRE},它保证了指数速率光滑的减少简单的遗憾。在较高层次上,\mathsf{BRUE}基于一种简单但非标准的状态空间采样方案,即\mathsf{MCTS2e},其中每个样本的不同部分专用于不同的探索目标。我们进一步扩展了\mathsf{BRE},增加了“通过遗忘学习”的变体。由此产生的参数化算法,\mathsf{BRUE}(\(\alpha\)),表现出比\mathsf{BRE}更具吸引力的形式保证。我们的经验评估表明,\mathsf{BRUE}及其推广\mathsf{BRUE}(\(\alpha\))在实践中也非常有效,与最先进的技术相比也很好。

MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
68周27 在线算法;流式算法
90 C59 数学规划中的近似方法和启发式
PDF格式BibTeX公司 XML格式引用