佐哈尔·费尔德曼;多姆什拉克,卡梅尔 马尔可夫决策过程在线规划中的简单后悔优化。 (英语) Zbl 1366.90216号 J.阿蒂夫。智力。研究(JAIR) 51, 165-205 (2014). 摘要:我们考虑马尔可夫决策过程(MDP)中的在线计划。在在线计划中,代理只关注其当前状态,考虑从该状态开始的一组可能的策略,并在中断时,使用探索性考虑的结果来选择下一步要执行的操作。从形式上讲,在线规划算法的性能是根据单纯的遗憾,当遵循所选操作而不是最优操作时,代理的预期性能损失。迄今为止,在一般MDP中,最先进的在线计划算法要么是尽最大努力,要么只保证简单遗憾随时间推移的多项式比率减少。这里我们介绍了一种新的蒙特卡罗树搜索算法,\mathsf{BRE},它保证了指数速率和光滑的减少简单的遗憾。在高层,\mathsf{BRUE}基于一种简单但非标准的状态空间采样方案\mathsf{MCTS2e},其中每个样本的不同部分专用于不同的探索目标。我们进一步扩展了\mathsf{BRE},增加了“通过遗忘学习”的变体。由此产生的参数化算法,\mathsf{BRUE}(\(\alpha\)),表现出比\mathsf{BRE}更具吸引力的形式保证。我们的实证评估表明,无论是mathsf{BRE}还是它的推广,在实践中都是非常有效的,并且与最先进的技术相比是有利的。 引用于1文件 MSC公司: 90立方厘米 马尔可夫和半马尔可夫决策过程 68周27 在线算法;流式算法 90 C59 数学规划中的近似方法和启发式 PDF格式BibTeX公司 XML格式引用 \textit{Z.Feldman}和\textit{C.Domshlak},J.Artif。智力。研究(JAIR)51,165--205(2014;Zbl 1366.90216) 全文: 内政部 arXiv公司