文件Zbl 1366.90216-zbMATH Open

马尔可夫决策过程在线规划中的简单后悔优化。（英语） Zbl 1366.90216号

J.阿蒂夫。智力。研究（JAIR） 51, 165-205 (2014).

摘要：我们考虑马尔可夫决策过程（MDP）中的在线计划。在在线计划中，代理只关注其当前状态，考虑从该状态开始的一组可能的策略，并在中断时，使用探索性考虑的结果来选择下一步要执行的操作。从形式上讲，在线规划算法的性能是根据单纯的遗憾，当遵循所选操作而不是最优操作时，代理的预期性能损失。
迄今为止，在一般MDP中，最先进的在线计划算法要么是尽最大努力，要么只保证简单遗憾随时间推移的多项式比率减少。这里我们介绍了一种新的蒙特卡罗树搜索算法，\mathsf{BRE}，它保证了指数速率和光滑的减少简单的遗憾。在高层，\mathsf｛BRUE｝基于一种简单但非标准的状态空间采样方案\mathsf｛MCTS2e｝，其中每个样本的不同部分专用于不同的探索目标。我们进一步扩展了\mathsf{BRE}，增加了“通过遗忘学习”的变体。由此产生的参数化算法，\mathsf{BRUE}（\（\alpha\）），表现出比\mathsf{BRE}更具吸引力的形式保证。我们的实证评估表明，无论是mathsf{BRE}还是它的推广，在实践中都是非常有效的，并且与最先进的技术相比是有利的。

引用于1文件

MSC公司：

90立方厘米	马尔可夫和半马尔可夫决策过程
68周27	在线算法；流式算法
90 C59	数学规划中的近似方法和启发式

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
立方厘米	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
”ab c公司”	短语
(ab c公司)	圆括号

示例

领域

操作员

马尔可夫决策过程在线规划中的简单后悔优化。（英语） Zbl 1366.90216号

MSC公司：

示例

领域

操作员

马尔可夫决策过程在线规划中的简单后悔优化。 （英语） Zbl 1366.90216号

MSC公司：

马尔可夫决策过程在线规划中的简单后悔优化。（英语） Zbl 1366.90216号