Action Elimination and Stopping Conditions for the Multi-Armed Bandit and Reinforcement Learning Problems

Eyal Even-Dar; Shie Mannor; Yishay Mansour

我们将统计置信区间纳入多武装盗贼和强化学习问题。在我们展示的强盗问题n个手臂，只要拉动武器总计O（运行）((n个/ε²)对数（1/δ）倍找到一个概率至少为1-δ的ε-最优arm。该界限与Mannor和Tsitsiklis（2004）的下限相匹配最多为常数。我们还设计了动作消除强化学习算法中的步骤。我们描述了一个基于学习周围置信区间的框架值函数或Q函数以及消除不是最优的（具有高概率）。我们提供基于模型的以及一种无模型变量的消除方法。我们进一步导出保证所学策略为高概率近似最优。仿真演示相对于ε-贪婪算法有相当大的加速比和更强的鲁棒性Q学习。

多武装匪徒的行动消除和停止条件及强化学习问题

摘要