主页

文件

提交文件

新闻

编辑委员会

特殊问题

开源软件

程序(PMLR)

数据(DMLR)

交易(TMLR)

搜索

统计

登录

常见问题

联系我们



RSS源

多武装匪徒的行动消除和停止条件及强化学习问题

Eyal Even-Dar、Shie Mannor、Yishay Mansour; 7(39):1079−1105, 2006.

摘要

我们将统计置信区间纳入多武装盗贼和强化学习问题。我们展示的强盗问题n个手臂,只要拉动武器总计O(运行)((n个2)对数(1/δ)倍找到一个概率至少为1-δ的ε-最优arm。该界限与Mannor和Tsitsiklis(2004)的下限相匹配最多为常数。我们还设计了动作消除强化学习算法中的步骤。我们描述了一个基于学习周围置信区间的框架值函数或Q函数以及消除不是最优的(具有高概率)。我们提供基于模型的以及一种无模型变量的消除方法。我们进一步导出保证所学策略为高概率近似最优。仿真演示相对于ε-贪婪算法有相当大的加速比和更强的鲁棒性Q学习。

[腹肌][pdf格式][围兜]      
©JMLR公司2006(编辑,β)

乳臭虫