主页
论文
提交文件
新闻
编辑委员会
开源软件
程序(PMLR)
交易(TMLR)
搜索
统计
登录
常见问题
联系我们
Ian Osband、Benjamin Van Roy、Daniel J.Russo、Zheng Wen; 20(124):1−62, 2019.
我们研究了随机值函数的使用,以指导强化学习中的深入探索。这为将统计和计算效率的探索与价值函数学习的常用实用方法相结合提供了一种优雅的方法。我们提出了几种利用随机值函数的强化学习算法,并通过计算研究证明了其有效性。我们还证明了一个遗憾界,它用表格表示建立了统计效率。
[腹肌]