递归因子环境的贝叶斯学习

马克·贝勒马尔、乔尔·维内斯、迈克尔·鲍林
第三十届机器学习国际会议论文集,PMLR 28(3):1211-12192013年。

摘要

基于模型的强化学习技术在扩展到大型观测空间方面遇到了许多困难。一种很有前途的方法是通过考虑观测空间,将模型学习任务分解为许多更小、更易于管理的子问题。通常,有许多不同的因子分解是可能的,这使得在没有广泛测试的情况下很难选择合适的因子分解。本文介绍了递归分解分解类,并说明了如何使用精确的贝叶斯推理来有效地保证预测性能接近该类中的最佳分解。我们通过展示20场不同的Atari 2600游戏的经验结果集合,展示了这种方法的优势。

引用本文


BibTeX公司
@诉讼中{pmlr-v28-bellemare13,title={递归因子环境的贝叶斯学习},author={Bellemare、Marc和Veness、Joel和Bowling、Michael},booktitle={第30届机器学习国际会议论文集},页数={1211--1219},年份={2013},editor={Dasgupta,Sanjoy和McAllester,David},体积={28},数字={3},series={机器学习研究论文集},address={美国乔治亚州亚特兰大},月份={6月17日--19日},发布者={PMLR},pdf={http://proceedings.mlr.press/v28/bellemare13.pdf},url={https://proceedings.mlr.press/v28/bellemare13.html},抽象={基于模型的强化学习技术在历史上遇到了许多困难,难以扩展到大的观察空间。一种很有前途的方法是通过分解观察空间将模型学习任务分解为许多较小的、更易于管理的子问题。通常,许多不同的分解都是基于可能的情况下,如果没有广泛的测试,很难选择合适的因子分解。本文介绍了递归分解分解类,并说明了如何使用精确的贝叶斯推理来有效地保证预测性能接近该类中的最佳分解。我们通过展示20种不同的Atari 2600游戏的经验结果集合来证明这种方法的优势。}}
尾注
%0会议论文%递归因子环境的T贝叶斯学习%马克·贝勒马尔%乔尔·维尼斯%迈克尔·保龄球%第30届机器学习国际会议论文集%C机器学习研究进展%2013年D月%E桑乔伊·达斯古普塔%E大卫·麦卡利斯特%F pmlr-v28-bellemare13%我PMLR%电话:1211--1219%单位https://proceedings.mlr.press/v28/bellemare13.html%第28版%编号3%X基于模型的强化学习技术在扩展到大型观测空间方面遇到了许多困难。一种很有前途的方法是通过分解观测空间,将模型学习任务分解为许多更小、更易于管理的子问题。通常,有许多不同的因子分解是可能的,这使得在没有广泛测试的情况下很难选择合适的因子分解。在本文中,我们介绍了一类递归可分解因子分解,并展示了如何使用精确的贝叶斯推理来有效地保证预测性能接近该类中的最佳因子分解。我们通过展示20场不同的Atari 2600游戏的经验结果集合,展示了这种方法的优势。
里斯
TY-CPAPER公司TI-递归因子环境的贝叶斯学习澳大利亚-马克·贝勒马尔澳大利亚-Joel Veness澳大利亚-迈克尔·鲍林BT-第30届机器学习国际会议论文集DA-2013年5月26日ED-Sanjoy DasguptaED-David McAllesterID-pmlr-v28-bellemare13PB-PMLRDP-机器学习研究进展VL-28IS-3标准SP-1211EP-1219第一层-http://proceedings.mlr.press/v28/bellemare13.pdfUR-(欧元)https://proceedings.mlr.press/v28/bellemare13.html基于AB模型的强化学习技术在扩展到大型观测空间方面遇到了许多困难。一种很有前途的方法是通过分解观测空间,将模型学习任务分解为许多更小、更易于管理的子问题。通常,有许多不同的因子分解是可能的,这使得在没有广泛测试的情况下很难选择合适的因子分解。本文介绍了递归分解分解类,并说明了如何使用精确的贝叶斯推理来有效地保证预测性能接近该类中的最佳分解。我们通过展示20场不同的Atari 2600游戏的经验结果集合,展示了这种方法的优势。急诊室-
亚太地区
Bellemare,M.、Veness,J.和Bowling,M.(2013)。递归因子环境的贝叶斯学习。第三十届机器学习国际会议论文集,英寸机器学习研究进展28(3):1211-1219可从https://proceedings.mlr.press/v28/bellemare13.html。

相关材料