{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部分”:[[2024,4,2]],“日期-时间”:“2024-04-02T05:19:00Z”,“时间戳”:1712035140667},“出版商位置”:“加利福尼亚”,“参考-计数”:0,“出版者”:“人工智能组织国际联合会议”,“内容-域”:[],“crossmark-restriction”:false},“short-container-title”:[],“published-print”:{“date-parts”:[[2017,8]]},”抽象“:”许多最先进的强化学习(RL)算法通常假设环境是遍历马尔可夫决策过程(MDP)。相反,通用强化学习(URL)领域涉及的是尽可能少地假设环境的算法。通用贝叶斯代理AIXI和一系列相关的URL算法都是在这种环境下开发的。虽然已经证明了这些代理的许多理论优化结果,但迄今为止还没有对其行为进行实证调查。我们在统一的符号和框架下对这些URL算法进行了一个简短且易于访问的调查,并提供了一些实验的结果,这些实验定性地说明了生成的策略的一些属性,以及它们在部分可观察的网格环境中的相对性能。我们还介绍了算法的开源参考实现,我们希望这将有助于进一步理解和实验这些想法<\/jats:p>“,”DOI“:”10.24963\/ijcai.2017\/194“,”type“:”proceedings-article“,”created“:{”date-parts“:[[2017,7,28]],”date-time“:”2017-07-28T05:14:07Z“,”timestamp“:1501218847000},”source“:“Crossref”,“is-referenced-by-count”:5,“title”:[“通用强化学习算法:调查和实验”],“前缀”:“10.24963”,“作者”:[{“给定”:“约翰”,“family“:”Aslanides“,”sequence“:”first“,”affiliation“:[{”name“:”Australian National University“}]},{”given“:”Jan“,”family”:“Leike”,“sequence”:“additional”,“affiliance”:[[{“name”:“Future of Humanity Institute,University of Oxford”}],{“given”:“Marcus”,“family}],“成员”:“10584”,“事件”:{“名称”:“第二十六届国际人工智能联合会议”,“主题”:“人工智能”,“地点”:“澳大利亚墨尔本”,“缩写”:“IJCAI-2017”,“数字”:“26”,“赞助商”:[“国际人工智能组织联合会议(IJCAI)”,“悉尼理工大学(UTS)”,“澳大利亚计算机学会(ACS)”],“start”:{“date-parts”:[[2017,8,19]]},“end”:{“date-parts”:[[2017,8,26]]}},”container-title“:[“第二十二届国际人工智能联合会议论文集”],”original-tittle“:[],”deposed“:{”date-parts:[2017,7,28]],”date-time“:”2017-07-28T07:52:42Z“,”timestamp“:1501228362000}、,“score”:1,“resource”:{“primary”:}“URL”:“https:\/\/www.ijcai.org\/processes\/2017\/194”}},“subtitle”:[],“shorttitle”:[],“issued”:{“date-parts”:[[2017,8]]},”references-count“:0,”URL“http:\/\/dx.doi.org\/10.24963\/ijcai.2017\/194“,”relation“:{},:{“日期部分”:[[2017,8]]}}