{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{“日期-部分”：[[2024,4,2]]，“日期-时间”：“2024-04-02T05:19:00Z”，“时间戳”：1712035140667}，“出版商位置”：“加利福尼亚”，“参考-计数”：0，“出版者”：“人工智能组织国际联合会议”，“内容-域”：[]，“crossmark-restriction”：false}，“short-container-title”：[]，“published-print”：{“date-parts”：[[2017,8]]}，”抽象“：”许多最先进的强化学习（RL）算法通常假设环境是遍历马尔可夫决策过程（MDP）。相反，通用强化学习（URL）领域涉及的是尽可能少地假设环境的算法。通用贝叶斯代理AIXI和一系列相关的URL算法都是在这种环境下开发的。虽然已经证明了这些代理的许多理论优化结果，但迄今为止还没有对其行为进行实证调查。我们在统一的符号和框架下对这些URL算法进行了一个简短且易于访问的调查，并提供了一些实验的结果，这些实验定性地说明了生成的策略的一些属性，以及它们在部分可观察的网格环境中的相对性能。我们还介绍了算法的开源参考实现，我们希望这将有助于进一步理解和实验这些想法<\/jats:p>“，”DOI“：”10.24963\/ijcai.2017\/194“，”type“：”proceedings-article“，”created“：{”date-parts“：[[2017,7,28]]，”date-time“：”2017-07-28T05:14:07Z“，”timestamp“：1501218847000}，”source“：“Crossref”，“is-referenced-by-count”：5，“title”：[“通用强化学习算法：调查和实验”]，“前缀”：“10.24963”，“作者”：[{“给定”：“约翰”，“family“：”Aslanides“，”sequence“：”first“，”affiliation“：[{”name“：”Australian National University“}]}，{”given“：”Jan“，”family”：“Leike”，“sequence”：“additional”，“affiliance”：[[{“name”：“Future of Humanity Institute，University of Oxford”}]，{“given”：“Marcus”，“family}]，“成员”：“10584”，“事件”：{“名称”：“第二十六届国际人工智能联合会议”，“主题”：“人工智能”，“地点”：“澳大利亚墨尔本”，“缩写”：“IJCAI-2017”，“数字”：“26”，“赞助商”：[“国际人工智能组织联合会议（IJCAI）”，“悉尼理工大学（UTS）”，“澳大利亚计算机学会（ACS）”]，“start”：{“date-parts”：[[2017,8,19]]}，“end”：{“date-parts”：[[2017,8,26]]}}，”container-title“：[“第二十二届国际人工智能联合会议论文集”]，”original-tittle“：[]，”deposed“：{”date-parts:[2017,7,28]]，”date-time“：”2017-07-28T07:52:42Z“，”timestamp“：1501228362000}、，“score”：1，“resource”：{“primary”：}“URL”：“https:\/\/www.ijcai.org\/processes\/2017\/194”}}，“subtitle”：[]，“shorttitle”：[]，“issued”：{“date-parts”：[[2017，8]]}，”references-count“：0，”URL“http:\/\/dx.doi.org\/10.24963\/ijcai.2017\/194“，”relation“：{}，：{“日期部分”：[[2017,8]]}}