{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期-部分”:[[2023,6,27]],“日期-时间”:“2023-06-27T09:53:04Z”,“时间戳”:1687859584654},“引用-计数”:0,“发布者”:“人工智能发展协会(AAAI)”,“问题”:“1”,“内容域”:{“域”:[],“交叉标记限制”:false},“short container-title”:[“AAAI”],“抽象”:“\本文介绍了一种设计可扩展通用强化学习代理的原理方法。该方法基于AIXI的直接近似,AIXI是用于一般强化学习代理的贝叶斯最优概念。此前,尚不清楚AIXI的理论是否能激励实用算法的设计。通过为AIXI代理提供第一个计算上可行的近似值,我们肯定地回答了这个迄今为止尚未解决的问题。为了发展我们的近似,我们引入了蒙特卡罗树搜索算法以及上下文树加权算法的特定于代理的扩展。从经验上讲,我们在一些随机的、未知的和部分可观测的域上给出了一组令人鼓舞的结果。\n\n<\/jats:p>“,”DOI“:”10.1609\/aaai.v24i1.7667“,”type“:”journal-article“,”created“:{”date-parts“:[[2022,9,13]],”date-time“:”2022-09-13T05:06:27Z“,”timestamp“:1663045587000}“,”page“:“605-611”,“source”:“Crossref”,“is-referenced-by-count”:3,“title”:[“通过AIXI近似强化学习”],“前缀”:“10.1609“,”卷“:”24“,”author“:[{”given“:”Joel“,”family“:”Veness“,”sequence“:”first“,”affiliation“:[]},{”fixed“:”Kee Siong“,”家族“:”Ng“,”序列“:”additional“,”atfiliation”:[]{“given”:“Marcus”,“family”:“Hutter”,“sequence”:“additional”,“affiliance”:[]},“givent”:“David”,”faily“,“se序列”:“附加”,“从属关系”:[]}],“成员”:“9382”,“在线发布”:{“date-parts“:[[2010,7,3]]},“container-title”:[“AAAI人工智能会议记录”],“原始标题”:[],“链接”:[{“URL”:“https:\/\/ojs.AAAI.org\/index.php\/AAAI\/article\/download\/7667\/7528”,“内容类型”:“application\/pdf”,“content-version”:“vor”,“intended-application”:“text-mining”},{“URL”:“https:\/\/ojs.aaai.org\/index.php\/aaai\/article\/download\/7667\/7528“,”content-type“:”unspecified“,”内容版本“:”vor“,”intended-application“:”相似性检查“}],”存放“:{”日期部分“:[2022,9,13]],”日期时间“:”2022-09-13T05:06:27Z“,”时间戳“:1663045587000},”分数“:1,”资源“:”{“主要”:{“URL”:“https:\/\/ojs.aaai.org\/index.php\/aaai\/article\/view\/7667“}},”副标题“:[],”短标题“:[],”已发布“:{”日期部分“:[[2010,7,3]]},“引用计数”:0,“日志发布”:{“问题”:“1”,“在线发布”:}“日期部分”:[2010,7,15]}}、“URL”:“http://\/dx.doi.org\/10.10609 \/aaai.v24i1.7667“,”关系“:{},”ISSN“:[”2374-3468“,”2159-5399“],”ISSN-type“:[{”value”:“2374-3468”,“type”:“electronic”},{“value”:“2159-5399”,“type”:“print”}],“subject”:[],“published”:{“date parts”:[[2010,7,3]]}}