{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部分”:[[2022,8,12],“日期-时间”:“2022-08-12T15:26:52Z”,“时间戳”:1660318012040},“引用-计数”:0,“发布者”:“人工智能发展协会(AAAI)”,“问题”:“1”,“内容域”:{“域”:[],“交叉标记限制”:false},“short container-title”:[“AAAI”],“抽象”:“\本文描述了一种新的用于强化学习的信息理论政策评估技术。该技术将任何压缩或密度模型转换为相应的值估计。在适当的平稳性和遍历性条件下,我们证明了使用足够强大的模型可以得到一致的值函数估计。我们还研究了将此技术应用于各种Atari 2600视频游戏时的行为,在这些游戏中,使用次优建模技术是不可避免的。我们考虑了三种根本不同的模型,所有这些模型都太局限于完美地模拟系统的动力学。值得注意的是,我们发现我们的技术为有效的政策控制提供了足够准确的价值估计。最后,我们进行了一项提示性研究,强调了我们的技术在解决大型问题方面的潜力。\n\n<\/jats:p>“,”DOI“:”10.1609\/aaai.v29i1.9600“,”type“:”journal-article“,”created“:{”date-parts“:[2022,6,23]],”date-time“:”2022-06-23T11:56:01Z“,”timestamp“:1655985361000},”source“:“Crossref”,”is-referenced-by-count“:1,”title“:[”Compress-and-Control“],”prefix“:”101609“,”volume“:”29“,”author“:[{”given“:”Joel“,”family“:”Veness“,”sequence“:”first“,”affiliation“:[]},{“given”:“Marc”,“family”:“Bellemare”,“sequence”:“additional”,“affiliance”:[]{“给定的”:“马库斯”,“家族”:“Hutter”,“序列”:“附加的”,“从属关系”:[]},}“给定”:“Alvin”,“家庭”:“Chua”,“,”sequence“:”additional“,”affiliation“:[]}],”member“:”9382“,”published-online“:{”date-parts“:[[2015,2,21]]},”container-title“:[”AAAI人工智能会议记录“],”original-title”:[],”link“:[{”URL“:”https:\/\/ojs.AAAI.org\/index.php\/AAAAI\/articlex\/download\/9600\/9459“,”content-type“:”application\/pdf“,”content-version“:”vor“,“intended-application“:”text-mining“},{”URL“:”https:\/\/ojs.aaai.org\/index.php\/aaai\/article\/download\/9600\/9459“,”content-type“:”unspecified“,”content-version“:”vor“,”intended-application”:“similarity-checking”}],“deposed”:{“date-parts”:[2022,6,23]],“date-time”:“2022-06-23T11:56:01Z”,“timestamp”:1655985361000},“分数“:1,”资源“:{”primary“:{”URL“:”https:\/\/ojs.aaai.org.\/index.php \/aaai\/aarticle\/view\/9600“}},”副标题“:[],”短标题“:[],”已发布“:{”日期部分“:[[2015,2,21]}},”引用次数“:0,”期刊发行“:{”发行“:“1”,”在线发布“:{”日期部分“:[[2015,3,1]]}},”URL“:”http:\/\/dx.doi.org/10.1609\/aaaa i.v29i1.9600“,”关系“:{},”ISSN“:[”2374-3468“,”2159-5399“],”issn-type“:[{”value“:“2374-3468”,“type”:“electronic”},{”value“:“2159-5399”,“type”:“print”}],“subject”:[],“published”:{”date-parts“:[[2015,2,21]]}}}