主页

论文

提交文件

新闻

编辑委员会

特殊问题

开源软件

程序(PMLR)

数据(DMLR)

交易(TMLR)

搜索

统计

登录

常见问题

联系我们



RSS源

全通用在线模拟学习

迈克尔·科恩(Michael K.Cohen)、马库斯·赫特(Marcus Hutter)、内尔·南达(Neel Nanda); 23(334):1−30, 2022.

摘要

在模仿学习中,模仿者和示范者是在过去与环境互动的情况下选择行动的政策。如果我们运行一个模仿者,我们可能希望事件以类似于示威者一直在行动的方式展开。一般来说,学习中的一个错误可能会导致完全不同的事件。在重新启动的特殊环境中,现有工作提供了如何模拟的正式指导,以便事件以类似方式展开,但在该环境之外,不存在任何正式指导。我们处理的是一个完全通用的设置,在这个设置中,(随机)环境和演示者永远不会重置,即使是出于培训目的,我们也允许我们的模仿者从演示者那里在线学习。我们的新保守贝叶斯模拟学习者低估了每个可用动作的概率,并用剩余概率查询更多数据。我们的主要结果是:如果一个事件不太可能发生,而示威者一直在行动,那么当运行(最初完全无知的)模仿者时,该事件的可能性可以被限制在上面。与此同时,对示威者的询问频率迅速下降。如果任何此类事件符合“危险”的条件,我们的模仿者将具有相对“安全”的显著区别。

[腹肌][pdf格式][围兜]      
©JMLR公司2022(编辑,贝塔)

乳齿象