Fully General Online Imitation Learning

Michael K. Cohen; Marcus Hutter; Neel Nanda

在模仿学习中，模仿者和示范者是在过去与环境互动的情况下选择行动的政策。如果我们运行一个模仿者，我们可能希望事件以类似于示威者一直在行动的方式展开。一般来说，学习中的一个错误可能会导致完全不同的事件。在重新启动的特殊环境中，现有工作提供了如何模拟的正式指导，以便事件以类似方式展开，但在该环境之外，不存在任何正式指导。我们处理的是一个完全通用的设置，在这个设置中，（随机）环境和演示者永远不会重置，即使是出于培训目的，我们也允许我们的模仿者从演示者那里在线学习。我们的新保守贝叶斯模拟学习者低估了每个可用动作的概率，并用剩余概率查询更多数据。我们的主要结果是：如果一个事件不太可能发生，而示威者一直在行动，那么当运行（最初完全无知的）模仿者时，该事件的可能性可以被限制在上面。与此同时，对示威者的询问频率迅速下降。如果任何此类事件符合“危险”的条件，我们的模仿者将具有相对“安全”的显著区别。

全通用在线模拟学习

摘要