Meta-trained agents implement Bayes-optimal agents

Mikulik, Vladimir; Delétang, Grégoire; McGrath, Tom; Genewein, Tim; Martic, Miljan; Legg, Shane; Ortega, Pedro

元训练代理实现Bayes-optimal代理

的一部分神经信息处理系统的进展33（NeurIPS 2020）

作者

弗拉基米尔·米库利克（Vladimir Mikulik）、格雷戈伊尔·德雷唐（Grégoire Delétang）、汤姆·麦格拉思（Tom McGrath）、蒂姆·杰纳温（Tim Genewein）、米尔扬·马蒂奇（Miljan Martic）、谢恩·莱格

摘要

基于内存的元学习是一种强大的技术，可以构建快速适应目标分布中任何任务的代理。以前的一项理论研究认为，这种显著的性能是因为元训练协议激励代理以贝叶斯最优的方式进行行为。我们在一些预测和盗贼任务中对这一说法进行了实证调查。受理论计算机科学的启发，我们表明元学习和贝叶斯优化代理不仅行为相似，而且它们甚至共享相似的计算结构，即一个代理系统可以近似模拟另一个代理。此外，我们还证明了贝叶斯最优代理是元学习动力学的不动点。我们的结果表明，基于记忆的元学习是数值逼近贝叶斯最优代理的通用技术；也就是说，即使对于我们目前还没有可处理模型的任务分配来说。

元训练代理实现Bayes-optimal代理

作者

摘要

名称更改策略