Off-Policy Action Anticipation in Multi-Agent Reinforcement Learning

Ariyan Bighashdel; Daan de Geus; Pavol Jancura; Gijs Dubbelman

多智能体强化学习（MARL）中的学习预期是一种推理范式，在该范式中，智能体可以预测其他智能体的学习步骤，以改进它们之间的合作。由于MARL使用基于梯度的优化，学习预期需要使用高阶梯度（HOG），即所谓的HOG方法。现有的HOG方法基于政策参数预测，即代理预测其他代理的政策参数变化。然而，目前，这些现有的HOG方法只针对可微对策或具有小状态空间的对策开发。在这项工作中，我们证明了在具有大状态空间的不可微博弈的情况下，现有的HOG方法由于其与策略参数预期和多个采样阶段相关的固有局限性而表现不佳且效率低下。为了克服这些问题，我们提出了非政策行动预期（Off-Policy Action Precipition，OffPA2），这是一个新的框架，通过行动预期来处理学习预期，即代理通过非政策抽样来预测其他代理的行动变化。我们从理论上分析了我们提出的OffPA2，并将其用于开发适用于具有大状态空间的不可微博弈的多HOG方法。我们进行了大量实验，并证明了我们提出的HOG方法在效率和性能方面优于现有方法。

多智能体强化学习中的非政策行为预测

摘要