计算机科学››2024,第51卷››问题(5): 179-192.数字对象标识:10.11896/jsjkx.230800099
•人工智能• 以前的文章 下一篇文章
辛元霞1、华道阳2,张丽三
收到:
修订过的:
在线:
出版:
关于作者:
摘要:目前,深度强化学习算法在各个领域都取得了很多成果。然而,在多智能体任务领域中,智能体往往面临着状态行为空间较大、回报稀疏的非平稳环境,低搜索效率仍然是一大挑战。由于人工智能规划可以根据任务的初始状态和目标状态快速获得解决方案,该解决方案可以作为每个agent的初始策略,并为其探索过程提供有效的指导,因此尝试将它们结合起来,提出一个统一的多agent强化学习和人工智能规划模型(UniMP)在此基础上,可以设计和实现问题的解决机制。通过将多agent强化学习任务转换为智能决策任务,并对其进行启发式搜索,将获得一组宏观目标,这些目标可以指导强化学习的训练过程,从而使agent能够进行更有效的探索。最后,在多智能体实时策略游戏星际争霸II和机器人大师AI挑战模拟器2D的各种地图下进行了实验。结果表明,累积奖励值和获胜率都得到了显著提高,验证了UniMP的可行性、求解机制的有效性以及算法灵活处理强化学习环境突发情况的能力。
关键词: 多智能体强化学习, 人工智能规划, 启发式搜索, 勘探效率
CLC编号:
辛元霞,华道阳,张丽.基于人工智能规划的多智能体强化学习算法[J]。计算机科学,2024,51(5):179-192。
0 / / 推荐
添加到引文管理器 尾注|样板客户经理|ProCite公司|BibTeX公司|参考Works
网址: https://www.jsjkx.com/EN/10.11896/jsjkx-230800099
https://www.jsjkx.com/EN/Y2024/V51/I5/179
引用