基于智能规划的多智能体强化学习算法

doi:10.11896/jsjkx.230800099

摘要

摘要：目前，深度强化学习算法在各个领域都取得了很多成果。然而，在多智能体任务领域中，智能体往往面临着状态行为空间较大、回报稀疏的非平稳环境，低搜索效率仍然是一大挑战。由于人工智能规划可以根据任务的初始状态和目标状态快速获得解决方案，该解决方案可以作为每个agent的初始策略，并为其探索过程提供有效的指导，因此尝试将它们结合起来，提出一个统一的多agent强化学习和人工智能规划模型（UniMP）在此基础上，可以设计和实现问题的解决机制。通过将多agent强化学习任务转换为智能决策任务，并对其进行启发式搜索，将获得一组宏观目标，这些目标可以指导强化学习的训练过程，从而使agent能够进行更有效的探索。最后，在多智能体实时策略游戏星际争霸II和机器人大师AI挑战模拟器2D的各种地图下进行了实验。结果表明，累积奖励值和获胜率都得到了显著提高，验证了UniMP的可行性、求解机制的有效性以及算法灵活处理强化学习环境突发情况的能力。

关键词： 多智能体强化学习，人工智能规划，启发式搜索，勘探效率

CLC编号：

TP181型

辛元霞，华道阳，张丽.基于人工智能规划的多智能体强化学习算法[J]。计算机科学，2024，51（5）：179-192。

工具书类

[1] MNIH V，KAVUKCUOGLU K，SILVER D，等.利用深度强化学习进行游戏[J].arXiv:1312.56022013。
[2] 刘强，张建伟，张振中，等。深层强化学习研究[J]。中国计算机学报，2017,40（1）：1-28。
[3] SILVER D，HUANG A，MADDISON C J，等.利用深度神经网络和树搜索技术掌握围棋游戏[J]。《自然》，2016529（7587）：484-489。
[4] 傅J，CO-REYES J D，LEVINE S.EX2:深度强化学习的样本模型探索[J].arXiv:1703.012602017。
[5] HARE J.处理强化学习中的稀疏奖励[J].arXiv:1910.092812019。
[6] PAPOUDAKIS G，CHRISTIANOS F，RAHMAN A，et al.多智能体深度强化学习中的非平稳性问题[J].arXiv:1906.047372019。
[7] 汤普森W R。从两个样本的证据来看，一个未知概率超过另一个未知概率的可能性[J]。《生物统计学》，1933,25:285-294。
[8] SUN W F，LEE C K，LEE E C Y.DFAC框架：基于分位数混合的多智能体分布式q学习值函数分解[J].arXiv:2102.079362021。
[9] 赵杰，杨美英，赵永平，等.基于分类分布混合的多智能体强化学习参数化值函数[J].arXiv:22022.101342022。
[10] AUER P，CESA-BIANCHI N，FISCHER P.多武器盗贼问题的有限时间分析[J]。机器学习，2002,47（2）：235-256。
[11] CARMEL D，MARKOVITCH S.多智能体系统中基于模型的学习探索策略[J]。自治代理和多代理系统，1999,2（2）：141-172。
[12] CHAKRABORTY M，CHUA K Y P，DAS S，et al.多智能体多武装匪徒的协调与分散勘探[C]//第26届国际人工智能联合会议论文集.2017:164-170。
[13] 张克强，杨振瑞，BAAR T.多智能体强化学习：理论与算法的选择性综述[J].arXiv:1911.106352019。
[14] WELD D S.人工智能规划的最新进展[J]。AI杂志，2002,20:93-123。
[15] 维尼亚尔斯·O，巴布什金一世，扎尔内茨基·W·M等。使用多智能体强化学习的星际争霸二级大师级[J]。《自然》，2019575（7782）：350-354。
[16] 苏顿R S，MCALLESTER D A，SINGH S，等.基于函数逼近的强化学习策略梯度方法[C]//第十二届神经信息处理系统国际会议论文集.1999:1057-1063。
[17] FORTUNATO M，AZAR M G，PIOT B，et al.勘探用噪声网络[C]//ICLR.2018。
[18] 张建伟，吕斯，张志海，等.基于样本效率优化的深度强化学习方法综述[J]。阮建学报/软件学报，2022,33（11）：4217-4238。
[19] WITT C S D、GUPTA T、MAKOVIICHUK D等。在星际争霸多智能体挑战中，你需要独立学习吗？[J] .arXiv:2011.09533200。
[20] LOWE R，WU Y，TAMAR A，等.混合合作竞争环境下的多智能体行为准则[C]//第31届神经信息处理系统国际会议论文集.2017:6382-6393。
[21]FOERSTER J N，FARQUHAR G，AFOURAS T，et al.反事实多主体政策梯度[C]//第三十二届AAAI人工智能会议论文集.2018:2974-2982。
[22]RASHID T，SAMVELYAN M，WITT C S D，等.深度多智能体强化学习中的单调值函数分解[J]。机器学习研究杂志，2020,21（178）：7234-7284。
[23]SUNEHAG P，LEVER G，AUDR G，等.基于团队奖励的多智能体协作学习的价值分解网络[J].arXiv:1706.052962017。
[24]SON K，KIM D，KANG W J，et al.QTRAN:Learning to factorize with transformation for cooperative multi-agent reinforcement Learning[C]//第36届国际机器学习会议论文集.2019:5887-5896。
[25]SON K，AHN S，REYES R D，等.QTRAN++：协作多智能体强化学习的改进价值转换[J].arXiv:2006.120102020。
[26]BONET B，GEFFNER H.规划作为启发式搜索[J]。人工智能，2001129（1）：5-33。
[27]RANGANATHAN A，RIABOV A，UDREA O.Mashup-based领域专家信息检索[C]//第18届ACM信息和知识管理会议论文集。2009:711-720。
[28]SOHRABI S，RIABOV A，KATZ M，et al.企业风险管理情景生成的人工智能规划解决方案[C]//AAAI人工智能会议论文集.2018。
[29]KATZ M，RAM P，SOHRABI S，et al.通过规划探索无上下文语言：机器学习自动化案例[C]//自动化规划与调度国际会议论文集.2020:403-411。
[30]GARRETT C R，CHITNIS R，HOLLADAY R，等.综合任务与运动规划[J]。《控制机器人和自治系统年度回顾》，2021,4:265-293。
[31]刘J，梁瑞斯，西安J W.工厂生产计划和调度的人工智能规划方法[C]//2022年机器学习和知识工程国际会议论文集.2022:110-114。
[32]SILVER T，CHITNIS R.PDDLGym：由PDDL问题产生的健身房环境[J].arXiv:2002.064322020。
[33]RIVLIN O，HAZAN T，KARPAS E.深度强化学习的广义规划[J].arXiv:2005.023052020。
[34]GEHRING C，ASAI M，CHITNIS R，et al.经典规划的强化学习：将启发式视为密集的奖励生成器[C]//自动化规划与调度国际会议论文集.2022:588-596。
[35]LEE J，KATZ M，AGRAVANTE D J，et al.AI样本有效强化学习的规划注释[J].arXiv:2203.006692022。
[36]SUTTON R S，BARTO A G，WILLIAMS R J.强化学习是直接自适应最优控制[J]。IEEE控制系统杂志，1992年，12（2）：19-22。
[37]LEWIS F L，VRABIE D，VAMVOUDAKIS K G.强化学习与反馈控制：利用自然决策方法设计最优自适应控制器[J]。IEEE控制系统杂志，2012,32（6）：76-105。
[38]GEREVINI A E，HASLUM P，LONG D，等.第五届国际规划竞赛中的决定性规划：PDDL3与规划师的实验评价[J]。人工智能，2009173（5/6）：619-668。
[39]胡永杰，王文新，贾海涛，等.学习利用塑造奖赏：奖赏塑造的新途径[C]//第34届神经信息处理系统国际会议的进程.2020:15931-15941。
[40]SAMVELYAN M，RASHID T，WITT C S D，et al.星际争霸多智能体挑战[C]//第18届自主智能体和多智能体系统国际会议论文集.2019:2186-2188。
[41]SUKHBAATAR S，SZLAM A，FERGUS R.使用反向传播学习多智能体通信[C]//第30届神经信息处理系统国际会议论文集。2016:2252-2260。

相关文章13

[1]	史殿熙、胡浩萌、宋琳娜、杨欢欢、欧阳倩莹、谭杰福、陈莹。基于观测重构的多智能体强化学习方法[J] ●●●●。计算机科学，2024，51（4）：280-290。
[2]	罗瑞清，曾坤，张新静。稀疏异构多智能体环境下基于强化学习的课程学习框架[J] ●●●●。计算机科学，2024，51（1）：301-309。
[3]	熊立勤、曹磊、陈喜良、赖军。基于状态估计的值分解方法[J] ●●●●。计算机科学，2023，50（8）：202-208。
[4]	林向阳、邢清华、邢怀西。基于MADDPG的无人机群空中拦截作战智能决策研究[J] ●●●●。计算机科学，2023，50（6A）：220700031-7。
[5]	荣欢、钱敏峰、马廷怀、孙胜杰。基于知识图推理和多智能体协作的面向给定图像覆盖区域的类推理模型[J] ●●●●。计算机科学，2023，50（1）：243-252。
[6]	史殿熙、赵晨兰、张耀文、杨绍武、张永军。基于多智能体强化学习的端到端合作自适应奖励方法[J] ●●●●。计算机科学，2022，49（8）：247-256。
[7]	杜伟、丁世飞。多智能体强化学习综述[J] ●●●●。计算机科学，2019，46（8）：1-8。
[8]	卞瑞、吴祥军、陈爱祥。基于静态前提的谓词知识树分解策略[J] ●●●●。计算机科学，2017，44（1）：235-242。
[9]	.动态约束满足框架下的表达式时间规划算法[J] ●●●●。计算机科学，2012，39（6）：226-230。
[10]	陈义雄、吴中富、冯勇、朱正洲。基于CSP模型的学习任务调度算法[J] ●●●●。计算机科学，2010，37（12）：41-46。
[11]	方启庆，彭晓明，刘庆华，胡亚慧。人工智能规划与工作流相结合的Web服务组合研究[J] ●●●●。计算机科学，2009，36（9）：110-114。
[12]	. [J] ●●●●。计算机科学，2008，35（1）：135-139。
[13]	张培云，孙亚敏（南京理工大学计算机科学与技术学院，南京210094）。 [J] ●●●●。计算机科学，2007，34（5）：4-7。

韵律学

已查看

全文

摘要

引用

共享

讨论

基于人工智能规划的多智能体强化学习算法

PDF（个人电脑）

摘要

引用这篇文章

分享这篇文章

工具书类

相关文章13

韵律学

评论

推荐0