×

一种基于行动置信限的新策略,用于提高强化学习中的探索效率。 (英语) Zbl 07824802号

摘要:强化学习已被用于解决许多智能决策问题。然而,强化学习在实践中仍然面临着探索效率低的问题,限制了其广泛应用。为了解决这个问题,本文提出了一种基于Q值和勘探值的新勘探策略。探索值采用行动置信限来度量行动的不确定性,从而引导agent自适应地探索环境的不确定性区域。这种方法可以提高勘探效率,有利于代理人做出最优决策。然后,为了使我们提出的策略适用于离散和连续环境,我们将所提出的策略与经典的强化学习算法(Q学习和深度Q网络)相结合,并分别提出了两种新的算法。此外,分析了算法的收敛性。此外,使用深度自动编码器网络模型建立离散环境中状态-动作的映射关系,可以避免在Q学习阶段存储大量的状态-动作对。我们提出的方法可以实现自适应和有效的探索,这有利于agent做出智能决策。最后,在离散和连续仿真环境中验证了结果。实验结果表明,该方法提高了平均奖励值,减少了灾难性行为的数量。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68T07型 人工神经网络与深度学习
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)

软件:

OpenAI健身房
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 扎克斯,G。;Katz,G.,《Recom:半监督表格数据标记的深度强化学习方法》,《信息科学》。,589, 321-340 (2022)
[2] Zhao,Y。;陈,B。;王,X。;朱,Z。;Wang,Y。;Cheng,G。;王,R。;他,M。;刘毅,基于深度强化学习的源定位搜索方法,信息科学。,588,67-81(2022)
[3] Lecun,Y。;Y.本吉奥。;Hinton,G.,《深度学习》,《自然》,521,7553,436-444(2015)
[4] Idc,《Idc全球人工智能支出指南》(2022年)
[5] 葡萄酒,O。;Babuschkin,O.,《星际争霸II使用多智能体强化学习的大师级》,《自然》,575350-354(2019)
[6] 姚,A。;Yu,J。;He,W.,机器人强化学习任务中的图形和动力学解释,信息科学。,611, 317-334 (2022)
[7] Farzad,K。;欧默,F.S.,基于上下文强化学习的新型应急车辆智能交通恢复模型,信息科学。,619, 288-309 (2023)
[8] 何毅。;王,D。;黄,F。;张,R。;顾,X。;Pan,J.,一个V2I和V2V协作框架,用于支持基于ABS的车辆互联网中的紧急通信,IEEE Trans。绿色公社。Netw公司。(2023),出版中
[9] 赵,H。;Zhang,C.,一种基于在线学习的进化多目标算法,信息科学。,509, 1-21 (2020) ·Zbl 1456.90153号
[10] 帕夏,J。;Dulebenets,文学硕士。;Fathollahi-Fard,A.M。;田,G。;Lau,Y。;辛格,P。;Liang,B.,《考虑船队异质性和环境因素的班轮运输战术水平规划综合优化方法》,高级工程师信息。,48,第101299条pp.(2021)
[11] 刘,Z。;Wang,Y。;Huang,P.,AnD:一种基于角度选择和基于移位的密度估计的多目标进化算法,Inf.Sci。,509, 400-419 (2020) ·Zbl 1456.90144号
[12] Dulebenets,M.A.,《一种用于在交叉码头安排卡车的自适应多倍体模因算法》,《信息科学》。,565, 390-421 (2021) ·Zbl 1526.90014号
[13] Fathollahi-Fard,A.M。;Dulebenets,文学硕士。;哈加海-凯什特利,M。;塔瓦科利·莫哈达姆,R。;萨菲安,M。;Mirzahosseinian,H.,《不确定性下轮胎行业双通道闭环供应链网络设计问题的两种混合元神经算法》,高级工程师信息。,50,第101418条,第(2021)页
[14] 罗德里格斯,J.F。;古铁雷斯,文学硕士。;Spadon,G。;Brandoli Amer-Yahia,S.,LIG-doctor:使用双向最小门循环网络进行有效的患者轨迹预测,Inf.Sci。,545, 813-827 (2021)
[15] 温,G。;Fu,J。;戴,P。;周,J.,DTDE:一个新的合作多智能体强化学习框架,创新,2,4,第100162页(2021)
[16] 赵,J。;李,H。;张,Q。;孙,Q。;霍,H。;Gong,M.,DCFGAN:一种对抗性深度强化学习框架,用于基于会话的推荐系统,Inf.Sci。,596, 222-235 (2022)
[17] Sutton,R.S。;Barto,A.G.,《强化学习:导论》(2018),麻省理工学院出版社·兹比尔1407.68009
[18] Kakade,S.M.,《关于强化学习的样本复杂性》(2003),伦敦大学:英国伦敦大学,博士论文
[19] Kaelbling,L.P。;利特曼,M.L。;Moore,A.W.,《强化学习:调查》,J.Artif。智力。决议,4237-285(1996)
[20] Bellemare,M.G。;Srinivasan,S。;奥斯特罗夫斯基,G。;Schaul,T。;萨克斯顿,D。;Munos,R.,《统一基于国家的探索和内在动机》,(神经信息处理系统进展29:2016年神经信息处理体系年会)。神经信息处理系统进展29:2016年神经信息处理体系年度会议,西班牙巴塞罗那(2016),1471-1479
[21] Sovrano,F.,通过随机网络蒸馏将经验重播与探索相结合,(2019年IEEE运动会会议(2019)),1-8
[22] Pathak,D。;阿格拉瓦尔,P。;埃弗罗斯,A.A。;Darrell,T.,通过自我监督预测进行好奇驱动的探索,(IEEE计算机视觉和模式识别研讨会会议记录(2017)),16-17
[23] 奥斯特罗夫斯基,G。;Bellemare,M.G。;奥尔德,A.V.D。;Munos,R.,《基于计数的神经密度模型探索》(第34届国际机器学习会议(ICML)论文集)。第34届机器学习国际会议(ICML)论文集,悉尼(2017),1-15
[24] 阿德里安,E。;Joost,H。;Joel,L。;O.S.肯尼思。;Jeff,C.,《自然》,590,7847,580-586(2021)
[25] 张,T。;拉希迪内贾德,P。;焦,J。;田,Y。;冈萨雷斯,J。;Russell,S.,Made:通过最大化勘探区域偏差进行勘探(2021年),arXiv预印本
[26] 北卡罗来纳州穆勒奥。;Bourgine,P.,《多国环境的探索:局部测量和不确定性的反向传播》,马赫。学习。,35, 2, 117-154 (1999) ·Zbl 0948.68094号
[27] Even-Dar,E。;Mansour,Y.,乐观和增量Q-学习的收敛,(神经信息处理系统的进展(2002)),1499-1506
[28] Bai,C。;Wang,L。;Han,L。;Hao,J。;加格,A。;刘,P。;Wang,Z.,通过乐观引导和向后归纳法进行原则性探索,(第38届机器学习国际会议论文集(2021))
[29] Azizzadenesheli,K。;Brunskill,E。;Anandkumar,A.,通过贝叶斯深度Q网络进行有效探索,(2018信息理论与应用研讨会(ITA),小行星(2018)),1-9
[30] 奥斯本·I。;布伦德尔,C。;Pritzel,A。;Roy,B.V.,通过引导DQN进行深度探索,(神经信息处理系统进展(2016)),4026-4034
[31] 莫汉,R。;Li,L.,Thompson抽样的实证评估,高级神经信息过程。系统。,2249-2257 (2015)
[32] 埃科菲特,A。;Huizinga,J。;雷曼,J。;Stanley,K.O。;Clune,J.,《Go-explore:硬勘探问题的新方法》,《自然》(2019)
[33] Haarnoja,T。;周,A。;Abbeel,P。;Levine,S.,《Soft actor-critic:使用随机参与者的非策略最大熵深度强化学习》(第35届机器学习国际会议论文集)。第35届机器学习国际会议(ICML)会议记录,斯德哥尔摩(2018),1856-1865
[34] Haarnoja,T。;Tang,H。;Abbeel,P。;Levine,S.,《以深度能源为基础的政策强化学习》(第34届机器学习国际会议(ICML)论文集)。第34届机器学习国际会议(ICML)论文集,悉尼(2017),1352-1361
[35] 舒尔曼,J。;Abbeel,P。;Chen,X.,政策梯度和软Q-学习之间的等价性(2017),arXiv预印本
[36] 金奈,Y。;Park,J.W。;阿贝尔·D。;Konidaris,G.D.,通过最小化覆盖时间来发现探索选项,(第36届国际机器学习会议论文集(2019)),3130-3139
[37] Yang,H。;Alphones,A。;钟,W.D。;陈,C。;Xie,X.,通过异构RF/VLC实现基于学习的节能资源管理,用于超可靠低延迟工业物联网网络,IEEE Trans。Ind.通知。,16, 8, 5565-5576 (2020)
[38] Bai,C。;刘,P。;王,Z。;刘凯。;Wang,L。;Zhao,Y.,深度强化学习中自监督探索的变分动力学,IEEE Trans。神经网络。学习。系统。,早期访问(2020年)
[39] 朱,A。;Chen,F.Y。;徐,H。;欧阳,D.Q。;邵,J.,《赋予期权的多样性和个性:剩余软期权批评家框架》,IEEE Trans。神经网络。学习。系统。,提前访问(2021年)
[40] 王,S。;Tang,H。;王,B。;Mo,J.,利用神经架构搜索框架基于sEMG检测肌肉疲劳的新方法,IEEE Trans。神经网络。学习。系统。,早期访问(2021)
[41] 李,B。;Tang,H。;郑,Y。;Hao,J。;李,P。;王,Z。;孟,Z。;Wang,L.,Hyar:通过混合动作表征解决离散连续动作强化学习(2021),arXiv预印本
[42] 宁,K。;徐,H。;Zhu,K。;Huang,S.,没有专家演示的模仿学习(2021年),arXiv预印本
[43] Watkins,C.J.C.H。;大研,P.,Q-learning,马赫。学习。,8, 3-4, 279-292 (1992) ·Zbl 0773.68062号
[44] Mnih,V。;Kavukcuoglu,K。;Silver,D.,《通过深度强化学习实现人性化控制》,《自然》,518529-533(2015)
[45] 王,Z。;刘,J.,一类具有非匹配扰动的半马尔可夫非李普希茨不确定系统的基于强化学习的自适应跟踪控制,信息科学。,626, 407-427 (2023)
[46] Song,W。;李伟(Li,W.)。;华,Z。;朱凤,利用多尺度重建误差和权重更新相关性的新型深度自动编码器,信息科学。,559, 130-152 (2021)
[47] Jaakkola,T。;乔丹,M。;辛格,S.,关于随机迭代动态规划算法的收敛性,神经计算。,6, 1185-1201 (1994) ·Zbl 0822.68095号
[48] Burda,Y。;爱德华兹,H。;Storkey,A。;Klimov,O.,《随机网络蒸馏探索》(2018)
[49] 布罗克曼,G。;张,V。;佩特森,L。;施耐德,J。;舒尔曼,J。;Tang,J。;Zaremba,W.,OpenAI健身房(2016),arXiv预印本
[50] 袁,Y。;于,Z。;顾,Z。;Yeboah,Y。;魏伟(Wei,W.)。;邓,Z。;李,J。;Li,Y.,一种新的多步骤Q学习方法,用于提高深度强化学习的数据效率,Knowl-基于系统。,175, 107-117 (2019)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。