×

分支改进的深Q网络用于求解航天器的跟踪扩散策略解。 (英语) Zbl 1513.91005号

摘要:随着空间交会技术的不断发展,航天器轨道跟踪扩散微分对策的研究越来越受到重视。因此,我们提出了一种基于分支改进的深Q网络的追踪-扩散博弈算法,以获得与非合作目标的空间交会策略。首先,我们将航天器与非合作目标空间交会的最优控制问题转化为一个可生存的微分对策问题。接下来,为了解决这个博弈问题,我们构造了纳什均衡策略,并检验了其存在性和唯一性。然后,为了避免连续行为空间中深Q网络的维数灾难,我们构造了一个TSK模糊推理模型来表示连续空间。最后,为了解决离散动作集的复杂且耗时的自学习问题,我们改进了深度Q网络算法,并提出了一种具有多组并行神经网络和共享决策模块的分支结构。仿真结果表明,该算法实现了最优控制与博弈论的结合,进一步提高了离散行为的学习能力。该算法具有连续空间行为决策的比较优势,能够有效地处理连续空间追逐博弈问题,为航天器轨道追踪-扩展策略的求解提供了一种新的思路。

MSC公司:

91A24型 位置游戏(追逐和回避等)
91A80型 博弈论的应用
70平方米 轨道力学
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] G.M.安德森;V.W.Grazier,两个低推力轨道航天器之间的追踪-扩散问题屏障,AIAA J.,14,158-163(1976)·数字对象标识代码:10.2514/3.61350
[2] J.Ba、V.Mnih和K.Kavukcuoglu,具有视觉注意的多目标识别,ICLR,2015年,arXiv:1412.7755。
[3] E.N.Barron;L.C.Evans;R.Jensen,Isaacs公式的粘性解和Lipschitz控制的差分对策,J.Differential Equations,53213-233(1984)·Zbl 0548.90104号 ·doi:10.1016/0022-0396(84)90040-8
[4] Y.L.Chen,基于微分对策的有限时间自适应动态规划制导律研究,南京航空航天大学,2019年。
[5] Y.Cheng;Z.孙;Y.Huang;W.Zhang,无人水面舰艇防御游戏的模糊分类深层强化学习,国际模糊系统杂志,21592-606(2019)·doi:10.1007/s40815-018-0586-0
[6] M.G.Crandall;L.C.Evans;狮子,哈密顿-雅可比方程粘性解的一些性质,Trans。阿默尔。数学。《社会学杂志》,282487-502(1984)·Zbl 0543.35011号 ·doi:10.1090/S0002-9947-1984-0732102-X
[7] 十代;C.K.Li;A.B.Rad,基于再强制学习的自动车辆控制模糊控制器调整方法,IEEE智能交通系统汇刊,6285-293(2005)
[8] S.F.Desouky和H.M.Schwartz,《多机器人系统的Q(lambda)-学习模糊逻辑控制器》IEEE国际系统会议《人与控制论》,10(2010),4075-4080。
[9] J.Engwerda,计算非确定LQ博弈纳什均衡的算法,计算。管理。科学。,4, 113-140 (2007) ·Zbl 1134.91333号 ·doi:10.1007/s10287-006-0030-z
[10] A.弗里德曼,差异游戏罗德岛:美国数学学会,1974年·Zbl 0278.90092号
[11] W.T.Hafer;H.L.里德;J.D.Turner;K.Pham,用于轨道追踪规避的灵敏度方法,J.Guid Control Dyn。,38, 1118-1126 (2015) ·网址:10.2514/1.G000832
[12] 郝中伟;S.T.Sun;Q.H.Zhang;Y.Chen,应用半直接配置方法解决航天器外渗问题,航天学报,40,628-635(2019)
[13] H.V.Hasselt、A.Guez和D.Silver,双q学习深度强化学习,in第三十届AAAI人工智能大会论文集,02(2016),2094-2100,arXiv:1509.06461。
[14] M.Hessel、J.Modayil、H.H.Van等人,《彩虹:结合深度再监禁学习的改进》,人工智能发展协会,10(2017),3215-3222,arXiv:1710.02298v1。
[15] R.Isaacs,差异游戏,纽约:威利,1965年·Zbl 0125.38001号
[16] J.S.R.Jang;C.T.Sun;E.Mizutani,《神经模糊和软计算:学习和机器智能的计算方法》,IEEE自动控制汇刊,421482-1484(1997)·doi:10.1109/TAC.1997.633847
[17] F.Jürgen、W.K.Härdle和C.M.Hafner,神经网络与深度学习《金融市场统计》,2019年。
[18] C.Y.李,战术弹道导弹拦截器制导控制问题研究,博士学位论文哈尔滨:哈尔滨工业大学,2008。
[19] 李立群;F.刘;X.Shi;J.Wang,错误追踪扩散的微分博弈模型与求解方法,系统工程理论与实践,36,2161-2168(2016)
[20] Z.-Y.李;朱先生;Z.Yang;Y.-Z.Luo,航天器追击规避自由时差博弈的降维解决方案,宇航学报,163201-210(2019)·doi:10.1016/j.actaastro.2019.01.011
[21] T.P.Lillicrap、J.J.Hunt、A.Pritzel等人,深度强化学习的连续控制,在2016年国际学习代表大会上。
[22] B.刘;十、叶;Y.Gao;高;X.Dong;X.Wang;B.Liu,结合优先重播双DQN的前瞻性想象规划框架,国际会议控制、自动化和机器人,4336-341(2019)·doi:10.1109/ICCAR.2019.8813352
[23] B.刘;十、叶;C.周;B.Liu,基于改进DQN的复合模式在轨服务资源分配,航空航天学报,41323630-323630(2020)·doi:10.7527/S1000-6893.2019.23630
[24] R.C.Loxton;K.L.Teo;V.雷博克;K.F.C.Yiu,状态和控制具有连续不等式约束的最优控制问题,Automatica J.IFAC,452250-2257(2009)·Zbl 1179.49032号 ·doi:10.1016/j.automatica.2009.05.029
[25] Y.Z.Luo;李振英;H.Zhu,航天器轨道跟踪-扩散微分对策研究,中国科学院,501533-1545(2020)·doi:10.1360/SST-2019-0174
[26] L.Matignon;G.J.Laurent;N.Le Fort-Piat,合作马尔可夫博弈中的独立强化学习者:关于协调问题的调查,《知识工程评论》,27,1-31(2012)·doi:10.1017/S026988891200057
[27] V.Mnih;K.Kavukcuoglu;D.Silver等人,《通过深度强化学习实现人性化控制》,《自然》,518,529-533(2015)·doi:10.1038/nature14236
[28] M.Pontani;B.A.Conway,三维轨道追踪-扩散博弈的数值解,J.Guid Control Dyn。,32, 474-487 (2009) ·数字对象标识代码:10.2514/1.37962
[29] T.J.Ross,模糊逻辑及其工程应用,美利坚合众国:John Wiley&Sons,Ltd,2010年。
[30] W.C.瑞恩;G.C.理查德;P.Meir;P.Scott,使用近最优策略解决追捕游戏,J.Guid Control Dyn,41,841-850(2018)·doi:10.2514/1.G002911
[31] H.M.Schwartz,多智能体机器学习:一种强化方法加拿大:John Wiley&Sons,Inc,2014年·Zbl 1307.68005号
[32] F.Su;J.Liu;Y.Zhang等人,面内避碰机动的最佳冲量分析,系统工程与电子,40,2782-2789(2018)·doi:10.3969/j.issn.1001-506X.2018.12.23
[33] S.T.Sun,两种航天器在低地球轨道上的追踪-扩张策略及其数值解哈尔滨工业大学,2015。
[34] S.Sun;问:张;R.Loxton;B.Li,低地球轨道上两个航天器追踪-扩散微分对策的数值解,J.Ind.Manag。最佳。,11, 1127-1147 (2015) ·Zbl 1315.49015号 ·doi:10.3934/jimo.2015.11127
[35] S.Sun;Q.Zhang;R.Loxton;B.Li,低地球轨道上两个航天器追踪-扩散微分对策的数值解,J.Ind.Manag。最佳。,1127-1147年11月11日(2015年)·Zbl 1315.49015号 ·doi:10.3934/jimo.2015.11127
[36] T.Takagi;M.Sugeno,系统的模糊识别及其在建模和控制中的应用,IEEE系统汇刊。《人与网络学》,第15卷,第116-132页(1985年)·Zbl 0576.93021号 ·doi:10.1109/TSMC.1985.6313399
[37] L.X.Wang,模糊系统与控制课程新泽西州:Prentice-Hall公司,1997年·Zbl 0910.93002号
[38] Z.Wang,T.Schaul,M.Hessel等人,《深度强化学习的决斗网络架构》,预印本,arXiv:1511.065812015年10月。
[39] X.Wu,S.Liu,L.Yang和Z.Jia,基于深度强化学习的双足机器人斜坡步态控制方法,中国自动化协会,1-13[2020-02-28].
[40] Q.Wu;H.Zhang,基于生存差分策略的航天器追赶策略和数值解,控制与信息技术,04,39-43(2019)·doi:10.13889/j.issn.2096-5427.2019.04.007
[41] D.T.Yu;H.Wang;周伟民,考虑空间几何关系的反交会规避机动方法,J.Natl。国防科技大学。,38, 89-94 (2016) ·doi:10.11887/j.cn.201606015
[42] Q.H.Zhang;孙耀文;M.M.Huang等人,在共面轨道上,两个航天器在微小持续径向推力作用下的追踪-扩张障碍,控制决策,22,530-534(2007)·doi:10.13195/j.cd.2007.05.52.zhangqh.010
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。