×

离散时间对抗未知系统的非策略逆Q学习。 (英语) Zbl 1520.93291号

摘要:本文提出了一种数据驱动的无模型逆强化学习(RL)算法,用于重构具有对抗干扰的离散时间(DT)动态系统的未知代价函数。我们提出了一种使用系统动力学和输入策略的逆RL策略迭代方案,用于在不知道系统动力学和控制策略增益的情况下,仅使用对抗系统的已证明轨迹来推导数据驱动的非策略逆Q学习算法的主要结果。该数据驱动算法包括(Q\)函数评估、状态有效性权重改进和行动策略更新。当激励持续存在探测噪声时,我们保证数据驱动算法中的无偏估计。实例验证了所提算法。

MSC公司:

93C55美元 离散时间控制/观测系统
93C73号 控制/观测系统中的扰动
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abbeel,P.,&Ng,A.Y.(2004年)。通过反向强化学习进行学徒制学习。第21届机器学习国际会议论文集。
[2] 巴沙尔,T。;Olsder,G.J.,动态非合作博弈论(1998),SIAM
[3] Bittanti,S。;Laub,A.J。;Willems,J.C.,《Riccati方程式》(2012年),《Springer科学与商业媒体:Springer Science&Business Media Secaucus》,美国
[4] 克拉克,S.G。;再见,S。;黄,I.,无模型随机逆线性二次型控制的低复杂度方法,IEEE Access,19298-9308(2022)
[5] Fu,J。;罗,K。;Levine,S.,《利用对抗性反向强化学习学习稳健回报》(2017),arXiv预印本arXiv:1710.11248
[6] 姜瑜。;江志平,动力学完全未知连续线性系统的计算自适应最优控制,Automatica,48,10,2699-2704(2012)·Zbl 1271.93088号
[7] 姜瑜。;石,D。;范,J。;Chai,T。;Chen,T.,集值反馈控制及其在事件触发采样数据系统中的应用,IEEE自动控制汇刊,65,11,4965-4972(2020)·Zbl 07320076号
[8] Jin,W。;Kulić博士。;牟,S。;Hirche,S.,《基于不完全轨迹观测的逆最优控制》,《国际机器人研究杂志》,40,6-7,848-865(2021)
[9] Kalman,R.E.,线性控制系统何时是最优的?,基础工程杂志,86,1,51-60(1964)
[10] Kamalapurkar,R.(2018年)。连续时间和空间的线性逆强化学习。ACC(第1683-1688页)。
[11] Kiumarsi,B。;刘易斯,F.L。;江志平,线性离散时间系统的(H\infty)控制:非策略强化学习,Automatica,78,144-152(2017)·Zbl 1357.93034号
[12] Lian,B。;Donge,V.S。;刘易斯,F.L。;Chai,T。;Davoudi,A.,线性多人游戏的数据驱动反向强化学习控制,IEEE神经网络和学习系统汇刊(2022)
[13] Lian,B。;薛伟。;刘易斯,F.L。;Chai,T.,多层非合作学徒游戏的反向强化学习,Automatica,145,文章110524 pp.(2022)·Zbl 1498.91014号
[14] Molloy,T.L。;福特·J·J。;Perez,T.,离散非线性系统的Finite-horizon逆最优控制,Automatica,87,442-446(2018)·Zbl 1378.49039号
[15] Natarajan,S.、Kunapuli,G.、Judah,K.、Tadepalli,P.、Kersting,K.和Shavlik,J.(2010)。多智能体反向强化学习。在第九届机器学习和应用国际会议上(第395-400页)。
[16] 南卡罗莱纳州罗斯福。;Inga,J。;Köpf,F。;弗拉德,M。;Hohmann,S.,非合作微分对策辨识的逆最优控制,IFAC-PapersOnLine,50,1,14909-14915(2017)
[17] 赛尔夫,R。;M.阿布迪亚。;马哈茂德,S.N。;Kamalapurkar,R.,确定性系统的基于模型的反向强化学习,Automatica,140,第110242页,(2022)·Zbl 1485.93135号
[18] Willems,J.C。;拉皮萨尔达,P。;马可夫斯基,I。;De M.,Bart L.,关于激励持续性的注释,《系统与控制快报》,54,4,325-329(2005)·Zbl 1129.93362号
[19] 吴,Z。;Sun,L。;詹伟(Zhan,W.)。;杨,C。;Tomizuka,M.,《基于有效采样的最大熵反向强化学习及其在自动驾驶中的应用》,IEEE Robotics and Automation Letters,5,4,5355-5362(2020)
[20] 薛伟。;Lian,B。;科拉里奇,P。;范,J。;Chai,T。;Lewis,F.L.,通过专家模拟离散时间系统的反向强化Q-学习,IEEE神经网络和学习系统汇刊,34,5,2386-2399(2023)
[21] 你,C。;卢,J。;菲列夫·D·。;Tsiotras,P.,使用强化学习和深度逆强化学习的自动驾驶汽车高级规划,机器人与自动驾驶系统,114,1-18(2019)
[22] Yu,C。;李毅。;方,H。;Chen,J.,有限时域线性二次调节器逆最优控制的系统辨识方法,Automatica,129,第109636页,(2021)·Zbl 1478.93129号
[23] 张,H。;Umenberger,J。;Hu,X.,离散时间有限时域线性二次调节器的逆最优控制,Automatica,110,文章108593 pp.(2019)·Zbl 1429.93217号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。