文件Zbl 1520.93291-zbMATH Open

Bosen Lian;薛文谦;谢一静;Lewis，Frank L。;阿里·达沃迪

离散时间对抗未知系统的非策略逆Q学习。（英语） Zbl 1520.93291号

Automatica公司 155，文章ID 111171，6 p.（2023）.

摘要：本文提出了一种数据驱动的无模型逆强化学习（RL）算法，用于重构具有对抗干扰的离散时间（DT）动态系统的未知代价函数。我们提出了一种使用系统动力学和输入策略的逆RL策略迭代方案，用于在不知道系统动力学和控制策略增益的情况下，仅使用对抗系统的已证明轨迹来推导数据驱动的非策略逆Q学习算法的主要结果。该数据驱动算法包括（Q\）函数评估、状态有效性权重改进和行动策略更新。当激励持续存在探测噪声时，我们保证数据驱动算法中的无偏估计。实例验证了所提算法。

MSC公司：

93C55美元	离散时间控制/观测系统
93C73号	控制/观测系统中的扰动

关键词：

对抗性干扰;离散时间系统;逆Q学习;非政策性学习

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Abbeel，P.，&Ng，A.Y.（2004年）。通过反向强化学习进行学徒制学习。第21届机器学习国际会议论文集。
[2]	巴沙尔，T。；Olsder，G.J.，动态非合作博弈论（1998），SIAM
[3]	Bittanti，S。；Laub，A.J。；Willems，J.C.，《Riccati方程式》（2012年），《Springer科学与商业媒体：Springer Science&Business Media Secaucus》，美国
[4]	克拉克，S.G。；再见，S。；黄，I.，无模型随机逆线性二次型控制的低复杂度方法，IEEE Access，19298-9308（2022）
[5]	Fu，J。；罗，K。；Levine，S.，《利用对抗性反向强化学习学习稳健回报》（2017），arXiv预印本arXiv:1710.11248
[6]	姜瑜。；江志平，动力学完全未知连续线性系统的计算自适应最优控制，Automatica，48，10，2699-2704（2012）·Zbl 1271.93088号
[7]	姜瑜。；石，D。；范，J。；Chai，T。；Chen，T.，集值反馈控制及其在事件触发采样数据系统中的应用，IEEE自动控制汇刊，65，11，4965-4972（2020）·Zbl 07320076号
[8]	Jin，W。；Kulić博士。；牟，S。；Hirche，S.，《基于不完全轨迹观测的逆最优控制》，《国际机器人研究杂志》，40，6-7，848-865（2021）
[9]	Kalman，R.E.，线性控制系统何时是最优的？，基础工程杂志，86，1，51-60（1964）
[10]	Kamalapurkar，R.（2018年）。连续时间和空间的线性逆强化学习。ACC（第1683-1688页）。
[11]	Kiumarsi，B。；刘易斯，F.L。；江志平，线性离散时间系统的（H\infty）控制：非策略强化学习，Automatica，78，144-152（2017）·Zbl 1357.93034号
[12]	Lian，B。；Donge，V.S。；刘易斯，F.L。；Chai，T。；Davoudi，A.，线性多人游戏的数据驱动反向强化学习控制，IEEE神经网络和学习系统汇刊（2022）
[13]	Lian，B。；薛伟。；刘易斯，F.L。；Chai，T.，多层非合作学徒游戏的反向强化学习，Automatica，145，文章110524 pp.（2022）·Zbl 1498.91014号
[14]	Molloy，T.L。；福特·J·J。；Perez，T.，离散非线性系统的Finite-horizon逆最优控制，Automatica，87，442-446（2018）·Zbl 1378.49039号
[15]	Natarajan，S.、Kunapuli，G.、Judah，K.、Tadepalli，P.、Kersting，K.和Shavlik，J.（2010）。多智能体反向强化学习。在第九届机器学习和应用国际会议上（第395-400页）。
[16]	南卡罗莱纳州罗斯福。；Inga，J。；Köpf，F。；弗拉德，M。；Hohmann，S.，非合作微分对策辨识的逆最优控制，IFAC-PapersOnLine，50，1，14909-14915（2017）
[17]	赛尔夫，R。；M.阿布迪亚。；马哈茂德，S.N。；Kamalapurkar，R.，确定性系统的基于模型的反向强化学习，Automatica，140，第110242页，（2022）·Zbl 1485.93135号
[18]	Willems，J.C。；拉皮萨尔达，P。；马可夫斯基，I。；De M.，Bart L.，关于激励持续性的注释，《系统与控制快报》，54，4，325-329（2005）·Zbl 1129.93362号
[19]	吴，Z。；Sun，L。；詹伟（Zhan，W.）。；杨，C。；Tomizuka，M.，《基于有效采样的最大熵反向强化学习及其在自动驾驶中的应用》，IEEE Robotics and Automation Letters，5，4，5355-5362（2020）
[20]	薛伟。；Lian，B。；科拉里奇，P。；范，J。；Chai，T。；Lewis，F.L.，通过专家模拟离散时间系统的反向强化Q-学习，IEEE神经网络和学习系统汇刊，34，5，2386-2399（2023）
[21]	你，C。；卢，J。；菲列夫·D·。；Tsiotras，P.，使用强化学习和深度逆强化学习的自动驾驶汽车高级规划，机器人与自动驾驶系统，114，1-18（2019）
[22]	Yu，C。；李毅。；方，H。；Chen，J.，有限时域线性二次调节器逆最优控制的系统辨识方法，Automatica，129，第109636页，（2021）·Zbl 1478.93129号
[23]	张，H。；Umenberger，J。；Hu，X.，离散时间有限时域线性二次调节器的逆最优控制，Automatica，110，文章108593 pp.（2019）·Zbl 1429.93217号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑非
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

离散时间对抗未知系统的非策略逆Q学习。（英语） Zbl 1520.93291号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

离散时间对抗未知系统的非策略逆Q学习。 （英语） Zbl 1520.93291号

MSC公司：

关键词：

参考文献：

离散时间对抗未知系统的非策略逆Q学习。（英语） Zbl 1520.93291号