文件Zbl 1417.93134-zbMATH Open

巴哈雷州基马尔西;Lewis，Frank L。;哈米德雷扎·莫达雷斯;阿里·卡林普尔;Naghibi-Sistani，Mohammad-Bagher

具有未知动力学的线性离散时间系统最优跟踪控制的强化（Q）学习。（英语） Zbl 1417.93134号

Automatica公司 50，第4期，1167-1175（2014）.

摘要：本文提出了一种基于Q-学习算法的新方法，以因果方式求解未知离散时间系统的无限小时线性二次型跟踪器（LQT）。假设参考轨迹由线性指令生成器系统生成。构造了一个由原系统和命令生成器组成的增广系统，并证明了LQT的值函数是增广系统状态的二次函数。利用值函数的二次结构，导出了求解LQT的Bellman方程和增广代数Riccati方程（ARE）。LQT的标准解需要同时求解ARE和非因果差分方程，与此相反，在该方法中，仅通过求解增广ARE即可获得最优控制输入。在不了解系统动力学或命令生成器的情况下，开发了一种在线求解增广ARE的Q学习算法。显示了最优解的收敛性。仿真实例验证了该控制方案的有效性。

引用于69文件

理学硕士：

93B40码	系统理论中的计算方法（MSC2010）
93C55美元	离散时间控制/观测系统

关键词：

线性二次跟踪器;强化学习;策略迭代;代数Riccati方程

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	阿尔·塔米米，A。；刘易斯，F.L。；Abu-Khalaf，M.，线性离散时间零和博弈的无模型学习设计及其在（H）-无穷大控制中的应用，Automatica，43，3，473-481（2007）·Zbl 1137.93321号
[2]	Al-Tamimi，A。；刘易斯，F.L。；Abu-Khalaf，M.，使用近似动态规划的离散时间非线性HJB解决方案：收敛证明，IEEE系统、人与控制论汇刊-第B部分：控制论，38，4，943-949（2008）
[4]	巴托，J.Si.A。；鲍威尔，W。；Wunch，D.，《学习和近似动态规划手册》（2004），John Wiley
[5]	Bertsekas，D.P。；Tsitsiklis，J.N.，《神经动力学编程》（1996），雅典娜科学：雅典娜科技硕士·Zbl 0924.68163号
[8]	Hewer，G.A.，离散最优调节器稳态增益计算的迭代技术，IEEE自动控制汇刊，16，4，382-384（1971）
[9]	姜瑜。；江志平，动力学完全未知连续线性系统的计算自适应最优控制，Automatica，482699-2704（2012）·Zbl 1271.93088号
[11]	Lee，J.Y。；帕克，J.B。；Choi，Y.H.，连续线性系统自适应最优控制的积分学习和探索性策略迭代，Automatica，482850-2859（2012）·Zbl 1254.49019号
[12]	（Lewis，F.L.；Liu，D.，《反馈控制的强化学习和近似动态规划》（2013），Wiley:Wiley Hoboken，NJ）
[13]	刘易斯，F.L。；Vamvoudakis，K.，《部分可观测动态过程的强化学习：使用测量输出数据的自适应动态规划》，IEEE系统、人与控制论汇刊，B部分：控制论，41，1，14-23（2011）
[14]	刘易斯，F.L。；Vamvoudakis，K。；Vrabie，D.，《基于强化学习原理的最优自适应控制和微分对策》（2013），工程技术学院：伦敦工程技术学院·Zbl 1316.49007号
[15]	刘易斯，F.L。；Vrabie，D.，反馈控制的强化学习和自适应动态规划，IEEE电路与系统杂志，9，3，32-50（2009）
[16]	刘易斯，F.L。；弗拉比，D。；Syrmos，V.，《最优控制》（2012），John Wiley·Zbl 1284.49001号
[17]	刘易斯，F.L。；弗拉比，D。；Vamvoudakis，K.G.，使用自然决策方法设计最优自适应控制器的强化学习和反馈控制，IEEE系统杂志，32，6，76-105（2012）·Zbl 1395.93584号
[18]	鲍威尔，W.B.，《近似动态规划：解决维度的诅咒》（2009），约翰·威利
[19]	Sutton，R.S。；Barto，A.G.，《强化学习导论》（1998），麻省理工学院出版社：麻省理学院出版社剑桥，MT
[20]	弗拉比，D。；帕斯特拉瓦努，O。；阿布·哈拉夫，M。；Lewis，F.L.，基于策略迭代的连续时间线性系统的自适应最优控制，Automatica，45777-484（2009）·Zbl 1158.93354号
[21]	王，D。；刘，D。；Wei，Q.，使用自适应动态规划方法对一类离散非线性系统进行Finite-horizon神经最优跟踪控制，神经计算，78，14-22（2012）
[24]	Werbos，P.J.，随着时间的推移，强化学习的设计菜单，（神经网络控制（1991），麻省理工学院出版社：麻省理工学院出版社，马萨诸塞州剑桥），67-95
[25]	Werbos，P.J.，《实时控制和神经建模的近似动态编程》（White，D.A.；Sofge，D.A.，《智能控制手册》（1992），Van Nostrand Reinhold：Van Nostrand Reinho尔德，纽约）
[26]	（White，D.A.；Sofge，D.A.，《智能控制手册》（1992），Van Nostrand Reinhold:Van Nostrand Reinhold，纽约）
[27]	张，H。；崔，L。；张，X。；Luo，X.，使用自适应动态规划方法对未知一般非线性系统的数据驱动鲁棒近似最优跟踪控制，IEEE神经网络汇刊，22226-2236（2011）
[28]	张，H。；刘，D。；罗，Y。；Wang，D.，控制算法和稳定性的自适应动态规划（2012），Springer-Verlag:Springer-Verlag London
[29]	张，H。；魏强。；Liu，D.，求解一类非线性零和微分对策的迭代近似动态规划方法，Automatica，47，1207-214（2011）·Zbl 1231.91028号
[30]	张，H。；魏强。；Luo，Y.，一类离散非线性系统通过贪婪HDP迭代算法的新型无限时间最优跟踪控制方案，IEEE系统、人与控制论汇刊，B部分：控制论，38，937-942（2008）

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
输出	关键字
日期	文档类型(j个：期刊文章；b条：book；一：书籍文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	括号

示例

领域

操作员

具有未知动力学的线性离散时间系统最优跟踪控制的强化（Q）学习。（英语） Zbl 1417.93134号

理学硕士：

关键词：

参考文献：

示例

领域

操作员

具有未知动力学的线性离散时间系统最优跟踪控制的强化（Q）学习。 （英语） Zbl 1417.93134号

理学硕士：

关键词：

参考文献：

具有未知动力学的线性离散时间系统最优跟踪控制的强化（Q）学习。（英语） Zbl 1417.93134号