×

数据驱动的近似值迭代和最优误差界分析。 (英语) Zbl 1357.93080号

摘要:中提出的数据驱动近似值迭代(AVI)算法的特点Y.Li(李彦宏)Z.Hou先生【系统控制快报64、79–85(2014;Zbl 1283.93229号)]为了处理最优镇定问题,包括只需要过程数据,并且扩大了闭环吸引域的估计。然而,由数据驱动的AVI算法生成的控制器是最优控制问题的近似解。在本文中,给出了在所设计的控制器下,最优成本与成本之间误差界的定量分析结果。该误差界由最优成本估计的近似误差和控制器函数估计的近似错误决定。第一种是由数据驱动动态规划(DP)算子对DP算子的逼近误差和值函数估计量的逼近误差具体确定的。当对象的数据集足够且无限完备,且感兴趣状态空间中的样本数无限时,这三个近似误差为零。这意味着当迭代次数无限时,所设计控制器下的成本等于最优成本。

MSC公司:

93D20型 控制理论中的渐近稳定性
49公里40 灵敏、稳定、良好
49升20 最优控制与微分对策中的动态规划
93C55 离散时间控制/观测系统
93立方厘米 控制理论中的非线性系统
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Aha,D.W.,《编辑:懒惰学习》,《人工智能评论》,第11、1-5、1-6页(1997年)
[2] Al-Tamimi,A。;刘易斯,F.L。;Abu-Khalaf,M.,应用于h∞控制的线性离散时间零和对策的无模型q学习设计,Automatica,43,3,473-481(2007)·Zbl 1137.93321号
[3] Balakrishnan,S.N。;丁,J。;Lewis,F.L.,动态系统adp反馈控制器稳定性问题,IEEE控制论汇刊,38,4,913-917(2008)
[4] Bellman,R.E.,《动态编程》(1957),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿·Zbl 0077.13605号
[5] Bertsekas,D.P.,《动态规划和最优控制》(第二版):第二卷(2001年),《雅典娜·西恩提菲亚特:雅典娜-西恩提菲·贝尔蒙特》·Zbl 1083.90044号
[6] 何,P。;Jagannathan,S.,具有输入约束的非线性离散时间系统的强化学习神经网络控制器,IEEE系统汇刊,人与控制论,B部分(控制论),37,2,425-436(2007)
[7] Hou,Z。;Jin,S.,一类离散非线性系统的新型数据驱动控制方法,IEEE控制系统技术汇刊,19,6,1549-1558(2011)
[8] Hou,Z。;Jin,S.,一类mimo非线性离散时间系统的数据驱动无模型自适应控制,IEEE神经网络汇刊,22,12,2173-2188(2011)
[9] Hou,Z。;Wang,Z.,《从基于模型的控制到数据驱动的控制:调查、分类和透视》,信息科学,235,3-35(2013)·Zbl 1284.93010号
[10] 蒋忠平;姜瑜,《线性和非线性系统的鲁棒自适应动态规划:综述》,《欧洲控制杂志》,2013年第19期,第5期,第417-425页·Zbl 1293.49053号
[11] 刘易斯,F.L。;Vrabie,D.,反馈控制的强化学习和自适应动态编程,IEEE电路和系统杂志,9,3,32-50(2009)
[12] 李,Y。;Hou,Z.,离散时间非线性系统的数据驱动渐近镇定,《系统与控制快报》,64,79-85(2014)·Zbl 1283.93229号
[14] 刘,D。;李,H。;Wang,D.,解决未贴现最优控制问题的自适应动态规划算法的误差界,IEEE神经网络和学习系统汇刊,26,6,1323-1334(2015)
[15] 刘,F。;孙,J。;Si,J。;郭伟。;Mei,S.,直接启发式动态规划的有界性结果,神经网络,32,229-235(2012)·Zbl 1254.90286号
[16] 刘,D。;王,D。;Yang,X.,输入受限的未知离散非线性系统最优控制的迭代自适应动态规划算法,信息科学,220331-342(2013)·Zbl 1291.49018号
[17] 刘,D。;Wei,Q.,离散非线性系统基于有限逼近误差的最优控制方法,IEEE控制论汇刊,43,2,779-789(2013)
[19] 拉斯穆森,C.E。;Williams,C.K.I.,机器学习的高斯过程(2006),麻省理工学院出版社·Zbl 1177.68165号
[20] 索科洛夫,Y。;Kozma,R。;Werbos,L.D。;Werbos,P.J.,启发式近似动态规划控制设计的完全稳定性分析,Automatica,59,9-18(2015)·Zbl 1338.90442号
[21] Wang,F。;张,H。;Liu,D.,《自适应动态编程:简介》,IEEE计算智能杂志,2009年第4、2、39-47页
[22] Werbos,P.J.,《智能要素》,《控制论(纳穆尔)》,第3卷(1968年)
[23] Xu,X。;Hou,Z。;Lian,C。;He,H.,使用稀疏核机器的自适应评论家设计的在线学习控制,IEEE神经网络和学习系统汇刊,24,5762-775(2013)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。