卢西安·布索尼乌;埃尔·波尔;雷米·穆诺斯 具有Lipschitz值的折扣无穷大非线性最优控制的连续行动规划。 (英语) Zbl 1388.93055号 Automatica公司 92, 100-108 (2018). 摘要:我们考虑具有折扣报酬的离散时间无限小时最优控制问题。值函数必须是动作(输入)序列上的Lipschitz连续函数,动作处于标量区间,而动态和奖励可以是非线性/非二次的。利用人工智能的思想,我们提出了两种乐观规划方法,在动作序列的无限维空间上执行自适应的horizon搜索。第一种方法使用Lipschitz常数来找到最优值上界最大的区域。第二种方法同时细化所有可能的乐观区域,而不显式使用边界。我们的分析证明了这两种算法的收敛速度都是全局无穷小时最优的,这是计算量和问题复杂性度量的函数。结果表明,尽管不需要知道(通常很难找到)Lipschitz常数,但第二种同步算法的工作效果几乎与第一种算法一样好。仿真结果表明,该算法在实际应用中是有效的,并与数值迭代和模型预测控制进行了比较,最后给出了一个实时算例。 引用于2文件 MSC公司: 93C55美元 离散时间控制/观测系统 93B40码 系统理论中的计算方法(MSC2010) 49立方米 变分法中的其他数值方法(MSC2010) 93C40型 自适应控制/观测系统 关键词:最优控制;规划;非线性系统;近优分析 软件:ACADO公司 PDF格式BibTeX公司 XML格式引用 \textit{L.Bušoniu}等人,Automatica 92,100--108(2018;Zbl 1388.93055) 全文: 内政部 参考文献: [1] Bertsekas,D.P.,《动态规划和最优控制》,第2卷,(2012年),雅典娜科学出版社·Zbl 1298.90001号 [2] Bertsekas,D.P。;Shreve,S.E.,随机最优控制:离散时间情况,(1978),学术出版社·Zbl 0471.93002号 [3] Bušoniu,L.、Daniels,A.、Munos,R.和Babuška,R.(2013)。连续动作确定性系统的乐观规划。在2013年IEEE自适应动态规划和强化学习国际研讨会; Bušoniu,L.、Daniels,A.、Munos,R.和Babuška,R.(2013)。连续动作确定性系统的乐观规划。在2013年IEEE自适应动态规划和强化学习国际研讨会 [4] 布什尼乌,L。;Ernst,D。;德舒特,B。;Babuška,R.,带模糊参数化的近似动态规划,Automatica,46,5,804-814,(2010)·Zbl 1191.49027号 [5] Bušoniu,L.、Páll,E.和Munos,R.(2016)。基于乐观规划的一般连续作用非线性系统的折扣近最优控制。在2016年美国控制会议记录; Bušoniu,L.、Páll,E.和Munos,R.(2016)。基于乐观规划的一般连续作用非线性系统的折扣近最优控制。在2016年美国控制会议记录 [6] 菲拉尔,J。;盖茨戈里,V。;Haurie,A.,奇异摄动混合随机系统的控制,IEEE自动控制汇刊,46,2,179-190,(2001)·Zbl 0992.93054号 [7] Grüne,L。;Pannek,J.,《非线性模型预测控制:理论和算法》,(2016),施普林格出版社 [8] Houska,B。;费罗,H。;Diehl,M.,ACADO工具包——自动控制和动态优化的开源框架,《最优控制应用与方法》,32,3,298-312,(2011)·Zbl 1218.49002号 [9] Hren,J.-F.,规划优化浇注系统Déterministes,(2012),里尔第一科技大学,(博士论文) [10] Hren,J.-F.,&Munos,R.(2008)。确定性系统的乐观规划。在第八届强化学习欧洲研讨会论文集; Hren,J.-F.,&Munos,R.(2008)。确定性系统的乐观规划。在第八届强化学习欧洲研讨会论文集 [11] Katsikopoulos,K。;Engelbrecht,S.,《具有延迟和异步成本收集的马尔可夫决策过程》,IEEE自动控制事务,48,4,568-574,(2003)·Zbl 1364.90347号 [12] 柯克,D.E.,《最优控制理论:导论》,(2004),多佛出版社 [13] Kocsis,L.和Szepesvári,C.(2006)。基于Bandit的Monte-Carlo规划。在第17届欧洲机器学习会议记录; Kocsis,L.和Szepesvári,C.(2006年)。基于Bandit的Monte-Carlo规划。在第17届欧洲机器学习会议记录 [14] La Valle,S.M.,规划算法,(2006),剑桥大学出版社·Zbl 1100.68108号 [15] Mansley,C.、Weinstein,A.和Littman,M.L.(2011年)。基于样本的连续行动马尔可夫决策过程规划。在第21届国际自动规划和调度会议记录; Mansley,C.、Weinstein,A.和Littman,M.L.(2011年)。连续动作马尔可夫决策过程的基于样本的规划。在第21届国际自动规划和调度会议记录 [16] Máthé,K.、Bušoniu,L.、Munos,R.和Schutter,B.D.(2014)。具有有限数量动作开关的乐观规划,用于近最优非线性控制。在第53次决策和控制会议记录; Máthé,K.、Bušoniu,L.、Munos,R.和Schutter,B.D.(2014)。具有有限数量动作开关的乐观规划,用于近最优非线性控制。在第53次决策和控制会议记录 [17] Munos,R.,《在不了解其光滑性的情况下对确定性函数进行乐观优化》,(Shawe-Taylor,J.;Zemel,R.S.;Bartlett,P.L.;Pereira,F.C.N.;Weinberger,K.Q.,《神经信息处理系统的进展》,第24卷,(2011)),783-791 [18] Munos,R.,《从强盗到蒙特卡洛树搜索:应用于优化和规划的乐观原则》,《机器学习的基础和趋势》,7,1,1-130,(2014)·Zbl 1296.91086号 [19] Postoyan,R。;布什尼乌,L。;内西奇,D。;Daafouz,J.,带折现成本的离散时间无限小时最优控制的稳定性分析,IEEE自动控制汇刊,62,6,2736-2749,(2017)·Zbl 1369.93538号 [20] 塞佩斯瓦里。,强化学习算法,(2010),Morgan&Claypool出版社·Zbl 1205.68320号 [21] 徐,J。;van den Boom,T。;Schutter,B.D.,MAX-plus线性系统模型预测控制的乐观优化,Automatica,74,16-22,(2016)·Zbl 1348.93192号 此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。