×

具有Lipschitz值的折扣无穷大非线性最优控制的连续行动规划。 (英语) Zbl 1388.93055号

摘要:我们考虑具有折扣报酬的离散时间无限小时最优控制问题。值函数必须是动作(输入)序列上的Lipschitz连续函数,动作处于标量区间,而动态和奖励可以是非线性/非二次的。利用人工智能的思想,我们提出了两种乐观规划方法,在动作序列的无限维空间上执行自适应的horizon搜索。第一种方法使用Lipschitz常数来找到最优值上界最大的区域。第二种方法同时细化所有可能的乐观区域,而不显式使用边界。我们的分析证明了这两种算法的收敛速度都是全局无穷小时最优的,这是计算量和问题复杂性度量的函数。结果表明,尽管不需要知道(通常很难找到)Lipschitz常数,但第二种同步算法的工作效果几乎与第一种算法一样好。仿真结果表明,该算法在实际应用中是有效的,并与数值迭代和模型预测控制进行了比较,最后给出了一个实时算例。

MSC公司:

93C55美元 离散时间控制/观测系统
93B40码 系统理论中的计算方法(MSC2010)
49立方米 变分法中的其他数值方法(MSC2010)
93C40型 自适应控制/观测系统

软件:

ACADO公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bertsekas,D.P.,《动态规划和最优控制》,第2卷,(2012年),雅典娜科学出版社·Zbl 1298.90001号
[2] Bertsekas,D.P。;Shreve,S.E.,随机最优控制:离散时间情况,(1978),学术出版社·Zbl 0471.93002号
[3] Bušoniu,L.、Daniels,A.、Munos,R.和Babuška,R.(2013)。连续动作确定性系统的乐观规划。2013年IEEE自适应动态规划和强化学习国际研讨会; Bušoniu,L.、Daniels,A.、Munos,R.和Babuška,R.(2013)。连续动作确定性系统的乐观规划。2013年IEEE自适应动态规划和强化学习国际研讨会
[4] 布什尼乌,L。;Ernst,D。;德舒特,B。;Babuška,R.,带模糊参数化的近似动态规划,Automatica,46,5,804-814,(2010)·Zbl 1191.49027号
[5] Bušoniu,L.、Páll,E.和Munos,R.(2016)。基于乐观规划的一般连续作用非线性系统的折扣近最优控制。2016年美国控制会议记录; Bušoniu,L.、Páll,E.和Munos,R.(2016)。基于乐观规划的一般连续作用非线性系统的折扣近最优控制。2016年美国控制会议记录
[6] 菲拉尔,J。;盖茨戈里,V。;Haurie,A.,奇异摄动混合随机系统的控制,IEEE自动控制汇刊,46,2,179-190,(2001)·Zbl 0992.93054号
[7] Grüne,L。;Pannek,J.,《非线性模型预测控制:理论和算法》,(2016),施普林格出版社
[8] Houska,B。;费罗,H。;Diehl,M.,ACADO工具包——自动控制和动态优化的开源框架,《最优控制应用与方法》,32,3,298-312,(2011)·Zbl 1218.49002号
[9] Hren,J.-F.,规划优化浇注系统Déterministes,(2012),里尔第一科技大学,(博士论文)
[10] Hren,J.-F.,&Munos,R.(2008)。确定性系统的乐观规划。第八届强化学习欧洲研讨会论文集; Hren,J.-F.,&Munos,R.(2008)。确定性系统的乐观规划。第八届强化学习欧洲研讨会论文集
[11] Katsikopoulos,K。;Engelbrecht,S.,《具有延迟和异步成本收集的马尔可夫决策过程》,IEEE自动控制事务,48,4,568-574,(2003)·Zbl 1364.90347号
[12] 柯克,D.E.,《最优控制理论:导论》,(2004),多佛出版社
[13] Kocsis,L.和Szepesvári,C.(2006)。基于Bandit的Monte-Carlo规划。第17届欧洲机器学习会议记录; Kocsis,L.和Szepesvári,C.(2006年)。基于Bandit的Monte-Carlo规划。第17届欧洲机器学习会议记录
[14] La Valle,S.M.,规划算法,(2006),剑桥大学出版社·Zbl 1100.68108号
[15] Mansley,C.、Weinstein,A.和Littman,M.L.(2011年)。基于样本的连续行动马尔可夫决策过程规划。第21届国际自动规划和调度会议记录; Mansley,C.、Weinstein,A.和Littman,M.L.(2011年)。连续动作马尔可夫决策过程的基于样本的规划。第21届国际自动规划和调度会议记录
[16] Máthé,K.、Bušoniu,L.、Munos,R.和Schutter,B.D.(2014)。具有有限数量动作开关的乐观规划,用于近最优非线性控制。第53次决策和控制会议记录; Máthé,K.、Bušoniu,L.、Munos,R.和Schutter,B.D.(2014)。具有有限数量动作开关的乐观规划,用于近最优非线性控制。第53次决策和控制会议记录
[17] Munos,R.,《在不了解其光滑性的情况下对确定性函数进行乐观优化》,(Shawe-Taylor,J.;Zemel,R.S.;Bartlett,P.L.;Pereira,F.C.N.;Weinberger,K.Q.,《神经信息处理系统的进展》,第24卷,(2011)),783-791
[18] Munos,R.,《从强盗到蒙特卡洛树搜索:应用于优化和规划的乐观原则》,《机器学习的基础和趋势》,7,1,1-130,(2014)·Zbl 1296.91086号
[19] Postoyan,R。;布什尼乌,L。;内西奇,D。;Daafouz,J.,带折现成本的离散时间无限小时最优控制的稳定性分析,IEEE自动控制汇刊,62,6,2736-2749,(2017)·Zbl 1369.93538号
[20] 塞佩斯瓦里。,强化学习算法,(2010),Morgan&Claypool出版社·Zbl 1205.68320号
[21] 徐,J。;van den Boom,T。;Schutter,B.D.,MAX-plus线性系统模型预测控制的乐观优化,Automatica,74,16-22,(2016)·Zbl 1348.93192号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。