×

线性二次高斯(LQG)控制的优化景观分析。 (英语) Zbl 1525.49029号

小结:本文从现代优化的角度重新审视了经典的线性二次高斯(LQG)控制。我们分析了LQG问题优化景观的两个方面:(1)稳定控制器集的连通性{C} _n(n)\); (2)驻点的结构。众所周知,相似变换不会改变动态控制器的输入输出行为或LQG成本。通过相似变换实现的这种内在对称性使得LQG的景观非常丰富。我们证明了(1)稳定控制器集{C} _n(n)\)最多有两个路径连接组件,它们在由相似变换定义的映射下是不同同构的;(2) 可能存在许多严格次优平稳点LQG成本函数超过\(\mathcal{C} _n(n)\)不可控和不可观察的;(3) 所有可控和可观测的平稳点都是全局最优的,并且它们在相似变换中是一致的。这些结果对解决LQG问题的直接策略梯度方法的性能分析有一定的帮助。

理学硕士:

49甲10 线性二次型最优控制问题
90C26型 非凸规划,全局优化
90立方厘米 非线性规划
93B52号 反馈控制
93E20型 最优随机控制
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 腹部,PA;Mahony,R。;Andrews,B.,分析成本函数下降法迭代的收敛性,SIAM J.Optim。,16, 2, 531-547 (2005) ·Zbl 1092.90036号 ·数字对象标识代码:10.1137/040605266
[2] Basuthakur,S.,Knapp,C.H.:随机线性系统的最优常数控制器。IEEE传输。自动。控制20(5),664-666(1975)·Zbl 0316.93048号
[3] Bertsekas,DP,动态规划和最优控制(1995),马萨诸塞州贝尔蒙特,美国:雅典娜科学公司·Zbl 0904.90170号
[4] Boczar,R.,Matni,N.,Recht,B.:未知系统输出反馈控制的有限数据性能保证。摘自:第57届IEEE决策与控制会议(CDC)会议记录,第2994-2999页(2018年)
[5] Boyd,S.,El Ghaoui,L.,Feron,E.,Balakrishnan,V.:系统和控制理论中的线性矩阵不等式。美国宾夕法尼亚州费城工业和应用数学学会(1994年)·Zbl 0816.93004号
[6] Bu,J.,Mesbahi,A.,Mesbahi,M.:关于稳定反馈增益的拓扑和度量性质:MIMO情况。arXiv预印arXiv:1904.02737(2019)·Zbl 07320192号
[7] Chi,Y。;Lu,YM;Chen,Y.,非凸优化满足低秩矩阵分解:概述,IEEE Trans。信号处理。,67, 20, 5239-5269 (2019) ·Zbl 07123429号 ·doi:10.1109/TSP.2019.2937282
[8] 院长,S。;马尼亚,H。;北马特尼。;Recht,B。;Tu,S.,关于线性二次调节器的样本复杂度,Found。计算。数学。,20, 633-679 (2020) ·Zbl 1447.49052号 ·doi:10.1007/s10208-019-09426-y
[9] Doyle,JC,LQG调节器的保证裕度,IEEE Trans。自动。控制,23,4,756-757(1978)·doi:10.1109/TAC.1978.1101812
[10] Fatkhullin,I。;Polyak,B.,《优化静态线性反馈:梯度法》,SIAM J.Control。最佳。,59, 5, 3887-3911 (2021) ·Zbl 1475.49039号 ·doi:10.1137/20M1329858
[11] Fazel,M.,Ge,R.,Kakade,S.,Mesbahi,M.:线性二次调节器政策梯度方法的全局收敛性。摘自:《第35届国际机器学习会议论文集》,《机器学习研究论文集》第80卷,第1467-1476页(2018)
[12] 冯·H。;Lavaei,J.,稳定静态分散控制器集的连通性性质,SIAM J.控制。最佳。,58, 5, 2790-2820 (2020) ·Zbl 1452.49013号 ·doi:10.1137/19M123765X
[13] Furieri,L.,Zheng,Y.,Kamgarpour,M.:学习全局最优分布式LQ调节器。摘自:《第二届动力学和控制学习会议论文集》,《机器学习研究论文集》第120卷,第287-297页(2020年)
[14] Furieri,L。;郑毅。;Papachristodoulou,A。;Kamgarpour,M.,《稳定控制器的输入-输出参数化:Amidst Youla和系统级综合》,IEEE控制系统。莱特。,3, 4, 1014-1019 (2019) ·doi:10.1109/LCSYS.2019.2920205
[15] Gahinet,P。;Apkarian,P.,一种线性矩阵不等式方法{高}_\infty控制,国际鲁棒非线性控制杂志,4,4,421-448(1994)·Zbl 0808.93024号 ·doi:10.1002/rnc.4590040403文件
[16] Ge,R.,Ma,T.:关于张量分解的优化前景。高级神经信息处理。系统。,第30卷(2017)·邮编:1494.90085
[17] Hyland,D。;Bernstein,D.,固定阶动态补偿的最佳投影方程,IEEE Trans。自动。控制,29,11,1034-1037(1984)·Zbl 0555.93069号 ·doi:10.1109/TAC.1984.1103418
[18] Jin,C.,Ge,R.,Netrapalli,P.,Kakade,S.M.,Jordan,M.I.:如何有效逃离鞍点。在:《第34届机器学习国际会议论文集》,《机器学习研究论文集》,第70卷,第1724-1732页(2017)
[19] Lale,S。;Azizzadenesheli,K。;Hassibi,B。;Anandkumar,A.,部分可观测线性动力系统中的对数遗憾界,高级神经信息处理。系统。,33, 20876-88 (2020)
[20] Lale,S.、Azizzadenesheli,K.、Hassibi,B.、Anandkumar,A.:线性二次高斯(LQG)设置中的自适应控制和后悔最小化。收录于:2021年美国控制会议(ACC),第2517-2522页(2021年)
[21] Lee,JM,《平滑管汇简介》(2013),美国纽约州纽约市:美国纽约州斯普林格·Zbl 1258.53002号
[22] 李,X。;卢,J。;Arora,R。;Haupt,J。;刘,H。;Wang,Z。;Zhao,T.,非凸矩阵分解的对称性、鞍点和全局优化前景,IEEE Trans。《信息论》,65,6,3489-3514(2019)·Zbl 1432.90123 ·doi:10.1109/TIT.2019.2898663
[23] 李毅。;唐,Y。;张,R。;Li,N.,分散线性二次控制的分布式强化学习:无导数策略优化方法,IEEE Trans。自动。控制,67,12,6429-6444(2022)·Zbl 07742142号 ·doi:10.10109/TAC.2021.3128592
[24] Malik,D.,Pananjady,A.,Bhatia,K.,Khamaru,K.Bartlett,P.,Wainwright,M.:政策优化的无导数方法:线性二次系统的保证。摘自:《第二十二届人工智能与统计国际会议论文集》,《机器学习研究论文集》第89卷,第2916-2925页(2019年)·Zbl 1498.93784号
[25] I·Masubuchi。;Ohara,A。;Suda,N.,基于LMI的控制器综合:统一的公式和解决方案,《国际鲁棒非线性控制》,8,8,669-686(1998)·Zbl 0921.93012 ·doi:10.1002/(SICI)1099-1239(19980715)8:8<669::AID-RNC337>3.0.CO;2瓦
[26] Mohammadi,H.,Soltanolkotabi,M.,Jovanović,M.R.:关于不完全状态信息下线性二次高斯问题缺乏梯度控制的问题。摘自:第60届IEEE决策与控制会议(CDC)会议记录,第1120-1124页(2021年)
[27] Mohammadi,H。;扎尔,A。;Soltanolkotabi,M。;Jovanović,MR,无模型线性二次调节器问题梯度方法的收敛性和样本复杂性,IEEE Trans。自动。控制,67,5,2435-2450(2021)·Zbl 07564859号 ·doi:10.1109/TAC.2021.3087455
[28] 蒙哥马利,D。;Zippin,L.,拓扑变换组(2018),美国纽约州米诺拉市:多佛出版社,美国纽约市米诺拉·Zbl 1418.57024号
[29] Oymak,S.,Ozay,N.:从单个轨迹对LTI系统进行非症状识别。收录于:2019年美国控制会议(ACC),第5655-5661页(2019年)
[30] 瞿,Q,翟,Y,李,X,张,Y,朱,Z:过完备表征学习的优化景观分析。arXiv预印arXiv:1912.02427(2019)
[31] Recht,B.,强化学习之旅:来自连续控制的观点,Ann.Rev.control,Robot,Autonom Syst。,2, 253-279 (2019) ·doi:10.1146/anurev-control-053018-023825
[32] 谢勒,C。;Gahinet,P。;Chilali,M.,通过LMI优化的多目标输出反馈控制,IEEE Trans。自动。控制,42,7,896-911(1997)·Zbl 0883.93024号 ·doi:10.1109/9.599969
[33] Simchowitz,M.、Singh,K.、Hazan,E.:非随机控制的不当学习。摘自:《第三十三届学习理论会议论文集》,《机器学习研究论文集》第125卷,第3320-3436页(2020)
[34] Sun,J。;曲,Q。;Wright,J.,相位恢复的几何分析,Found。计算。数学。,18, 1131-1198 (2018) ·Zbl 1401.94049号 ·doi:10.1007/s10208-017-9365-9
[35] Tang,Y.,Zheng,Y.Li,N.:线性二次高斯(LQG)控制的优化前景分析。摘自:《动力学和控制学习第三届会议论文集》,《机器学习研究论文集》第144卷,第599-610页(2021)
[36] Tu,S.,Boczar,R.,Packard,A.,Recht,B.:粗粒度识别鲁棒控制的非症状分析。arXiv预印本arXiv:11707.04791(2017)
[37] Tu,S.,Recht,B.:线性二次调节器基于模型和无模型方法之间的差距:渐近观点。摘自:《第三十二届学习理论会议论文集》,《机器学习研究论文集》第99卷,第3036-3083页(2019年)
[38] Umenberger,J.、Ferizbegovic,M.、Schön,T.B.、Hjalmarsson,H.:线性二次强化学习中的稳健探索。高级神经信息处理。系统。,第32卷(2019年)
[39] 王,YS;Matni,N。;Doyle,JC,控制器综合的系统级方法,IEEE Trans。自动。控制,64,10,4079-4093(2019)·Zbl 1482.93194号 ·doi:10.1109/TAC.2018.2890753
[40] 哥伦比亚特区尤拉;贾布尔,HA;Bongiorno,JJ Jr,最优控制器的现代Wiener-Hopf设计——第二部分:多变量情况,IEEE Trans。自动。控制,21,3,319-338(1976)·Zbl 0339.93035号 ·doi:10.1109/TAC.1976.1101223
[41] Yousuff,A。;斯凯尔顿,RE,平衡控制器简化注释,IEEE Trans。自动。控制,29,3,254-257(1984)·Zbl 0535.93014号 ·doi:10.1109/TAC.1984.1103497
[42] Zhang,K.,Hu,B.,Basar,T.:具有鲁棒性保证的(H\it_2)线性控制的策略优化:隐式正则化和全局收敛。在:《第二届动力学与控制学习会议论文集》,《机器学习研究论文集》,第120卷,第179-190页(2020)
[43] Zhang,Y.,Qu,Q.,Wright,J.:从对称到几何:可处理的非凸问题。arXiv预打印arXiv:2007.06753(2020)
[44] Zheng,Y.,Furieri,L.,Kamgarpour,M.,Li,N.:输出反馈系统线性二次高斯(LQG)控制的样本复杂性。摘自:第三届动力学和控制学习会议论文集,《机器学习研究论文集》,第144卷,第559-570页(2021年)
[45] 郑毅。;Furieri,L。;Papachristodoulou,A。;李,N。;Kamgarpour,M.,《关于Youla、系统级和输入输出参数化的等效性》,IEEE Trans。自动。控制,66,1,413-420(2021)·Zbl 07320166号 ·doi:10.1109/TAC.2020.2979785
[46] Zheng,Y.,Li,N.:使用多轨迹的线性动力系统的非症状识别。IEEE控制系统。莱特。5(5), 1693-1698 (2021)
[47] Zheng,Y.,Tang,Y.Li,N.:线性二次高斯(LQG)控制的优化前景分析。技术报告。arXiv:2102.04393(2021)
[48] 周,K。;道尔,JC;Glover,K.,鲁棒与最优控制(1996),美国新泽西州上鞍河:Prentice Hall,美国新泽西州上鞍河·Zbl 0999.49500
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。