文件arXiv：2204.01779-zbMATH Open

网络系统中带结构反馈的风险约束线性二次调节器的无模型学习。 arXiv:2204.01779

预印本，arXiv:2204.01779[math.OC]（2022）。

摘要：我们为无穷大线性二次调节器（LQR）问题开发了一种无模型学习算法。具体来说，考虑了（风险）约束和结构化反馈，以减少状态偏差，同时允许在实践中使用稀疏的通信图。通过将对偶问题重新定义为非凸极小极大问题，我们采用梯度下降最大阶（GDmax），而对于无模型设置，使用零阶策略梯度的随机（S）GDmax。通过使用特定定义的子级集来界定LQR成本的Lipschitz和光滑度常数，我们可以设计步长和相关参数，以建立到平稳点的收敛性（高概率）。在一个网络微电网控制问题中的数值测试验证了我们提出的SGDmax算法的收敛性，同时证明了风险约束的有效性。与经典的LQR控制相比，SGDmax算法获得了令人满意的最优性差距，尤其是在全反馈情况下。

BibTeX公司引用

全文： arXiv公司

OA许可证

arXiv数据取自arXiv OAI-PMH API.如果你发现了错误，请直接向arXiv报告.

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
！ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

字段

操作员

网络系统中带结构反馈的风险约束线性二次调节器的无模型学习。 arXiv:2204.01779