×

网络系统中带结构反馈的风险约束线性二次调节器的无模型学习。 arXiv:2204.01779

预印本,arXiv:2204.01779[math.OC](2022)。
摘要:我们为无穷大线性二次调节器(LQR)问题开发了一种无模型学习算法。具体来说,考虑了(风险)约束和结构化反馈,以减少状态偏差,同时允许在实践中使用稀疏的通信图。通过将对偶问题重新定义为非凸极小极大问题,我们采用梯度下降最大阶(GDmax),而对于无模型设置,使用零阶策略梯度的随机(S)GDmax。通过使用特定定义的子级集来界定LQR成本的Lipschitz和光滑度常数,我们可以设计步长和相关参数,以建立到平稳点的收敛性(高概率)。在一个网络微电网控制问题中的数值测试验证了我们提出的SGDmax算法的收敛性,同时证明了风险约束的有效性。与经典的LQR控制相比,SGDmax算法获得了令人满意的最优性差距,尤其是在全反馈情况下。
BibTeX公司 引用
全文: arXiv公司
arXiv数据取自arXiv OAI-PMH API.如果你发现了错误,请直接向arXiv报告.