杨永良;瓦姆武达基斯,Kyriakos G。;哈米德雷扎·莫达雷斯 动态游戏的安全强化学习。 (英语) Zbl 1466.91038号 国际J鲁棒非线性控制 30,第9期,3706-3726(2020). 摘要:本文提出了一种用于多层安全关键系统的新型actor-critic屏障结构。首先利用障碍函数将具有全状态约束的非零和博弈转化为无约束的NZS博弈。屏障函数能够处理对状态的对称和非对称约束。结果表明,无约束NZS的纳什均衡保证了原多层系统的稳定。屏障函数与actor-critic结构相结合,在线学习纳什均衡解。结果表明,将屏障函数与行动者-批评家结构相结合可以保证在学习过程中不会违反约束。分析了闭环信号的有界性和稳定性。最后通过仿真实例验证了该方法的有效性。 引用于13文件 MSC公司: 91A26型 博弈论中的理性与学习 91A25型 动态游戏 关键词:自适应最优学习;屏障-致动器-临界结构;纳什均衡;安全意识游戏 PDF格式BibTeX公司 XML格式引用 \textit{Y.Yang}等,《国际鲁棒非线性控制》30,No.9,3706--3726(2020;Zbl 1466.91038) 全文: 内政部