×

动态游戏的安全强化学习。 (英语) Zbl 1466.91038号

摘要:本文提出了一种用于多层安全关键系统的新型actor-critic屏障结构。首先利用障碍函数将具有全状态约束的非零和博弈转化为无约束的NZS博弈。屏障函数能够处理对状态的对称和非对称约束。结果表明,无约束NZS的纳什均衡保证了原多层系统的稳定。屏障函数与actor-critic结构相结合,在线学习纳什均衡解。结果表明,将屏障函数与行动者-批评家结构相结合可以保证在学习过程中不会违反约束。分析了闭环信号的有界性和稳定性。最后通过仿真实例验证了该方法的有效性。

MSC公司:

91A26型 博弈论中的理性与学习
91A25型 动态游戏
PDF格式BibTeX公司 XML格式引用
全文: 内政部