部分可观测Markov决策过程中基于任务软件可验证RNN的策略

主要文章内容

史蒂文·卡尔
尼尔斯·詹森
Ufuk Topcu公司

摘要

部分可观测马尔可夫决策过程(POMDP)是不确定性和不完全信息下的序列决策模型。机器学习方法通常将递归神经网络(RNN)训练为POMDP策略的有效表示,可以有效地处理序列数据。然而,很难验证由这种基于RNN的策略驱动的POMDP是否满足安全约束,例如时序逻辑规范给出的安全约束。我们提出了一种将机器学习技术与形式化方法相结合的新方法:训练基于RNN的策略,然后从RNN中自动提取所谓的有限状态控制器(FSC)。这种FSC提供了一种方便的方法来验证时序逻辑约束。在POMDP上实现后,它们导出了一个马尔可夫链,概率验证方法可以有效地检查此导出的马尔可夫链条是否满足时序逻辑规范。使用这样的方法,如果马尔可夫链不满足规范,则验证的副产品是关于POMDP中对规范至关重要的状态的诊断信息。该方法利用该诊断信息来调整提取的FSC的复杂度,或者通过对RNN进行重点再训练来改进策略。该方法综合了满足POMDP时序逻辑规范的策略,POMDP具有多达数百万个状态,比可比方法大三个数量级。

文章详细信息

章节
文章