Task-Aware Verifiable RNN-Based Policies for Partially Observable Markov Decision Processes

Steven Carr; Nils Jansen; Ufuk Topcu

doi:10.1613/jair.1.12963

PDF格式

出版：2021年11月18日

内政部： https://doi.org/10.1613/jair.1.12963

关键词：

马尔可夫决策过程、神经网络、不确定性

史蒂文·卡尔

德克萨斯大学奥斯汀分校

尼尔斯·詹森

荷兰奈梅亨Radboud大学

Ufuk Topcu公司

德克萨斯大学奥斯汀分校

摘要

部分可观测马尔可夫决策过程（POMDP）是不确定性和不完全信息下的序列决策模型。机器学习方法通常将递归神经网络（RNN）训练为POMDP策略的有效表示，可以有效地处理序列数据。然而，很难验证由这种基于RNN的策略驱动的POMDP是否满足安全约束，例如时序逻辑规范给出的安全约束。我们提出了一种将机器学习技术与形式化方法相结合的新方法：训练基于RNN的策略，然后从RNN中自动提取所谓的有限状态控制器（FSC）。这种FSC提供了一种方便的方法来验证时序逻辑约束。在POMDP上实现后，它们导出了一个马尔可夫链，概率验证方法可以有效地检查此导出的马尔可夫链条是否满足时序逻辑规范。使用这样的方法，如果马尔可夫链不满足规范，则验证的副产品是关于POMDP中对规范至关重要的状态的诊断信息。该方法利用该诊断信息来调整提取的FSC的复杂度，或者通过对RNN进行重点再训练来改进策略。该方法综合了满足POMDP时序逻辑规范的策略，POMDP具有多达数百万个状态，比可比方法大三个数量级。

问题

第72卷（2021年）

章节

文章

文章提要栏

主要文章内容

摘要

文章详细信息