×

通过学习马尔可夫决策过程中的小策略进行反例解释。 (英语) 兹比尔1381.68104

Kroening,Daniel(编辑)等人,《计算机辅助验证》。2015年7月18日至24日,第27届国际会议,CAV 2015,美国加利福尼亚州旧金山。诉讼程序。第一部分:查姆:施普林格(ISBN 978-3-319-21689-8/pbk;978-3-3169-21690-4/电子书)。计算机科学讲义9206158-177(2015)。
摘要:对于确定性系统,属性的反例可以只是错误跟踪,而概率系统中的反例必然更复杂。例如,可以使用一组具有足够累积概率质量的错误记录道。由于这些对象太大,无法理解和操作,因此考虑了子链等紧凑表示。对于具有非确定性的概率系统,情况甚至更加复杂。虽然给定策略(或解决非确定性的调度程序)的子链是一个简单的选择,但我们采用了不同的方法。相反,我们将重点放在战略本身上,提取出它做出的最重要的决策,并给出其简洁的表示。
我们用来实现这一目标的关键工具是(1)引入状态对策略重要性的概念,以及(2)使用决策树进行学习。我们的方法有三个主要的优势。首先,它利用了定量信息,强调更重要的决策。其次,它导致了在表达策略时的更大的可变性和自由度。第三,表示使用自解释数据结构。总之,与二进制决策图相比,我们的方法产生了更简洁、更易于解释的策略。最后,我们的实验结果表明,即使对于不适合内存的非常大的系统,我们也可以提取几个描述策略的规则,并根据这些规则解释错误行为。
关于整个系列,请参见[Zbl 1342.68028号].

MSC公司:

68问题32 计算学习理论
87年第68季度 计算机科学中的概率(算法分析、随机结构、相变等)
PDF格式BibTeX公司 XML格式引用