托马斯·布拉兹迪尔;克里希南德·查特吉;马丁·奇梅利克;安德烈亚斯·费尔纳;简·Křetínsk 通过学习马尔可夫决策过程中的小策略进行反例解释。 (英语) 兹比尔1381.68104 Kroening,Daniel(编辑)等人,《计算机辅助验证》。2015年7月18日至24日,第27届国际会议,CAV 2015,美国加利福尼亚州旧金山。诉讼程序。第一部分:查姆:施普林格(ISBN 978-3-319-21689-8/pbk;978-3-3169-21690-4/电子书)。计算机科学讲义9206158-177(2015)。 摘要:对于确定性系统,属性的反例可以只是错误跟踪,而概率系统中的反例必然更复杂。例如,可以使用一组具有足够累积概率质量的错误记录道。由于这些对象太大,无法理解和操作,因此考虑了子链等紧凑表示。对于具有非确定性的概率系统,情况甚至更加复杂。虽然给定策略(或解决非确定性的调度程序)的子链是一个简单的选择,但我们采用了不同的方法。相反,我们将重点放在战略本身上,提取出它做出的最重要的决策,并给出其简洁的表示。我们用来实现这一目标的关键工具是(1)引入状态对策略重要性的概念,以及(2)使用决策树进行学习。我们的方法有三个主要的优势。首先,它利用了定量信息,强调更重要的决策。其次,它导致了在表达策略时的更大的可变性和自由度。第三,表示使用自解释数据结构。总之,与二进制决策图相比,我们的方法产生了更简洁、更易于解释的策略。最后,我们的实验结果表明,即使对于不适合内存的非常大的系统,我们也可以提取几个描述策略的规则,并根据这些规则解释错误行为。关于整个系列,请参见[Zbl 1342.68028号]. 引用于三文件 MSC公司: 68问题32 计算学习理论 87年第68季度 计算机科学中的概率(算法分析、随机结构、相变等) PDF格式BibTeX公司 XML格式引用 \textit{T.Brázdil}等人,Lect。注释计算。科学。9206158--177(2015年;Zbl 1381.68104) 全文: 内政部 arXiv公司