文件Zbl 1381.68104-zbMATH打开

托马斯·布拉兹迪尔；克里希南德·查特吉；马丁·奇梅利克；安德烈亚斯·费尔纳；简·Křetínsk

通过学习马尔可夫决策过程中的小策略进行反例解释。（英语）兹比尔1381.68104

Kroening，Daniel（编辑）等人，《计算机辅助验证》。2015年7月18日至24日，第27届国际会议，CAV 2015，美国加利福尼亚州旧金山。诉讼程序。第一部分：查姆：施普林格（ISBN 978-3-319-21689-8/pbk；978-3-3169-21690-4/电子书）。计算机科学讲义9206158-177（2015）。

摘要：对于确定性系统，属性的反例可以只是错误跟踪，而概率系统中的反例必然更复杂。例如，可以使用一组具有足够累积概率质量的错误记录道。由于这些对象太大，无法理解和操作，因此考虑了子链等紧凑表示。对于具有非确定性的概率系统，情况甚至更加复杂。虽然给定策略（或解决非确定性的调度程序）的子链是一个简单的选择，但我们采用了不同的方法。相反，我们将重点放在战略本身上，提取出它做出的最重要的决策，并给出其简洁的表示。
我们用来实现这一目标的关键工具是（1）引入状态对策略重要性的概念，以及（2）使用决策树进行学习。我们的方法有三个主要的优势。首先，它利用了定量信息，强调更重要的决策。其次，它导致了在表达策略时的更大的可变性和自由度。第三，表示使用自解释数据结构。总之，与二进制决策图相比，我们的方法产生了更简洁、更易于解释的策略。最后，我们的实验结果表明，即使对于不适合内存的非常大的系统，我们也可以提取几个描述策略的规则，并根据这些规则解释错误行为。
关于整个系列，请参见[Zbl 1342.68028号].

引用于三文件

MSC公司：

68问题32	计算学习理论
87年第68季度	计算机科学中的概率（算法分析、随机结构、相变等）

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

通过学习马尔可夫决策过程中的小策略进行反例解释。（英语）兹比尔1381.68104

MSC公司：

示例

领域

操作员

通过学习马尔可夫决策过程中的小策略进行反例解释。 （英语） 兹比尔1381.68104

MSC公司：

通过学习马尔可夫决策过程中的小策略进行反例解释。（英语）兹比尔1381.68104