×

一致连续时间Markov决策过程中时间有界可达概率的有效计算。 (英语) Zbl 1126.68467号

Jensen,Kurt(编辑)等人,《系统构建和分析的工具和算法》。2004年3月29日至4月2日在西班牙巴塞罗那举行的第十届国际会议TACAS 2004,作为软件理论与实践联合会议ETAPS 2004的一部分。诉讼程序。柏林:施普林格出版社(ISBN 3-540-21299-X/pbk)。计算机科学课堂讲稿298861-76(2004)。
摘要:连续时间马尔可夫决策过程(CTMDP)是概率选择和非确定性选择共存的连续时间马尔柯夫链的推广。本文提出了一种有效的算法来计算统一CTMDP中在给定时间范围内达到一组目标状态的最大(或最小)概率,即每个状态访问的延迟时间分布对于所有状态都是相同的CTMDP。我们证明,对于以确定性或随机方式解决不确定性的(时间抽象的)历史依赖调度器和马尔科夫调度器,这些概率是一致的。
有关整个系列,请参见[Zbl 1046.68008号].

MSC公司:

60年第68季度 规范和验证(程序逻辑、模型检查等)
PDF格式BibTeX公司 XML格式引用
全文: 内政部