亚历山大·戴维;Jensen,Peter G。;金·古德斯特兰·拉森;Legay、Axel;青柠,迪迪埃;瑟伦森,马蒂亚斯·格兰德;雅各布·H·塔安克维斯特。 以最低的预期成本按时完成! (英语) Zbl 1448.68294号 Cassez,Franck(编辑)等人,《用于验证和分析的自动化技术》。2014年11月3日至7日,澳大利亚新南威尔士州悉尼,第十二届国际研讨会,ATVA 2014。诉讼程序。柏林:斯普林格。莱克特。注释计算。科学。8837, 129-145 (2014). 摘要:(定价)时间博弈是两层定量博弈,涉及一个假定为完全自反的环境。经典分析包括综合确保安全、有时间限制或成本限制的可达性目标的策略。假设一个随机环境,(定价)时间博弈本质上定义了一个无限状态的马尔可夫(奖励)决策过程。在这种情况下,经典的目标是找到一种策略,使预期可达性成本最小化,但不保证最坏情况下的行为。在本文中,我们提供了计算可达性策略的有效方法,这些策略既能确保最坏情况下的时限,又能提供(接近)最小的预期成本。我们的方法扩展了综合工具的综合算法Uppaal-Tiga公司使用合适的自适应强化学习技术,可以使w.r.t.以前已知的自动化方法得到几个数量级的改进。关于整个系列,请参见[Zbl 1325.68014号]. 引用于9文件 MSC公司: 60年第68季度 规范和验证(程序逻辑、模型检查等) 65年第68季度 形式语言和自动机 68T05型 人工智能中的学习和自适应系统 90B35型 运筹学中的确定性调度理论 90立方厘米 马尔可夫和半马尔可夫决策过程 91A80型 博弈论的应用 软件:Uppaal公司 PDF格式BibTeX公司 XML格式引用 \textit{A.David}等人,Lect。注释计算。科学。8837、129--145(2014年;Zbl 1448.68294) 全文: 内政部