×

单调马尔可夫决策过程中平均收益和最短路径的Symblicit算法。 (英语) Zbl 1378.68122号

摘要:当处理具有较大状态空间的马尔可夫决策过程(MDP)时,使用显式表示很快就变得不可行。最近,Wimmer等人提出了一种所谓的符号算法,用于在预期平均值的定量设置下合成MDP中的最优策略。该算法基于Howard和Veinott的策略迭代算法,有效地结合了符号和显式数据结构,并使用二进制决策图作为符号表示。本文的目的是证明伪反链(反链的扩展)的新数据结构提供了另一种有趣的选择,特别是对于单调MDP类。我们针对两种定量设置(预期平均路径和随机最短路径)设计了高效的基于伪反链的符号算法(使用开源实现)。对于来自自动规划和(mathbf{LTL})综合的两个实际应用程序,我们报告了关于运行时间和内存消耗的有希望的实验结果。我们还表明,伪反链的一种变体允许处理概率有损信道系统定性验证的无限状态空间。

MSC公司:

87年第68季度 计算机科学中的概率(算法分析、随机结构、相变等)
68第05页 数据结构
60年第68季度 规范和验证(程序逻辑、模型检查等)
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Abdulla,P.A.,Jonsson,B.:用不可靠的渠道验证程序。Inf.计算。127(2),91-101(1996)·Zbl 0856.68096号 ·文件编号:10.1006/inco.1996.0053
[2] Baier,C.,Bertrand,N.,Schnoebelen,P.:具有概率消息丢失的通信系统的符号验证:活跃性和公平性。收录于:Najm,E.,Pradat-Peyre,J.,Donzeau-Gouge,V.(编辑)FORTE,计算机科学讲义第4229卷,第212-227页。斯普林格(2006)·Zbl 1225.68108号
[3] Baier,C.,Bertrand,N.,Schnoebelen,P.:根据ω-正则线性时间特性验证非确定性概率信道系统。ACM事务处理。计算。日志。9(1),第5条(2007年)·Zbl 1367.68181号
[4] Baier,C.:模型检查原理。麻省理工学院出版社,剑桥(2008)·Zbl 1179.68076号
[5] Baier,C.,Katoen,J.-P.,Hermanns,H.,Wolf,V.:马尔可夫链的比较分支时间语义。Inf.计算。200(2), 149-214 (2005) ·Zbl 1101.68053号 ·doi:10.1016/j.ic.2005.03.001
[6] Bertrand,N.,Schnoebelen,P.:结构良好的符号模型检查中的可计算不动点。形式方法系统。设计。43(2), 233-267 (2013) ·兹比尔1291.68247 ·doi:10.1007/s10703-012-0168-y
[7] Bertsekas,D.P.,Tsitsiklis,J.:神经动力学编程。雅典娜科学,人类学田野研究,贝尔蒙特(1996)·Zbl 0924.68163号
[8] Bertsekas,D.P.,Tsitsiklis,J.N.:随机最短路径问题分析。数学。操作。第16(3)号决议,580-595(1991)·Zbl 0751.90077号 ·doi:10.1287/门16.3.580
[9] Blum,A.L.,Langford,J.C.:图形规划框架中的概率规划。摘自:Biundo,S.,Fox,M.(编辑)《人工智能规划的最新进展》,第319-332页。斯普林格(2000)·Zbl 1189.68039号
[10] Bohy,A.,Bruyère,V.,Filiot,E.,Jin,N.,Raskin,J.-F.:相思+,LTL合成工具。收录于:Madhusudan,P.,Seshia,S.A.(编辑)CAV,计算机科学讲稿第7358卷,第652-657页。施普林格(2012)·Zbl 0796.60073号
[11] Bohy,A.,Bruyère,V.,Filiot,E.,Raskin,J.-F.:基于LTL规范与平均值目标的合成。CoRR,abs/1210.3539(2012)·Zbl 1381.68149号
[12] Bohy,A.,Bruyère,V.,Filiot,E.,Raskin,J.-F.:基于LTL规范与平均值目标的合成。摘自:Piterman,N.,Smolka,S.A.(编辑)TACAS,计算机科学讲义第7795卷,第169-184页。施普林格(2013)·Zbl 1381.68149号
[13] Bohy,A.,Bruyère,V.,Raskin,J.:单调马尔可夫决策过程中最优策略综合的符号算法。收录于:Chatterjee,K.,Ehlers,R.,Jha,S.(编辑)SYNT,EPTCS第157卷,第51-67页(2014)
[14] Bryant,R.E.:布尔函数操作的基于图形的算法。IEEE传输。计算。35(8), 677-691 (1986) ·Zbl 0593.94022号 ·doi:10.1109/TC.1986.1676819
[15] Buchholz,P.:有限马尔可夫链中的精确和普通集总性。J.应用。普罗巴伯。31(1), 59-75 (1994) ·Zbl 0796.60073号 ·doi:10.1017/S0021900200107338
[16] Burch,J.R.,Clarke,E.M.,McMillan,K.L.,Dill,D.L.,Hwang,L.J.:符号模型检查:\[10^{20} 1020年\]州及其他地区。Inf.计算。98(2), 142-170 (1992) ·Zbl 0753.68066号 ·doi:10.1016/0890-5401(92)90017-A
[17] Chatterjee,K.,Henzinger,T.A.,Jobstmann,B.,Singh,R.:In:Abdulla,P.A.,Leino,K.R.M.(编辑)TACAS,计算机科学讲义第6605卷。计算机科学课堂讲稿,第267-271页。施普林格(2011)·Zbl 0756.68035号
[18] Clarke,E.M.,Emerson,E.A.:使用分支时间时序逻辑设计和合成同步骨架。收录于:Kozen,D.(编辑)《程序逻辑》,《计算机科学讲义》第131卷,第52-71页。斯普林格(1981)·Zbl 0751.90077号
[19] de Alfaro,L.:计算概率系统中的最小和最大可达时间。收录于:Baeten,J.C.M.,Mauw,S.(编辑)CONCUR,《计算机科学讲义》第1664卷,第66-81页。斯普林格(1999)·Zbl 0949.93082号
[20] Derisavi,S.、Hermanns,H.、Sanders,W.H.:马尔可夫链中的最优状态空间集总。信息处理。莱特。87(6), 309-315 (2003) ·兹比尔1189.68039 ·doi:10.1016/S0020-0190(03)00343-0
[21] Doyen,L.,Raskin,J.-F.:基于自动机的模型检查方法的改进算法。收录于:Grumberg,O.,Huth,M.(编辑)TACAS,计算机科学讲义第4424卷,第451-465页。施普林格(2007)·Zbl 1186.68285号
[22] Fikes,R.E.,Nilsson,N.J.:STRIPS:应用定理证明解决问题的新方法。Artif公司。智力。2(3), 189-208 (1972) ·Zbl 0234.68036号
[23] Filar,J.,Vrieze,K.:竞争马尔可夫决策过程。施普林格,柏林(1997)·Zbl 0934.91002号
[24] Filiot,E.,Jin,N.,Raskin,J.-F.:LTL合成的反链和合成算法。形式方法系统。设计。39(3), 261-296 (2011) ·Zbl 1258.03046号 ·doi:10.1007/s10703-011-0115-3
[25] Finkel,A.:完全指定协议的终止问题的可决定性。分布计算。7(3), 129-135 (1994) ·doi:10.1007/BF02277857
[26] Finkel,A.,Schnoebelen,P.:到处都是结构良好的过渡系统!。西奥。计算。科学。256(1-2), 63-92 (2001) ·Zbl 0973.68170号
[27] Fujita,M.,McGeer,P.C.,Yang,J.C.-Y.:多端二进制决策图:矩阵表示的有效数据结构。形式方法系统。设计。10(2/3), 149-169 (1997) ·doi:10.1023/A:1008647823331
[28] Hansson,H.,Jonsson,B.:关于时间和可靠性的推理逻辑。表Asp。计算。6(5), 512-535 (1994) ·Zbl 0820.68113号 ·doi:10.1007/BF01211866
[29] Hartmanns,A.:Modest:定量模型的统一语言。收录于:FDL,IEEE,第44-51页(2012年)
[30] 希格曼:抽象代数中的可除性排序。程序。伦敦。数学。学会3(2),326-336(1952)·Zbl 0047.03402号 ·doi:10.1112/plms/s3-2.1.326
[31] 霍华德,R.A.:动态规划与马尔可夫过程。新泽西州威利市(1960年)·Zbl 0091.16001号
[32] Jansen,D.N.、Katoen,J.-P.、Oldenkamp,M.、Stoelinga,M.和Zaprev,I.S.:你的概率模型检查器有多快?有多胖?实验性能比较。收录于:Yorav,K.(编辑)《海法验证会议》,《计算机科学讲稿》第4899卷,第69-85页。施普林格(2007)·Zbl 0856.68096号
[33] Katoen,J.-P.,Zaprev,I.S.,Hahn,E.M.,Hermanns,H.,Jansen,D.N.:概率模型检查器MRMC.性能.评估。68(2), 90-104 (2011) ·doi:10.1016/j.peva.2010.04.001
[34] Kemeny,J.G.,Snell,J.L.:有限马尔可夫链。纽约Van Nostrand公司(1960年)·Zbl 0089.13704号
[35] Kwiatkowska,M.Z.,Norman,G.,Parker,D.:PRISM 4.0:概率实时系统验证。收录于:Gopalakrishnan,G.,Qadeer,S.(eds.)CAV,《计算机科学讲义》第6806卷,第585-591页。施普林格(2011)
[36] Larsen,K.G.,Skou,A.:通过概率测试的相互模拟。Inf.计算。94(1), 1-28 (1991) ·Zbl 0756.68035号 ·doi:10.1016/0890-5401(91)90030-6
[37] 马杰西克,SM;利特曼,ML;Simmons,RG(编辑);Veloso,MM(编辑);Smith,SF(编辑),《Maxplan:概率规划的新方法》,86-93(1998),帕洛阿尔托
[38] Pachl,J.K.:基于带有信道表达式的状态转换模型的协议描述和分析。收录人:Rudin,H.,West,C.H.(编辑)PSTV,IFIP WG6.1会议记录,第207-219页。北荷兰(1987)
[39] Paige,R.,Tarjan,R.E.:三种分区优化算法。SIAM J.计算。16(6), 973-989 (1987) ·Zbl 0654.68072号 ·数字对象标识代码:10.1137/0216062
[40] Parker,D.:个人沟通,2013-11-20·Zbl 0654.68072号
[41] Puterman,M.L.:马尔可夫决策过程:离散随机动态规划。新泽西州威利(1994)·Zbl 0829.90134号 ·doi:10.1002/9780470316887
[42] Russell,S.J.,Norvig,P.:《人工智能:现代方法》。普伦蒂斯·霍尔(Prentice Hall),恩格尔伍德悬崖(Englewood Cliffs)(1995年)·Zbl 0835.68093号
[43] Veinott,A.F.:关于在无折扣的离散动态规划中寻找最优策略。安。数学。Stat.37(5),1284-1294(1966)·Zbl 0149.16301号
[44] Von Essen,C.:个人沟通,2013-11-20·Zbl 0856.68096号
[45] Von Essen,C.,Jobstmann,B.:合成高效控制器。收录于:Kuncak,V.,Rybalchenko,A.(编辑)VMCAI,计算机科学讲义第7148卷,第428-444页。施普林格(2012)·Zbl 1326.68190号
[46] Wimmer,R.、Braitling,B.、Becker,B.、Hahn,E.M.、Crouzen,P.、Hermanns,H.、Dhama,A.、Theel,O.E.:并发概率系统长期平均值的Symblicit计算。摘自:QEST,IEEE计算机学会,第27-36页(2010年)
[47] Wulf,M.D.,Doyen,L.,Henzinger,T.A.,Raskin,J.-F.:反链:检查有限自动机普遍性的新算法。摘自:Ball,T.,Jones,R.B.(编辑)CAV,计算机科学讲稿第4144卷,第17-30页。斯普林格(2006)·Zbl 1188.68171号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。