×

简单随机博弈算法的比较。 (英语) Zbl 07455745号

Raskin,Jean-Francois(ed.)等人,《第十一届游戏、自动机、逻辑和形式验证国际研讨会论文集》,《甘道夫2020》,比利时布鲁塞尔,2020年9月21日至22日。滑铁卢:开放出版协会(OPA)。电子。程序。西奥。计算。科学。(EPTCS)326、131-148(2020年)。
摘要:简单随机博弈是以可达性为目标的轮基(2frac{1}{2})-玩家零和图博弈。问题是计算双方的获胜概率以及最优策略。在本文中,我们从理论和实践上比较了三类已知的算法——值迭代、策略迭代和二次规划。此外,我们建议对所有算法进行一些改进,包括基于二次规划的第一种方法,该方法避免了将随机博弈转换为停止博弈。我们的大量实验表明,这些改进可以显著加快速度。我们在PRISM-games 3.0中实现了所有算法,从而首次实现了求解简单随机博弈的二次规划。
关于整个系列,请参见[Zbl 1466.68026号].

MSC公司:

65年第68季度 形式语言和自动机
60年第68季度 规范和验证(程序逻辑、模型检查等)
91A80型 博弈论的应用
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] Pranav Ashok、Krishnendu Chatterjee、Jan Kretínskí、Maximilian Weininger和Tobias Winkler(2020):广义可达性随机博弈的近似值。收录于:LICS,ACM,第102-115页,doi:10.1145/3373718.3394761·兹比尔1455.91035 ·数字对象标识代码:10.1145/3373718.3394761
[2] 普拉纳夫·阿肖克(Pranav Ashok)、扬·克伦斯克(Jan Kretínsk)和马克西米利安·魏宁格(Maximilian Weininger)(2019):马尔可夫决策过程和随机博弈的PAC统计模型检验。收录于:CAV(1),计算机科学讲座笔记11561,Springer,第497-519页,doi:10.1007/978-3-030-25540-4 29·Zbl 07805551号 ·doi:10.1007/978-3-030-25540-4_29
[3] Christel Baier和Joost-Pieter Katoen(2008):模型检查原理。麻省理工学院出版社·Zbl 1179.68076号
[4] Christel Baier、Joachim Klein、Linda Leuschner、David Parker和Sascha Wunderlich(2017):确保模型检查器的可靠性:马尔可夫决策过程的区间迭代。收录于:CAV(1),计算机科学课堂讲稿10426,Springer,第160-180页,doi:10.1007/978-3319-63387-9 8·Zbl 1494.68159号 ·数字对象标识代码:10.1007/978-3-319-63387-98
[5] Tomás Brázdil、Krishnendu Chatterjee、Martin Chmelik、Vojtech Forejt、Jan Kretínsk、Marta Z.Kwiatkowska、David Parker和Mateusz Ujma(2014):使用学习算法验证马尔可夫决策过程。收录于:ATVA,计算机科学讲座笔记8837,Springer,第98-114页,doi:10.1007/978-3319-11936-68·Zbl 1448.68290号 ·doi:10.1007/978-3-319-11936-68
[6] Krishnendu Chatterjee、Luca de Alfaro和Thomas A.Henzinger(2013年):基于循环可达性和基于循环的随机安全博弈的策略改进。J.计算。系统。科学。79(5),第640-657页,doi:10.1016/j.jcss.2012.12.001·Zbl 1269.91022号 ·doi:10.1016/j.jcss.2012.12.001
[7] Krishnendu Chatterjee和Nathanaöl Fijalkow(2011):从平价游戏减少到简单随机游戏。收录于:GandALF,第74-86页,doi:10.4204/EPTCS.54.6·Zbl 1460.91027号 ·doi:10.4204/EPTCS.54.6
[8] Krishnendu Chatterjee、Kristoffer Arnsfelt Hansen和Rasmus Ibsen-Jensen(2017):并发安全游戏的战略复杂性。在:MFCS,LIPIcs 83,Schloss Dagstuhl-Leibniz Zentrum für Informatik,第55:1-55:13页,doi:10.4230/LIPIcs。制造商.2017.55·Zbl 1447.91018号 ·doi:10.4230/LIPIcs。货币金融服务2017.55
[9] Krishnendu Chatterjee和Thomas A.Henzinger(2008):价值迭代。摘自:《模型检验25年》,《计算机科学5000讲义》,Springer,第107-138页,doi:10.1007/978-3-540-69850-0 7·Zbl 1143.68042号 ·doi:10.1007/978-3-540-69850-07
[10] Krishnendu Chatterjee和Thomas A.Henzinger(2012):随机ω-正则游戏的调查。J.计算。系统。科学。78(2),第394-413页,doi:10.1016/j.jcss.2011.05.002·Zbl 1237.91036号 ·doi:10.1016/j.jcss.2011.05.002
[11] Krishnendu Chatterjee、Thomas A.Henzinger、Barbara Jobstmann和Arjun Radhakrishna(2010):要点:概率游戏的解算器。收录于:CAV,计算机科学讲稿6174,Springer,第665-669页,doi:10.1007/978-3642-14295-6 57·doi:10.1007/978-3642-14295-6_57
[12] Krishnendu Chatterjee、Koushik Sen和Thomas A.Henzinger(2008):区间马尔可夫链的欧米伽正则性模型检验。收录于:FoSSaCS,《计算机科学讲义4962》,施普林格,第302-317页,doi:10.1007/9784-922·Zbl 1138.68441号 ·doi:10.1007/978-3-540-78499-9_22
[13] Taolue Chen、Vojtech Forejt、Marta Z.Kwiatkowska、Aistis Simaitis和Clemens Wiltsche(2013):关于多目标随机游戏。收录于:MFCS,计算机科学课堂讲稿8087,Springer,第266-277页,doi:10.1007/978-3642-40313-225·兹比尔1400.91040 ·doi:10.1007/978-3-642-40313-25
[14] Chih-Hong Cheng、Alois Knoll、Michael Luttenberger和Christian Buckl(2011):GAVS+:算法游戏解决研究的开放平台。收录于:TACAS,《6605计算机科学讲义》,Springer,第258-261页,doi:10.1007/978-3642-19835-9 22·doi:10.1007/978-3-642-19835-9_22
[15] 安妮·康登(1990):关于简单随机游戏的算法。收录于:《计算复杂性理论进展》,《离散数学和理论计算机科学中的DIMACS系列》13,DIMAC-S/AMS,第51-71页,doi:10.1090/DIMACS/013/04·Zbl 0808.90141号 ·doi:10.1090/dimacs/013/04
[16] 安妮·康登(1992):随机游戏的复杂性。Inf.计算。96(2),第203-224页,doi:10.1016/0890-5401(92)90048-K·Zbl 0756.90103号 ·doi:10.1016/0890-5401(92)90048-K
[17] Costas Courcoubetis和Mihalis Yannakakakis(1995):概率验证的复杂性。J.ACM 42(4),第857-907页,doi:10.1145/210332.210339·Zbl 0885.68109号 ·doi:10.1145/210332.210339
[18] 戴德成,葛荣(2011):简单随机博弈的另一个次指数算法。《算术》61(4),第1092-1104页,doi:10.1007/s00453-010-9413-1·Zbl 1233.91027号 ·doi:10.1007/s00453-010-9413-1
[19] 彭戴、毛萨姆、丹尼尔·维尔德和朱迪·戈德史密斯(2011):拓扑值迭代算法。J.阿蒂夫。智力。第42号决议,第181-209页。可在http://jair.org/papers/paper3390.html。 ·Zbl 1279.90183号
[20] J.Filar和K.Vrieze(1997):竞争马尔可夫决策过程。斯普林格·弗拉格·Zbl 0934.91002号
[21] Hugo Gimbert和Florian Horn(2008):很少有随机顶点的简单随机游戏很容易求解。在:FoSSaCS,计算机科学讲义4962,施普林格,第5-19页,doi:10.1007/978-3-540-78499-9 2·兹比尔1138.91337 ·doi:10.1007/978-3-540-78499-92
[22] Serge Haddad和Benjamin Monmege(2018):MDP和IMDP的区间迭代算法。西奥。计算。科学。735,第111-131页,doi:10.1016/j.tcs.2016.12.003·Zbl 1393.68103号 ·doi:10.1016/j.tcs.2016.12.003
[23] Ernst Moritz Hahn、Arnd Hartmanns、Christian Hensel、Michaela Klauck、Joachim Klein、Jan Kretínsk、David Parker、Tim Quatmann、Enno Ruijters和Marcel Steinmetz(2019):2019年定量形式模型分析工具的比较-(QComp 2019竞争报告)。收录于:TACAS(3),计算机科学讲义11429,Springer,第69-92页,doi:10.1007/978-3-030-17502-3 5·doi:10.1007/978-3-030-17502-35
[24] Kristoffer Arnsfelt Hansen、Rasmus Ibsen-Jensen和Peter Bro Miltersen(2014):使用价值和策略迭代解决可达性游戏的复杂性。理论计算。系统。55(2),第380-403页,doi:10.1007/s00224-013-9524-6·Zbl 1319.68149号 ·doi:10.1007/s00224-013-9524-6
[25] Arnd Hartmanns和Benjamin Lucien Kaminski(2020):乐观价值迭代。收录于:CAV(2),计算机科学讲义12225,Springer,第488-511页,doi:10.1007/978-3-030-53291-826·Zbl 1478.68161号 ·doi:10.1007/978-3-030-53291-8-26
[26] A.J.Hoffman和R.M.Karp(1966):关于非终止随机游戏。《管理科学》12(5),第359-370页,doi:10.1287/mnsc.125.359·Zbl 0136.14303号 ·doi:10.1287/mnsc.125.359
[27] 拉斯穆斯·易卜森·詹森(Rasmus Ibsen-Jensen)和彼得·布罗·米尔特森(Peter Bro Miltersen)(2012):用很少的投币位置解决简单随机游戏。收录于:欧空局,《计算机科学讲义7501》,斯普林格出版社,第636-647页,doi:10.1007/978-3642-33090-255·Zbl 1365.68283号 ·doi:10.1007/978-3-642-33090-255
[28] Mark Kattenbelt、Marta Z.Kwiatkowska、Gethin Norman和David Parker(2010):马尔可夫决策过程的基于游戏的抽象再定义框架。系统设计中的形式方法36(3),第246-280页,doi:10.1007/s10703-010-0097-6·Zbl 1233.90276号 ·doi:10.1007/s10703-010-0097-6
[29] Edon Kelmendi、Julia Krämer、Jan Kretínsk和Maximilian Weininger(2018):简单随机游戏的值迭代:停止标准和学习算法。收录于:CAV(1),计算机科学课堂讲稿10981,Springer,第623-642页,doi:10.1007/978-3-319-96145-3 36·Zbl 1511.91010号 ·doi:10.1007/978-3-319-96145-336
[30] Mikhail K Kozlov,Sergei P Tarasov和Leonid G Khachiyan(1980):凸二次规划的多项式可解性。苏联计算数学和数学物理20(5),第223-228页,doi:10.1016/0041-5553(80)90098-1·Zbl 0486.90068号 ·doi:10.1016/0041-5553(80)90098-1
[31] Jan Kretínskínsk&Tobias Meggendorfer(2017):马尔可夫决策过程中平均收益的有效策略迭代。在:ATVA,《计算机科学讲义》10482,施普林格,第380-399页,doi:10.1007/978-3-319-68167-2 25·兹比尔1495.68152 ·doi:10.1007/978-3-319-68167-2_25
[32] Jan Kretínskínsk&Tobias Meggendorfer(2019):核心:马尔可夫决策过程的部分探索框架。收录于:CONCUR,LIPIcs 140,Schloss Dagstuhl-Leibniz Zentrum für Informatik,第5:1-5:17页,doi:10.4230/LIPIcs。合同2019.5·Zbl 07269250号 ·doi:10.4230/LIPIcs。合同2019.5
[33] Jan Kretínskí,Emanuel Ramneantu,Alexander Slivinskiy和Maximilian Weininger(2020):简单随机游戏算法比较(完整版)。CoRR abs/2008.09465。
[34] Marta Kwiatkowska、Gethin Norman、David Parker和Gabriel Santos(2020):PRISM-games 3.0:具有并发、均衡和时间的随机博弈验证。收录于:CAV(2),计算机科学讲义12225,Springer,第475-487页,doi:10.1007/978-3-030-53291-825·doi:10.1007/978-3-030-53291-8-25
[35] Walter Ludwig(1995):简单随机博弈问题的次指数随机算法。Inf.计算。117(1),第151-155页,doi:10.1006/inco.1995.1035·Zbl 0827.90141号 ·doi:10.1006/inco.1995.1035
[36] Martin L.Puterman(1994):马尔可夫决策过程:离散随机动态规划。威利概率统计系列,威利,doi:10.1002/9780470316887·兹伯利0829.90134 ·doi:10.1002/9780470316887
[37] Tim Quatmann和Joost-Pieter Katoen(2018):声音值迭代。收录于:CAV(1),《计算机科学课堂讲稿》10981,Springer,第643-661页,doi:10.1007/978-3319-96145-3 37·Zbl 1511.68167号 ·doi:10.1007/978-3-319-96145-3_37
[38] Rafal Somla(2005):求解简单随机游戏的新算法。电子。注释Theor。计算。科学。119(1),第51-65页,doi:10.1016/j.entcs.2004.07.008·Zbl 1272.91028号 ·doi:10.1016/j.entcs.2004.07.008
[39] María Svorenová和Marta Kwiatkowska(2016):斯托克游戏的定量验证和策略合成。Eur.J.Control 30,第15-30页,doi:10.1016/J.ejcon.2016.04.009·Zbl 1347.93240号 ·doi:10.1016/j.ejcon.2016.04.009
[40] Maximilian Weininger、Tobias Meggendorfer和Jan Kretínsk(2019):有界参数Markov决策过程中ω-正则性质的可满足边界。收录于:CDC,IEEE,第2284-2291页,doi:10.1109/CDC40024.2019.9029460·doi:10.1109/CDC40024.2019.9029460
[41] Uri Zwick和Mike Paterson(1996):图上平均回报游戏的复杂性。西奥。计算。科学。158(1&2),第343-359页,doi:10.1016/0304-3975(95)00188-3·Zbl 0871.68138号 ·doi:10.1016/0304-3975(95)00188-3
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。