文件Zbl 07455745745-zbMATH打开

简·Křetínsk；伊曼纽尔·拉姆尼安图；亚历山大·斯利文斯基；马克西米利安·威宁格

简单随机博弈算法的比较。（英语） Zbl 07455745号

Raskin，Jean-Francois（ed.）等人，《第十一届游戏、自动机、逻辑和形式验证国际研讨会论文集》，《甘道夫2020》，比利时布鲁塞尔，2020年9月21日至22日。滑铁卢：开放出版协会（OPA）。电子。程序。西奥。计算。科学。（EPTCS）326、131-148（2020年）。

摘要：简单随机博弈是以可达性为目标的轮基（2frac{1}{2}）-玩家零和图博弈。问题是计算双方的获胜概率以及最优策略。在本文中，我们从理论和实践上比较了三类已知的算法——值迭代、策略迭代和二次规划。此外，我们建议对所有算法进行一些改进，包括基于二次规划的第一种方法，该方法避免了将随机博弈转换为停止博弈。我们的大量实验表明，这些改进可以显著加快速度。我们在PRISM-games 3.0中实现了所有算法，从而首次实现了求解简单随机博弈的二次规划。
关于整个系列，请参见[Zbl 1466.68026号].

引用于4文件

MSC公司：

65年第68季度	形式语言和自动机
60年第68季度	规范和验证（程序逻辑、模型检查等）
91A80型	博弈论的应用

软件：

PRISM-游戏；主旨；GAVS公司

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	Pranav Ashok、Krishnendu Chatterjee、Jan Kretínskí、Maximilian Weininger和Tobias Winkler（2020）：广义可达性随机博弈的近似值。收录于：LICS，ACM，第102-115页，doi:10.1145/3373718.3394761·兹比尔1455.91035 ·数字对象标识代码：10.1145/3373718.3394761
[2]	普拉纳夫·阿肖克（Pranav Ashok）、扬·克伦斯克（Jan Kretínsk）和马克西米利安·魏宁格（Maximilian Weininger）（2019）：马尔可夫决策过程和随机博弈的PAC统计模型检验。收录于：CAV（1），计算机科学讲座笔记11561，Springer，第497-519页，doi:10.1007/978-3-030-25540-4 29·Zbl 07805551号 ·doi:10.1007/978-3-030-25540-4_29
[3]	Christel Baier和Joost-Pieter Katoen（2008）：模型检查原理。麻省理工学院出版社·Zbl 1179.68076号
[4]	Christel Baier、Joachim Klein、Linda Leuschner、David Parker和Sascha Wunderlich（2017）：确保模型检查器的可靠性：马尔可夫决策过程的区间迭代。收录于：CAV（1），计算机科学课堂讲稿10426，Springer，第160-180页，doi:10.1007/978-3319-63387-9 8·Zbl 1494.68159号 ·数字对象标识代码：10.1007/978-3-319-63387-98
[5]	Tomás Brázdil、Krishnendu Chatterjee、Martin Chmelik、Vojtech Forejt、Jan Kretínsk、Marta Z.Kwiatkowska、David Parker和Mateusz Ujma（2014）：使用学习算法验证马尔可夫决策过程。收录于：ATVA，计算机科学讲座笔记8837，Springer，第98-114页，doi:10.1007/978-3319-11936-68·Zbl 1448.68290号 ·doi:10.1007/978-3-319-11936-68
[6]	Krishnendu Chatterjee、Luca de Alfaro和Thomas A.Henzinger（2013年）：基于循环可达性和基于循环的随机安全博弈的策略改进。J.计算。系统。科学。79（5），第640-657页，doi:10.1016/j.jcss.2012.12.001·Zbl 1269.91022号 ·doi:10.1016/j.jcss.2012.12.001
[7]	Krishnendu Chatterjee和Nathanaöl Fijalkow（2011）：从平价游戏减少到简单随机游戏。收录于：GandALF，第74-86页，doi:10.4204/EPTCS.54.6·Zbl 1460.91027号 ·doi:10.4204/EPTCS.54.6
[8]	Krishnendu Chatterjee、Kristoffer Arnsfelt Hansen和Rasmus Ibsen-Jensen（2017）：并发安全游戏的战略复杂性。在：MFCS，LIPIcs 83，Schloss Dagstuhl-Leibniz Zentrum für Informatik，第55:1-55:13页，doi:10.4230/LIPIcs。制造商.2017.55·Zbl 1447.91018号 ·doi:10.4230/LIPIcs。货币金融服务2017.55
[9]	Krishnendu Chatterjee和Thomas A.Henzinger（2008）：价值迭代。摘自：《模型检验25年》，《计算机科学5000讲义》，Springer，第107-138页，doi:10.1007/978-3-540-69850-0 7·Zbl 1143.68042号 ·doi:10.1007/978-3-540-69850-07
[10]	Krishnendu Chatterjee和Thomas A.Henzinger（2012）：随机ω-正则游戏的调查。J.计算。系统。科学。78（2），第394-413页，doi:10.1016/j.jcss.2011.05.002·Zbl 1237.91036号 ·doi:10.1016/j.jcss.2011.05.002
[11]	Krishnendu Chatterjee、Thomas A.Henzinger、Barbara Jobstmann和Arjun Radhakrishna（2010）：要点：概率游戏的解算器。收录于：CAV，计算机科学讲稿6174，Springer，第665-669页，doi:10.1007/978-3642-14295-6 57·doi:10.1007/978-3642-14295-6_57
[12]	Krishnendu Chatterjee、Koushik Sen和Thomas A.Henzinger（2008）：区间马尔可夫链的欧米伽正则性模型检验。收录于：FoSSaCS，《计算机科学讲义4962》，施普林格，第302-317页，doi:10.1007/9784-922·Zbl 1138.68441号 ·doi:10.1007/978-3-540-78499-9_22
[13]	Taolue Chen、Vojtech Forejt、Marta Z.Kwiatkowska、Aistis Simaitis和Clemens Wiltsche（2013）：关于多目标随机游戏。收录于：MFCS，计算机科学课堂讲稿8087，Springer，第266-277页，doi:10.1007/978-3642-40313-225·兹比尔1400.91040 ·doi:10.1007/978-3-642-40313-25
[14]	Chih-Hong Cheng、Alois Knoll、Michael Luttenberger和Christian Buckl（2011）：GAVS+：算法游戏解决研究的开放平台。收录于：TACAS，《6605计算机科学讲义》，Springer，第258-261页，doi:10.1007/978-3642-19835-9 22·doi:10.1007/978-3-642-19835-9_22
[15]	安妮·康登（1990）：关于简单随机游戏的算法。收录于：《计算复杂性理论进展》，《离散数学和理论计算机科学中的DIMACS系列》13，DIMAC-S/AMS，第51-71页，doi:10.1090/DIMACS/013/04·Zbl 0808.90141号 ·doi:10.1090/dimacs/013/04
[16]	安妮·康登（1992）：随机游戏的复杂性。Inf.计算。96（2），第203-224页，doi:10.1016/0890-5401（92）90048-K·Zbl 0756.90103号 ·doi:10.1016/0890-5401（92）90048-K
[17]	Costas Courcoubetis和Mihalis Yannakakakis（1995）：概率验证的复杂性。J.ACM 42（4），第857-907页，doi:10.1145/210332.210339·Zbl 0885.68109号 ·doi:10.1145/210332.210339
[18]	戴德成，葛荣（2011）：简单随机博弈的另一个次指数算法。《算术》61（4），第1092-1104页，doi:10.1007/s00453-010-9413-1·Zbl 1233.91027号 ·doi:10.1007/s00453-010-9413-1
[19]	彭戴、毛萨姆、丹尼尔·维尔德和朱迪·戈德史密斯（2011）：拓扑值迭代算法。J.阿蒂夫。智力。第42号决议，第181-209页。可在http://jair.org/papers/paper3390.html。 ·Zbl 1279.90183号
[20]	J.Filar和K.Vrieze（1997）：竞争马尔可夫决策过程。斯普林格·弗拉格·Zbl 0934.91002号
[21]	Hugo Gimbert和Florian Horn（2008）：很少有随机顶点的简单随机游戏很容易求解。在：FoSSaCS，计算机科学讲义4962，施普林格，第5-19页，doi:10.1007/978-3-540-78499-9 2·兹比尔1138.91337 ·doi:10.1007/978-3-540-78499-92
[22]	Serge Haddad和Benjamin Monmege（2018）：MDP和IMDP的区间迭代算法。西奥。计算。科学。735，第111-131页，doi:10.1016/j.tcs.2016.12.003·Zbl 1393.68103号 ·doi:10.1016/j.tcs.2016.12.003
[23]	Ernst Moritz Hahn、Arnd Hartmanns、Christian Hensel、Michaela Klauck、Joachim Klein、Jan Kretínsk、David Parker、Tim Quatmann、Enno Ruijters和Marcel Steinmetz（2019）：2019年定量形式模型分析工具的比较-（QComp 2019竞争报告）。收录于：TACAS（3），计算机科学讲义11429，Springer，第69-92页，doi:10.1007/978-3-030-17502-3 5·doi:10.1007/978-3-030-17502-35
[24]	Kristoffer Arnsfelt Hansen、Rasmus Ibsen-Jensen和Peter Bro Miltersen（2014）：使用价值和策略迭代解决可达性游戏的复杂性。理论计算。系统。55（2），第380-403页，doi:10.1007/s00224-013-9524-6·Zbl 1319.68149号 ·doi:10.1007/s00224-013-9524-6
[25]	Arnd Hartmanns和Benjamin Lucien Kaminski（2020）：乐观价值迭代。收录于：CAV（2），计算机科学讲义12225，Springer，第488-511页，doi:10.1007/978-3-030-53291-826·Zbl 1478.68161号 ·doi:10.1007/978-3-030-53291-8-26
[26]	A.J.Hoffman和R.M.Karp（1966）：关于非终止随机游戏。《管理科学》12（5），第359-370页，doi:10.1287/mnsc.125.359·Zbl 0136.14303号 ·doi:10.1287/mnsc.125.359
[27]	拉斯穆斯·易卜森·詹森（Rasmus Ibsen-Jensen）和彼得·布罗·米尔特森（Peter Bro Miltersen）（2012）：用很少的投币位置解决简单随机游戏。收录于：欧空局，《计算机科学讲义7501》，斯普林格出版社，第636-647页，doi:10.1007/978-3642-33090-255·Zbl 1365.68283号 ·doi:10.1007/978-3-642-33090-255
[28]	Mark Kattenbelt、Marta Z.Kwiatkowska、Gethin Norman和David Parker（2010）：马尔可夫决策过程的基于游戏的抽象再定义框架。系统设计中的形式方法36（3），第246-280页，doi:10.1007/s10703-010-0097-6·Zbl 1233.90276号 ·doi:10.1007/s10703-010-0097-6
[29]	Edon Kelmendi、Julia Krämer、Jan Kretínsk和Maximilian Weininger（2018）：简单随机游戏的值迭代：停止标准和学习算法。收录于：CAV（1），计算机科学课堂讲稿10981，Springer，第623-642页，doi:10.1007/978-3-319-96145-3 36·Zbl 1511.91010号 ·doi:10.1007/978-3-319-96145-336
[30]	Mikhail K Kozlov，Sergei P Tarasov和Leonid G Khachiyan（1980）：凸二次规划的多项式可解性。苏联计算数学和数学物理20（5），第223-228页，doi:10.1016/0041-5553（80）90098-1·Zbl 0486.90068号 ·doi:10.1016/0041-5553（80）90098-1
[31]	Jan Kretínskínsk＆Tobias Meggendorfer（2017）：马尔可夫决策过程中平均收益的有效策略迭代。在：ATVA，《计算机科学讲义》10482，施普林格，第380-399页，doi:10.1007/978-3-319-68167-2 25·兹比尔1495.68152 ·doi:10.1007/978-3-319-68167-2_25
[32]	Jan Kretínskínsk＆Tobias Meggendorfer（2019）：核心：马尔可夫决策过程的部分探索框架。收录于：CONCUR，LIPIcs 140，Schloss Dagstuhl-Leibniz Zentrum für Informatik，第5:1-5:17页，doi:10.4230/LIPIcs。合同2019.5·Zbl 07269250号 ·doi:10.4230/LIPIcs。合同2019.5
[33]	Jan Kretínskí，Emanuel Ramneantu，Alexander Slivinskiy和Maximilian Weininger（2020）：简单随机游戏算法比较（完整版）。CoRR abs/2008.09465。
[34]	Marta Kwiatkowska、Gethin Norman、David Parker和Gabriel Santos（2020）：PRISM-games 3.0：具有并发、均衡和时间的随机博弈验证。收录于：CAV（2），计算机科学讲义12225，Springer，第475-487页，doi:10.1007/978-3-030-53291-825·doi:10.1007/978-3-030-53291-8-25
[35]	Walter Ludwig（1995）：简单随机博弈问题的次指数随机算法。Inf.计算。117（1），第151-155页，doi:10.1006/inco.1995.1035·Zbl 0827.90141号 ·doi:10.1006/inco.1995.1035
[36]	Martin L.Puterman（1994）：马尔可夫决策过程：离散随机动态规划。威利概率统计系列，威利，doi:10.1002/9780470316887·兹伯利0829.90134 ·doi:10.1002/9780470316887
[37]	Tim Quatmann和Joost-Pieter Katoen（2018）：声音值迭代。收录于：CAV（1），《计算机科学课堂讲稿》10981，Springer，第643-661页，doi:10.1007/978-3319-96145-3 37·Zbl 1511.68167号 ·doi:10.1007/978-3-319-96145-3_37
[38]	Rafal Somla（2005）：求解简单随机游戏的新算法。电子。注释Theor。计算。科学。119（1），第51-65页，doi:10.1016/j.entcs.2004.07.008·Zbl 1272.91028号 ·doi:10.1016/j.entcs.2004.07.008
[39]	María Svorenová和Marta Kwiatkowska（2016）：斯托克游戏的定量验证和策略合成。Eur.J.Control 30，第15-30页，doi:10.1016/J.ejcon.2016.04.009·Zbl 1347.93240号 ·doi:10.1016/j.ejcon.2016.04.009
[40]	Maximilian Weininger、Tobias Meggendorfer和Jan Kretínsk（2019）：有界参数Markov决策过程中ω-正则性质的可满足边界。收录于：CDC，IEEE，第2284-2291页，doi:10.1109/CDC40024.2019.9029460·doi:10.1109/CDC40024.2019.9029460
[41]	Uri Zwick和Mike Paterson（1996）：图上平均回报游戏的复杂性。西奥。计算。科学。158（1&2），第343-359页，doi:10.1016/0304-3975（95）00188-3·Zbl 0871.68138号 ·doi:10.1016/0304-3975（95）00188-3

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

简单随机博弈算法的比较。（英语） Zbl 07455745号

MSC公司：

软件：

参考文献：

示例

领域

操作员

简单随机博弈算法的比较。 （英语） Zbl 07455745号

MSC公司：

软件：

参考文献：

简单随机博弈算法的比较。（英语） Zbl 07455745号