文件Zbl 1269.91022-zbMATH Open

克里希南德·查特吉;卢卡·德·阿尔法罗;托马斯·亨辛格（Thomas A.Henzinger）。

并发可达性和基于循环的随机安全博弈的策略改进。（英语） Zbl 1269.91022号

J.计算。系统。科学。 79，第5号，640-657（2013）.

摘要：我们考虑在图上进行并发游戏。在游戏的每一轮中，每个玩家同时独立地选择一个动作；这些举措共同决定了向继承国的过渡。两个基本目标是永远处于给定状态集的安全目标，以及其对偶目标，即达到给定状态集时的可达性目标。首先，我们给出了一个简单的事实证明，在并发可达性博弈中，对于所有的策略（varepsilon>0），都存在无记忆最优策略。无记忆策略独立于游戏的历史，而（varepsilon）最优策略以游戏值的概率达到目标。与以前对这个事实的证明相比，我们的证明更基本，更具组合性。其次，我们提出了一种策略改进（也称为策略迭代）算法，用于具有可达性目标的并发博弈。最后，我们提出了一种策略改进算法，用于具有安全目标的基于回合的随机游戏（每个玩家轮流选择动作）。我们的算法生成player-1策略序列，确保获胜概率单调（从下方）收敛到游戏值。

引用于10文件

MSC公司：

91A43型	涉及图形的游戏
91A15型	随机博弈，随机微分博弈
90立方厘米	马尔可夫和半马尔可夫决策过程

关键词：

博弈论;随机博弈;并发游戏;可达性和安全目标;策略改进算法

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Bertsekas，D.P.，《动态规划和最优控制》，卷。I和II（1995），雅典娜科学·Zbl 0904.90170号
[2]	查特吉，K。；de Alfaro，L。；Henzinger，T.A.，并发可达性和安全游戏的策略改进（2012），CoRR
[3]	查特吉，K。；de Alfaro，L。；Henzinger，T.A.，解决并发安全和可达性游戏的终止标准，（SODA（2009），ACM-SIAM），197-206·Zbl 1425.91074号
[4]	查特吉，K。；de Alfaro，L。；Henzinger，T.A.，并发可达性游戏的策略改进，（QEST’06（2006），IEEE）
[5]	Condon，A.，《随机博弈的复杂性》，Inform。和计算。，96, 2, 203-224 (1992) ·Zbl 0756.90103号
[6]	Condon，A.，《简单随机游戏的算法》，（计算复杂性理论的进展。计算复杂性理论进展，DIMACS Ser.离散数学理论。计算科学，第13卷（1993年），美国数学学会），51-73·Zbl 0808.90141号
[7]	Courcoubetis，C。；Yannakakis，M.，《概率验证的复杂性》，J.ACM，42，4，857-907（1995）·Zbl 0885.68109号
[9]	de Alfaro，L。；Henzinger，T.A.，并发欧米伽规则游戏，（第15届计算机科学逻辑年度研讨会论文集（2000），IEEE计算机社会出版社），141-154
[10]	de Alfaro，L。；Henzinger，T.A。；Kupferman，O.，《并发可达性游戏》，Theoret。计算。科学。，386, 3, 188-217 (2007) ·Zbl 1154.91306号
[11]	de Alfaro，L。；Majumdar，R.，《欧米伽规则游戏的定量解》，J.Compute。系统科学。，68, 374-397 (2004) ·Zbl 1093.91001号
[12]	Derman，C.，有限状态马尔可夫决策过程（1970），学术出版社·兹比尔0262.90001
[13]	Etessami，K。；Yannakakis，M.，递归并发随机博弈，（ICALP 06:自动机、语言和编程（2006），施普林格）·Zbl 1133.91317号
[14]	Everett，H.，递归游戏，（对游戏理论的贡献III.对游戏理论III的贡献，数学研究年鉴，第39卷（1957年）），47-78·Zbl 0078.32802号
[15]	菲拉尔，J。；Vrieze，K.，竞争马尔可夫决策过程（1997），Springer-Verlag·Zbl 0934.91002号
[17]	霍夫曼，A.J。；Karp，R.M.，《关于非终止随机博弈》，管理科学。，12, 5, 359-370 (1966) ·Zbl 0136.14303号
[18]	Howard，R.A.，《动态规划和马尔可夫过程》（1960），麻省理工学院出版社·Zbl 0091.16001号
[19]	易卜生-延森，R。；Miltersen，P.B.，《用很少的投币位置解决简单随机游戏》（ESA（2012），Springer），636-647·Zbl 1365.68283号
[20]	Kemeny，J.G。；斯内尔，J.L。；Knapp，A.W.，《无数马尔可夫链》（1966），D.Van Nostrand公司·Zbl 0149.13301号
[21]	Mertens，J.F。；内曼，A.，《随机游戏》，国际。《博弈论》，1053-66（1981）·Zbl 0486.90096号
[22]	Parthasarathy，T.，折扣和正随机博弈，公牛。阿默尔。数学。《社会学杂志》，77，1，134-136（1971）·Zbl 0208.47401号
[23]	Rao，S.S。；Chandrasekaran，R。；Nair，K.P.K.，折扣游戏算法，J.Optim。理论应用。，627-637 (1973) ·Zbl 0245.93024号
[24]	Shapley，L.S.，《随机游戏》，Proc。国家。阿卡德。科学。美国，39，1095-1100（1953）·Zbl 0051.35805号
[25]	美国兹威克。；Paterson，M.S.，图上平均收益博弈的复杂性，定理。计算。科学。，158343-359（1996年）·兹伯利0871.68138

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
”ab c公司”	短语
(ab c公司)	圆括号

示例

领域

操作员

并发可达性和基于循环的随机安全博弈的策略改进。（英语） Zbl 1269.91022号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

并发可达性和基于循环的随机安全博弈的策略改进。 （英语） Zbl 1269.91022号

MSC公司：

关键词：

参考文献：

并发可达性和基于循环的随机安全博弈的策略改进。（英语） Zbl 1269.91022号