×

并发可达性和基于循环的随机安全博弈的策略改进。 (英语) Zbl 1269.91022号

摘要:我们考虑在图上进行并发游戏。在游戏的每一轮中,每个玩家同时独立地选择一个动作;这些举措共同决定了向继承国的过渡。两个基本目标是永远处于给定状态集的安全目标,以及其对偶目标,即达到给定状态集时的可达性目标。首先,我们给出了一个简单的事实证明,在并发可达性博弈中,对于所有的策略(varepsilon>0),都存在无记忆最优策略。无记忆策略独立于游戏的历史,而(varepsilon)最优策略以游戏值的概率达到目标。与以前对这个事实的证明相比,我们的证明更基本,更具组合性。其次,我们提出了一种策略改进(也称为策略迭代)算法,用于具有可达性目标的并发博弈。最后,我们提出了一种策略改进算法,用于具有安全目标的基于回合的随机游戏(每个玩家轮流选择动作)。我们的算法生成player-1策略序列,确保获胜概率单调(从下方)收敛到游戏值。

MSC公司:

91A43型 涉及图形的游戏
91A15型 随机博弈,随机微分博弈
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Bertsekas,D.P.,《动态规划和最优控制》,卷。I和II(1995),雅典娜科学·Zbl 0904.90170号
[2] 查特吉,K。;de Alfaro,L。;Henzinger,T.A.,并发可达性和安全游戏的策略改进(2012),CoRR
[3] 查特吉,K。;de Alfaro,L。;Henzinger,T.A.,解决并发安全和可达性游戏的终止标准,(SODA(2009),ACM-SIAM),197-206·Zbl 1425.91074号
[4] 查特吉,K。;de Alfaro,L。;Henzinger,T.A.,并发可达性游戏的策略改进,(QEST’06(2006),IEEE)
[5] Condon,A.,《随机博弈的复杂性》,Inform。和计算。,96, 2, 203-224 (1992) ·Zbl 0756.90103号
[6] Condon,A.,《简单随机游戏的算法》,(计算复杂性理论的进展。计算复杂性理论进展,DIMACS Ser.离散数学理论。计算科学,第13卷(1993年),美国数学学会),51-73·Zbl 0808.90141号
[7] Courcoubetis,C。;Yannakakis,M.,《概率验证的复杂性》,J.ACM,42,4,857-907(1995)·Zbl 0885.68109号
[9] de Alfaro,L。;Henzinger,T.A.,并发欧米伽规则游戏,(第15届计算机科学逻辑年度研讨会论文集(2000),IEEE计算机社会出版社),141-154
[10] de Alfaro,L。;Henzinger,T.A。;Kupferman,O.,《并发可达性游戏》,Theoret。计算。科学。,386, 3, 188-217 (2007) ·Zbl 1154.91306号
[11] de Alfaro,L。;Majumdar,R.,《欧米伽规则游戏的定量解》,J.Compute。系统科学。,68, 374-397 (2004) ·Zbl 1093.91001号
[12] Derman,C.,有限状态马尔可夫决策过程(1970),学术出版社·兹比尔0262.90001
[13] Etessami,K。;Yannakakis,M.,递归并发随机博弈,(ICALP 06:自动机、语言和编程(2006),施普林格)·Zbl 1133.91317号
[14] Everett,H.,递归游戏,(对游戏理论的贡献III.对游戏理论III的贡献,数学研究年鉴,第39卷(1957年)),47-78·Zbl 0078.32802号
[15] 菲拉尔,J。;Vrieze,K.,竞争马尔可夫决策过程(1997),Springer-Verlag·Zbl 0934.91002号
[17] 霍夫曼,A.J。;Karp,R.M.,《关于非终止随机博弈》,管理科学。,12, 5, 359-370 (1966) ·Zbl 0136.14303号
[18] Howard,R.A.,《动态规划和马尔可夫过程》(1960),麻省理工学院出版社·Zbl 0091.16001号
[19] 易卜生-延森,R。;Miltersen,P.B.,《用很少的投币位置解决简单随机游戏》(ESA(2012),Springer),636-647·Zbl 1365.68283号
[20] Kemeny,J.G。;斯内尔,J.L。;Knapp,A.W.,《无数马尔可夫链》(1966),D.Van Nostrand公司·Zbl 0149.13301号
[21] Mertens,J.F。;内曼,A.,《随机游戏》,国际。《博弈论》,1053-66(1981)·Zbl 0486.90096号
[22] Parthasarathy,T.,折扣和正随机博弈,公牛。阿默尔。数学。《社会学杂志》,77,1,134-136(1971)·Zbl 0208.47401号
[23] Rao,S.S。;Chandrasekaran,R。;Nair,K.P.K.,折扣游戏算法,J.Optim。理论应用。,627-637 (1973) ·Zbl 0245.93024号
[24] Shapley,L.S.,《随机游戏》,Proc。国家。阿卡德。科学。美国,39,1095-1100(1953)·Zbl 0051.35805号
[25] 美国兹威克。;Paterson,M.S.,图上平均收益博弈的复杂性,定理。计算。科学。,158343-359(1996年)·兹伯利0871.68138
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。