-
摘要
我们提供了一个求值的多项式算法和一个推广Pig博弈的最优策略。将相应的Bellman方程建模为竞争马尔可夫决策过程,可以解耦,从而得到两个具有两个未知数的非线性方程组。这样我们就避免了经典的迭代方法。简单的复杂性分析表明,该算法需要$O(\mathbf{s}\log\mathbf{s})$steps,其中$\mathbf2{s}$是游戏的状态数。对经典的《小猪和小猪》(Pig and The Piglet)进行了详细的研究。
数学学科分类:一次:91A15、91A60;次要:90C47。
\开始{方程式}\\结束{方程式{
-
-
-
工具书类
[1] |
D.Auger、P.Coucheney、Y.和Strozecki,寻找几乎无环的最优策略简单随机博弈,计算模型的理论与应用,课堂讲稿在Comput中。科学。,8402(2014), 67–85.
|
[2] |
M.de Berg、M.van Kreveld、M.Overmars和O.Schwarzkopf,计算几何:算法与应用, (第二版)施普林格,柏林,2000年。数字对象标识:10.1007/978-3-662-04245-8.
|
[3] |
A.康登随机博弈的复杂性,信息与计算,96(1992), 203-224. 数字对象标识:10.1016/0890-5401(92)90048-K。
|
[4] |
A.Condon,关于简单随机博弈的算法,《计算复杂性理论的进展》,蔡J.(Ed.),离散数学和理论计算机中的DIMACS系列科学AMS,14(1993), 51–71.
|
[5] |
J.Filar和K.Vrieze,竞争马尔可夫决策过程,施普林格,纽约,1997年。
|
[6] |
H.Gimbert和F.Horn,具有少量随机顶点的简单随机游戏很容易解决,软件科学和计算结构基础,5-19,课堂讲稿计算。科学。,柏林斯普林格4962号。2008数字对象标识:10.1007/978-3-540-78499-9_2.
|
[7] |
J.黑格和M.转子、骰子游戏中的最佳策略,应用概率杂志,37(2000), 1110-1116. 数字对象标识:10.1239/jap/1014843089。
|
[8] |
N.哈尔曼简单随机博弈、平价博弈、平均支付博弈和折扣支付博弈都是LP型问题,算法,49(2007), 37-50. 数字对象标识:10.1007/s00453-007-0175-3。
|
[9] |
T.D.Hansen、P.B.Miltersen和U.Zwick,策略迭代是2的强多项式-具有恒定折扣因子的基于玩家轮换的随机游戏,计算机创新科学类(ICS’11),(2011),253-263。
|
[10] |
A.J.霍夫曼和R.M.卡普,关于非终止随机博弈,管理科学,12(1966), 359-370. 数字对象标识:10.1287/毫微秒12.5.359。
|
[11] |
R.Ibsen-Jensen和P.B.Miltersen,用很少的投币来求解简单随机博弈位置,算法–ESA 20112、LNCS、,7501(2012), 636–647.数字对象标识:10.1007/978-3-642-33090-2_55.
|
[12] |
G.卢沙尔,骰子竞赛问题及其联系的最新研究,数学。申请。(华沙),44(2106), 63-86. 数字对象标识:10.14708/ma.v44i1.1124。
|
[13] |
T.M.利格特和S.A.利普曼,具有完美信息和时间平均回报的随机博弈,SIAM审查,11(1969), 604-607. 数字对象标识:10.1137/1011093.
|
[14] |
J.马图舍克, 谢里尔和E.韦尔兹尔,线性规划的次指数界,算法,16(1996), 498-516. 数字对象标识:2007年10月10日/BF01940877。
|
[15] |
J.von Neumann和O.Morgenstern,博弈论与经济行为,普林斯顿大学出版社,新泽西州普林斯顿。1944
|
[16] |
T.内勒和C.压力机、骰子游戏猪的最佳游戏,UMAP杂志,25(2004), 25-47.
|
[17] |
M.Roters公司、骰子游戏中的最佳停止,应用概率杂志,35(1998), 229-235. 数字对象标识:10.1239/jap/1032192566。
|
[18] |
L.S.沙普利,随机游戏,美国自然科学院院刊,39(1953), 1095-1100. 数字对象标识:10.1073/pnas.39.10.1953。
|
[19] |
R.特里帕西, E.巴尔卡诺娃和V.S.阿尼尔·库马尔,关于简单随机博弈的策略改进算法,离散算法杂志,9(2011), 263-278. 数字对象标识:2016年10月10日/j.jda.2011.03.007。
|
[20] |
H.蒂杰姆斯骰子游戏和随机动态规划,莫里斯莫斯,11(2004), 1-14.
|
[21] |
H.蒂杰姆斯和J.范德沃尔,一个真实世界的随机两人游戏,普罗巴伯。工程通知。科学。,20(2006), 599-608. 数字对象标识:10.1017/S0269964806060372。
|
[22] |
O.J.Vrieze先生, S.H.提斯, T.E.S.Raghavan公司和J.A.菲拉尔,切换控制随机博弈的有限算法,运营-研究-Spektrum,5(1983), 15-24.
|
-
访问历史记录
-