\`x^2+y_1+z_12^34\`
高级搜索
文章内容
文章内容

广义猪博弈的非迭代算法

  • *通讯作者:Ernesto Mordeki

    *通讯作者:Ernesto Mordeki
摘要/引言 全文(HTML) (1)/表(4) 相关论文 引用人
  • 我们提供了一个求值的多项式算法和一个推广Pig博弈的最优策略。将相应的Bellman方程建模为竞争马尔可夫决策过程,可以解耦,从而得到两个具有两个未知数的非线性方程组。这样我们就避免了经典的迭代方法。简单的复杂性分析表明,该算法需要$O(\mathbf{s}\log\mathbf{s})$steps,其中$\mathbf2{s}$是游戏的状态数。对经典的《小猪和小猪》(Pig and The Piglet)进行了详细的研究。

    数学学科分类:一次:91A15、91A60;次要:90C47。

    引用:

    \开始{方程式}\\结束{方程式{
  • 加载中
  • 图1。 功能$y=f_{b,a}(x)$(实线)相交$x=f_{a,b}(y)$(虚线)在解决方案处$x=v(a,b)$,$y=v(b,a)$在小猪游戏的一个例子中

    算法1通用反向算法。
    1:对于 十亿美元$$1$N美元$
    2:   对于 美元$$1$十亿美元$
    3:查找$v(a,b,\tau)\冒号0\leq\tau<a$$v(b,a,\tau)\冒号0\leq\tau<b$
    4:   结束
    5:结束
    |显示表格
    下载:CSV公司
    算法2解决步骤3中的固定问题,b条.
    1:用于1美元$$1$美元$
    2:找到定义点$f_{a,b,i}$
    三:结束
    4:对于 1美元$$1$十亿美元$
    5:找到定义点$f_{b,a,i}$
    6:结束
    7:查找x美元$美元$解决系统(7)
    8:对于 1美元$$1$每1美元$
    9:计算v(a,b,a-i)
    10:结束
    11:对于 1美元$$1$b-1美元$
    12:计算v(b,a,b-i)
    13:结束
    |显示表格
    下载:CSV公司

    表1。 不同目标的猪游戏

    游戏的目标(N美元$)游戏的价值$v(N,N)$
    100.70942388
    500.54615051
    1000.530592071
    2000.52152913
    5000.51362019
    10000.50963900
    1Neller和Presser获得[16]
    |显示表格
    下载:CSV公司

    表2。 的值v(a,b)美元$为小猪游戏$N=3$

    |显示表格
    下载:CSV公司
  • [1] D.Auger、P.Coucheney、Y.和Strozecki,寻找几乎无环的最优策略简单随机博弈,计算模型的理论与应用,课堂讲稿在Comput中。科学。,8402(2014), 67–85.
    [2] M.de Berg、M.van Kreveld、M.Overmars和O.Schwarzkopf,计算几何:算法与应用, (第二版)施普林格,柏林,2000年。数字对象标识:10.1007/978-3-662-04245-8.
    [3] A.康登随机博弈的复杂性,信息与计算,96(1992), 203-224. 数字对象标识:10.1016/0890-5401(92)90048-K。
    [4] A.Condon,关于简单随机博弈的算法,《计算复杂性理论的进展》,蔡J.(Ed.),离散数学和理论计算机中的DIMACS系列科学AMS,14(1993), 51–71.
    [5] J.Filar和K.Vrieze,竞争马尔可夫决策过程,施普林格,纽约,1997年。
    [6] H.Gimbert和F.Horn,具有少量随机顶点的简单随机游戏很容易解决,软件科学和计算结构基础,5-19,课堂讲稿计算。科学。,柏林斯普林格4962号。2008数字对象标识:10.1007/978-3-540-78499-9_2.
    [7] J.黑格M.转子、骰子游戏中的最佳策略,应用概率杂志,37(2000), 1110-1116. 数字对象标识:10.1239/jap/1014843089。
    [8] N.哈尔曼简单随机博弈、平价博弈、平均支付博弈和折扣支付博弈都是LP型问题,算法,49(2007), 37-50. 数字对象标识:10.1007/s00453-007-0175-3。
    [9] T.D.Hansen、P.B.Miltersen和U.Zwick,策略迭代是2的强多项式-具有恒定折扣因子的基于玩家轮换的随机游戏,计算机创新科学类(ICS’11),(2011),253-263。
    [10] A.J.霍夫曼R.M.卡普,关于非终止随机博弈,管理科学,12(1966), 359-370. 数字对象标识:10.1287/毫微秒12.5.359。
    [11] R.Ibsen-Jensen和P.B.Miltersen,用很少的投币来求解简单随机博弈位置,算法–ESA 20112、LNCS、,7501(2012), 636–647.数字对象标识:10.1007/978-3-642-33090-2_55.
    [12] G.卢沙尔,骰子竞赛问题及其联系的最新研究,数学。申请。(华沙),44(2106), 63-86. 数字对象标识:10.14708/ma.v44i1.1124。
    [13] T.M.利格特S.A.利普曼,具有完美信息和时间平均回报的随机博弈,SIAM审查,11(1969), 604-607. 数字对象标识:10.1137/1011093.
    [14] J.马图舍克谢里尔E.韦尔兹尔,线性规划的次指数界,算法,16(1996), 498-516. 数字对象标识:2007年10月10日/BF01940877。
    [15] J.von Neumann和O.Morgenstern,博弈论与经济行为,普林斯顿大学出版社,新泽西州普林斯顿。1944
    [16] T.内勒C.压力机、骰子游戏猪的最佳游戏,UMAP杂志,25(2004), 25-47. 
    [17] M.Roters公司、骰子游戏中的最佳停止,应用概率杂志,35(1998), 229-235. 数字对象标识:10.1239/jap/1032192566。
    [18] L.S.沙普利,随机游戏,美国自然科学院院刊,39(1953), 1095-1100. 数字对象标识:10.1073/pnas.39.10.1953。
    [19] R.特里帕西E.巴尔卡诺娃V.S.阿尼尔·库马尔,关于简单随机博弈的策略改进算法,离散算法杂志,9(2011), 263-278. 数字对象标识:2016年10月10日/j.jda.2011.03.007。
    [20] H.蒂杰姆斯骰子游戏和随机动态规划,莫里斯莫斯,11(2004), 1-14. 
    [21] H.蒂杰姆斯J.范德沃尔,一个真实世界的随机两人游戏,普罗巴伯。工程通知。科学。,20(2006), 599-608. 数字对象标识:10.1017/S0269964806060372。
    [22] O.J.Vrieze先生S.H.提斯T.E.S.Raghavan公司J.A.菲拉尔,切换控制随机博弈的有限算法,运营-研究-Spektrum,5(1983), 15-24. 
  • 加载中

数字(1)

桌子(4)

分享

文章指标

HTML视图(1811) PDF下载(219) 引用人(0)

访问历史记录

其他作者文章

目录

    /

    返回
    返回