×

均值支付博弈的组合强次指数策略改进算法。 (英语) Zbl 1097.91020号

吉·菲亚拉(编辑)等人,《计算机科学数学基础》,2004年。2004年8月22日至27日,第29届国际研讨会,MFCS,捷克共和国布拉格。诉讼程序。柏林:施普林格出版社(ISBN 3-540-22823-3/pbk)。计算机科学课堂讲稿3153673-685(2004)。
摘要:我们提出了第一个用于平均收益博弈的强次指数纯组合算法。它基于解决最短路径问题的一个新的“受控”版本。通过在每个受控顶点中精确选择一条传出边,我们希望最大化到唯一接收器的最短距离。平均回报游戏很容易归结为这个问题。要计算最长最短路径,玩家Max选择一个策略(每个控制顶点中的一条边),而玩家Min通过计算剩余图形中到接收器的最短路径来做出响应。然后,Max局部更改受控顶点中的选择,进行有吸引力的切换,似乎可以增加最短路径(根据当前评估)。我们证明了这是一个单调策略改进,并且每个局部最优策略都是全局最优的。仔细选择下一个迭代将导致复杂度为\(\ min(\ text{poly}(n)\ cdot W,\;的随机算法;2^{O(\sqrt{n\log n})})\),它同时是伪多项式\((W\)是最大绝对边权重)和顶点数的子指数\(n\)。以前所有用于平均收益游戏的算法都是指数或伪多项式(对于指数较大的边权重,这是纯指数)。
有关整个系列,请参见[Zbl 1058.68005号].

MSC公司:

91A43型 涉及图形的游戏
91A05型 2人游戏
65年第68季度 算法和问题复杂性分析
60年第68季度 规范和验证(程序逻辑、模型检查等)
68瓦20 随机算法
PDF格式BibTeX公司 XML格式引用
全文: 内政部