数字线游戏-书本证明

这个谜题这是一个博弈论问题：每个玩家应该如何玩游戏才能最大限度地提高自己的奖金？

阿里尔、比阿特丽斯和卡桑德拉三位杰出的游戏理论家在一次游戏理论会议上感到无聊（我们知道这很令人震惊），于是设计了下面的游戏来打发时间。他们画了一条数字线，把1放在1上，把2放在2上，把3放在3上，以此类推，把10放在10上。

每个玩家都有一个个性化的令牌。他们轮流把代币放在其中一个钱币堆上（每个空格只允许一个代币），阿里尔第一，碧翠丝第二，卡桑德拉第三。一旦所有的代币都放好了，每个玩家都可以获得她代币所在的或最近的每一个堆栈。如果堆栈位于两个代币之间，玩家就可以平分现金。

这场比赛结果如何？先去值多少钱？

额外的积分：如果游戏不是在数字线上玩，而是在时钟上玩，值从1美元到12美元，该怎么办？如果苔丝狄蒙娜、埃莉诺等加入了最初的游戏怎么办？如果代币可以放在数字线上的任何位置，而不仅仅是堆栈上，那会怎么样？

以下是我如何处理该问题的详细信息：
[显示解决方案]

这个问题与我之前写过的博弈论问题不同，比如战争游戏或躲避球决斗游戏中所有玩家同时行动。在这种游戏中，你可以为每个玩家设定一个策略，然后寻找能够产生纳什均衡这是一组策略，没有任何参与者有动机改变他们的行为。有时，最佳策略是混合战略这意味着它包含随机性。例如，在剪纸摇滚乐中，纳什最优策略是随机选择。

使当前问题大不相同的是，它是一个序贯博弈轮到每个球员上场时，他们都可以看到之前球员的动作。这意味着随机游戏没有任何好处。解决这些问题的标准方法是通过反向归纳法（也称为动态规划). 我将说明问题的基本版本的方法：10个堆栈和3个玩家。一个策略是一组招式$（a，b，c）$，其中$a$是Ariel的招式，$b$是Beatrice的招式，$c$是Cassandra的招式。我们按以下方式进行反向归纳：

给定一个策略$（a，b，c）$，让我们将Ariel的支出称为$P_a（a，b,c）$。同样，我们将比阿特丽斯和卡桑德拉的支出分别称为$P_B$和$P_C$。
想象一下，轮到卡桑德拉了。她观察了阿里尔和比阿特丽斯的动作。对于每个$c$的潜在选择，我们可以计算卡桑德拉的支出$P_c（a，b，c）$，然后选择$c$中最赚钱的选择。让我们把卡桑德拉的战略称为$K_C（a，b）$。数学上，我们定义：
\[
K_C（a，b）=\arg\max_{C}P_C（a，b，C）
\]
现在想象一下，该轮到比阿特丽斯了。她观察了阿里尔的举动（$a$）。她还知道，如果她选择$b$，那么卡桑德拉将继续使用$K_C（a，b）$。因此，她必须选择最好的$b$，以预测卡桑德拉会做什么。如果我们将比阿特丽斯的策略称为$K_b（a）$，那么我们有：
\[
K_B（a）=\arg\max_{B}P_B（a，B，K_C（a，B））
\]
最后，想象一下轮到阿里尔了。尽管她是第一个搬家的人，但不管她选择哪一个$a$，可以肯定的是，Beatrice将选择$b=K_b（a）$，而Cassandra将继续选择$c=K_c（a，b）$。所以Ariel可以检查所有选项并预测她的支出。最终，她的决定将是$K_A$，由以下人员给出：
\[
K_A=\arg\max_{A}P_A（A，K_B（A），K_C（A
\]

计算细节

编写代码来实现上面的反向归纳法是一个相当大的挑战。稍后我将包含完成的代码，以便您可以使用它，但现在我只强调我必须克服的两个主要障碍。

随着问题的扩大，上述步骤的天真实现很快在计算上变得棘手。如果有$N$钱币堆和$M$玩家，可能的策略数量是$N（N-1）\cdots（N-M+1）$，这可能相当大。因此，如果$N=12$和$M=9$，最后一个玩家的$K$函数将取决于前8$玩家的移动方式，并且有大约2000万种可能性。随着我们进一步增加$N$或$M$，情况迅速恶化。我注意到，对任何球员来说，最好的移动都不取决于之前球员的移动顺序。因此，为了实现函数$K_A$、$K_B$等，我们可以假设输入已排序。这将可能的策略数量减少到$\binom{N}{M}$。所以在上面的例子中，2000万个可能性减少到500个，这是一个更容易管理的数字。
最佳解决方案可能不是唯一的。在每一步中，可能会有几个选择为决定玩家产生相同的支出。跟踪所有可能性是很繁琐的，因为这意味着每个$\arg\max$都可以返回许多解决方案，并且每个解决方案都必须通过其他函数传播回来。我使用策略列表实现了递归，所以在每一步我都会传递最优策略列表，而不仅仅是一个策略。
延期和奖金问题。经过一番思考，我编写的代码只需稍作修改就可以解决额外的问题。使用$N$和$M$编写通用代码可以轻松添加更多堆栈或播放器。写数字行使其环绕（在时钟上）就等于重新定义了计算每个策略的支出的函数。解决连续版本相当于在堆栈之间添加额外的插槽，并适当地重新定义支付函数。
漏洞。这么多虫子！这是我最近编写的最棘手的代码，至少可以说，跟踪递归中的索引错误是一个挑战。我想我最终把一切都做好了，我很满意！

我的模拟结果将在下一节中介绍。

答案如下：
[显示解决方案]

添加更多玩家

让我们称$N$为钱栈的数量，称$M$为玩家的数量。下面的表格显示了随着我们添加更多玩家，情况$N=10$。

玩家	最佳策略（数字线）	最佳支出（美元）
$2$	$(7,8)$	$(28,27)$
$3$	$(5, 9, 8)$	$(21, 19, 15)$
$4$	$(7, 4, 9, 10)$	$(17, 15, 13, 10)$
$5$	$(4, 6, 8, 10, 9)$	$(12.5, 12, 11.5, 10, 9)$
$6$	$(4, 10, 9, 6, 8, 7)$	$(12.5, 10, 9, 8.5, 8, 7)$
$7$	$(10, 9, 3, 8, 5, 7, 6)$ $（10、9、3、8、7、5、6）$ $(10, 9, 8, 3, 5, 7, 6)$ $(10, 9, 8, 3, 7, 5, 6)$	$(10, 9, 8, 8, 7, 7, 6)$
$8$	$(10, 9, 8, 7, 3, 6, 5, 4)$ $(10, 9, 8, 7, 6, 3, 5, 4)$	$(10, 9, 8, 7, 6, 6, 5, 4)$
$9$	$(10, 9, 8, 7, 6, 5, 4, 2, 3)$ $(10, 9, 8, 7, 6, 5, 4, 3, 2)$	$(10, 9, 8, 7, 6, 5, 4, 3, 3)$
$10$	$(10, 9, 8, 7, 6, 5, 4, 3, 2, 1)$	$(10, 9, 8, 7, 6, 5, 4, 3, 2, 1)$

一开始，还不清楚是先移动以争夺最佳位置，还是先移动以获得反应性比赛的优势。正如我们从上表中看到的那样，第一个玩家的支出总是最高的，而对于随后的玩家来说，情况变得更糟。一些行包含多个策略。这些是具有多重纳什均衡的情况。所有这些都会产生相同的回报。

在$M=3$玩家的最初问题中，先花21美元是值得的。当然，这是假设每个人都在贪婪地玩游戏，并试图最大化自己的回报。如果比阿特丽斯和卡桑德拉合谋破坏了艾丽儿的一天，他们可以将艾丽儿赢得的奖金减少到5美元（通过在4和6处放置代币），但他们必须相互信任，才能在比赛结束后平分50美元的奖金！

昼夜不停地玩

如果我们把数字线绕着时钟旋转，游戏会稍微改变，但代码只需要稍作修改。我们需要做的就是定义如何计算回报，因为“最近的”标记可能是给定堆栈中的顺时针或逆时针方向。以下是随着我们添加更多玩家，$N=12$的结果。

玩家	最佳策略（时钟）	最佳支出（美元）
$2$	$(9, 10)$ $(10, 9)$	$(39, 39)$
$3$	$(7, 11, 10)$	$(31.5, 27.5, 19)$
$4$	$(6, 9, 12, 11)$	$(23.5, 22, 16.5, 16)$
$5$	$(8, 5, 12, 10, 11)$	$(19.5, 18, 15, 14.5, 11)$
$6$	$(5, 12, 7, 9, 11, 10)$ $（12、5、7、9、11、10）$	$(15, 15, 14, 13, 11, 10)$
$7$	$(12, 9, 7, 11, 4, 10, 6)$ $(12, 9, 11, 7, 4, 10, 6)$	$(14, 13, 11, 11, 10.5, 10, 8.5)$
$8$	$(12, 11, 4, 10, 9, 6, 8, 7)$	$(14, 11, 10.5, 10, 9, 8.5, 8, 7)$
$9$	$(12, 11, 10, 9, 8, 3, 5, 7, 6)$ $(12, 11, 10, 9, 8, 3, 7, 5, 6)$ $(12, 11, 10, 9, 8, 7, 3, 5, 6)$	$(13, 11, 10, 9, 8, 7, 7, 7, 6)$
$10$	$（12、11、10、9、8、7、6、3、5、4）$ $(12, 11, 10, 9, 8, 7, 6, 5, 3, 4)$	$(13, 11, 10, 9, 8, 7, 6, 5, 5, 4)$
$11$	$(12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2)$	$(12.5, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2.5)$
$12$	$(12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1)$	$(12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1)$

与数字线情况一样，有许多情况下存在多重纳什均衡，每种情况都会导致相同的回报。

连续编号线

通过在每个堆栈之间添加中间插槽，我调整了代码以处理连续的情况。如果玩家愿意的话，这允许他们在堆栈之间进行游戏。如果我返回到数字行上的$N=10$，则在每个堆栈之间添加4个插槽，$M=2$和$M=3$。结果如下：

玩家	最佳策略（连续）	最佳支出（美元）
$2$	$(7.0, 7.2)$ $(7.0, 7.4)$ $(7.0, 7.6)$ $(7.0, 7.8)$ $(7.0, 8.0)$ $(7.0, 8.2)$ $(7.0, 8.4)$ 美元（7.0，8.6）$ $(7.0, 8.8)$	$(28, 27)$
$3$	$(5.0, 9.0, 7.2)$ $(5.0, 9.0, 7.4)$ $(5.0, 9.0, 7.6)$ $(5.0, 9.0, 7.8)$ $(5.0, 9.0, 8.0)$ $(5.0, 9.0, 8.2)$ $(5.0, 9.0, 8.4)$ $(5.0, 9.0, 8.6)$ $(5.0, 9.0, 8.8)$	$(21, 19, 15)$

这里很清楚发生了什么；考虑到这种选择，第一批球员不会选择背离。最终，最后一个玩家可以自由地在$7\lt c\lt 9$范围内移动他们的代币，并且回报不会改变，并且它与整数情况下的解决方案相匹配（其中$c=8$是最优的）。因此，至少在这些情况下，让问题持续下去并不会改变任何事情。

这并不总是正确的。如果我们检查$M=4$的情况，解决方案会变得更加复杂。在这里，我尝试用不同的离散化来解决这个问题，我发现了以下几点：

玩家	最佳策略（连续）	最佳支出（美元）
$4$	0.50$步数：$（9.00、3.50、6.50、7.50）$ $0.25$的步骤：$（9.00、3.25、6.75、7.25）$ $0.20$的步骤：$（9.00、3.20、6.80、7.20）$ 0.10$的步长：$（9.00、3.10、6.90、7.10）$	$(19, 12.5, 12, 11.5)$

当使用离散化分解时，此情况会突出显示。在连续的情况下，我们永远不会期望任何堆栈均匀地分割，因为您可以始终稍微移动您的令牌，以便更靠近其中一个堆栈并赢得所有。当我们将离散化减少到$\epsilon$时，唯一的最优策略是$（9，3+\epsillon，7-\epsilon，7+\epsilo）$。这个解决方案是我们离散化的产物。事实上，最后一个玩家可以选择$7+\tfrac{1}{2}\epsilon$做得更好。

解决这个问题的一种方法是给每个后续玩家提供一个更精细的离散化选择。这将防止上述情况发生。我没有编写代码，所以我没有验证离散情况的纳什最优解在连续情况下是否相同。未来的工作！

我的代码

我写了我的代码朱莉娅（版本0.6.2.1）。对于那些不了解Julia的人来说，它是一种用于科学计算的快速语言，在语法上类似于Matlab和Python。如果您有兴趣查看我的代码，这是我的朱皮特笔记本.

计算细节

添加更多玩家

昼夜不停地玩

连续编号线

我的代码

留下回复取消回复