躲避球决斗-书证

这是一个来自Riddler公司三名躲避球选手，谁能幸存下来？

三名专业躲避球手进行决斗，即“真实”决斗，他们同时捡起一个球并试图击中另一个。然后，所有幸存者立即重新开始，试图再次相撞。它们速度一样快，但精度不一样。将他们命名为雅培、鲍伯和科斯特洛。每种方法的精度分别为a、b和c。也就是说，如果阿伯特的目标是什么，他用概率a命中它，用概率b命中鲍勃，用概率c命中科斯特洛。每个玩家的能力都为其他玩家所知。假设阿伯特是一个完美的射门：a=1。假设玩家遵循一个最优策略，目标是生存。鲍伯和科斯特洛的能力（b和c）的每一种可能组合，哪个球员最有可能在这场比赛中幸存下来？

这是我的解决方案：
[显示解决方案]

在我开始之前，我要感谢评论员Guy Moore和Jason Weisman分享了他们自己的解决方案，并指出了解释这个问题的不同方式。“随机球”变体是由盖·摩尔设计的。好的，我们开始吧…

无论如何，解决方案是什么？

这个问题涉及“最佳策略”，因此值得讨论这意味着什么，所以我们都站在同一个立场上。最佳策略是纳什均衡这是一组针对每个玩家的策略，如果任何一个玩家改变了他们的策略（而其他玩家保持其策略不变），那么对该玩家来说，结果会更糟糕。因此，没有一个玩家有任何改变策略的动机。

A类策略是一条根据你观察到的情况告诉你该做什么的规则。在这个游戏中，策略的一个例子是“总是以最准确的命中剩余的玩家为目标”。这是一个示例纯净的策略，因为每个玩家无论观察到什么都总是以相同的方式行事。并不是每个游戏都保证有一个由纯策略组成的纳什均衡。在某些游戏中，例如猜拳，最好使用混合战略也就是说，一种概率策略，例如“以相同的概率随机挑选岩纸或剪刀”。如果你在剪纸游戏中使用纯粹的策略，你的对手会与你对抗，你每次都会输！

事实证明，每个有限博弈都至少有一个混合纳什均衡。因此，我们不必担心没有最佳解决方案的情况。也就是说，存在许多纳什均衡是完全可能的！因此，如果事实果真如此，我们不应感到惊讶…

谋杀球vs硬币翻转球vs随机球

至少有三种方法可以解释这个问题。在第一种解释中，如果两名球员互相瞄准并击中对方，那么两名球员都将被淘汰。我将此变体称为“谋杀球”。在谋杀舞会上，没人可能赢！第二种解释是，每当两名球员相互碰撞时，我们应该掷硬币，掷硬币的失败者将被淘汰。我们还掷了一枚三元硬币，以处理三名玩家同时被淘汰的情况。我把这个叫做“硬币翻转球”。最后，我们可以将游戏解释为为玩家随机选择射击顺序。我将此变体称为“随机球”。在随机球中，如果A打B，B打C，但顺序是A先射门，则B在射门C之前被淘汰，C幸存。所有这些变体都有不同的解决方案！

两名球员

让我们从考虑只有两个玩家$P$和$Q$的情况开始；决斗！在这种情况下，没有任何决定要做。球员们总是互相瞄准。假设两个玩家分别有$p$和$q$的概率相互碰撞，我们想计算出其中一个玩家赢得决斗的概率。在谋杀球中，球员$P$只有在命中$Q$且$Q$未命中$P$时才能获胜。发生这种情况的概率为$p（1-q）$。但如果两名玩家都未命中（概率$（1-p）（1-q）$），则游戏会重复。因此，$P$成为最终赢家的可能性是：
\开始{align}
\马特布{P} _（P）&=p（1-q）\biggl（1+（1-p）（1-q\\
&=\压裂{p（1-q）}{1-（1-p）（1-q
\结束{align}重复另一个参与者的类似论点是，我们发现兴趣概率为：
\开始｛聚集｝
\马特布{P} _（P）=\压裂{p（1-q）}{1-（1-p）（1-q，
\qquad（平方米）
\马特布{P} （_Q）=\frac{（1-p）q}{1-（1-p）（1-q）}\\
\qquad（平方米）
\马特布{P} _0（0）=\压裂{pq}{1-（1-p）（1-q）}。
\结束{聚集}此处，$\mathbb{P} _0（0）$是两个玩家同时相互攻击的概率，因此没有人赢。当然，上述三种可能性之和为$1$。

在硬币翻转球和随机球中，如果玩家$P$在硬币翻转中相互击球，但他赢了，那么他也可以赢。事实证明，在这种情况下没有人获胜，$\mathbb{P} _0（0）上述解决方案中的美元将在两名玩家之间平均分配。

三名球员

我将详细解决谋杀案。有三名球员，每个人都可以选择目标。我们不会对所用策略的性质做出任何假设，我们将考虑使用混合策略混合策略的一个例子是“玩家$a$应该以$B$为目标，概率为$0.4$，$C$为目标概率为$0.6$”。在一些游戏中，例如猜拳，最好使用混合策略，因为如果你总是做同样的事情，你的对手会意识到这一点，你每次都会输！那么，让我们定义数字$x、y、z$如下：
\开始{align}
&A\text｛targets｝B\text｛with prob｝x\text｛and targets｝C\text｛with prob｝（1-x）\\
&B\text{targets}C\text{with prob}y\text{和targets{A\text{with prob}（1-y）\\
&C\text{targets}A\text{withprob}z\text{和targets{withprob}（1-z）
\结束{对齐}我们可以通过列举可能发生的方式来计算任何玩家获胜的概率。我将举一个例子来说明。要计算$A$获胜的概率，主要有两种方式：

$B$和$C$同时消除，$A$生存。这种情况可以通过三种方式发生。$B$和$C$相互碰撞，或$B$碰撞$C$和$A$碰撞$B$，或$C$碰撞$B$和$A$碰撞$C$。我们还可以让每个人先存活几轮！总概率为：
\[
\裂缝{ab（1-c）xy+a（1-b）c（1-x）（1-z）+bcy（1-z
\]
$B$先被淘汰，然后$A$以$C$赢得决斗（我们已经用$p$和$q$解决了这个问题）。无论如何，$B$一定错过了他的射门。要么$A$和$C$都瞄准$B$，至少其中一个命中，要么其中只有一个瞄准$B$s，另一个未命中。这种情况下的总概率为：
\[
\压裂{a（1-c）}{1-（1-a）（1-c
\]
$C$先被淘汰，然后$A$与$B$决斗获胜。这种情况与前一种情况类似，总概率为：
\[
\压裂{a（1-b）}{1-（1-a）（1-b
\]

将上述三种概率相加，我们得到$\mathbb{P} _A（_A）$，$A$获胜的概率。我们可以进行类似的计算，以获得$B$获胜、$C$获胜以及没有人获胜的概率（所有四个概率的总和为$1$）。根据对称性，$\mathbb的公式{P} _B（_B）$可以通过循环排列所有变量来获得：$a\到b\到c\到a$，$x\到y\到z\到x$。最后，没有人获胜的概率是四种概率之和为一：$\mathbb{P} _0（0）=1-\mathbb{P} _A（_A）-\马特布{P} B（_B）-\马特布{P} _C（_C）$.

杀球最优策略

现在我们有了每个玩家获胜的概率，这些是函数：
\[
\mathbb公司{P} _A（_A）（x，y，z），\quad\mathbb{P} _B（_B）（x，y，z），\quad\mathbb{P} _C（_C）（x，y，z）。
\]每个函数都由$a，b，c$参数化，$a，b，c$是每个玩家的精度，并且是$（x，y，z）$的函数，使用的是（混合）策略。我们的目标是找到一个$（x，y，z）$的选择，这样就不会因为$x$本身的改变而提高$\mathbb{P} _A（A）$，仅$y$中的任何更改都无法提高$\mathbb{P} _B（_B）$，仅$z$中的任何更改都不能提高$\mathbb{P} _C（_C）$. 可以帮助我们解决这个问题的一个关键观察结果是，所有三个函数在$x$、$y$和$z$中都是线性的。优化线性函数时，最大值总是出现在边界处。这意味着必须存在纯纳什均衡！！！因此，我们可以将搜索限制为$x$、$y$和$z$分别为$0$或$1$的情况。因此，总共有8种策略。

我通过穷尽搜索计算出了纳什均衡。对于每个$（a，b，c）$的值，我计算了$（\mathbb{P} _A（_A），\mathbb{P} _B（_B），\mathbb{P} _C（_C）)$对于所有8个策略，尝试更改每个策略的$（x，y，z）$，以查看它是否是纳什均衡，如果我找到多个纳什均衡点，我会随机选择一个。然后，我画了一个图，说明谁在何时获胜。当$a=1$时，我们得到以下图片：

真是一团糟！这里有很多纳什均衡，几乎任何事情都可能发生。原因是，如果没有硬币翻转，阿伯特瞄准的球员将永远失败。所以，事实上，玩家所做的任何事情都是最优的！那个输掉比赛的球员对剩下的球员获胜有很大的影响，因此会产生混乱的解决方案。然而，这些纳什均衡大多是不稳定的也就是说，如果我们将雅培的准确度更改为$a=0.99$，则情况会完全改变：

硬币翻转球优化策略

我将省略Coinflip-ball的推导，因为代数写起来相当冗长和乏味，但这个想法在精神上与我推导Murder-ball变量的概率的方法类似。正如在Murder ball案例中一样，所有概率在$（x，y，z）$中都是线性的，所以再次强调，纯纳什均衡必须存在。如上所述，我使用了一个详尽的搜索来绘制每个玩家获胜的概率。这是我在$a=1$的情况下得到的结果。

对于大多数情况，策略是显而易见的。例如，当$b=0.8$和$c=0.5$时，最佳策略是雅培和鲍勃互相瞄准，科斯特洛瞄准雅培。在这种情况下，科斯特洛大部分时间都赢了！在右上角，你会注意到可能的结果是混合的，因为那里有多重纳什均衡。在该地区，三名球员都非常准确，联合阿博特的策略不再是最佳的。在这种情况下，三个玩家在一条链（a到B到C到a）或（a到C到B到a）中相互瞄准对方是纳什最优的。这是游戏规则的结果。在我对掷硬币游戏的解释中，如果三名玩家同时相互击球，游戏的结果取决于每个玩家都有平等的获胜机会的掷硬币游戏。

随机球最优策略

再次，我省略了推导。这种情况产生了与其他两种情况类似的解，其中纯纳什均衡始终存在。然而，在这种情况下，它甚至更好：纳什均衡是唯一的！这意味着对所有参与者都有一个明确的最佳策略。这是我在$a=1$的情况下得到的结果。

纳什均衡的唯一性反映在每个区域都是实心的；任何地方都没有重叠。

雅培不准确

当然，我必须看看在雅培不完全准确的情况下会发生什么。准备好让你的头脑崩溃…

以下是Coinflip-ball的案例：

您会注意到，当$a=0$时，最佳解决方案只是沿着直线$b=c$分割，在该直线上，更准确的玩家获胜。这很有道理；无论阿伯特做什么，他都会输，所以剩下的两名球员需要决一雌雄。

以下是谋杀球的案例：

这一次，在$a=0$的情况下，鲍勃和科斯特洛没有受到雅培的威胁，所以他们互相攻击。如果Bob和Costello都非常准确，那么他们很有可能互相淘汰，在这种情况下，Abbott赢了！

最后，这里是Random-ball的例子：

对《躲避球决斗》的14点思考

劳伦特，你好，
非常有趣。然而，我对这个问题的解释有些不同。
在更简单的版本（Riddler Express）中，它指出，当两名速度相同的选手比赛时，每名选手都有1/2的获胜机会——先投掷硬币，当他们击球时，另一名选手在还击前死亡。因此，我对这个问题的解释是，“射门”的顺序是随机的（A在B之前射门，C之前射门的概率各为1/6，其他5种排列的概率各有1/6），而不是完全同步的。在这种情况下，最佳策略是相同的，但结果有些不同，特别是如果有人在a射门之前先从a身上射门，那么B就可以赢。在这种情况中，有一个大B和中c的区域，B获胜的机会最大（而且总有人赢）。
特别是我发现A获胜的概率是
（2-b）（2-3c+c^2）/4
B获胜，假设B>c
b（2-c）（3b+3c-2bc）/（12（b+c-bc））
C获胜的概率是1减去这两者的总和。这导致了
https://theorie.ikp.physik.tu-darmstadt.de/qcd/wins.pdf
（请原谅图片太差）

答复

劳伦特 说：

2018年2月19日凌晨2:36

整洁！我对这个问题进行了更多的思考，实际上，我认为我的解决方案是不完整的（尽管有不同的解释）。明天我有时间的时候会更新我的博客帖子……敬请期待！

答复
1. 劳伦特 说：
  
  2018年2月20日凌晨1:50
  
  解决方案已更新。我还包括a<1的情况
  
  答复

我把这个谜题解释为运动员在每轮比赛中同时投掷。如果两人准确地相互投掷，则通过掷硬币决定胜负。

如果玩家P和Q互相掷骰子，有四种可能的结果：
1.两人都准确投掷，概率pq，Pp=0.5，pq=0.5
2.P投得准确，Q不准确，概率为P（1-Q），Pp=1，Pq=0
3.P抛出不准确，Q准确，概率（1-P）Q，Pp=0，Pq=1
4.使用（1-p）（1-q），Pp=p，Pq=q（再次抛出），两者抛出不准确

P获胜概率：
P=0.5pq+P（1-q）+（1-P）（1-q

简化，
P=P（1-q/2）/（P+q-pq）
Q=Q（1-p/2）/（p+Q-qp）

按照上面描述的类似逻辑，B和C总是在第1轮以A为目标。如果B>c，A将以B为目标，如果c>B，则以c为目标。

假设，在不损失一般性的情况下，b>c。

在“truel”中，C在第一轮获胜的概率为（1-b/2）C，即A击败b，C准确投掷并淘汰A。

否则，如果A赢了B，C投得不准确，那么A在第二轮就对C投。发生这种情况的概率为（1-b/2）（1-c）。A以总概率（1-b/2）（1-c）（1-c/2）获胜，c以总概率（1-b/2）（1-c）c/2获胜。

最后，如果B在第一轮中以B/2的概率击败A，并在第二轮中与C对决。B以总概率（B/2）B（1-c/2）/（B+c-bc）获胜，c以总概率。

每个玩家的总获胜概率：
PA=（1-b/2）（1-c）（1-c/2）
PB=（1-b/2）（1-c）c/2+（b/2）b（1-c/2）/（b+c-bc）
PC=（1-b/2）c+（1-b/2）（1-c）c/2+（b/2）c（1-b/2）/（b+c-bc）

显示谁最有可能获胜的图表：https://goo.gl/BrYdbL网站
谷歌电子表格：https://goo.gl/LT5GCr网站

答复

劳伦特 说：

2018年2月20日凌晨1:50

我更新了我的解决方案。希望你喜欢！

答复
盖·摩尔 说：

2018年2月20日上午8:59

你好，杰森，
我不确定特鲁尔回合的逻辑。我对待“决斗”的方式和你一样——50/50先射中对方——但根据类似的逻辑，应该有可能是C在A对B的射门之前射中了A，而你似乎认为A、B完成了潜在的相互射门，然后C的子弹就来了。因此，我得到了一些不同的结果，尽管模式是相同的。

答复

Laurent，我可能遗漏了一些东西，但我确信有一个纯粹的策略解决方案，球员B和C都瞄准a，而a瞄准B和C之间更好的投掷者。假设B>C，将此策略称为BAA。

经过一些代数运算，三者中获胜的概率（假设b>c）为：
PA=（1-b/2）*（1-c）*（1-c/2）
PB=b^2/2*（1-c/2）/（b+c-b*c）
PC=（1-b/2）*c+（1-b/2）*（1-c）*c/2+（1-b2）*b*c/2/（b+c-b*c）

为了确定BAA是否是一个均衡，每个参与者都要考虑变化是否会增加获胜的可能性。因此，A将其与CAA战略下的PA进行比较，B将其与BCA策略下的PB进行比较，C将其与BAB策略下的PC进行比较。

这些是：
PA（CAA）=（1-c/2）*（1-b）*（1-b/2）
PB（BCA）=0
PC（BAB）=b/2*c+（1-b/2）*c/2+b/2*（1-c）*c*（1-b2）/（b+c-b*c）

前两种情况很明显是PA（BAA）>PA（CAA）和PB（BAA。

因此，似乎没有激励任何玩家偏离纯战略BAA。我不清楚你的硬币翻转球解决方案的右上部分是如何合理的。

答复

好吧，也许是规则解释上的不同。我假设所有球员在每一轮都同时投掷，没有时间差异。因此，例如，在我的解释中，BCA将导致B的某些消除（A以100%的准确率向B投掷，B以C投掷，C以A投掷）。根据这些规则，我认为BAA是一个纯粹的战略解决方案。根据你的解释，C可能在A有机会投掷之前就淘汰了A，所以B有机会在这种情况下获胜？

答复

盖·摩尔 说：

2018年2月21日凌晨4:06

对，根据我的解释，如果玩家使用策略BCA，那么每个人都有1/6的机会
抛出的实际顺序是（A，B，C），（A，C，B），……对于C在A抛出之前击中A的情况，则B幸存。这意味着B更有可能通过缺少C生存，这表明这种策略对B来说不是最佳的。
我们必须看看Riddler想要什么样的解释。我真的很喜欢这些拼图，
但我必须承认，有些问题写得不清楚，因此
多种解释。我真的不知道如何解释这个，我看到了另一个
人们发现了我认为同样有效的替代解释。

答复
1. 劳伦特 说：
  
  2018年2月23日凌晨3:33
  
  我用你对游戏的解释解决了这个问题，还为这个案例添加了一个动画。我认为这是最好的解释；它产生了一个具有独特纳什均衡的游戏！
  
  答复

劳伦特，谢谢你更新了随机球的解释。

祝贺你们两位在本周的538 Riddler解决方案中发出呼吁！

当做，
杰森

答复

盖·摩尔 说：

2018年2月24日上午9:09

谢谢，杰森。但我仍然感到奇怪的是，该专栏根据对他模糊问题的两种不同解释显示了图形，而第五专栏似乎没有意识到解决方案解决了不同的问题！
劳伦特，像往常一样，你做得很出色，我真的很喜欢图形。

答复
1. 杰森·魏斯曼 说：
  
  2018年2月25日下午7:23
  
  伙计，同意本周对538 Riddler的解决方案不够严格或详细。当然，洛朗的分析要完整得多，也更令人满意。
  
  去年我遇到了一个问题，我相当肯定这是一个错误的解决方案。试图得到认可和纠正导致了我的失败，奥利弗也没有回应。请参阅以下链接。在那之后，我觉得最好是享受挑战，但尽量不要对缺点的陈述过于挑剔。
  
  https://twitter.com/jason_weisman/status/921369527241363456
  https://twitter.com/jason_weisman/status/916330448137129984
  https://twitter.com/jason_weisman/status/917153789173526529
  
  答复
  1. 盖·摩尔 说：
    
    2018年3月1日凌晨4:03
    
    啊，是的，那个问题。我想我和你一样解决了这个问题。
    我想没有人是完美的…。
    家伙
    
    答复