最佳马-书证

本周的Riddler经典是关于如何以最佳方式玩HORSE游戏，即操场上的投篮游戏。这就是问题所在。

两名球员来到篮球场观看了一场马的友谊赛。这场比赛是按照其典型的操场规则进行的，但如果你从未享受过这种乐趣的话，以下是它的工作原理：爱丽丝先去，从她想去的地方射门。如果投篮成功，鲍勃有义务尝试投出完全相同的球。如果他错过了，他会得到字母H，然后轮到爱丽丝从她想去的地方再次拍摄。如果他第一次开枪，他不会收到信，但又轮到爱丽丝从她想去的地方开枪了。如果爱丽丝错过了第一个镜头，她不会收到信，但鲍勃可以选择任何他想拍的镜头，以帮助爱丽丝。每一次未命中的义务射门都会为玩家赢得序列H-O-R-S-E中的另一个字母，而第一个拼写HORSE的玩家将输掉比赛。

现在，爱丽丝和鲍勃都是优秀的射手，他们都很清楚自己的技术。也就是说，他们每个人都可以选择微调投篮，这样他们就有任何特定的机会进入。例如，他们可以选择99%的上篮，或者50%的中距离跳投，或者2%的半场炸弹。

如果爱丽丝和鲍勃都是完美的战略家，爱丽丝应该采取什么样的投篮方式开始比赛？

在游戏的每一个状态下，每个玩家应该采取什么样的投篮方式——一组给定的字母和一个给定的玩家的回合？

以下是我解决问题的方法：
[显示解决方案]

让我们用数字表示分数，使记法更容易一些。得分$k$表示玩家累积了$k$个字母。第一个得分达到5分的选手输了。我们将从Alice的角度考虑游戏，并将$V（a，b）$定义为如果当前轮到Alice，她得分为$a$，Bob得分为$b$，则Alice获胜的概率。这假设两个玩家都处于最佳状态。

假设轮到爱丽丝，分数是$（a，b）$，爱丽丝尝试一次射门，成功概率为$p$。可能会发生以下三种情况之一：

爱丽丝和鲍勃都成功了。这种情况发生的概率为$p^2$。比分仍然是$（a，b）$，轮到爱丽丝了，她以$V（a，b）$的概率获胜。
爱丽丝射门，但鲍伯没打中。这种情况发生的概率为$p（1-p）$。比分现在是$（a，b+1）$，轮到爱丽丝了。所以Alice以$V（a，b+1）$的概率获胜。
爱丽丝射偏了。这种情况发生的概率为$1-p$。在这种情况下，现在轮到鲍勃了，比分仍然是$（a，b）$。由于两名球员都在最佳状态下比赛，根据对称性，鲍伯将使用爱丽丝在比分为$（b，a）$时使用的策略，因此获胜概率为$V（b，a）$。所以Alice以1-V（b，a）$的概率获胜。

因此，我们可以编写以下递归：
\[
V（a，b）=p^2 V（a、b）+p（1-p）V（a和b+1）+（1-p）\bigl（1-V（b，a）\bigr）
\]爱丽丝会选择$p$，以最大化$V（a，b）$的获胜概率。现在，我们将反向查找所有$a$和$b$值的$V（a，b）$。

计算$V（4,4）$

设置$a=b=4$，定义$x=V（4,4）$，并使用$V（4,1）=1$的事实（如果Bob得分为5，Alice获胜），递归变为：
\[
x=p^2 x+p（1-p）+（1-p”）（1-x）
\]重新排列，这将变成：
\[
（1-p）（2+p）x=（1-p”）（1+p）
\]一个解决方案是选择$p=1$，这使得这个等式完全成立，而我们对$x$一无所知。这与爱丽丝选择100%时间拍摄的情况相对应。在这种情况下，爱丽丝将永远保持射击，比赛永远不会结束。所以爱丽丝永远不会输，但她也永远不会赢。为了避免这种情况（并使这个解决方案更现实），让我们假设$0\le p\le 1-\epsilon$，其中$\epsilen\gt 0$是一个小正数，表示“最容易”的投篮距离完美有多远。这给我们留下了：
\[
x=\压裂{1+p}{2+p}
\]爱丽丝想选择$p$来最大化$x$，即她的获胜概率。上面的函数是$p$的递增函数，因此它的最大值是$x=\frac{2-\epsilon}{3-\epsilon}$，这发生在$p=1-\epsillon$时。简言之，爱丽丝应该拍出她最容易的镜头。在极限状态下，她的获胜概率为$\frac{2}{3}$。

一般计算$V（a，b）$

重新排列递归并除以$p-1$，我们得到：
\[
V（a，b）=\压裂{p}{p+1}V（a、b+1）+\压裂{1}{p+1}（1-V（b，a））
\]让我们考虑两种情况：$（a，b）=（3,4）$和$（a、b）=（4,3）$，其中所做的决定分别是$p$和$q$。这就产生了一对方程式：
\开始{align}
V（3,4）&=\压裂{p}{p+1}+\压裂{1}{p+1}（1-V（4,3））\\
V（4,3）&=\frac｛q｝｛q+1｝V（4,4）+\frac｛1｝｛q+1｝（1-V（3,4））
\结束{align}求解这些方程，我们得到：
\开始{align}
V（3,4）&=1-\压裂{q}{pq+p+q}V（4,4）\\
V（4,3）&=左（1-\压裂{p}{pq+p+q}\右）V（4,14）
\结束{align}撤回目标是选择$p$以最大化$V（3,4）$，选择$q$以最大限度地提高$V（4,3）$。当$p$和$q$尽可能大时，就会发生这种情况。因此，设置$p=q=1-\epsilon$，我们得到：
\[
V（3,4）=\frac{\epsilon^2-5\epsiron+7}{（\epsilen-3）^2}，\quad\text{和}\quad
V（4,3）=\压裂{（\ε-2）^2}{（\ε-3）^2{
\]或者，当$\epsilon\到0$时，$V（3,4）=\frac{7}{9}$和$V（4,3）=\frac{4}{9{$。最终，我们可以一次重复这个求解值对的过程，直到填写完整个表格。在每一种情况下，都会发生同样的事情：爱丽丝应该尽可能地发挥出色。求解这些方程的最简单方法是用$p=1-\epsilon$写出它们：
\[
V（a，b）=frac{1-\epsilon}{2-\epsilen}V（a、b+1）+frac{1}{2-\ epsilon}（1-V（b，a））
\]这些是所有$a$和$b$选项的联立线性方程。

下面是解决方案：
[显示解决方案]

最佳策略是，无论比分如何，爱丽丝和鲍勃都要尝试尽可能最可靠的投篮。如果轮到爱丽丝，使用这种策略，她的获胜机会是：
\[
\开始{array}{c|ccccc}
&0&1&2&3&4&5\\hline线
0&\frac{10802}{19683}&\ frac{4241}{6561}&\压裂{545}{729}&\裂缝{617}{729}&\frac{227}{243}&1\\
1&\压裂{2984}{6561}和\压裂{1216}{2187}和\压裂{487}{729}&\压裂{191}{243}和\\压裂{73}{81}&1\\
2&\压裂{256}{729}和\压裂{328}{729}和\压裂{46}{81}和\\压裂{19}{27}和\frac{23}{27}&1\\
3&\压裂{176}{729}和\压裂{80}{243}和\压裂{4}{9}&\压裂{16}{27}&\frac{7}{9{&1\\
4&&frac｛32｝｛243｝&&frac｛16｝｛81｝&&frac｛8｝｛27｝&&frac｛4｝｛9｝&&frac｛2｝｛3｝&1\\
\结束{数组}
\]在这里，行对应于Alice的当前分数，列对应于Bob的当前分数。如果爱丽丝和鲍伯不能打出完美的球，并且他们能打出的最高命中率概率为$1-\epsilon$，那么获胜概率作为$\epsillon$的函数由下式给出这张桌子.

比赛开始时怎么样？假设爱丽丝先发，并且她可以尝试以$0\le p\le 1-\epsilon$的概率射门，那么她获胜的概率是$\epsilon$的函数：
\[
P（\text{Alice获胜}）=\tfrac{（\epsilon-2）\left
\]下面是作为$（1-\epsilon）$函数的图。

例如，假设你最容易的上篮投篮在85%的时间内完成。然后你将$\epsilon=0.15$代入上述公式中（或从情节中读出，发现如果你先去，你战胜对手的机会约为54.3%。最佳策略是双方球员每次都尝试85%的射门。

在完美射击的极限下，当玩家可以在99.999…%的时间内射击时，最先射击的玩家将平均在$\tfrac｛10802｝｛19683｝$的时间内获胜，即约54.88%的时间。请注意，这样玩会导致游戏时间过长！

我没有用$N$玩家来介绍HORSE版本，因为这个游戏有许多不同规则的地区变体，我不知道该看哪一个。看看最佳策略是否仍然是让所有玩家都能发挥最佳射门效果，这将是一件有趣的事！

计算$V（4,4）$

一般计算$V（a，b）$

留下回复取消回复