本周的Riddler经典是关于如何以最佳方式玩HORSE游戏,即操场上的投篮游戏。这就是问题所在。
两名球员来到篮球场观看了一场马的友谊赛。这场比赛是按照其典型的操场规则进行的,但如果你从未享受过这种乐趣的话,以下是它的工作原理:爱丽丝先去,从她想去的地方射门。如果投篮成功,鲍勃有义务尝试投出完全相同的球。如果他错过了,他会得到字母H,然后轮到爱丽丝从她想去的地方再次拍摄。如果他第一次开枪,他不会收到信,但又轮到爱丽丝从她想去的地方开枪了。如果爱丽丝错过了第一个镜头,她不会收到信,但鲍勃可以选择任何他想拍的镜头,以帮助爱丽丝。每一次未命中的义务射门都会为玩家赢得序列H-O-R-S-E中的另一个字母,而第一个拼写HORSE的玩家将输掉比赛。
现在,爱丽丝和鲍勃都是优秀的射手,他们都很清楚自己的技术。也就是说,他们每个人都可以选择微调投篮,这样他们就有任何特定的机会进入。例如,他们可以选择99%的上篮,或者50%的中距离跳投,或者2%的半场炸弹。
如果爱丽丝和鲍勃都是完美的战略家,爱丽丝应该采取什么样的投篮方式开始比赛?
在游戏的每一个状态下,每个玩家应该采取什么样的投篮方式——一组给定的字母和一个给定的玩家的回合?
以下是我解决问题的方法:
[显示解决方案]
让我们用数字表示分数,使记法更容易一些。得分$k$表示玩家累积了$k$个字母。第一个得分达到5分的选手输了。我们将从Alice的角度考虑游戏,并将$V(a,b)$定义为如果当前轮到Alice,她得分为$a$,Bob得分为$b$,则Alice获胜的概率。这假设两个玩家都处于最佳状态。
假设轮到爱丽丝,分数是$(a,b)$,爱丽丝尝试一次射门,成功概率为$p$。可能会发生以下三种情况之一:
- 爱丽丝和鲍勃都成功了。这种情况发生的概率为$p^2$。比分仍然是$(a,b)$,轮到爱丽丝了,她以$V(a,b)$的概率获胜。
- 爱丽丝射门,但鲍伯没打中。这种情况发生的概率为$p(1-p)$。比分现在是$(a,b+1)$,轮到爱丽丝了。所以Alice以$V(a,b+1)$的概率获胜。
- 爱丽丝射偏了。这种情况发生的概率为$1-p$。在这种情况下,现在轮到鲍勃了,比分仍然是$(a,b)$。由于两名球员都在最佳状态下比赛,根据对称性,鲍伯将使用爱丽丝在比分为$(b,a)$时使用的策略,因此获胜概率为$V(b,a)$。所以Alice以1-V(b,a)$的概率获胜。
因此,我们可以编写以下递归:
\[
V(a,b)=p^2 V(a、b)+p(1-p)V(a和b+1)+(1-p)\bigl(1-V(b,a)\bigr)
\]爱丽丝会选择$p$,以最大化$V(a,b)$的获胜概率。现在,我们将反向查找所有$a$和$b$值的$V(a,b)$。
计算$V(4,4)$
设置$a=b=4$,定义$x=V(4,4)$,并使用$V(4,1)=1$的事实(如果Bob得分为5,Alice获胜),递归变为:
\[
x=p^2 x+p(1-p)+(1-p”)(1-x)
\]重新排列,这将变成:
\[
(1-p)(2+p)x=(1-p”)(1+p)
\]一个解决方案是选择$p=1$,这使得这个等式完全成立,而我们对$x$一无所知。这与爱丽丝选择100%时间拍摄的情况相对应。在这种情况下,爱丽丝将永远保持射击,比赛永远不会结束。所以爱丽丝永远不会输,但她也永远不会赢。为了避免这种情况(并使这个解决方案更现实),让我们假设$0\le p\le 1-\epsilon$,其中$\epsilen\gt 0$是一个小正数,表示“最容易”的投篮距离完美有多远。这给我们留下了:
\[
x=\压裂{1+p}{2+p}
\]爱丽丝想选择$p$来最大化$x$,即她的获胜概率。上面的函数是$p$的递增函数,因此它的最大值是$x=\frac{2-\epsilon}{3-\epsilon}$,这发生在$p=1-\epsillon$时。简言之,爱丽丝应该拍出她最容易的镜头。在极限状态下,她的获胜概率为$\frac{2}{3}$。
一般计算$V(a,b)$
重新排列递归并除以$p-1$,我们得到:
\[
V(a,b)=\压裂{p}{p+1}V(a、b+1)+\压裂{1}{p+1}(1-V(b,a))
\]让我们考虑两种情况:$(a,b)=(3,4)$和$(a、b)=(4,3)$,其中所做的决定分别是$p$和$q$。这就产生了一对方程式:
\开始{align}
V(3,4)&=\压裂{p}{p+1}+\压裂{1}{p+1}(1-V(4,3))\\
V(4,3)&=\frac{q}{q+1}V(4,4)+\frac{1}{q+1}(1-V(3,4))
\结束{align}求解这些方程,我们得到:
\开始{align}
V(3,4)&=1-\压裂{q}{pq+p+q}V(4,4)\\
V(4,3)&=左(1-\压裂{p}{pq+p+q}\右)V(4,14)
\结束{align}撤回目标是选择$p$以最大化$V(3,4)$,选择$q$以最大限度地提高$V(4,3)$。当$p$和$q$尽可能大时,就会发生这种情况。因此,设置$p=q=1-\epsilon$,我们得到:
\[
V(3,4)=\frac{\epsilon^2-5\epsiron+7}{(\epsilen-3)^2},\quad\text{和}\quad
V(4,3)=\压裂{(\ε-2)^2}{(\ε-3)^2{
\]或者,当$\epsilon\到0$时,$V(3,4)=\frac{7}{9}$和$V(4,3)=\frac{4}{9{$。最终,我们可以一次重复这个求解值对的过程,直到填写完整个表格。在每一种情况下,都会发生同样的事情:爱丽丝应该尽可能地发挥出色。求解这些方程的最简单方法是用$p=1-\epsilon$写出它们:
\[
V(a,b)=frac{1-\epsilon}{2-\epsilen}V(a、b+1)+frac{1}{2-\ epsilon}(1-V(b,a))
\]这些是所有$a$和$b$选项的联立线性方程。
下面是解决方案:
[显示解决方案]
最佳策略是,无论比分如何,爱丽丝和鲍勃都要尝试尽可能最可靠的投篮。如果轮到爱丽丝,使用这种策略,她的获胜机会是:
\[
\开始{array}{c|ccccc}
&0&1&2&3&4&5\\hline线
0&\frac{10802}{19683}&\ frac{4241}{6561}&\压裂{545}{729}&\裂缝{617}{729}&\frac{227}{243}&1\\
1&\压裂{2984}{6561}和\压裂{1216}{2187}和\压裂{487}{729}&\压裂{191}{243}和\\压裂{73}{81}&1\\
2&\压裂{256}{729}和\压裂{328}{729}和\压裂{46}{81}和\\压裂{19}{27}和\frac{23}{27}&1\\
3&\压裂{176}{729}和\压裂{80}{243}和\压裂{4}{9}&\压裂{16}{27}&\frac{7}{9{&1\\
4&&frac{32}{243}&&frac{16}{81}&&frac{8}{27}&&frac{4}{9}&&frac{2}{3}&1\\
\结束{数组}
\]在这里,行对应于Alice的当前分数,列对应于Bob的当前分数。如果爱丽丝和鲍伯不能打出完美的球,并且他们能打出的最高命中率概率为$1-\epsilon$,那么获胜概率作为$\epsillon$的函数由下式给出这张桌子.
比赛开始时怎么样?假设爱丽丝先发,并且她可以尝试以$0\le p\le 1-\epsilon$的概率射门,那么她获胜的概率是$\epsilon$的函数:
\[
P(\text{Alice获胜})=\tfrac{(\epsilon-2)\left
\]下面是作为$(1-\epsilon)$函数的图。
例如,假设你最容易的上篮投篮在85%的时间内完成。然后你将$\epsilon=0.15$代入上述公式中(或从情节中读出,发现如果你先去,你战胜对手的机会约为54.3%。最佳策略是双方球员每次都尝试85%的射门。
在完美射击的极限下,当玩家可以在99.999…%的时间内射击时,最先射击的玩家将平均在$\tfrac{10802}{19683}$的时间内获胜,即约54.88%的时间。请注意,这样玩会导致游戏时间过长!
我没有用$N$玩家来介绍HORSE版本,因为这个游戏有许多不同规则的地区变体,我不知道该看哪一个。看看最佳策略是否仍然是让所有玩家都能发挥最佳射门效果,这将是一件有趣的事!