另一个来自Riddler公司。这个游戏是扑克的简化版本,但捕捉了一些有趣的行为!
婴儿扑克由两名玩家玩,每个玩家在一个杯子里拿着一个骰子。游戏开始时,每个玩家下注\$1。然后,双方都摇着骰子,掷骰子,只看自己的骰子。然后,玩家A可以“呼叫”,在这种情况下,两个骰子都显示出来,数字较高的玩家赢得桌上的\$2,或者玩家A可以进行“筹集”,下注一美元。如果A提高了,那么B可以选择通过匹配A的第二美元来“呼叫”,然后较高的数字赢得桌子上的\$4,或者B可以“折叠”,在这种情况下,A赢了,但B只超过了原来的\$1。不进行其他游戏,如果骰子匹配,则一个被调用的锅被平均分开。
每个玩家的最佳策略是什么?在这些策略下,一个婴儿扑克游戏对玩家a来说值多少钱?换言之,为了使比赛公平,A应该事先支付B多少钱?
如果你对推导感兴趣(可能还学习了一些博弈论),你可以在这里阅读我的完整解决方案:
[显示解决方案]
我们的首要任务是计算游戏的收益,作为玩家策略的函数。对于每一个可能的骰子,玩家A必须决定是调用($0$)还是提升($1$)。同样,玩家B必须决定是调用($0$)还是折叠($1$)。球员A的策略示例如下:
\[
p=\begin{bmatrix}0&0&00&1&1\end{bmatricx}
\]这对应于玩家A在掷$\{1,2,3,4\}$时调用,在掷$\{5,6\}时提升。$这是一个示例纯战略因为它完全决定了玩家根据可用信息做什么。我们可以将每个纯策略编码为六位二进制数。每个玩家有$2^6=64$可能的纯策略,我们可以根据十进制表示从$0$到$63$进行编号。例如,策略$44$对应于二进制形式的$101100$,即策略$p=\begin{bmatrix}1&0&1&1&0&0\end{bmatrix}$。我们还可以考虑混合策略,其中动作是概率性的。球员a的混合策略示例如下:
\[
p=\开始{bmatrix}0.3&0&1&0&0\结束{bmatricx}
\]此策略与前一示例相同,但如果玩家A掷1$,他们将在30%的时间内筹得$30$%,并在70%的时间内调用$70$%。混合策略允许玩家随意玩游戏!纯策略是混合策略的特殊情况,其中概率为$0$或$1$(确定性)。
让我们称$0\lep_i\le1$为玩家A的策略,如果他们掷$i\in\{1,\dots,6\}.$同样,如果玩家B掷$j\in\{1,\dots,6\}.$,那么让我们称$0\leq_j\le1$为玩家B的策略将$6\乘以6$矩阵$E$定义为:
\[
E_{ij}=\开始{cases}
1&\text{if}i>j\\
0&\text{if}i=j\\
-1&\text{if}i<j\结束{cases}\]这个矩阵告诉我们,如果玩家A用$i$进行呼叫,而对手掷$j,玩家A将赢得多少胜利。玩家A以概率$p_i$进行提升,并以概率$1-p_i进行呼叫。$类似地,玩家B以概率$q_j$进行折叠,并以概率$1-q_j进行呼叫。$由于每对$(i,j)$的可能性相同,玩家A的预期奖金为:\[W=\frac{1}{36}\sum_{i=1}^6\sum_{j=1}^6 \bigl((1-p_i)E_{ij}+p_i\左(2(1-q_j)E_{j}+q_j\右)\bigr)\]最后一项看起来是这样的,因为如果球员B折叠,球员A肯定会赢得$1+1$。如果玩家B调用,那么我们使用$E_{ij}$矩阵来确定回报,但因子为2,因为赌注增加了一倍。
纯策略均衡
当玩家分别采用纯策略$A、b\in\{0,1、\dots、63\}$时,根据上面的$W$公式定义$P_{ab}$为玩家A的赢款。这将产生64美元乘以64美元矩阵$P$,对应于所有可能的纯策略组合的赢款。以下是$P$的外观:
玩家A试图最大化$P_{ab}$,而玩家B试图最小化它(这是一个零和博弈,所以最小化一个玩家的赢款相当于最大化另一个玩家损失)。换句话说,玩家A选择矩阵$P$中的一行(对应64个纯策略中的一个选择),而玩家B选择一列(同样对应于纯策略的一个选项)。所选单元格中的数字决定了玩家A将赢得多少。A类纳什均衡是满足以下条件的单元格$P_{ab}$
\[
P_{\bar a b}\le P_{ab}\le P_{\bar b}\qquad\text{for all}\bar a,\bar b\ in \{1,\dots,64\}
\]换句话说,$P_{ab}$是其列中最大的元素(因此玩家A没有选择其他行的动机),也是其行中最小的元素(所以玩家B没有选择其他列的动机)。
一个自然的问题是:是否存在一对最优的纯策略?这相当于在上面的$P$矩阵中搜索一个元素,该元素在其列中同时最大,在其行中同时最小。快速搜索发现不存在这样的元素。换句话说,这个游戏没有纯粹的平衡!
混合策略均衡
每个混合策略都可以表示为凸组合纯粹的战略。例如:
\[
\开始{bmatrix}1\\\tfrac{1}{3}\\0\\tfrac{3}{4}\\1\end{bmatrix}=
\压裂{1}{3}\开始{bmatrix}1\\1\\0\\0\\1\\end{bmatrix}+
\压裂{5}{12}\开始{bmatrix}1\\0\\0\\1\\1\end{bmatrix}+
\压裂{1}{4}\开始{bmatrix}1\\0\\0\\0\0\\1\end{bmatrix}
\]这是因为每个混合策略都位于凸面船体所有纯粹的战略。此外,由于赢款$W$在$p$和$q$中是双线性的,因此策略凸组合的赢款是相应赢款的凸组合。
现在让$u\in[0,1]^{64}$和$v\in[0.1]^{64}$分别是参与者1和参与者2的纯策略的凸组合的系数。玩家A的奖金可以简写为$u^\textsf{T}Pv$。玩家A希望选择$u$以最大化此数量,而玩家B希望选择$v$以最小化此数量。所有这些都受到以下约束:所有$i$和$u_1+\dots+u_{64}=1$的$0\le u_i\le 1$,以及$v$的类似约束。请注意,在$u$和$v$包含单个“1”且其余为“0”的特殊情况下,我们恢复了寻求纯策略的情况。
纳什著名地证明了每一个参与者和行动有限的博弈都具有混合策略均衡。所以剩下要做的就是找到它!纳什均衡集可以表示为线性程序特别地,最优策略$u,v$是对偶线性规划的解:
\[
\开始{对齐}
\下划线{u,\mu}{\max}\quad&\mu\\
\text{s.t.}\quad_u\ge 0,\quad\mathbf{1}^\textsf{t}u=1\\
&P^\textsf{T}u\ge\mu\mathbf{1}
\结束{对齐}
\qquad(平方米)
\开始{对齐}
=\q平方
\下划线{v,t}{\min}\quad&t\\
\text{s.t.}\quad&v\ge 0,\quad\mathbf{1}^\textsf{t}v=1\\
&Pv\le\t\mathbf{1}
\结束{对齐}
\]第一个程序(播放器A)有一个独特的解决方案,即混合:
\[
p_\text{opt}=
\压裂{1}{3}\开始{bmatrix}0\\0\\0\结束{bmatricx}+
\压裂{2}{3}\开始{bmatrix}1\\0\\0\\1\结束{bmatricx}=
\开始{bmatrix}\tfrac{2}{3}\\0\\0\\1\1\end{bmatricx}
\]第二个程序(玩家B)的解决方案不是唯一的,而且相当复杂。与任何线性规划一样,解集是一个多面体。在这种情况下,多胞体有15个顶点,位于$\mathbb{R}^{64}$的7维子空间中(整洁,是吗?)。投影回$\mathbb{R}^6$,其中$q$存在,每个最优解占据一个三维子空间。具体而言,
\[
q_\text{opt}\sim
\开始{bmatrix}1\\x\\y\\z\\0\\end{bmatricx}
\]其中$0\lex、y\le1$和$0\le z\le\tfrac{2}{3}$和$x+y+z=\tfrac}{4}{3{$。
每个最优解都有相同的最优值(即$u$和$v$的线性规划中$\mu$或$t$的最优值)。最佳值为$\tfrac{5}{54}\约0.0926$。因此,平均而言,当两名球员都处于最佳状态时,球员A的表现领先于大约9.26美分。
这个替代解决方案是由一位名叫克里斯的评论员提出的。答案相同,但论点更简单!
[显示解决方案]
该解决方案与前一个解决方案非常相似,但这一次,我们将成本改写为向量$p$和$q$中的二次形式:
\开始{align}
W&=\frac{1}{36}\sum_{i=1}^6\sum_{j=1}^6 \bigl((1-pi)E_{ij}+p_i\左(2(1-q_j)E_{j}+q_j\右)\bigr)\\
&=\压裂{1}{36}\左(p^\textsf{T}(E\mathbf{1}{T} -2E型)q \right)\\
&=p^\textsf{T}b+p^\text{T}Aq
\结束{align}其中$b=\tfrac{1}{36}E\mathbf{1}$和$A=\tfrac{1}{36}\左(\textbf{1{1}\textbf{1}^\textsf{T} -2E型\右)$,$\textbf{1}$是所有1的向量。我们现在可以了直接地为$p$和$q$编写线性程序。第一个玩家试图最大化$W$,前提是第二个玩家试图最小化$W$。换句话说,我们应该解决:
\开始{align}
&\幻影{=}\underset{\textbf{0}\lep\le\textbf{1}}{max}\quad\underset}\textbf1}\leq\le\text bf{1}{min}\quad p^\textsf{T}b+p^\text\\
&=\underset{\textbf{0}\lep\le\textbf{1}}{max}\left(p^\textsf{T}b+\sum_{j=1}^6\underset{0\leq_j\le1}{min}q_j(A^\textsf{T} 第页)_j \右)\\
&=\underset{\textbf{0}\le p\le\textbf{1}}{\max}\left(p^\textsf{T}b+\sum_{j=1}^6\min\left)(0,(A^\textsf{T} 第页)_j(右)\\
&=\left开始对齐
\underset{p,t}{\text{maximize}}&\四p^\textsf{t}b+t^\textsf{t}\textbf{1}\\
\text{subject主题:}&\quad\textbf{0}\lep\le\textbf{1}\\
&t\le\textbf{0},\quad t\leA^\textsf{t}p
\右端{对齐}。
\结束{align}同样,第二个玩家试图最小化$W$,前提是第一个玩家试图最大化$W$。我们可以按照与上述类似的方式进行,并获得:
\开始{align}
&\幻影{=}\底集{\textbf{0}\leq\le\textbf{1}}{\min}\quad\underset{\textbf{0{\lep\le\text bf{1}{\max}\quad p^\textsf{T}b+p^\text sf{T{Aq\\
&=\underset{\textbf{0}\leq\le\textbf{1}}{\min}\left(\sum_{i=1}^6\max_{0\lep_i\le1}p_i(Aq+b)_i\right)\\
&=\underset{\textbf{0}\le q\le\textbf{1}}{\min}\left(\sum_{i=1}^6\max\left,(Aq+b)_i\right)\right\\
&=\left\{\开始{aligned}
\underset{q,\mu}{\text{minimize}}&\quad\mu^\textsf{T}\textbf{1}\\
\text{subject主题:}&\quad\textbf{0}\leq\le\textbf{1}\\
&\mu\ge\textbf{0},\quad\mu\ge A q+b
\右端{对齐}。
\结束{align}求解这两个线性程序产生的最优$p$和$q$向量与前面的方法相同,但这次我们的线性程序的变量要少得多!这两个LP的目标值也匹配,与之前一样,都等于$\tfrac{5}{54}\约0.926$。事实上,我们可以从代数上检查两个LP相互对偶.由于两者都是明确可行的(很容易检查可行集是紧的和非空的),因此强对偶性成立,并且这两个LP必须具有相同的最佳值这本质上是纳什著名的结果;minimax和maximin公式是等价的!
如果你只想知道答案和简短的解释,这里是tl;dr版本:
[显示解决方案]
玩家A的最佳策略:
- 如果你掷$\{5,6\}$,那么总是提高.
- 如果你掷$\{2,3,4\}$,那么总是打电话.
- 如果掷$1$,则采用以下随机策略:以概率$\tfrac{1}{3}$调用,以概率$\t frac{2}{3{$提升。
这很有道理;如果你有一只强有力的手,你应该举起来,因为那样你会赢得更多。如果你的手无力,你应该打电话,因为你很可能会输,这可以将你的损失降到最低。然而,如果你的手很弱,你应该偶尔虚张声势,诱骗对手认为你有一只强壮的手!
球员B的最佳策略:
- 如果你掷$\{5,6\}$,那么总是打电话.
- 如果你掷1美元,那么总是折叠.
- 如果滚动$\{2,3,4\}$,则采用随机策略,分别将$x、y、z$的折叠概率分配给$2,3,4],其中$x+y+z=\tfrac{4}{3}$和$z\le\tfrac}{2}{3{$。一个简单可行的策略是,每当滚动$\{2,3,4\}$时,以概率$\tfrac{4}{9}$折叠。
这很有道理;如果你的手很有力,你应该叫,如果你的手软,你应该折叠,如果你在诺曼的土地上,那么你应该走这条路或那条路。为什么我们会期望有多种可行的战略?当球员A使用最佳策略加薪时,他要么用$\{4,5,6\}$打强手,要么用$1\{1\}$打弱手。根据这一信息,如果玩家B掷$3$,这与掷$2$没有什么不同!在这些无限多的可行策略中,每一个都有相同的预期回报,所以选择哪一个并不重要。
当两名球员都发挥最佳时,球员A有望赢得$\tfrac{5}{54}$美元,或大约9.26美分平均而言。因此,这是球员A应该事先向球员B支付的费用,以使比赛公平。