婴儿扑克-书证

另一个来自Riddler公司。这个游戏是扑克的简化版本，但捕捉了一些有趣的行为！

婴儿扑克由两名玩家玩，每个玩家在一个杯子里拿着一个骰子。游戏开始时，每个玩家下注\$1。然后，双方都摇着骰子，掷骰子，只看自己的骰子。然后，玩家A可以“呼叫”，在这种情况下，两个骰子都显示出来，数字较高的玩家赢得桌上的\$2，或者玩家A可以进行“筹集”，下注一美元。如果A提高了，那么B可以选择通过匹配A的第二美元来“呼叫”，然后较高的数字赢得桌子上的\$4，或者B可以“折叠”，在这种情况下，A赢了，但B只超过了原来的\$1。不进行其他游戏，如果骰子匹配，则一个被调用的锅被平均分开。

每个玩家的最佳策略是什么？在这些策略下，一个婴儿扑克游戏对玩家a来说值多少钱？换言之，为了使比赛公平，A应该事先支付B多少钱？

如果你对推导感兴趣（可能还学习了一些博弈论），你可以在这里阅读我的完整解决方案：
[显示解决方案]

我们的首要任务是计算游戏的收益，作为玩家策略的函数。对于每一个可能的骰子，玩家A必须决定是调用（$0$）还是提升（$1$）。同样，玩家B必须决定是调用（$0$）还是折叠（$1$）。球员A的策略示例如下：
\[
p=\begin{bmatrix}0&0&00&1&1\end{bmatricx}
\]这对应于玩家A在掷$\｛1,2,3,4\｝$时调用，在掷$\｛5,6\｝时提升。$这是一个示例纯战略因为它完全决定了玩家根据可用信息做什么。我们可以将每个纯策略编码为六位二进制数。每个玩家有$2^6=64$可能的纯策略，我们可以根据十进制表示从$0$到$63$进行编号。例如，策略$44$对应于二进制形式的$101100$，即策略$p=\begin{bmatrix}1&0&1&1&0&0\end{bmatrix}$。我们还可以考虑混合策略，其中动作是概率性的。球员a的混合策略示例如下：
\[
p=\开始{bmatrix}0.3&0&1&0&0\结束{bmatricx}
\]此策略与前一示例相同，但如果玩家A掷1$，他们将在30%的时间内筹得$30$%，并在70%的时间内调用$70$%。混合策略允许玩家随意玩游戏！纯策略是混合策略的特殊情况，其中概率为$0$或$1$（确定性）。

让我们称$0\lep_i\le1$为玩家A的策略，如果他们掷$i\in\{1，\dots，6\}.$同样，如果玩家B掷$j\in\{1，\dots，6\}.$，那么让我们称$0\leq_j\le1$为玩家B的策略将$6\乘以6$矩阵$E$定义为：
\[
E_{ij}=\开始{cases}
1&\text{if}i>j\\
0&\text{if}i=j\\
-1&\text{if}i<j\结束{cases}\]这个矩阵告诉我们，如果玩家A用$i$进行呼叫，而对手掷$j，玩家A将赢得多少胜利。玩家A以概率$p_i$进行提升，并以概率$1-p_i进行呼叫。$类似地，玩家B以概率$q_j$进行折叠，并以概率$1-q_j进行呼叫。$由于每对$（i，j）$的可能性相同，玩家A的预期奖金为：\[W=\frac{1}{36}\sum_{i=1}^6\sum_{j=1}^6 \bigl（（1-p_i）E_{ij}+p_i\左（2（1-q_j）E_{j}+q_j\右）\bigr）\]最后一项看起来是这样的，因为如果球员B折叠，球员A肯定会赢得$1+1$。如果玩家B调用，那么我们使用$E_{ij}$矩阵来确定回报，但因子为2，因为赌注增加了一倍。

纯策略均衡

当玩家分别采用纯策略$A、b\in\{0,1、\dots、63\}$时，根据上面的$W$公式定义$P_{ab}$为玩家A的赢款。这将产生64美元乘以64美元矩阵$P$，对应于所有可能的纯策略组合的赢款。以下是$P$的外观：

玩家A试图最大化$P_{ab}$，而玩家B试图最小化它（这是一个零和博弈，所以最小化一个玩家的赢款相当于最大化另一个玩家损失）。换句话说，玩家A选择矩阵$P$中的一行（对应64个纯策略中的一个选择），而玩家B选择一列（同样对应于纯策略的一个选项）。所选单元格中的数字决定了玩家A将赢得多少。A类纳什均衡是满足以下条件的单元格$P_{ab}$
\[
P_｛\bar a b｝\le P_｛ab｝\le P_｛\bar b｝\qquad\text｛for all｝\bar a，\bar b\ in \｛1，\dots，64\｝
\]换句话说，$P_{ab}$是其列中最大的元素（因此玩家A没有选择其他行的动机），也是其行中最小的元素（所以玩家B没有选择其他列的动机）。

一个自然的问题是：是否存在一对最优的纯策略？这相当于在上面的$P$矩阵中搜索一个元素，该元素在其列中同时最大，在其行中同时最小。快速搜索发现不存在这样的元素。换句话说，这个游戏没有纯粹的平衡！

混合策略均衡

每个混合策略都可以表示为凸组合纯粹的战略。例如：
\[
\开始{bmatrix}1\\\tfrac{1}{3}\\0\\tfrac{3}{4}\\1\end{bmatrix}=
\压裂{1}{3}\开始{bmatrix}1\\1\\0\\0\\1\\end{bmatrix}+
\压裂{5}{12}\开始{bmatrix}1\\0\\0\\1\\1\end{bmatrix}+
\压裂{1}{4}\开始{bmatrix}1\\0\\0\\0\0\\1\end{bmatrix}
\]这是因为每个混合策略都位于凸面船体所有纯粹的战略。此外，由于赢款$W$在$p$和$q$中是双线性的，因此策略凸组合的赢款是相应赢款的凸组合。

现在让$u\in[0,1]^{64}$和$v\in[0.1]^{64}$分别是参与者1和参与者2的纯策略的凸组合的系数。玩家A的奖金可以简写为$u^\textsf{T}Pv$。玩家A希望选择$u$以最大化此数量，而玩家B希望选择$v$以最小化此数量。所有这些都受到以下约束：所有$i$和$u_1+\dots+u_{64}=1$的$0\le u_i\le 1$，以及$v$的类似约束。请注意，在$u$和$v$包含单个“1”且其余为“0”的特殊情况下，我们恢复了寻求纯策略的情况。

纳什著名地证明了每一个参与者和行动有限的博弈都具有混合策略均衡。所以剩下要做的就是找到它！纳什均衡集可以表示为线性程序特别地，最优策略$u，v$是对偶线性规划的解：
\[
\开始{对齐}
\下划线{u，\mu}{\max}\quad&\mu\\
\text{s.t.}\quad_u\ge 0，\quad\mathbf{1}^\textsf{t}u=1\\
&P^\textsf{T}u\ge\mu\mathbf{1}
\结束｛对齐｝
\qquad（平方米）
\开始{对齐}
=\q平方
\下划线{v，t}{\min}\quad&t\\
\text{s.t.}\quad&v\ge 0，\quad\mathbf{1}^\textsf{t}v=1\\
&Pv\le\t\mathbf{1}
\结束｛对齐｝
\]第一个程序（播放器A）有一个独特的解决方案，即混合：
\[
p_\text{opt}=
\压裂{1}{3}\开始{bmatrix}0\\0\\0\结束{bmatricx}+
\压裂{2}{3}\开始{bmatrix}1\\0\\0\\1\结束{bmatricx}=
\开始{bmatrix}\tfrac{2}{3}\\0\\0\\1\1\end{bmatricx}
\]第二个程序（玩家B）的解决方案不是唯一的，而且相当复杂。与任何线性规划一样，解集是一个多面体。在这种情况下，多胞体有15个顶点，位于$\mathbb{R}^{64}$的7维子空间中（整洁，是吗？）。投影回$\mathbb{R}^6$，其中$q$存在，每个最优解占据一个三维子空间。具体而言，
\[
q_\text{opt}\sim
\开始{bmatrix}1\\x\\y\\z\\0\\end{bmatricx}
\]其中$0\lex、y\le1$和$0\le z\le\tfrac{2}{3}$和$x+y+z=\tfrac}{4}{3{$。

每个最优解都有相同的最优值（即$u$和$v$的线性规划中$\mu$或$t$的最优值）。最佳值为$\tfrac{5}{54}\约0.0926$。因此，平均而言，当两名球员都处于最佳状态时，球员A的表现领先于大约9.26美分。

这个替代解决方案是由一位名叫克里斯的评论员提出的。答案相同，但论点更简单！
[显示解决方案]

该解决方案与前一个解决方案非常相似，但这一次，我们将成本改写为向量$p$和$q$中的二次形式：
\开始{align}
W&=\frac{1}{36}\sum_{i=1}^6\sum_{j=1}^6 \bigl（（1-pi）E_{ij}+p_i\左（2（1-q_j）E_{j}+q_j\右）\bigr）\\
&=\压裂{1}{36}\左（p^\textsf{T}（E\mathbf{1}{T} -2E型)q \right）\\
&=p^\textsf{T}b+p^\text{T}Aq
\结束{align}其中$b=\tfrac{1}｛36｝E\mathbf{1}$和$A=\tfrac{1}{36}\左（\textbf{1{1}\textbf{1}^\textsf{T} -2E型\右）$，$\textbf{1}$是所有1的向量。我们现在可以了直接地为$p$和$q$编写线性程序。第一个玩家试图最大化$W$，前提是第二个玩家试图最小化$W$。换句话说，我们应该解决：
\开始{align}
&\幻影{=}\underset{\textbf{0}\lep\le\textbf{1}}{max}\quad\underset}\textbf1}\leq\le\text bf{1}{min}\quad p^\textsf{T}b+p^\text\\
&=\underset{\textbf{0}\lep\le\textbf{1}}{max}\left（p^\textsf{T}b+\sum_{j=1}^6\underset{0\leq_j\le1}{min}q_j（A^\textsf{T} 第页)_j \右）\\
&=\underset{\textbf{0}\le p\le\textbf{1}}{\max}\left（p^\textsf{T}b+\sum_{j=1}^6\min\left）（0，（A^\textsf{T} 第页)_j（右）\\
&=\left开始对齐
\underset{p，t}{\text{maximize}}&\四p^\textsf{t}b+t^\textsf{t}\textbf{1}\\
\text{subject主题：}&\quad\textbf{0}\lep\le\textbf{1}\\
&t\le\textbf{0}，\quad t\leA^\textsf{t}p
\右端{对齐}。
\结束{align}同样，第二个玩家试图最小化$W$，前提是第一个玩家试图最大化$W$。我们可以按照与上述类似的方式进行，并获得：
\开始{align}
&\幻影{=}\底集{\textbf{0}\leq\le\textbf{1}}{\min}\quad\underset{\textbf{0{\lep\le\text bf{1}{\max}\quad p^\textsf{T}b+p^\text sf{T{Aq\\
&=\underset{\textbf{0}\leq\le\textbf{1}}{\min}\left（\sum_{i=1}^6\max_{0\lep_i\le1}p_i（Aq+b）_i\right）\\
&=\underset{\textbf{0}\le q\le\textbf{1}}{\min}\left（\sum_{i=1}^6\max\left，（Aq+b）_i\right）\right\\
&=\left\{\开始{aligned}
\underset{q，\mu}{\text{minimize}}&\quad\mu^\textsf{T}\textbf{1}\\
\text{subject主题：}&\quad\textbf{0}\leq\le\textbf{1}\\
&\mu\ge\textbf{0}，\quad\mu\ge A q+b
\右端{对齐}。
\结束{align}求解这两个线性程序产生的最优$p$和$q$向量与前面的方法相同，但这次我们的线性程序的变量要少得多！这两个LP的目标值也匹配，与之前一样，都等于$\tfrac{5}{54}\约0.926$。事实上，我们可以从代数上检查两个LP相互对偶.由于两者都是明确可行的（很容易检查可行集是紧的和非空的），因此强对偶性成立，并且这两个LP必须具有相同的最佳值这本质上是纳什著名的结果；minimax和maximin公式是等价的！

如果你只想知道答案和简短的解释，这里是tl；dr版本：
[显示解决方案]

关于“婴儿扑克”的12点思考

太好了，谢谢！我发现没有纯粹的战略解决方案（有一种观点认为，针对任何纯a或混合a策略的最佳纯B策略必须是一个调用阈值-只有7种这样的策略-而针对a的最佳阈值策略的最佳阈值战略决不是相同的阈值策略）。但我对非数字混合策略的研究超出了我的深度。你介意简要描述一下你是如何找到双LP的解决方案的吗？

顺便说一下，您的tl中给出的A的解决方案；dr版本与扩展版本不同。我确信扩展的（总是用4调用）是正确的。

此外，在这样的一杆游戏中，我很难理解NE对理性选择的确切意义。如果B采用了你确定的任何均衡策略，那么A对形式为[p 0 0 1 1]的策略的期望值是5/54，与p无关。确实，B对A的最佳策略只包括那些p=2/3的均衡策略，这就是A的NE策略的原因。但这让我怀疑，从作为NE一部分的策略来看，玩家比非NE策略更有理由遵循它。如果A确信B会选择NE策略，那么最大化期望只会促使选择一些[p 0 0 1 1]策略或其他策略。如果A不确定B会选择NE，那么在什么意义上A最适合这样做还不清楚。当然，如果B碰巧选择了最佳的应对策略，他不会希望自己选择了不同的策略，就像他选择非NE策略时可能发生的那样，但为什么期望最大化者应该对此特别担心呢？

答复

劳伦特 说：

2017年1月2日下午1:50

感谢您的评论；我修正了输入错误。

我将其平方如下：正如你所指出的，A对B的纳什策略有几种可能的最佳反应，即选择不同的p。但如果A做出这样的选择，B将有动力偏离其纳什策略，提高其预期收益。唯一能保证A队平均赢5/54的方法是，如果他们打p=2/3。诚然，A不确定B是否会采用纳什策略，但如果A采用p=2/3，那么B最好也采用纳什战略。如果B做了其他事情，那么A将赢得更多。同样，如果B采用纳什策略，他们的平均损失也不会超过5/54。不能保证A会效仿纳什，但如果A打其他比赛，B会赢更多。我希望这是有意义的；如果我误解了你的问题，我道歉！

答复
1. 赫克托·佩福 说：
  
  2017年1月2日下午2:19
  
  谢谢。你说的是对的，但我的观点是，这是一个最大限度的理由，而不是最大限度的期望，我认为我们所说的“最优”策略对玩家来说是最大限度地提高期望值的策略，而不是最小化可能损失的策略。也许有人认为“在没有定义期望的情况下，尽可能减少可能的损失”这一原则是正确的，但很明显，这不可能是基于采用该原则的预期收益的观点！
  
  答复

我附和道：“您能简要描述一下您是如何找到双LP的解决方案的吗？”

我想知道你使用了什么工具（开源求解器？）。

也许这就是《宝贝扑克》的重头戏？

谢谢！

答复

劳伦特 说：

2017年1月4日下午2:43

你好，马克，

《重游扑克宝贝》是一个完全不同的问题——我暂时把它隐藏起来，可能会在以后发布。

我使用了JuMP建模语言在朱莉娅和CLP公司开放源码求解器来求解LP。我使用随机扰动方法来确定解是否唯一，并在不唯一的情况下找到完整的解集。

我没有在我的帖子中给出更多细节，因为它已经有点长了！

如果有兴趣，我可以发布代码等。

答复
1. 马克·里克特 说：
  
  2017年1月4日下午6:09
  
  谢谢。在发布了那个请求并进行了一些网络搜索之后，我下载了JuMP并得到了一个符合您指定范围的结果。
  
  答复

很棒的帖子！我采用了类似的方法，但在策略向量空间中形成了LP。基本上，我使用函数W作为目标，然后相对于p最大化，相对于q最小化，其中p和q各自被约束为[0,1]^6。（由于对偶性，最小值和最大值的顺序仍然无关紧要。）我用LP对偶性重写了内部问题，然后留下了一个LP。我认为这可以概括得更好，因为它的LP比枚举所有可能的纯策略时小，所以如果使用n面骰子，可以快速求解。我认为如果有人感兴趣的话，这可能会有启发性。显然，无论哪种方式，你都会得到相同的答案。再次感谢您的帖子！

答复

劳伦特 说：

2017年1月4日下午5:34

这是一个很好的观点！我不知怎么说服自己，我必须在增强空间中工作，因为p和q的和不等于1。事实上，我所要做的就是删除它们总和为1的约束！这很好……你说得对，更容易概括。解释起来也容易得多，因为我必须做所有这些额外的工作来梳理出高维空间中的多个解。谢谢你的评论。

答复
劳伦特 说：

2017年1月5日晚上9:50

我更新了我的解决方案，将您的方法包含在更高效的LP中。再次感谢！我今天学到了一些东西。

答复
1. 克里斯 说：
  
  2017年1月6日下午3:43
  
  不客气！谢谢你的博客帖子！你给出了很好的解释。
  
  答复

Pingback:幼儿扑克-书本证明

我对婴儿扑克一无所知。谢谢你分享这篇文章。这很有帮助！

答复

纯策略均衡

混合策略均衡

关于“婴儿扑克”的12点思考

留下回复取消回复