幼儿扑克-书本证明

在上一个邮递，我看了一眼“婴儿扑克”，这是一种由两名玩家玩的六面骰子游戏。数字越大获胜，但玩家可以根据自己的数字（只有他们才能看到）选择提升、呼叫或折叠。在本文中，我将了解连续的问题的版本（最近也出现在Riddler帖子!) 以下是问题的全文：

幼儿扑克由两名玩家玩。每个人都被发给一张“卡片”，实际上是从区间[0,1]中随机选择的一个数字。（可以是0.1，或0.9234781，或1/π，依此类推。）游戏开始时每个玩家下注1美元。玩家A可以“呼叫”，在这种情况下，两个数字都会显示出来，数字较高的玩家将赢得表上的\$2，或者“提高”，下注一美元。如果A提高了，B可以选择通过匹配A的第二个美元来“调用”，之后较高的数字将赢得表上的\$4，或者选择“折叠”，在这种情况下，A赢了，但B只拿出了原来的\$1。没有其他剧本。

每个玩家的最佳策略是什么？在这些策略下，一个蹒跚学步的扑克游戏对玩家a来说值多少钱？

额外积分：如果加薪的价值是$k，即球员在加薪后获利$k而不是$2，该怎么办？

以下是我的推导：
[显示解决方案]

让我们将玩家A的数字称为$x\in[0,1]$，将玩家B的数字命名为$y\in[0.1]$。我们假设将军混合战略并计算每个玩家的最佳反应。这种方法与我在战争游戏拼图，但这次的解决方案更为复杂。

对于这个解决方案，我将使用与我的解决方案类似的符号和约定婴儿扑克（幼儿扑克的离散版本）。定义玩家的策略如下：

$p（x）$：球员A将提升如果他们的号码是$x$。
$q（y）$：球员B将折叠如果他们的号码是$y$。

当两个数字都显示出来时，我们将玩家A的报酬称为$E（x，y）$：
\[
E（x，y）=\开始{cases}
1&\text{if}x>y\\
-1&\text{if}x<y\结束{cases}\]我们不考虑$x=y$的情况，因为这种情况发生的概率为零。如果我们让$W（x，y）$是玩家a的奖金，我们可以像计算离散问题一样计算这个数量：\[W（x，y）=（1-p（x））E（x，y）+p（x\]当然，$A$在所有随机数$x，y$上的预期奖金平均值就是积分$\bar W=\int_0^1\int_0^1 W（x，y）\，dx\，dy$。

球员B的最佳反应

让我们假设玩家A使用了策略$p（x）$，而玩家B不知怎么地提前知道了这一点，并得到了尽可能好的响应。这种反应应该是什么？对于每个$y$，应选择$q（y）$以最小化A的预期奖金。换句话说，我们应该解决：
\[
q（y）=\arg\underset{q}{\min}\int_0^1\biggl[
（1-对（x））E（x，y）+p（x）\bigl（k（1-q）E（x，y）+q\bigr）\biggr]\，dx
\]右边的表达式在$q$中是线性的，常数项不影响argmin。因此我们得出结论
\[
q（y）=\开始{案例}
1&\text{if}\int_0^1p（x）（1-kE（x，y））\，dx<0\\0&\text{否则}\结束{cases}\]将[0,1]$中$x\的积分拆分为[0，y]$中的$x\和[y，1]$中$1x\，我们可以替换$E（x，y）$的定义并获得：\开始{align}\整数_0^1 p（x）（1-kE（x，y））\，dx&=\int_0^1 p（x）dx+k\左\\&=（1-k）\int_0^1个p（x）dx+2k\int_0 ^y个p（x）dx\完{align}所以$q（y）$的最终公式是：

$\显示样式
q（y）=\开始｛case｝
1&\text{if}\int_0^yp（x）dx<\frac{k-1}{2k}\int_0^1p（x）dx\\0&&\text｛否则｝\结束{cases}$

这个公式已经告诉了我们很多。如果$k\le 1$，则不等式不成立，因此$q（y）=0$（始终调用）。如果$k>1$，则$0<\frac{k-1}{2k}<\tfrac{1}{2]$。由于无论$p$是什么，$\int_0^yp（x）dx$都是单调递增函数，因此有一个唯一的$y$可以产生等式。我们推断$q（y）$必须是阈值策略：\[q（y）=\开始{案例}1&\text{if}0\ley<c\\0&\text{if}c<y\le 1\结束{cases}\]其中$c$被选择为$\int_0^cp（x）dx=\frac{k-1}{2k}\int_0 ^1p（x）dx$。所以，如果你的手不好，就折叠起来，如果你手好，就呼叫。有道理！

球员A的最佳反应

让我们假设球员B使用了策略$q（y）$，而球员A不知何故提前知道了这一点，并尽可能做出最佳反应。这种回应应该是什么？对于每个$x$，应选择$p（x）$以最大化A的预期奖金。换句话说，我们应该解决：
\[
p（x）=\arg\underset{p}{\max}\int_0^1\biggl[
（1-p）E（x，y）+p\bigl（k（1-q（y）））E（x，y）+q（y
\]右侧的表达式以$p$表示为线性，常量项不影响argmin。因此我们得出结论
\[
p（x）=\开始{cases}
1&\text{if}\int_0^1\bigl（-E（x，y）+k（1-q（y）））E（x，y）+q（y）\bigr）\，dy>0\\
0&\text{否则}
\结束{cases}
\]将积分拆分为$[0,1]=[0，x]\cup[x，1]$，就像我们在计算玩家B的最佳响应和简化代数时所做的那样，我们得到了比上次更复杂的公式：

$\显示样式
p（x）=\开始{cases}
1&\text{if}\，\，\frac{k-1}{k}（\tfrac{1}{2} -x个)+\int_0^xq（y）dy\\0&\text{否则}\结束{cases}$

这比上次有点复杂，因为不等式的左边不是$x$中的简单递增函数。它包含递增和递减部分！因此，$A$的最佳反应可能比简单的阈值策略更复杂。然而，我们可以利用这样一个事实，即我们有$q（y）$的公式…

结合两种最佳反应

将球员B的阈值响应代入球员A的最佳响应公式，我们得到：
\[
p（x）=\开始｛case｝
1&\text{if}\，\，\frac{k-1}{k}（\tfrac{1}{2} -x个)+\分钟（x，c）<\压裂{k+1}{2k}c \\0&\text{否则}\结束{cases}\]分别计算案例$x<c$和$x>c$，我们推断：
\[
p（x）=\开始{cases}
1&\text{if}\，\，0<x<\frac{k+1}{2} c（c）-\裂缝{k-1}{2}\\0&\text{if}\，\，\压裂{k+1}{2} c（c）-\压裂{k-1}{2}<x<\压裂{c+1}{2{\\1&\text{if}\，\，\压裂{c+1}{2}<x<1\结束｛个案例｝\]所以球员A仍然使用门槛策略。。。但有两个阈值，而不是一个！现在，我们可以通过将$p（x）$替换回前面推导的公式$\int_0^cp（x）dx=\frac{k-1}{2k}\int_0 ^1p（x）dx$来求解$c$。这相对容易做到，因为$c$总是在间隔的中间部分。即$p（c）=0$。结果是：\[\左（\tfrac{k+1}{2} c（c）-\tfrac{k-1}{2}\右）=\tfrac{k-1{2k}\左[\左（\tfrac}k+1}{2} c（c）-\tfrac{k-1}{2}\右）+\左（1-\tfrac{c+1}{2{\右）\右]\]经过简化，我们得到：\[c=\压裂{（k-1）（k+2）}{k（k+3）}\]我们可以返回并计算玩家A的预期赢款，方法是使用我们导出的最佳策略对$W（x，y）$进行积分。这样做之后，我们发现球员A的预期奖金是：\[\条形W=\裂缝{k-1}{k（k+3）}\]

如果你喜欢tl；相反，dr：
[显示解决方案]

关于“幼儿扑克”的13点思考

劳伦特，你好，

我就是那个把“婴儿扑克”问题提交给Riddler的人。我认为连续的“幼儿扑克”版本是一个不错的，有点优雅的版本。我刚刚发现（也许我早该知道），“蹒跚学步的扑克”与冯·诺依曼在他的领域入门书《游戏与经济行为理论》中解决的扑克是同一版本的。

回到你的解决方案，我认为你对游戏期望的结果是不正确的，因为它应该是（k-1）/（k*（k+3）），而不是（k-1）*（k+2）/（k*（k/3））。然而，玩家的策略阈值是正确的。有趣的是，这意味着，当k-＞无穷大时，游戏的值变为0。更有趣的是，如果允许玩家A选择加薪金额，那么最佳值是k=3，这正好对应加薪时的锅大小（2）。幼儿扑克的值为1/10，接近离散版本中的5/54。最后一个观察结果是，在某种意义上，幼儿扑克更简单，因为它有纯策略，而婴儿扑克有混合策略。

感谢您的有趣的问题解决博客和最诚挚的问候，
丹/

答复

劳伦特 说：

2017年2月13日下午7:18

谢谢Dan！这是一个很好的问题，我真的很喜欢解决它；我发现了代码中的错误，并更正了我的帖子。应该是现在。我很高兴它没有影响到我的任何阴谋！

答复
1. 马可·弗里奥 说：
  
  2017年2月19日凌晨4:09
  
  实际上，看到K=.35、.5、.75会很有趣，因为这是真实游戏中常见的加薪幅度。
  我认为这比永远不会发生的>10要有趣得多。
  
  再次感谢分享
  
  答复
  1. 马可·弗里奥 说：
    
    2017年2月19日凌晨4:15
    
    抱歉，我刚刚意识到我在考虑不同的场景🙂
    
    答复

很棒的分析。
是我还是x轴上的图表偏移了？看起来第五条腿比其他腿短。

答复

劳伦特 说：

2017年2月18日下午5:13

勾号正确。我从k=1开始计算x轴，因为如果k<1，这根本不是加高🙂

答复

在解决这个问题时，我的结论是，当B的牌在a的两个阈值之间时，无论从哪个方向都不会有呼叫或折叠的动机。B总是可以在门槛之间叫牌，总是可以折叠、掷硬币等等。简言之，每当A举起而B在中间有一张牌时，一次叫牌的期望值等于一次折叠的期望值。直觉上，对我来说，B没有唯一的阈值是有道理的，因为我们知道A不能在中间有一张牌，所以没有什么可以区分中间的任何值和B的任何其他值。

我是否遗漏了一些微妙之处，而你认为B必须选择这个特定的阈值？

答复

劳伦特 说：

2017年2月19日凌晨2:38

你是对的，如果A打的是最佳状态，那么B可能会像你说的那样改变他们的策略，并且不会产生不利影响。A的预期奖金仍为0.10美元。换句话说，对B的最佳反应并不是唯一的。

然而，你必须从两个方面来看待这个问题。如果B确实改变了他们的策略，那么A可以通过自己的调整做出回应并获胜更多超过0.10美元！下面是一个示例：假设B将其阈值更改为0.5。如前所述，A的预期奖金仍为0.10美元。但是现在如果A改变了他们的策略，当x美元<0.2美元时，他们会虚张声势，并保持策略的其余部分不变，那么现在A的预期赢款会跳到0.12美元。纳什最优策略告诉你的是，如果A打的是最优的，那么无论B做什么，他们都保证平均赢0.10美元。同样，如果B表现最佳，那么无论A做什么，他们的平均损失都不会超过0.10美元。虽然A对B的最佳响应可能并不唯一，B对A的最佳响应也可能不唯一，但这个问题有一对独特的策略，即A和B的策略是彼此的最佳响应。

答复
1. 内特·S 说：
  
  2017年2月19日上午6:00
  
  由于A比B先上场，我假定B对A的策略做出了最佳反应。因此，按照这种思路，如果A一路上升到0.2（及以上.7），那么B可以通过一直调到.125来回应。
  
  但你对纳什均衡的看法当然是对的。由于问题的A-before-B性质，我没有想到要考虑B使用A可以响应的固定策略的假设。
  
  答复

在支付2美元的幼儿扑克解决方案中，最佳策略是：

最佳策略：
数字0–0.1=模糊
数字0.1–0.7=呼叫
数字0.7–1=升高

这怎么可能比下面的策略更好呢？

替代战略：
数字0–0.6=呼叫
数字0.6–0.7=模糊
数字0.7–1=升高

我只是不理解直觉。使用替代策略，当玩家B虚张声势时，你有更大的获胜机会。否则，它们非常相似…

答复

劳伦特 说：

2017年2月19日凌晨2:19

好问题！所以大家都很清楚，球员A只有两个选择：打电话或加薪。所以“虚张声势”和“提高”是一样的。我给他们起不同名字的原因是为了区分你用强手举起和用弱手举起的情况。

在您的备选策略中，您建议以0.6–1进行加薪，而不是像我的策略中那样以0–0.1和0.7–1加薪。你用你的策略和我的策略筹集资金的频率一样高（40%的时间）。我们可以计算这两种策略的预期收益：

根据您的策略，假设玩家B使用了我在解决方案中提到的相同的最优策略，玩家A将在40%的时间内获得收益，并且在这种情况下平均赢得0.80美元。玩家A也有60%的时间打电话，当这种情况发生时，平均损失\0.40美元。因此，您的战略预期净收益为0.08美元。

根据我的策略，再次假设玩家B的策略相同，玩家A也有40%的时间加薪，但在这种情况下平均只赢0.55美元。所以你是对的！当球员A加薪时，你的策略平均赢得更多……但当球员A打电话（60%的时间）时，平均只获得0.20美元，这也低于你的策略。我的策略最终的预期净收益为0.10美元，这比你的策略略高。

找到最佳策略不仅仅是在你赢的时候最大化你的赢款。它必须通过减少损失来平衡！

答复

如果B的策略是基于它自己的数字而不是基于A的行为，我不认为“虚张声势”有什么关系。无论A是否提高，B都会根据0.4阈值折叠或调用，对吗？我能理解B的策略是不是类似于“打0.4或更高的电话，或者如果A提高了0.5或更高。”（我也有点惊讶B的策略不能以这种方式改进）。

如果B知道A不会虚张声势（也就是说，如果低于其唯一的阈值，则不会提高），那么虚张声威的简单存在是否与B的策略“息息相关”，从而使阈值（我认为？）低于0.4？如果B对提高采取了谨慎的回应（或对呼叫采取了激进的回应），这是否意味着a应该虚张声势，并取得平衡？

答复

劳伦特 说：

2017年2月20日下午2:31

只有当A提高时，B才能上场。当A呼叫时，游戏立即结束。当A提高时，B可以选择调用或折叠。

如果B提前知道A正在使用阈值政策，即不虚张声势，他们可以调整策略并提高预期奖金。同样，如果B没有使用最佳的0.4阈值策略，那么A也可以调整其策略以提高预期的赢利（例如，通过更积极地虚张声势）。纳什均衡策略是最优的，因为没有一个参与者可以改进他们的策略即使他们知道对手的策略类似地，如果一方偏离了策略，另一方将策略固定在纳什最优值，那么另一方的预期赢款会变得更糟。

答复

幼儿扑克

球员B的最佳反应

球员A的最佳反应

结合两种最佳反应

最佳政策

关于“幼儿扑克”的13点思考

留下回复取消回复