在上一个邮递,我看了一眼“婴儿扑克”,这是一种由两名玩家玩的六面骰子游戏。数字越大获胜,但玩家可以根据自己的数字(只有他们才能看到)选择提升、呼叫或折叠。在本文中,我将了解连续的问题的版本(最近也出现在Riddler帖子!) 以下是问题的全文:
幼儿扑克由两名玩家玩。每个人都被发给一张“卡片”,实际上是从区间[0,1]中随机选择的一个数字。(可以是0.1,或0.9234781,或1/π,依此类推。)游戏开始时每个玩家下注1美元。玩家A可以“呼叫”,在这种情况下,两个数字都会显示出来,数字较高的玩家将赢得表上的\$2,或者“提高”,下注一美元。如果A提高了,B可以选择通过匹配A的第二个美元来“调用”,之后较高的数字将赢得表上的\$4,或者选择“折叠”,在这种情况下,A赢了,但B只拿出了原来的\$1。没有其他剧本。
每个玩家的最佳策略是什么?在这些策略下,一个蹒跚学步的扑克游戏对玩家a来说值多少钱?
额外积分:如果加薪的价值是$k,即球员在加薪后获利$k而不是$2,该怎么办?
以下是我的推导:
[显示解决方案]
让我们将玩家A的数字称为$x\in[0,1]$,将玩家B的数字命名为$y\in[0.1]$。我们假设将军混合战略并计算每个玩家的最佳反应。这种方法与我在战争游戏拼图,但这次的解决方案更为复杂。
对于这个解决方案,我将使用与我的解决方案类似的符号和约定婴儿扑克(幼儿扑克的离散版本)。定义玩家的策略如下:
- $p(x)$:球员A将提升如果他们的号码是$x$。
- $q(y)$:球员B将折叠如果他们的号码是$y$。
当两个数字都显示出来时,我们将玩家A的报酬称为$E(x,y)$:
\[
E(x,y)=\开始{cases}
1&\text{if}x>y\\
-1&\text{if}x<y\结束{cases}\]我们不考虑$x=y$的情况,因为这种情况发生的概率为零。如果我们让$W(x,y)$是玩家a的奖金,我们可以像计算离散问题一样计算这个数量:\[W(x,y)=(1-p(x))E(x,y)+p(x\]当然,$A$在所有随机数$x,y$上的预期奖金平均值就是积分$\bar W=\int_0^1\int_0^1 W(x,y)\,dx\,dy$。
球员B的最佳反应
让我们假设玩家A使用了策略$p(x)$,而玩家B不知怎么地提前知道了这一点,并得到了尽可能好的响应。这种反应应该是什么?对于每个$y$,应选择$q(y)$以最小化A的预期奖金。换句话说,我们应该解决:
\[
q(y)=\arg\underset{q}{\min}\int_0^1\biggl[
(1-对(x))E(x,y)+p(x)\bigl(k(1-q)E(x,y)+q\bigr)\biggr]\,dx
\]右边的表达式在$q$中是线性的,常数项不影响argmin。因此我们得出结论
\[
q(y)=\开始{案例}
1&\text{if}\int_0^1p(x)(1-kE(x,y))\,dx<0\\0&\text{否则}\结束{cases}\]将[0,1]$中$x\的积分拆分为[0,y]$中的$x\和[y,1]$中$1x\,我们可以替换$E(x,y)$的定义并获得:\开始{align}\整数_0^1 p(x)(1-kE(x,y))\,dx&=\int_0^1 p(x)dx+k\左\\&=(1-k)\int_0^1个p(x)dx+2k\int_0 ^y个p(x)dx\完{align}所以$q(y)$的最终公式是:
$\显示样式
q(y)=\开始{case}
1&\text{if}\int_0^yp(x)dx<\frac{k-1}{2k}\int_0^1p(x)dx\\0&&\text{否则}\结束{cases}$
这个公式已经告诉了我们很多。如果$k\le 1$,则不等式不成立,因此$q(y)=0$(始终调用)。如果$k>1$,则$0<\frac{k-1}{2k}<\tfrac{1}{2]$。由于无论$p$是什么,$\int_0^yp(x)dx$都是单调递增函数,因此有一个唯一的$y$可以产生等式。我们推断$q(y)$必须是阈值策略:\[q(y)=\开始{案例}1&\text{if}0\ley<c\\0&\text{if}c<y\le 1\结束{cases}\]其中$c$被选择为$\int_0^cp(x)dx=\frac{k-1}{2k}\int_0 ^1p(x)dx$。所以,如果你的手不好,就折叠起来,如果你手好,就呼叫。有道理!
球员A的最佳反应
让我们假设球员B使用了策略$q(y)$,而球员A不知何故提前知道了这一点,并尽可能做出最佳反应。这种回应应该是什么?对于每个$x$,应选择$p(x)$以最大化A的预期奖金。换句话说,我们应该解决:
\[
p(x)=\arg\underset{p}{\max}\int_0^1\biggl[
(1-p)E(x,y)+p\bigl(k(1-q(y)))E(x,y)+q(y
\]右侧的表达式以$p$表示为线性,常量项不影响argmin。因此我们得出结论
\[
p(x)=\开始{cases}
1&\text{if}\int_0^1\bigl(-E(x,y)+k(1-q(y)))E(x,y)+q(y)\bigr)\,dy>0\\
0&\text{否则}
\结束{cases}
\]将积分拆分为$[0,1]=[0,x]\cup[x,1]$,就像我们在计算玩家B的最佳响应和简化代数时所做的那样,我们得到了比上次更复杂的公式:
$\显示样式
p(x)=\开始{cases}
1&\text{if}\,\,\frac{k-1}{k}(\tfrac{1}{2} -x个)+\int_0^xq(y)dy\\0&\text{否则}\结束{cases}$
这比上次有点复杂,因为不等式的左边不是$x$中的简单递增函数。它包含递增和递减部分!因此,$A$的最佳反应可能比简单的阈值策略更复杂。然而,我们可以利用这样一个事实,即我们有$q(y)$的公式…
结合两种最佳反应
将球员B的阈值响应代入球员A的最佳响应公式,我们得到:
\[
p(x)=\开始{case}
1&\text{if}\,\,\frac{k-1}{k}(\tfrac{1}{2} -x个)+\分钟(x,c)<\压裂{k+1}{2k}c \\0&\text{否则}\结束{cases}\]分别计算案例$x<c$和$x>c$,我们推断:
\[
p(x)=\开始{cases}
1&\text{if}\,\,0<x<\frac{k+1}{2} c(c)-\裂缝{k-1}{2}\\0&\text{if}\,\,\压裂{k+1}{2} c(c)-\压裂{k-1}{2}<x<\压裂{c+1}{2{\\1&\text{if}\,\,\压裂{c+1}{2}<x<1\结束{个案例}\]所以球员A仍然使用门槛策略。。。但有两个阈值,而不是一个!现在,我们可以通过将$p(x)$替换回前面推导的公式$\int_0^cp(x)dx=\frac{k-1}{2k}\int_0 ^1p(x)dx$来求解$c$。这相对容易做到,因为$c$总是在间隔的中间部分。即$p(c)=0$。结果是:\[\左(\tfrac{k+1}{2} c(c)-\tfrac{k-1}{2}\右)=\tfrac{k-1{2k}\左[\左(\tfrac}k+1}{2} c(c)-\tfrac{k-1}{2}\右)+\左(1-\tfrac{c+1}{2{\右)\右]\]经过简化,我们得到:\[c=\压裂{(k-1)(k+2)}{k(k+3)}\]我们可以返回并计算玩家A的预期赢款,方法是使用我们导出的最佳策略对$W(x,y)$进行积分。这样做之后,我们发现球员A的预期奖金是:\[\条形W=\裂缝{k-1}{k(k+3)}\]
如果你喜欢tl;相反,dr:
[显示解决方案]
最佳政策
玩家A的最佳策略是:
\[
\文本{玩家A:}\开始{案例}
\text{raise}&\text{if}0<x<\frac{k-1}{k(k+3)}\\\文本{call}&\text{if}\frac{k-1}{k(k+3)}<x<\frac}k^2+2k-1}{k(k+3){\\\text{raise}&\text{if}\frac{k^2+2k-1}{k(k+3)}<x<1\结束{cases}\]球员B的最佳策略是:\[\文本{玩家B:}\开始{案例}\文本{fold}&\text{if}0<y<\frac{(k-1)(k+2)}{k(k+3)}\\\文本{call}&\text{if}\frac{(k-1)(k+2)}{k(k+3)}<y<1\结束{cases}\]玩家A的预期支出由以下表达式给出:\[\text{玩家A:}\quad\frac{k-1}{k(k+3)}\quae\text{dollars}的预期支出。\]以下是显示最佳策略的图:
对于$k=2$的情况,如果$x>0.7$或$x<0.1$,球员A应该提高(虚张声势)。同时,如果$y>0.4$,球员B应该调用,否则折叠。球员A平均每场赢0.10美元。一个有趣的变化是,随着$k$的增加,玩家A开始会更积极地虚张声势,但最终不会虚张声威。
情况$k=3$是特殊的;它对应于玩家A最具攻击性的时候(只要$x<\tfrac{1}{9}\大约0.111$,就会发生虚张声势)。这也恰逢比赛对球员A最有利的时候;预计奖金也为0.111美元。换言之,如果球员A可以选择多少钱?加薪应该是,他们应该选择3美元!当$k>3$且$k$变大时,玩家A变得越来越保守;很少筹款(当胜利几乎可以肯定时)。在此限制中,玩家A的预期支出单调减少,并在限制中收敛到\$0。