幼儿扑克

在上一个邮递,我看了看“婴儿扑克”,这是一个由两个玩家掷六边形骰子的游戏。数字越大获胜,但玩家可以根据自己的数字(只有他们才能看到)选择提升、呼叫或折叠。在本文中,我将了解连续的问题的版本(最近也出现在谜语人帖子!) 以下是问题的全文:

幼儿扑克由两名玩家玩。每个人都被发给一张“卡片”,实际上是从区间[0,1]中随机选择的一个数字。(可以是0.1,或者0.9234781,或者1/π,依此类推。)游戏开始时,每个玩家下注\$1。然后,玩家A可以“呼叫”,在这种情况下,显示两个数字,并且数字较高的玩家赢得桌上的\$2,或者“提高”,再下注一美元。如果A提高了,B可以选择通过匹配A的第二个美元来“调用”,之后较高的数字将赢得表上的\$4,或者选择“折叠”,在这种情况下,A赢了,但B只拿出了原来的\$1。没有其他剧本。

每个玩家的最佳策略是什么?在这些策略下,一个蹒跚学步的扑克游戏对玩家a来说值多少钱?

额外积分:如果加薪的价值是$k,即球员在加薪后获利$k而不是$2,该怎么办?

以下是我的推导:
[显示解决方案]

如果你喜欢tl;相反,dr:
[显示解决方案]

关于“幼儿扑克”的13点思考

  1. 劳伦特,你好,

    我就是那个把“婴儿扑克”问题提交给Riddler的人。我认为连续的“幼儿扑克”版本是一个不错的,有点优雅的版本。我刚刚发现(也许我早该知道),“蹒跚学步的扑克”与冯·诺依曼在他的领域入门书《游戏与经济行为理论》中解决的扑克是同一版本的。

    回到你的解决方案,我认为你对游戏期望的结果是不正确的,因为它应该是(k-1)/(k*(k+3)),而不是(k-1)*(k+2)/(k*(k/3))。然而,玩家的策略阈值是正确的。有趣的是,这意味着,当k->无穷大时,游戏的值变为0。更有趣的是,如果允许玩家A选择加薪金额,那么最佳值是k=3,这正好对应加薪时的锅大小(2)。幼儿扑克的值是1/10,接近离散版本中的5/54。最后一个观察结果是,从某种意义上说,幼儿扑克更简单,因为它有纯策略,而幼儿扑克有混合策略。

    感谢您有趣的问题解决博客和最诚挚的问候,
    丹/

    1. 谢谢Dan!这是一个很好的问题,我真的很喜欢解决它;我发现了代码中的错误,并更正了我的帖子。应该是现在。我很高兴它没有影响到我的任何阴谋!

      1. 实际上,看到K=.35、.5、.75会很有趣,因为这是真实游戏中常见的加薪幅度。
        我认为比任何一个10岁以上的人都有趣得多,这是永远不会发生的。

        再次感谢分享

  2. 在解决这个问题时,我的结论是,当B的牌在a的两个阈值之间时,无论从哪个方向都不会有呼叫或折叠的动机。B总是可以在门槛之间叫牌,总是可以折叠、掷硬币等等。简言之,每当A举起而B在中间有一张牌时,一次叫牌的期望值等于一次折叠的期望值。直觉上,我觉得B没有唯一的阈值是有道理的,因为我们知道A不可能在中间有一张牌,所以没有任何东西可以区分B的中间值和其他值。

    我是否遗漏了一些微妙之处,而你认为B必须选择这个特定的阈值?

    1. 你是对的,如果A打的是最佳状态,那么B可能会像你说的那样改变他们的策略,并且不会产生不利影响。A的预期奖金仍为0.10美元。换言之,B的最佳响应并不是唯一的。

      然而,你必须从两个方面来看待这个问题。如果B确实改变了他们的策略,那么A可以做出自己的调整来应对,并获胜更多超过0.10美元!这里有一个例子:假设B将它们的阈值更改为0.5。如前所述,A的预期奖金仍为0.10美元。但是现在如果A改变了他们的策略,当x美元<0.2美元时,他们会虚张声势,并保持策略的其余部分不变,那么现在A的预期赢款会跳到0.12美元。纳什最优策略告诉你的是,如果A打的是最优的,那么无论B做什么,他们都保证平均赢0.10美元。同样,如果B表现最佳,那么无论A做什么,他们的平均损失都不会超过0.10美元。虽然A对B的最佳响应可能并不唯一,B对A的最佳响应也可能不唯一,但这个问题有一对独特的策略,即A和B的策略是彼此的最佳响应。

      1. 由于A比B先上场,我假定B对A的策略做出了最佳反应。因此,按照这种思路,如果A一路上升到0.2(及以上.7),那么B可以通过一直调到.125来回应。

        但你对纳什均衡的看法当然是对的。由于问题的先A后B的性质,我没有想到B采取A可以回应的固定策略的假设。

  3. 在支付2美元的幼儿扑克解决方案中,最佳策略是:

    最佳策略:
    数字0–0.1=模糊
    数字0.1–0.7=呼叫
    数字0.7–1=升高

    这怎么可能比下面的策略更好呢?

    替代战略:
    数字0–0.6=呼叫
    数字0.6–0.7=模糊
    数字0.7–1=升高

    我只是不理解直觉。使用替代策略,当玩家B虚张声势时,你有更大的获胜机会。否则,它们非常相似…

    1. 好问题!所以大家都很清楚,球员A只有两个选择:打电话或加薪。所以“虚张声势”和“提高”是一样的。我给他们起不同名字的原因是为了区分你用强手举起和用弱手举起的情况。

      在您的备选策略中,您建议以0.6–1进行加薪,而不是像我的策略中那样以0–0.1和0.7–1加薪。你用你的策略和我的策略筹集资金的频率一样高(40%的时间)。我们可以计算这两种策略的预期收益:

      根据您的策略,假设玩家B使用了我在解决方案中提到的相同的最优策略,玩家A将在40%的时间内获得收益,并且在这种情况下平均赢得0.80美元。球员A也有60%的时间打电话,当这种情况发生时,平均损失0.40美元。因此,您的战略预期净收益为0.08美元。

      根据我的策略,再次假设球员B采用相同的策略,球员A也有40%的时间提高,但在这种情况下,平均只赢了0.55美元。所以你是对的!当玩家A加薪时,你的策略平均会赢得更多……但当玩家A打电话(60%的时间)时,他们平均只赢0.20美元,这也比你的策略少。我的策略最终的预期净收益为0.10美元,这比你的策略略高。

      找到最佳策略不仅仅是在你赢的时候最大化你的赢款。它必须通过减少损失来平衡!

  4. 如果B的策略是基于它自己的数字而不是基于A的行为,我不认为“虚张声势”有什么关系。无论A是否提高,B都会根据0.4阈值折叠或调用,对吗?我能理解B的策略是不是类似于“打0.4或更高的电话,或者如果A提高了0.5或更高。”(我也有点惊讶B的策略不能以这种方式改进)。

    如果B知道A不会虚张声势(也就是说,如果低于其唯一的阈值,则不会提高),那么虚张声威的简单存在是否与B的策略“息息相关”,从而使阈值(我认为?)低于0.4?如果B对提高采取了谨慎的回应(或对呼叫采取了激进的回应),这是否意味着a应该虚张声势,并取得平衡?

    1. 只有当A提高时,B才能上场。当A呼叫时,游戏立即结束。当A提高时,B可以选择调用或折叠。

      如果B提前知道A使用的是门槛政策,即不虚张声势,那么他们可以调整策略并提高预期收益。同样,如果B没有使用最佳的0.4阈值策略,那么A也可以调整其策略以提高预期的赢利(例如,通过更积极地虚张声势)。纳什均衡策略是最优的,因为没有一个参与者可以改进他们的策略即使他们知道对手的策略类似地,如果一方偏离了策略,另一方将策略固定在纳什最优值,那么另一方的预期赢款会变得更糟。

留下回复

您的电子邮件地址将不会被发布。 已标记必填字段*