婴儿扑克

另一个来自Riddler公司。这个游戏是扑克的简化版本,但捕捉了一些有趣的行为!

婴儿扑克由两名玩家玩,每个玩家在一个杯子里拿着一个骰子。游戏开始时,每个玩家下注\$1。然后,双方都摇着骰子,掷骰子,只看自己的骰子。然后,玩家A可以“呼叫”,在这种情况下,两个骰子都显示出来,数字较高的玩家赢得桌上的\$2,或者玩家A可以进行“筹集”,下注一美元。如果A提高了,那么B可以选择通过匹配A的第二美元来“呼叫”,然后较高的数字赢得桌子上的\$4,或者B可以“折叠”,在这种情况下,A赢了,但B只超过了原来的\$1。不进行其他游戏,如果骰子匹配,则一个被调用的锅被平均分开。

每个玩家的最佳策略是什么?在这些策略下,一个婴儿扑克游戏对玩家a来说值多少钱?换言之,为了使比赛公平,A应该事先支付B多少钱?

如果你对推导感兴趣(可能还学习了一些博弈论),你可以在这里阅读我的完整解决方案:
[显示解决方案]

这个替代解决方案是由一位名叫克里斯的评论员提出的。答案相同,但论点更简单!
[显示解决方案]

如果你只想知道答案和简短的解释,这里是tl;dr版本:
[显示解决方案]

关于“婴儿扑克”的12点思考

  1. 太好了,谢谢!我发现没有纯粹的战略解决方案(有一种观点认为,针对任何纯a或混合a策略的最佳纯B策略必须是一个调用阈值-只有7种这样的策略-而针对a的最佳阈值策略的最佳阈值战略决不是相同的阈值策略)。但我对非数字混合策略的研究超出了我的深度。你介意简要描述一下你是如何找到双LP的解决方案的吗?

    顺便说一下,您的tl中给出的A的解决方案;dr版本与扩展版本不同。我确信扩展的(总是用4调用)是正确的。

    此外,在这样的一杆游戏中,我很难理解NE对理性选择的确切意义。如果B采用了你确定的任何均衡策略,那么A对形式为[p 0 0 1 1]的策略的期望值是5/54,与p无关。确实,B对A的最佳策略只包括那些p=2/3的均衡策略,这就是A的NE策略的原因。但这让我怀疑,从作为NE一部分的策略来看,玩家比非NE策略更有理由遵循它。如果A确信B会选择NE策略,那么最大化期望只会促使选择一些[p 0 0 1 1]策略或其他策略。如果A不确定B会选择NE,那么在什么意义上A最适合这样做还不清楚。当然,如果B碰巧选择了最佳的应对策略,他不会希望自己选择了不同的策略,就像他选择非NE策略时可能发生的那样,但为什么期望最大化者应该对此特别担心呢?

    1. 感谢您的评论;我修正了输入错误。

      我将其平方如下:正如你所指出的,A对B的纳什策略有几种可能的最佳反应,即选择不同的p。但如果A做出这样的选择,B将有动力偏离其纳什策略,提高其预期收益。唯一能保证A队平均赢5/54的方法是,如果他们打p=2/3。诚然,A不确定B是否会采用纳什策略,但如果A采用p=2/3,那么B最好也采用纳什战略。如果B做了其他事情,那么A将赢得更多。同样,如果B采用纳什策略,他们的平均损失也不会超过5/54。不能保证A会效仿纳什,但如果A打其他比赛,B会赢更多。我希望这是有意义的;如果我误解了你的问题,我道歉!

      1. 谢谢。你说的是对的,但我的观点是,这是一个最大限度的理由,而不是最大限度的期望,我认为我们所说的“最优”策略对玩家来说是最大限度地提高期望值的策略,而不是最小化可能损失的策略。也许有人认为“在没有定义期望的情况下,尽可能减少可能的损失”这一原则是正确的,但很明显,这不可能是基于采用该原则的预期收益的观点!

  2. 我附和道:“您能简要描述一下您是如何找到双LP的解决方案的吗?”

    我想知道你使用了什么工具(开源求解器?)。

    也许这就是《宝贝扑克》的重头戏?

    谢谢!

    1. 你好,马克,

      《重游扑克宝贝》是一个完全不同的问题——我暂时把它隐藏起来,可能会在以后发布。

      我使用了JuMP建模语言在朱莉娅和CLP公司开放源码求解器来求解LP。我使用随机扰动方法来确定解是否唯一,并在不唯一的情况下找到完整的解集。

      我没有在我的帖子中给出更多细节,因为它已经有点长了!

      如果有兴趣,我可以发布代码等。

      1. 谢谢。在发布了那个请求并进行了一些网络搜索之后,我下载了JuMP并得到了一个符合您指定范围的结果。

  3. 很棒的帖子!我采用了类似的方法,但在策略向量空间中形成了LP。基本上,我使用函数W作为目标,然后相对于p最大化,相对于q最小化,其中p和q各自被约束为[0,1]^6。(由于对偶性,最小值和最大值的顺序仍然无关紧要。)我用LP对偶性重写了内部问题,然后留下了一个LP。我认为这可以概括得更好,因为它的LP比枚举所有可能的纯策略时小,所以如果使用n面骰子,可以快速求解。我认为如果有人感兴趣的话,这可能会有启发性。显然,无论哪种方式,你都会得到相同的答案。再次感谢您的帖子!

    1. 这是一个很好的观点!我不知怎么说服自己,我必须在增强空间中工作,因为p和q的和不等于1。事实上,我所要做的就是删除它们总和为1的约束!这很好……你说得对,更容易概括。解释起来也容易得多,因为我必须做所有这些额外的工作来梳理出高维空间中的多个解。谢谢你的评论。

留下回复

您的电子邮件地址将不会被发布。 已标记必填字段*