这个Riddler公司谜题是关于博弈论……战争还是和平?
两个国家正在相互关注对方的黄金。在游戏开始时,每个国家军队的“实力”都是从连续的均匀分布中提取出来的,介于0(非常弱)和1(非常强)之间。每个国家都知道自己的实力,但不知道对手的实力。这些国家观察自己的实力,然后同时宣布“和平”或“战争”
如果双方都宣布“和平”,那么他们就各自静静地呆在自己的领土上,拥有价值1万亿美元的黄金(因此双方都“赢”了1万亿美元)。如果至少有一个国家宣布“战争”,那么他们就会开战,而拥有强大军队的国家会赢得另一个国家的金牌。(也就是说,实力更强的国家赢了2万亿美元,其他国家赢了0美元。)
鉴于每个国家的实力,其最佳战略(宣布“和平”或“战争”)是什么?
额外学分:如果这些国家不同时宣布,而是一个先宣布,另一个先公布,怎么办?如果赢得战争的价值是5万亿美元而不是2万亿美元,那会怎么样?
这是我对第一部分的解决方案,这两个国家同时声明了他们的意图。
[显示解决方案]
纯策略、混合策略和阈值策略
此问题描述了所谓的贝叶斯博弈每个国家必须仅根据其军队的实力做出决定,这是一个随机变量。一个国家的决策规则可能是这样的:“如果我的军队兵力低于美元,那么就宣布和平,否则就宣布战争”。这是一种“门槛战略”,门槛值$a$决定了该国发动战争的可能性。阈值策略是一个示例纯战略因为这个国家每次看到同样的军队实力时,都会表现得一模一样。更通用的策略是混合战略,国家决定可能性这取决于观察到的军队实力。
虽然这两个国家都不知道对方的战略,但我们仍然可以问这样一个问题:假设A国知道B国的战略,那么A国的战略是什么最佳响应是吗?同样,我们可以问,如果B国知道A国的战略,他们的最佳反应是什么。假设A国使用$f_A$战略,B国使用$f _B$战略。如果对策略$f_A$的最佳响应是$f_B$,而对策略$f_B$的最佳响应是$f_A$,那么我们就得到了所谓的纳什均衡这意味着这两个国家都没有改变其战略的动机。这就是拥有最优策略.
阈值策略是最佳的
让我们为这个游戏寻找一个纳什均衡。定义以下内容:
- $x$是第一个国家军队的实力。我们将假设一个由函数$p(x)$定义的混合策略,这是一个国家宣布和平的概率,因为它的军队有实力$x$。
- $y$是第二个国家军队的实力。我们假设一个由函数$q(y)$定义的混合策略,这是一个国家宣布和平的概率,因为它的军队有实力$y$。
- 对于回报,我们假设共同的和平不会带来任何变化,而战争会给胜利者带来$+W$,给失败者带来$-L$。
鉴于上述情况,第一个国家有望获胜:
\[
J_1=\int_0^1\int_0^1(1-p(x)q(y))\,\text{war}(x-y)\,dy\,dx
\]其中我们定义了:
\[
\text{war}(t)=\begin{cases}
+文本{if}t\ge 0(&\text)\\
-L&\text{if}t<0\结束{cases}\]这是因为战争的概率是$(1-p(x)q(y))$,即1减去两国宣布和平的概率。现在让我们扪心自问,如果我们修正$q$(第二个国家的战略),并尝试找到$p$,以最大化$J_1$,会发生什么。展开后,我们得到:\开始{align}J_1&=\int_0^1\int_0^1(1-p(x)q(y))\,\text{war}(x-y)\,dy\,dx\\&=\tfrac{W-L}{2}-\int_0^1p(x)\int_0^1 q(y)\,\text{war}(x-y)\、dy \,dx\\&=\tfrac{W-L}{2}-\int_0^1 p(x)\左(W\!\int_0^x q(y)\,dy-L\!\int_x^1 q(y)\,dy\右)dx\结束{align}检查括号中的数量,我们注意到它是$x$的非递减函数。当$x=0$时,它等于$-L\!\int_0^1 q(y)dy$,当$x=1$时,它等于$W\!\int_0^1q(y)dy$(整数)。因此,有一个值$x=a$,其中括号内的数量为零。为了最大化$J_1$,我们应该设置:\[p(x)=\开始{cases}1&\text{if}x<a\\0&\text{否则}\结束{cases}\]换句话说,第一个国家应该使用门槛政策无论第二个国家的政策是什么! 通过对称性,如果我们固定第一个国家的政策并优化第二个国家的策略,同样的论点成立;两国都应该始终使用门槛政策。
解决方案是战争!
我们已经确定,两国都应该使用门槛战略。因此,假设第二个国家使用阈值$b$。第一个国家应该使用什么门槛?我们可以通过求解$a$的以下方程来计算:
\[
W \!\int_0^a q(y)\,dy=L\!\整数^1 q(y)\,dy
\]将阈值策略替换为$q(y)$,我们得出$a\le-b$,因为等式两边都必须有正数。结果是$a W=(b-a)L$。换句话说:
\[
a=\左(\tfrac{L}{W+L}\右)b
\]因此,如果$L=W=1$,第一个国家的最佳阈值是第二个国家最佳阈值的一半。事实上,无论$L$和$W$是什么,第一个国家的最佳战略是设置一个阈值,即较小的比另一个国家的门槛高。如果我们颠倒这些国家的角色,而改为修正第一个国家的战略,则完全相同的论点成立。因此,我们得出结论,每个国家的最佳应对措施是不断降低门槛。实现(纳什)均衡的唯一方法是,两国将门槛设定为零。换句话说,两国都应该经常宣战.
这是我对第二部分的解决方案,各国依次宣布其意图。
[显示解决方案]
如果这些国家按顺序声明其意图,那么第二个国家在做出自己的声明之前会看到第一个国家的声明,因此它可能会在决策过程中使用这些信息。我们可以通过寻找纳什均衡来解决这个问题,就像我们解决第一个问题一样。
阈值策略仍然是最优的
同样,我们假设第一个国家使用混合策略$p(x)$。原则上,第二个国家可以有两种不同的战略,这取决于第一个国家宣布的内容,但如果第一个国家宣战,那么就无法阻止战争。因此,让美元成为第二个国家的战略当第一个国家宣布和平.
第一个国家的预期利润与以前一样,即:
\[
J_1=\int_0^1\int_0^1(1–p(x)q(y))\,\text{war}(x-y)\,dy\,dx
\]因此,我们可以得出与之前相同的结论:第一个国家应该使用门槛战略。第二个国家的预期利润不同,因为我们现在必须以第一个国家宣布和平为条件。这一次,战争的概率只有$(1-q(y))$,以第一个国家宣布和平为条件的$x$的密度函数由下式给出贝叶斯定理:
\[
\mathbb{P}(x\,|\,\text{peace})=\frac{\mathbb{P}(\text{peace}\,|\,x)\mathbb{P}(x)}{\int_0^1\mathbb{P}(\text{peace}\,|\,x)\mathbb{P}(x)dx}
=\frac{p(x)}{\int_0^1p(x)dx}
\]因此,第二个国家的预期利润为:
\[
J_2=\frac{\int_0^1\int_0^1(1–q(y))\,\text{war}(y-x)p(x)\,dx\,dy}{\int_0^1 p(x)dx}
\]不难看出,$J_2$的最优$q$与之前相同。再一次,阈值策略是最优的,阈值与之前相同。
战争总是答案?
由于两国使用与原始问题相同的阈值策略,纳什均衡是相同的;第一个国家应该永远宣战。因此,第二个国家做什么并不重要;战争不可避免。这个结果有点自相矛盾,因为如果第一个国家总是应该宣战,那么如果它宣布和平会发生什么?第二个国家将彻底困惑!