非常简短的介绍进化博弈论

 

发展博弈论研究战略互动理性的自重型玩家(追求自身最大化的玩家支付)。 然而,到了20世纪70年代初这个理论经历了一个转变,其中一部分演变成了进化论博弈论,它可以增加我们对动力系统的理解,尤其是在生物学方面,最近在心理学和社会学方面科学,对哲学有重大影响。 球员们需要理性,但只有理性(也许(硬连线)传给后代的策略。 简而言之玩家的概念被战略的概念所取代,因此球员知识的概念,完整的或不完整的. 驱动系统的不是玩家的理性,而是策略的差异化成功。

和之前一样,我们只考虑两层游戏。 有策略的游戏1,…..对于这两名球员来说策略 对称的(简而言之,对称)如果:

  1. 什么时候=j两种相同策略的回报是同样,这意味着沿着主对角线(从左上到下右)每个框中的回报是相同的
  2. 这个在剩余的方框中支付主对角线是另一条对角线的镜像侧面。 

例如,这个囚犯困境是一个对称游戏。 沿着主对角线(从左上角到右下角),结果是每个框中相同,即,(1,1)和(6,-6);此外,我们在右上角的方框中有(-10,10),在左下角有(10,-10),其中是彼此的镜像。

 

 

S公司

C类

S公司

1;1

10;-10

C类

-10;10

-6;-6

 

对称矩阵可以通过只写行策略的回报,就像列策略的回报一样通过利用游戏的对称性获得。 因此,前面的矩阵可以简化为

 

 

S公司

C类

S公司

1

10

C类

-10

-6

 

为了简单起见,现在我们只处理对称游戏.

 

进化稳定战略(ESS)

进化博弈论的一个重要概念是进化稳定策略(ESS)。虽然ESS的概念不是进化游戏的核心,但它是重要是因为它让我们思考入侵的条件是什么是。

为了理解它,我们需要一些新的概念。 

想象一下,现在我们不断重复一个对称的游戏(每个圆称为舞台游戏)带有随机配对在中无限的人口中只有相关考虑是成功的玩家比不成功的玩家繁殖得更快. (人口需求理论上无限不包括随机漂移)。 假设所有参与者(现任者)都玩策略X,这可以要么是纯策略,要么是混合策略。 如果X是稳定的意思是一个变种人玩不同的可用策略Y(纯或混合)无法成功入侵,则X是ESS。 

 

一些术语会有所帮助。如果由E类(A、 B)我们了解策略A与策略B对决的结果(A和B可以相同),C是任何可用的策略(C可以是A或B) 那么

·      A是一个条纹t吨最佳回复B当且仅当E(A,B)>E(C,B),即当在玩B时可用的策略比A差

·      A是只是 最佳答复仅当且仅当E类(A、 B)≥E(C,B),即当没有其他可用的当玩B时,策略比A好。

 

X是ESS,如果任何一个以下两个条件之一获得

  1. E(X,X)>E(Y,X),也就是说,X是一个严格最佳回复它本身
  2. E(X,X)=E(Y,X)E(X,Y)>E(Y,Y),即,X只是对自己最好的回答,但对Y最好的严格回答.

 

显然,如果(1)获得,Y入侵者通常会失败反对X,因此它不能持久,因为除了一个X之外,所有X都会这样做比Y好,这意味着Y的回报将比平均值。 如果(1)未获得和(2)是的,Y入侵者对抗X和对抗X一样好,但在对抗X时却输给了X其他Y入侵者,因此它不能繁殖,也就是说,只有一个你可以坚持下去。 简而言之,Y无法成功入侵当X是对自身的严格最佳答复或X只是最佳答复时,X的总体回复自己,但严格来说,这是对Y的最好回复。 例如,考虑猎鹿和一群雄鹿。 然后是兔子无法入侵,因为E(S,S)>E(H,S),即上述条件(1)。 

(问题:兔子是ESS吗?)

 

可以引入比ESS,即无与伦比的战略。 策略X是无与伦比的如果,给定任何其他可用策略Y

 

E(X,X)>E(Y,X)E(X,Y)>E(Y,Y),即X是严格最好地回答自己和其他策略。

 

无与伦比的战略是那里最强大的战略是因为严格支配任何其他策略;然而,它也很罕见,因此非常有限使用。 例如,在猎鹿S、 虽然是ESS,但不是因为E(S)而无与伦比,H)<E(H,H)。

 

给定一个策略X,通过指示隐含的箭头:

 

X是无与伦比的→X是对自身的严格最好的回答→X是对其本身的最佳答复,但对任何其他可用的答复都是严格的最佳答复战略→X只是对自身和其他可用策略的最佳回应策略

 

例如,在这个囚徒困境尖叫是无与伦比的,因此也是最好的回复自己等。;相比之下,在雄鹿亨特,S本身就是一个严格的最佳回答,但它并不是不可战胜的。

 

应注意关于ESS的最后几点:

 

  • ESS是纳什平衡舞台游戏,尽管反过来不是真的(并非所有的纳什均衡由ESS组成)。
  • 严格的纳什均衡舞台游戏由两个玩家遵循相同的策略组成字母S。 例如,在囚犯困境严格的纳什均衡(这也是支配地位平衡)由ESS构成。 尖叫比保持沉默更能防止尖叫:在大量尖叫者保持沉默是一种失败的策略,因此它不能入侵。
  • 如果E(X,X)=E(Y,X)E(X,Y)>E(Y,Y)得到,入侵者会做得和任何X一样好,这意味着ESS不需要保证这个最高回报。   

 

 

ESS的一个非常著名的版本出现在Hawk-Dove公司,面向生物学的版本鸡肉.

我们现在转向更一般的进化方法游戏。

 

进化动力学

我们刚刚在一个ESS已经接管,入侵不会成功发生。 然而,在其中条件策略在人群中起作用吗? 如果无限中的一个游戏会发生什么人口是重复的无限期地?答案来自进化动力学,它研究系统在某种特定的进化规则下进化。 这里的基本思想是复制器,一个能够复制,即制作(相关)准确的它本身. 以下示例复制因子是活的有机体、基因、游戏中的策略、想法(愚蠢或不),以及政治、道德、宗教或经济习俗(愚蠢或否)。 复制系统是给定环境中的一组复制器以及它们之间给定的交互模式。 复制子系统的进化动力学是复制因子的频率是由以下事实引起的:比那些不太成功的繁殖更快. 至关重要的是,这个过程必须考虑考虑到一个事实,即复制器部分原因在于其分布人口中的(比例、频率)。 例如,在玩游戏时鸡肉,尽管司机们在比赛中表现出色转向器,在中单个驾驶员数量转向器做得更好比任何人都好。 所以,它会繁殖其他人更快。 然而,在总有一点,就足够了转向器司机们会再次做得更好。 如果能知道是否存在某个平衡点,以及那么它是什么。

由于不同的繁殖率决定了系统的动力学,我们需要更精确地说明我们的意思更快。 这取决于系统动力学;我们要学习的是复制因子动力学. 还有其他一些模型似乎也适用但复制因子动力学是最容易和最常用的,至少在第一步。复制器动态使两个关键因素假设: 

  • 那里无随机漂移; 在其他也就是说,没有随机事件干扰差异适应,即某些个体在与他人的关系。 小型种群,随机漂移是一个重要的动力,我们以后必须处理。 
  • 这个玩家之间的互动(策略)是随机的,随机的; 即战略S满足的概率策略H是H的频率。 例如,如果总体的1/3是H,则打H的人是1/3,打S的人是2/3。

此外,我们应该把自己限制在学习上重复游戏,其舞台游戏是对称,只有两个玩家,这样数学计算就很容易了。  

为了理解复制因子的动态,我们需要引入一个很少有想法。 

 

第一个是变化的. 经验告诉我们事情经常以不同的速度变化。 例如,有时偶然引入的物种繁殖更多比本地物种快:换句话说,它们的生长速度更快而这通常会导致当地人。 所以,如果在引言非本地物种的频率为p本地物种为q=1-p,带q>>p,一段时间后,情况可能会发生变化,变为p>q。 这意味着p的阳性率为变化(增加),而q的变化率为负减少)。 数学上,我们表示这是写出来的

D类(p) >0 且D(q)<0,

哪里D(p)(p的导数关于时间)是指p的变化率,类似地q个.   

因此,假设人口P每秒增加30%;那么如果在开始时p=100,那么在一秒钟后,p1= 130,2秒钟后,p2由p给出1加上30%的p1,即169,以此类推,以及D类(p) >0。 

 

第二个概念是预期收益纯净的战略。  假设一个纯策略s是与战略S1对抗,,并且Pr(Si)是播放Si的概率。  如果通过E(s)我们了解预期回报那么,

E(s)个)=E(s,S1)Pr(S1)+..+E类(,锡)优先级().

也就是说,如果由Si表示泛型S,则预期收益s是s对每个Si的回报之和乘以Si被玩的概率。 对于例如,考虑下面的矩阵,

 

 

S公司

H(H)

4

1

小时

2

 

假设在 S的播放次数为1/3H 2/3倍。 那么E(s)是

4(1/3) + 1(2/3) = 2.

E类(h) 是

2(1/3) + 3(2/3) = 8/3.

 

第三个概念是平均收益为了理解这一点,我们需要考虑平均的. 假设在一组盒子中,1/3的重量每个30公斤,每个½重20公斤,每个1/6重60公斤。 那么平均重量ĀW为:

Ā宽=30x1/3+20x1/2+60x1/6=10+20+5=30。

用文字来说,平均值权重是所有3个权重的总和,每个权重乘以其频率. (由于1/3的箱子重30公斤,我们将30乘以1/3,依此类推)。 同样,如果S和H是两种可用策略回报是

ĀE=E(S)优先级(S) +E(H)Pr(H)

也就是说,S的预期收益乘以概率(播放)S的频率,加上H乘以播放H的概率(频率)。

 

例如,考虑以下内容猎鹿复制因子动力学中的矩阵,并假设Pr(S)=p、 使Pr(H)=1-p

 

 

S公司

H(H)

S公司

0

H(H)

2

1

表12

 

然后,首先计算E(S)和E类(H) :

E(S)公司)=3p+0(1-p)=3p,

E类(H) =2p+1(1-p)=p+1。

 

然后,我们计算平均预期收益E,即E(S)乘以播放S的概率加上E(H)乘以玩H的概率。 作为播放S的概率是p,播放H的概率是1-p,

ĀE=E(S)x Pr(S)+E类(H) x Pr(H)=3便士2+(p+1)(1-p)=2p2+1.

 

在复制因子动力学中,如果Pr(S)=第页,这个动力学方程(方程式通过时间控制系统行为)是:

 

D类(第页) =[英(南)Ā英]第页。

 

换句话说,

这个频率的变化率策略(在这种情况下为S),与S的期望收益和平均收益. 

因此,当S的预期收益大于平均回报,S的频率增加,当它小于S的频率降低。 因此,在我们的示例如下:

D类(第页) =[E(S)ĀE]p=[-2p2+3p-1]页。

显然,当D类(p) =0S(即p)的频率不变。 S频率不变的p值称为“固定点”. 那么,让我们找出我们的例如,让我们找出

[-2便士2+第3页-1]第页=0.

显然,一个不动点是p=0。 对于其他两个,我们需要解决

-2便士2+3p-1=0,

哪一个给出p=1和p=1/2。 因此,当p=0或p=1或p=1/2时,频率S的值不变。 但是发生了什么当p不等于三个不动点中的任何一个时?  让我们研究一下

D类(p) =[-2p2+3p-1]页。

我们可以通过用1/3代替p来验证,当0<p<1/2时,p的增长率为负,当1/2<p<1时p的增长率为正(例如,用2/3代替p)。 由于对于p=1/2,p的增长率为零,剧情看起来或多或少是这样的:

 

 

如果你想得到一个精确的图形,研究函数或

http://www.webgraphing.com/graphing_basic.jsp

 

如果在某个时间p<1/2,因为增长率为负p最终将变为零,即战略S将消失;通过相反,如果在某个时间p>1/2,则S将变为固定的,也就是说,它仍然是唯一的策略(H将消失)。 如果p=1/2,则正好是一半人口的一半将扮演S和H。 然而,这种平衡并不稳定,即使是很小的偏离它将使H或S中的一个灭绝,另一个灭绝固定,两者都是稳定的。

间隔(0,1/2) 是吸引力盆地其中H是吸引子,以及间隔(1/2,1)第页,共页。 不动点p=0和p=1是渐近稳定因为每个都是吸引盆地的吸引子。 如果吸引子的吸引域包含p的整个区间定义,或至少所有内部点,则吸引子为全球稳定在我们的示例中,没有不动点是全局稳定的。 1/2是这个内部不动点而且,作为我们锯子,它不稳定。

 

复制器动态广义2x2对称对策

一个有两种策略(A和B)的对称游戏可以是由以下支付矩阵表示,其中回报那些行策略:

 

 

B类

b条

B类

c(c)

d日

 

事实证明复制器如果我们在任何列中加上或减去相同的量,动力学都不会改变从所有盒子里. 因此,我们可以通过第一列减去c,第二列减去d来减少矩阵,获得

 

 

B类

a-c公司

b-d(英国)

B类

0

0

 

现在让我们用优先级(A) =第页。

E类(A) =(A-c)p+(b-d)(1-p)。

因为我们的矩阵运算E类(B) =0,因此,平均预期回报很简单

ĀE=第页[(a-c)p+(b-d)(1-p)]+0。

因此,

D类(p) =p[(a-c)p+(b-d)(1-p)-p2(a-c)-p(b-d)(1-p)]。

经过一点代数运算,我们得到

D类(p) =p(1-p)[(a-c)p+(b-d)(1-p,

那个是,

D类(p) =p(1-p)[E(A)]。

因此,D类(p) 当p=0或p=1时=0,或E(A)=0。 

 

请注意,解决E类(A) =0给出内部不动点,我们可以使用一个技巧。 以下是一个高度简化的过程找到内部点:

 

·      减少通过将策略B的收益设置为零并修改其他相应支出

·      解决E类(A) =0。

 

游戏中有五种可能的情况:

  1. 强烈支配B。 作为复制器动态淘汰了强主导战略,A将达到固定。 如果弱支配B,那么只剩下一个B。 B强烈地支配着A。 然后,B将达到固定。 如果支配力较弱,只有一个A将保留。 
  2. A是对A和B的严格最佳响应。 然后,a>c和d>b,因此在约化矩阵a-c>0中b-d<0。 内部点确定不稳定平衡. 该系统是 双稳态,意味着有两种策略可以达到固定效果,但具体取决于最初的策略分布,即p的初始值。 拥有更大流域的战略吸引力是风险占主导地位:如果这两种策略的初始分布是随机的,平均来说以风险为主导的策略将更频繁地达到固定目标。
  3. A是对B和B对A的严格最佳响应,即B>d日和c>a、 因此,在约化矩阵a-c<0和b-d>中0 然后是内部固定点确定全球稳定平衡:系统将独立于原始分发。 A和B会以预定的固定比率共存。 该系统是遍历的,意味着最终状态独立于初始条件。
  4. A和B为中性:a=c和B=d。 那么选择是中性的,D类(p) 始终为0,且原始策略分布p将被保留,因为排除了随机漂移。 

 

在情况(1)-(2)中,如果您进行计算,您可能会得到无意义的结果,如概率为负或大于零,或内部点塌陷为1或0 因此,简单地消除占主导地位的战略遍历的,主导策略变得固定或几乎固定(一个且只有一个弱主导战略的成员将继续留任)。

 

支配地位之间有一些有趣的联系,纳什均衡、ESS和复制因子动力学。

  1. 纳什平衡决定不动点。 然而,p=1等不动点与Nash无关平衡。
  2. 如果不动点p与ESS相关,则p是渐近的稳定。 反之亦然真的。
  3. 这个固定点p与使用每一个具有正概率的策略(也就是说,更大大于零)当且仅当p是全局稳定的。

 

例如:鸡肉

考虑升级/撤退游戏鸡肉据称由50年代(愚蠢的)青少年扮演。(A)它的变化是由人、机构、国家或许多人来扮演的动物为求偶而战)。 两个人直接向每个人开车直到其中一个或两个转向,或者它们撞在一起。 假设回报是:转弯,而其他没有:0;两个转向:5;无转弯:-10;继续,其他转弯:+10。 这是回报矩阵,其中S表示转弯和C表示继续直行:

 

 

S公司

C类

S公司

5

0

C类

10

-10

 

现在假设如下:

·      转向器总是转弯,直人总是直走;这些特征是天生的,事实上。

·      游戏的回报是成比例的达尔文适应度是指一个人留下的可存活后代的数量。

How will the frequencies of转向器笔直的人改变?他们会达到平衡点? 想象一下人口是由转向器假设我们删除a斯特拉格其中之一。  起初她会做得很好,因为她仅满足转向器因此她将离开许多直人后代。 所以百分比笔直的人在人口中急剧增加。 然而,最终会有足够的笔直的人他们将要见面彼此频繁足够做得比转向器. 所以,如果初始种群由两部分组成笔直的人转向器,永远不会有100%笔直的人或100%转向器. 有平衡点吗?

 

简化矩阵为

 

 

S公司

C类

S公司

-5

10

C类

0

0

 

设置E(S)=0,我们获得-3p+2=0,其解为p=2/3。 因为S是对C和C的最佳答复是对S的最佳答复,该图表示系统的演变是

 

 

哪里 第页是的百分比转向器和D(p)是的变化率第页. 无论发生什么情况,系统最终都会有2/3的玩家转向初始分布是(除了p=0或p=1之外,两者都是,不稳定)。 换句话说,系统是遍历的. 在这个系统中,平衡第页=2/3都可以访问(系统将到达那里)和稳定(一旦到达那里,系统将保持在那里)。

 

 

 

另一个例子:石头、纸、剪刀

乌塔 斯坦斯布里亚纳是蜥蜴其变形分布可以通过考虑Rock-Paper-Scissors,一个特别有趣的三人游戏案例策略。  然而,在我们这样做之前我们需要看看三元图,一个表示此类游戏的相空间的常用方法。

 

 

 

 

考虑等边三角形RSP和线段DA,DB和DC,即D到RS、SP和PR侧的距离,分别是。 顶点R表示战略石头,顶点S剪刀和顶点P纸。 三角形中的任意点D,包括内部区域、边和顶点表示策略,距离DA表示纸张的频率,DB表示岩石和剪刀的DC。 注意这种距离中的任何两个完全决定了战略分布。  顶点和对边是标准化的,这意味着当点D与顶点,该顶点的策略是唯一剩下的。 例如,当D与P重合时P的频率为1。 出于同样的原因,如果D位于一侧,则对方策略的频率顶点为零。 例如,如果D是位于RS上,则P的频率为零。

 

Rock-Paper-Scissors是Rock(R)击败的游戏剪刀(S),剪刀胜纸(P),纸胜石头,所以X与Y的关系是不及物的. 

假设输赢代表入侵率游戏的广义矩阵总是可以简化为

 

 

R(右)

S公司

R(右)

0

-b

S公司

-c(c)

0

d日

e(电子)

-如果

0

表1

 

哪里入侵率介于包括0和1,其中1代表获胜案例战略完全取代了失败的战略。 例如,如果a=.6,则R在60%的情况下对S获胜(入侵)。 注意,当a=c、b=e和d=f时,游戏是零和;此外,当a=b=c=d=e=f=1时,经典的RPS游戏获得。

 

在岩石、剪刀、纸张的复制动力学中以下情况属实:

  • 只有一个内部不动点(平衡点)
  • 如果p是频率P、 r表示r,s表示s内部不动点,则以下条件成立:

                          一、。         第页=αa,第个=αd,秒=αe,

                        二、。         具有α = (a+d+e)-1,它是入侵率。

(一)-(二)使…成为必然策略的频率内部平衡不是由其自身的入侵率决定的,而是由它入侵的战略. 对于例如,P的频率与R的侵入率成正比,即a。 因此,如果战略具有入侵率最高,入侵者的频率最高如果它的入侵率最低,那么它的入侵者就有最低频率。

  • 有三种情况基于矩阵行列式Δ的值=bcf-ade(生物入侵率的乘积减去入侵率乘积):
  1. 如果Δ<0,则内部不动点是一个不稳定中心,有轨迹螺旋式向外渐近地侧面。  

  1. 如果Δ=0,则内部不动点是围绕它旋转的稳定轨道的中心。 

  1. 如果Δ>0,则内部不动点是全局稳定的,轨道显示收敛到它的阻尼振荡。

 

 

计算机模拟,当Δ<0时:

  • 这个轨道向两侧螺旋向外最后触摸一侧。 (这是由于计算机舍入造成的)
  • 这个在内部平衡时频率最低的物种具有每个轨道上的最低频率,因此最高频率灭绝概率。

因此,策略X与入侵率最低的是最有可能存活下来的作为侵略者将消失,结果X将取代剩下的策略。 简而言之,游戏的结果是弱者的生存,如果我们了解入侵最不成功的地方. 在实践中,如果策略被物种或变体、疾病或人类干预会削弱其中一种通过降低入侵率,然后这种物种或变种最有可能存活下来。

  

作为RPS的示例,考虑以下矩阵,其中回报是入侵率:

 

 

R(右)

S公司

R(右)

0

.2

-.4

S公司

-.5

0

.8

.3

-.6

0

 

那么,α=10/13,因此r=8/13,s=3/13,p=2/13. 作为行列式Δ=(.4x.5x.6.2x.8x.3)>0,这说明在复制子动态下内部均衡是全局稳定的。

 

许多物种或从单细胞生物到脊椎动物的形态可以使用RPS进行研究,包括E.公司。科利(我们肠道中的微生物),乌塔 斯坦斯布里亚纳(一种加利福尼亚蜥蜴,也是第一种成功获得RPS的蜥蜴应用),伊斯奇努拉 美丽组(a)豆娘花),以及寄生虫属 斯库普塔(a)海洋等足类)。 一般来说,RPS可以用于研究权力关系不可传递的任何系统。

 

关于进化论的有趣有趣的讲座博弈论,看这个公众的诺瓦克教授演讲在哈佛大学。

 

 

 

练习

1.确定以下游戏的演变复制因子动力学。

 

S公司

H(H)

S公司

5

0

H(H)

2

2

 

 

2.确定以下游戏的演变复制因子动力学。

 

B类

1

B类

4

0

 

 

确定以下版本的演变鸡肉复制因子动态(D=直行;S=转弯)。

D类

S公司

D类

-5

S公司

-2

0

 

 

4

在复制器下确定以下游戏的进化动力学。 这个游戏看起来很熟悉吗?

S公司

C类

S公司

1

-5

C类

4

0

提示。在开始计算之前,问问自己上述一局制游戏是否具有较强的优势可解性。你会认为强支配的策略能在复制动力下生存下来吗?

 

5

确定以下游戏的演变复制因子动力学。 

B类

1

B类

1

 

 

准复制子反复囚犯困境的动力学

在复制器动力学中,两个玩家随机相遇一杆游戏,然后分开,因为每个人都会再次随机遇到一个玩家。 由于主导战略无法生存复制子动力学,缺陷达到固定囚犯困境. 什么如果我们玩的话囚犯困境复制因子动力学的进化方程直接互惠,即通过拥有相同的两名球员重复比赛不止一次,随机漂移,突变和偶尔的战略执行错误? 收件人避免使用逆向归纳法来随时叛逃的诱惑,让我们假设球员们不知道他们打了多少次彼此;他们所知道的是,在每一轮之后,他们的概率为再次播放,使平均播放长度为1/(1-p)轮。 我们可以考虑一个通用矩阵合作与背叛,其中仅给出行回报:

 

 

C类

D类

C类

R(右)

S公司

D类

T型

 

一个人得到R(右)(向东)为了相互合作,P(调和)对于双方缺陷,S(巴克)合作对抗叛逃者和T(空位)因为背叛了合作者。 囚犯困境如果T>R>P>S,则获得。 我们可以这样想比赛。 合作者提供帮助的成本为c接受帮助的人可以获得福利b。 叛徒无济于事,因此不产生任何费用。 则:R=b-c;S=-c;T=b;P=0。

除了ALLC(总是合作)和ALLD(总是有缺陷),让我们考虑一些反应策略这是在前一阶段发生的事情的基础上采取的行动。 

TFT(针锋相对)的作用如下:它从合作开始然后考虑对手的最后一招;如果对手配合TFT合作,如果对手叛逃,它就会叛逃。

GTFT(慷慨的针锋相对)的作用如下:它就像TFT有一点不同:每做这么多动作(比如1/3的次数),它就会合作即使在前一阶段对手叛逃了。

WSLS(win-stay;lose-shift)的作用如下:WSLS查看其在最后阶段的回报;如果它等于T或R,则考虑他的报酬成功并重复了之前的策略;如果没有,它就会改变战略。 简而言之,如果之前的回报是两个最高的之一,它一直在做同样的事情;如果不是,那就是开关。

Martin Nowak运行了以下建模程序脚本。 矩阵R=3,T型=5,P=1,S=0。 有大量随机选择的均匀分布策略。 那里是直接互惠;偶尔,策略会出错,模拟人类行为;新策略投入使用,模拟突变,以及允许中性偏移。 通常是什么发生(M.Nowak,进化动力学,中国.5)可以可视化为跟随:

 

 

在随机组合的策略中,ALLD做得很好,几乎接管。 在那一点上,即使是很小的已经存在或通过突变引入的TFT集群将开始扩展因为它会背叛叛逃者(ALLD),但会与合作者合作(主要是其他TFT)。 一旦TFT变为其丰富、无情的本性使其屈服于GTFT。 原因是因为有时会出错发生这种情况时,TFT播放另一个TFT可能会出现缺陷而不是合作。 这也会促使后者叛逃在下一阶段,从而开始合作/叛逃的循环。 相比之下,GTFT将在某些时候尝试再次合作,打破循环,获得更高的回报。 简而言之,GTFT很快从错误中恢复过来而TFT没有。现在的情况取决于GTFT的慷慨程度。 如果它足够报复,那就需要并变得稳定。 然而,如果太慷慨了,一旦接管,它不会比ALLC做得更好,这可能是由突变引起的。 如果游戏如果比赛时间足够长,ALLC将以中性漂移取代。 (在N个相同个体的群体中健康,最终所有人口都将成为给定个体a的后代是1/N。因此,如果游戏玩得很长够了,这种可能性就会发生)。  此时,ALLD突变将导致ALLD爆炸。 循环将再次开始。 但是,如果ALLC s的频率为高WSLS作为突变体出现,循环被打破。 当两个WSLS A和B相互比赛时,如果他们在前一阶段进行了合作,他们将继续合作。 如果A犯了错误和缺陷,下面是发生:

A: CCCDDCCC公司

B: CCCCDCCC公司

换句话说,合作将在两个阶段后恢复。

如果A是WSLS,B是ALLC,如果他们在上一阶段他们将继续合作。 然而,如果A犯了错误和缺陷,它将继续叛逃对太好的B:

A: CCCDDDD公司

B: CCCCCCC公司

简而言之,WSLS在合作的同时利用了ALLC的优点与其他WSLS。

当WSLS遇到ALLD时,ALLD会更好,因为我们

WSLS:CDCD。

全部:DDDD

请注意,ALLD平均每场比赛(P+T)/2。 因此,只要R>(P+T)/2,WSLS相互玩将比ALLD平均玩更多WSLS。 换句话说,

E类(WSLS,WSLS)>E(ALLD,WSLS,

严格的纳什提供ESS战略。 (只是接近是因为总体是有限的随机事件,随机漂移例如,是允许的)。 在其他话虽如此,一个(或几个)ALLD突变体不会入侵。 如果R≤(P+T)/2然后是WSLS的一个随机变量,它只在相互背叛后才合作概率小于1将接管。 有时,系统会循环回到ALLD,但机制是不清楚的。 

 

限制复制因子动力学

Replicator dynamics具有一些限制其应用程序。 这里我们考虑两个: 

·      我们考虑的动态无突变,从某种意义上说复制器产生自身的相同副本。 这样做的一个副作用是,如果战略已经消失,它永远不会再出现。 (顺便说一下,这就是为什么p=1和p=0总是固定点,即使它们是不稳定)。 有很多交易方式用这个。 例如,可以修改通过引入一个使S变成H的项,复制因子方程当概率q>0时,最简单的突变情况;或者,一个可以使用马尔可夫链。 然而,由于使事情复杂化,我们不应该这样做。 尽管如此,我们可以注意到以下几点。在我们的猎鹿例如,p=1/2是一个不稳定的内部点,这意味着随机突变会使系统在两种吸引力中的任何一种中移动概率相等的盆地。 然而,如果我们将支付矩阵改为(5,5)当S相遇时另一个S,内部点变为p=1/4(检查一下!),这意味着,给定初始均匀分布,平均随机突变将推动吸引域中以p=1为吸引子的系统更常见;因此,平均而言,各系统将在该盆地度过大部分生命。 当然,如果在人口,有一个概率q个n个那个在从一代人过渡到另一代人的过程中,全部的S(或足够多的S)变成H,从而使H变成固定;然而,即使对于相对较小的n,该概率也可能真的可以忽略不计。 例如,如果q=10%,n=16,结果概率为10-17,这真的非常低,如1017大约是年的宇宙年龄秒。 

·      人口必须无限的(实际上,非常大)以避免随机漂移;然而,许多种群相对较小,随机漂移是不可避免的。 因此,如果我们对人口建模这并不是很大,我们需要使用一个不同的、更复杂的过程而不是复制因子动态。 有关更多信息,请参阅诺瓦克的书。

 

空间游戏

复制程序动态假设随机相互作用在战略中。 但正如我们所指出的,这在许多国家是不现实的上下文,因为分段发生。 所以,在猎鹿然后我们可以考虑S结构中的S组与H结构中聚集在一起的H相互作用。 然后情况可能会大不相同来自随机交互情况。

当然,系统的行为也取决于再生产规则;不同于复制因子的进化动力学类型动力是显而易见的。 例如简单的动力学可以是:

 

每个人都看起来它的回报,它的近邻的回报,以及下一轮的回报所有个人或其中一定比例的人同时采用产生最高回报的战略。 

 

请注意,如果复制因子为是文化项目(模因),因为人们确实倾向于采用更多的实践比他们成功。 (当然,这个是一种简化,因为文化惯性和因循守旧起着重要作用;然而,即使模型变成复杂)。 制作这些的方法更准确的观点是看空间游戏。

考虑一个空间网格,其中每个人都占据一个定位并与所有邻居互动。 每一次交互的回报都是总和下一轮:

  • 每个玩家采用邻里中回报最高的策略
  • 全部的更新同时发生,这意味着代不是重叠

 

 

 

 

 

 

 

 

第1页

D2类

第3天

第4章

 

 

第12天

C1类

指挥与控制

D5型

 

第13天

第11天

C3类

补体第四成份

第6天

 

 

第10天

D9日

D8日

D7日

 

 

 

 

 

 

 

 

考虑一个猎鹿游戏中E(S,S)=3,E(S、H)=0,E(H、S)=2,且E(H,H)=1。 这里我们有4个合作伙伴(雄鹿)12名叛逃者(兔子)。 我们可以想象这个网格是包裹在形状中的较大网格的一小部分这样就没有边界效应了。 细胞的邻居是冯·诺依曼邻域,由这4个细胞与它共享一个侧面。 对于例如,C3s邻域由D11、C1、C4、,D9日. 因此,C3的命运取决于其战略,邻国D11、C1、C4、D9的战略,以及邻国的战略邻居。 让我们看看C3的命运。 合作将获得6英镑的回报C1和C4,尝试合作但失败的回报为0带有D9和D11。 简而言之,它的回报将是6。 对于剩余3个协作单元。 考虑现在是D11。 它将从它与D13、D12和D10的相互作用,并且从其相互作用中获得2C3,共5个。 同样对于剩余的缺陷细胞来说是正确的。 因此,在下一轮中,十二个缺陷细胞将变成合作者,合作者广场将扩大,最终超过。 请注意,合作更多在这个空间游戏中比在复制动力学下更成功。 

研究进化博弈的标准方法是入侵的条件。 所以,想象一下合作者已经接管,而其中一个变异成叛逃者(兔子)。 它的回报是8,而每一个合作的邻居将有9岁,这意味着叛逃者将在下一轮消失。 两个邻近的叛逃者将获得7英镑的报酬,而他们的邻居合作者将获得9分;因此,叛逃者将消失。 与3名相邻的叛逃者,叛逃者与三个合作者接壤可获得7分的回报,而与之相对的是9分之一的回报合作者。 更多叛逃者将遭遇更糟糕的是。 所以,一个社区合作者不会受到叛逃者的入侵,这并不奇怪,因为Stag是复制因子动力学中的ESS。   

想象一下,现在有一群叛逃者和一个变种人合作者。 合作者将有一个支付0,而每个叛逃的邻居将获得5中的一个,结果是合作者特征将消失。 两个相邻的合作者将分别获得3的回报,而每个叛逃的邻居将获得5分之一;因此,合作者特质将无法生存。 三个相邻的合作者将演化为一组四个合作者,形状为拉丁语交叉(+),中心合作者得9分;这个团体将坚持自己的立场。 正如我们所见,由四名合作者组成的广场将接管。 简而言之,在空间版本中雄鹿亨特我们认为,当与复制因子动力学相比。

除了冯·诺依曼社区,人们还可以使用摩尔社区,其中细胞的邻居是接触它的人,因此邻居都是通过国际象棋中的一个王棋从牢房里可以到达的人。 网格可以是n维的,或者给定一个适当的度量,可以定义距离第页从一个细胞中,这样只有和所有细胞内第页是邻居,结果是每个小区的邻居数量可能不同。 类似地,过渡规则可能是改变。 例如,一个单元格可能成为合作者(叛逃者),如果平均的所有邻居合作者(叛逃者)的回报更高而不是邻居叛逃者(合作者)。 或者,变化的可能性可能是相关的为最成功的邻居带来回报。 类似地,可以采用随机异步更新:单元格是随机选择,确定相关收益,然后只有该单元格被更新,从而模拟重叠几代人。 有,然后是一个伟大的产生非常不同类型的进化。