1.简介
在2008年的论文中,Reinhard Selten和Thorsten Chmura(以下简称SC)[1]分析一组12个不同的2×2游戏。对于6个常量和6个非常量和游戏,他们比较了5个静态概念的预测成功率。比较的五个概念是:(1)纳什均衡(Nash);(2) 量子响应平衡(QRE)[三]; (3) 动作采样平衡(ASE)[1]; (4) 有效抽样均衡(PSE)[4]; 和(5)脉冲平衡(IBE)[5,6]. 因为SC中详细解释了这些概念[1],我们不在这里解释。在他们的研究中,随机匹配的参与者玩了200多轮游戏,这使得“……作为动态学习模型的静止状态”的概念得到了解释([1]第940页)。在我们的研究中,我们把重点放在学习上在网络中. 我们记得在许多情况下经常提出的一点,即学习发生在社会环境中。在分析经济决策中的学习时,大多数研究涉及两个或多个随机匹配的参与者之间的重复交互。在现实生活中,网络学习似乎更自然。更准确地说,在许多应用程序中,大多数玩家大部分时间只与人口的一个子集进行交互的本地交互似乎是一种更合适的方法。因此,我们分析了与随机匹配环境中的行为(学习)相比,网络中的行为(或学习)是否存在差异。
我们首先分析了与学习过程长期均衡相关的实验结果,通过五种不同的均衡概念进行预测,以检查这种差异。我们将我们的结果与Chmura等人(以下简称CGS)最近一篇论文中测试的不同学习模型的预测联系起来[2]以阐明学习过程本身。使用的四种学习模型是:(1)行动抽样学习(ASL)[2]; (2) 脉冲匹配学习(IML)[2]; (3) 自我调节体验加权吸引学习(EWA)[7]; 和(4)强化学习(REL)[8]. 因为我们可以找到CGS中使用的学习模型的详细描述[2],我们不在这里解释。 我们将邻域从随机匹配更改为网络结构,以测试此参数的影响。作为一个独特的方面,我们的实验设计允许玩家与不同的邻居选择不同的策略。由此可知,每对相互关联的玩家都可以将每一场游戏作为一个单独的游戏来进行。这使我们的设计与大多数其他网络游戏研究不同,在网络游戏中,玩家被迫与邻居选择相同的策略。因此,玩家是否真的针对他们的网络伙伴选择了不同的策略是本研究研究的另一个主题。
虽然在随机匹配的环境中,玩家可以随着时间的推移混合策略,但在我们的网络中,他们可以通过对邻居使用不同的策略,在一段时间内额外混合策略。网络结构中的学习也通过间接邻居进行,间接邻居的决策也会影响直接邻居。1 在我们的研究中,我们设计了一个外部固定网络中的邻域游戏,玩家不能选择他们的邻居,但可以针对每个外部给定的邻居选择不同的策略。我们在一个网络中运行了两个SC用作基线游戏的不同游戏。我们提供的实验结果一方面可以分析网络结构如何影响学习,另一方面也可以分析如何控制不同均衡概念和不同学习模型的预测成功。我们的分析以四个关键问题为指导:关键问题1。 参与者(实际上)是否混合了策略?
关键问题2。 网络结构是否影响游戏中的学习?
关键问题3。 Selten和Chmura是否测试了平衡概念[1]网络游戏中参与者行为的良好预测因素? 关键问题4。 这些学习模型是否经过Chmura等人的测试[2]网络游戏中参与者学习过程的良好预测因素?2
基于SC使用的游戏(常量和非常量和游戏),我们构造了邻域游戏,其中每个玩家有四个直接邻居。关于玩家必须决定如何与伴侣互动以及如何随时间调整行为的想法,我们实验中的参与者可以为每个邻居选择不同的策略。与大多数其他关于网络行为的研究相比,我们框架中的参与者有机会将两种策略混合使用埋-暂时和内部-暂时的。
以伯宁豪斯的研究结果为指导等. [12]其中,玩家的行为受到不同网络结构的影响,我们使用了两种不同的结构:格子和圆圈。 我们通过分析玩家使用所提供的能力的频率来解决第一个关键问题,与邻居玩不同的策略(在一轮中混合策略)。
比较参与者在两种不同网络结构中的行为,我们回答了第二个关键问题。此外,将我们的观察结果与SC的结果进行比较,我们希望提供证据,证明网络中的学习与随机匹配环境中的学习不同。
为了回答我们的第三个关键问题,我们将实验结果与五个学习概念的预测进行了比较。Brunner在研究中对SC的结果进行了修订等. [13](以下简称BCG)和Selten等. [14]. 为了确保结果具有可比性,我们使用与这些研究相同的统计技术来分析我们的数据。 作为我们分析的基准,我们使用CGS报告的每个学习模型的平均频率、平衡概念预测的平均频率以及SC报告的实验中观察到的频率等. [2],学习模型的平均频率来自于运行模拟。三 作为我们的主要结果之一,我们表明网络中的学习不同于随机匹配中的学习。然而,我们发现这两种网络结构之间没有显著差异。根据这一结果,我们观察到五个均衡概念的预测成功顺序不同于SC给出的顺序,这意味着网络学习对网络学习过程中出现的长期均衡具有显著影响。这一结果得到了我们关于四种不同学习模型的预测结果的支持。虽然CGS显示,自校正EWA在随机匹配方面优于其他学习模型,但我们观察到,动作采样学习最能预测我们使用的网络游戏中的行为。
另一个显著的结果是,我们发现大多数玩家对每个邻居都选择了相同的策略,即.,玩家并不真正混合策略。这适用于我们实验中使用的两种网络结构。此外,在圆圈网络中,没有混合策略的玩家的平均数量略高。
2.实验说明
在我们的研究中,我们使用了两个游戏(参见图1)我们使用这些游戏的主要原因是,它们对五种均衡概念产生了明显不同的预测。图2显示了这些概念对常数和游戏的理论预测,以及图3用于非恒定和游戏。图4(图5)显示了与我们的实验结果相关联的恒和游戏(非恒和游戏)的四个学习模型的预测。4
2.1. 基线比赛
我们使用两种游戏,一种是常量游戏,另一种是非常量和游戏,作为基准游戏。正如SC所解释的那样,这两款游戏组成了一对,其特点是具有相同的最佳响应结构。5 因为我们一方面希望通过分析不同网络结构的影响将重点转向学习,另一方面参考SC和BCG的结果,我们将SC的游戏扩展到不同网络结构中的邻域游戏。
2.2。邻里博弈与网络结构
跟随伯宁豪斯等. [12],我们在外部给定的固定网络结构中运行游戏,每个玩家都有四个直接邻居。为了实现这一点,16名玩家被分配到两个不同的网络结构中。中描述的2×2游戏第2.1节代表基线游戏。在这些游戏的基础上,构建了邻里游戏,使得每个玩家都能与四个直接(本地)邻居进行交互。与我们的第一个关键问题相适应,在我们的实验中,每个玩家可以在每轮比赛中对每个邻居使用不同的策略。 由于文献中众所周知,网络结构会影响玩家在游戏中的行为(参见,例如[12,15,16])我们使用了两种不同的结构。以伯宁豪斯的研究结果为指导等. [12]关于协调博弈中参与者的行为,我们使用了两种不同的网络结构:格子和圆圈。图6和图7提供两种网络结构的示意图。
很明显,在这两种结构中,每个玩家都与四个直接邻居互动。这些结构之间的差异是由间接相互作用水平上的间接邻接数给出的。
在网络游戏中可能会有更多的均衡,正如我们在图2和图3。由于我们想比较两种不同网络结构中玩家的行为以及SC的实验结果,因此我们使用了第2.1节作为基准。 2.3. 交互结构的示例解释
在格子中(图6),1号玩家直接与2号玩家进行交互,2号玩家作为右侧,4号玩家作为左侧,13号玩家作为顶部,5号玩家作为底部邻居6在第一级间接交互中,玩家1有六个间接邻居(玩家16、14、3、8、6和9)。在第二级间接互动中,玩家1有四个间接邻居(玩家15、7、12和10),在第三级间接互动上有一个间接邻居。 在圈子里(图7),玩家1直接与作为其左邻居的玩家8和玩家16交互,并且与作为其右邻居的玩家2和玩家10交互。在第一级间接互动中,玩家1有五个间接邻居(玩家9、7、15、11和3)。在第二级间接互动中,玩家1有四个间接邻居(玩家6、14、12和4),而在第三级间接互动上,她有两个间接邻居。 3.实验程序
为了将我们的结果与SC的结果进行比较,我们设计了尽可能与他们相似的实验。
我们在马格德堡大学的实验实验室MaXLab进行了实验。对于每个邻里游戏,我们进行了四次实验,每个实验都有16名参与者。参与者在网络中的一个位置上随机配对。我们告诉他们,配对可以(但不必)在实验过程中发生变化,而事实上,这种变化并没有发生。我们进行了100多轮比赛。在每一轮比赛中,球员可以针对四个直接邻居中的每一个选择不同的策略。每轮比赛后,球员们都会被告知每场2×2游戏的收益,即。,关于上一轮的总收益和所有轮的累计收益。7 收益以“点”表示,按四个收益点等于1欧元分的汇率换算成欧元。实验时间约为1至1.5小时,参与者的平均收入约为10欧元。我们实验中的256名参与者是使用ORSEE软件招募的[17]来自不同学院的学生。为了编写实验程序,我们使用了实验软件z-Tree[18].8 4.实验结果
为了将我们的实验结果与五个概念的理论预测以及SC的结果进行比较表1我们显示了观察到的相对播放频率向上(2×2游戏中的策略“向上”)和左侧(策略“左”在2×2游戏中),在两个不同的网络结构中玩。
表1。播放的相对频率向上和左侧在底线比赛中。
常数和游戏 |
| | 第1部分 | 第2部分 | 第3部分 | 第4次会议 | 平均 | 方差 |
格子 | 向上 | 0.032 | 0.053 | 0.061 | 0.045 | 0.048 | 0.000153 |
左侧 | 0.784 | 0.702 | 0.587 | 0.692 | 0.691 | 0.006529 |
圆形 | 向上 | 0.036 | 0.054 | 0.048 | 0.059 | 0.049 | 0.000098 |
左侧 | 0.779 | 0.683 | 0.756 | 0.641 | 0.715 | 0.004092 |
非常数和博弈 |
| | 第1部分 | 第2部分 | 第3部分 | 第4次会议 | 平均 | 方差 |
格子 | 向上 | 0.062 | 0.138 | 0.143 | 0.100 | 0.111 | 0.001425 |
左侧 | 0.677 | 0.764 | 0.795 | 0.741 | 0.744 | 0.002500 |
圆形 | 向上 | 0.115 | 0.107 | 0.110 | 0.051 | 0.096 | 0.000901 |
左侧 | 0.724 | 0.836 | 0.863 | 0.672 | 0.774 | 0.008223 |
关键问题1。 参与者(实际上)是否混合了策略?
与其他研究不同,我们实验中的参与者可以在每个阶段针对每个对手选择不同的策略。因此,参与者能够在一轮中混合他们的策略。如所示表2,参与者没有经常利用这个机会。
表2。在100回合内,对每个邻居选择相同策略的平均玩家数量。
表2。在100回合内,对每个邻居选择相同策略的平均玩家数量。
在100轮比赛中对每个邻居选择相同策略的平均玩家数量 |
---|
| 格子 | 圆形 |
---|
常数和游戏 | 81.03% | 85.69% |
非常数和博弈 | 81.16% | 86.22% |
大多数玩家为每个邻居选择了相同的策略。我们没有发现基础游戏的策略选择有任何差异,但两种不同的网络结构之间略有差异。就学习或调整行为而言,结果表明,对每个邻居选择相同策略的频率随着时间的推移而增加(参见表3).
表3。在前50轮和后50轮中选择相同策略的平均玩家数量。
表3。在前50轮和后50轮中选择相同策略的平均玩家数量。
在第1-50轮中,对每个邻居选择相同策略的玩家的平均数量 |
| 格子 | 圆形 |
常数和游戏 | 78.34% | 83.06% |
非常数和博弈 | 76.66% | 83.09% |
在第51至100轮中,对每个邻居选择相同策略的玩家的平均数量 |
| 格子 | 圆形 |
常数和游戏 | 83.72% | 88.31% |
非常数和博弈 | 85.66% | 89.34% |
结果1。 参与者没有在一轮中混合策略。
关键问题2。 网络的结构会影响游戏中的学习吗?
为了发现Lattice网络和Circle网络在学习方面的差异,我们首先分析了基线博弈中的策略选择。基于播放的相对频率向上和左侧(请参见表1),我们发现两种网络结构之间没有显著差异(任何显著性水平的符号检验)。 我们将我们的观察结果与SC的实验结果进行比较,以分析网络与随机匹配环境在学习行为方面是否至少存在差异。表4显示了观察到的结果。
表4。比赛的观察平均值向上和左侧在游戏中。
| 战略选择——在以下方面观察到的平均值: |
---|
| 晶格网络 | Circle网络 | 无网络(SC[1]) |
---|
| | 常和博弈 | |
向上 | 0.048 | 0.049 | 0.079 |
左侧 | 0.691 | 0.751 | 0.690 |
| | 非常数和博弈 | |
向上 | 0.111 | 0.096 | 0.141 |
左侧 | 0.744 | 0.774 | 0.564 |
正如大家所见(图8和图9),我们观察到的两种网络结构的平均值与只有一个随机匹配伙伴的2×2游戏的结果不同。中的数据图9证明这对于非恒定和游戏来说尤其如此。这些发现表明,网络中的学习实际上不同于SC使用的2×2随机匹配环境中的学习。
图9。比赛的观察平均值向上和左侧在非恒定和游戏中。
图9。比赛的观察平均值向上和左侧在非恒定和游戏中。
结果2。 我们发现两种网络结构中参与者的行为没有显著差异。
关键问题3。 Selten和Chmura是否测试了平衡概念[1]网络游戏中参与者行为的良好预测因素? 当我们想要回答关于五个平衡概念在网络学习背景下的预测成功的问题时,我们首先说明了五个概念的理论预测和实验结果(图10和图11).
图10。五个平衡概念的理论预测和常数和博弈的实验结果。
图10。五个平衡概念的理论预测和常数和博弈的实验结果。
图11。非恒定和博弈五种均衡概念的理论预测和实验结果。
图11。非恒定和博弈五种均衡概念的理论预测和实验结果。
根据BCG,我们使用了SC的修正理论预测。表5显示了五个平衡概念的相应数值预测。
表5。五个平衡概念的理论预测和观测到的向上和左侧策略。
表5。五种平衡概念的理论预测和观测到的相对频率向上和左侧策略。
| 纳什 | 量化风险评估 | ASE公司 | PSE公司 | 国际教育局 | Selten和Chmura的观测平均值 | 格中的观测平均值 | 我们在圈内的观测平均值 |
---|
| 常数和游戏 |
向上 | 0.091 | 0.042 | 0.090 | 0.071 | 0.068 | 0.079 | 0.048 | 0.049 |
左侧 | 0.909 | 0.637 | 0.705 | 0.643 | 0.580 | 0.690 | 0.691 | 0.751 |
| 非常数和博弈 |
向上 | 0.091 | 0.042 | 0.090 | 0.060 | 0.104 | 0.141 | 0.111 | 0.096 |
左侧 | 0.909 | 0.637 | 0.705 | 0.691 | 0.634 | 0.564 | 0.744 | 0.774 |
为了衡量平衡概念的预测成功率,我们根据SC使用的方法分析我们的数据。该分析基于对观测和预测相对频率的成对比较。表6显示了在两个网络结构中进行的两个基本游戏的均方距离和采样方差。
表6。五个平衡概念的均方距离。
| 纳什 | 量化风险评估 | ASE公司 | PSE公司 | 国际教育局 | 采样方差 |
---|
常数和游戏 | 格子 | 0.054297 | 0.007988 | 0.006986 | 0.007880 | 0.017798 | 0.005011 |
圆形 | 0.042619 | 0.009241 | 0.004899 | 0.008764 | 0.021652 | 0.003143 |
非成本。总和游戏 | 格子 | 0.030476 | 0.019173 | 0.004915 | 0.008355 | 0.015144 | 0.002943 |
圆形 | 0.025158 | 0.028433 | 0.011603 | 0.014969 | 0.026441 | 0.006843 |
基于均方距离,可以看出,从成功的角度来看,这些概念有一个顺序:行动取样均衡、支付取样均衡、量子响应均衡、脉冲平衡均衡和纳什均衡。对于非恒定和博弈,脉冲平衡均衡的性能略优于量子响应均衡。
根据SC和BCG的分析,我们将所有16个独立观测的结果一起测试,也可以分别测试常数和非常数和博弈的结果。由于理论预测与网络结构无关,因此我们对两种结构的结果进行了测试。与SC中一样,我们使用Wilcoxon配对符号秩检验来比较五个概念与观察到的相对频率之间的平方距离。在表7,我们显示对-检查行中的解决方案概念是否优于列中的解决办法概念的测试值。上面一行中的粗体数字是对-将所有16个观测值一起使用的测试值。中间一行给出了对-常量和游戏中的观察值,以及下线对-非恒定游戏中的观察值。 根据BCG中的备注,我们还进行了Kolmogorov-Smirnov双样本测试,以双重检查结果的重要性(对-值是中括号内的数字表7).
表7。预测性成功-对-有利于行概念的值,上图:共16个独立观察,中:常数和游戏(八个独立观察值),下图:非常和博弈(八个独立的观察结果)。
表7。预测性成功-对-支持行概念的值,上图:共16个独立观察,中:常数和游戏(八个独立观察值),下图:非恒定和游戏(八个独立观察)。
| PSE公司 | 量化风险评估 | 国际教育局 | 纳什 |
---|
ASE公司 | 不适用。 | 不适用。 | 2% (10%) | 0.001% (0.01%) |
编号. | 编号. | 10% (10%) | 0.02% (0.02%) |
不适用。 | 不适用。 | 10%(无) | 5%(无) |
PSE公司 | | 不适用。 | 10%(无) | 0.05% (2%) |
n.秒. | 编号. | 0.1% (2%) |
不适用。 | 不适用。 | 10%(无) |
量化风险评估 | | | 不适用。 | 1% (5%) |
编号. | 0.2% (2%) |
不适用。 | 不适用。 |
国际教育局 | | | | 5%(10%) |
2% (10%) |
不适用。 |
根据波士顿咨询公司的备注,我们还进行了Kolmogorov-Smirnov双样本测试,以再次检查结果的重要性(对-值是中括号内的数字表7). 在比较所有独立观察结果时,很明显,所有非纳什概念都比纳什概念做得好。9 这适用于常量和游戏,但不适用于非常量和游戏。此外,在四个非纳什概念中,我们没有发现预测成功的明显顺序。
结果3。 在四个非纳什概念中,预测成功的顺序并不明确。
关键问题4。 这些学习模型是否经过Chmura等人的测试[2]网络游戏中参与者学习过程的良好预测因素? 在分析了学习过程中的长期均衡行为之后,我们接下来将重点放在循环行为上,并将我们的观察结果与四个学习模型的预测联系起来。我们首先说明了所使用的四个学习模型(由CGS给出)的预测和实验结果(图12和图13).
图12。四种学习模型的预测和常数和博弈的实验结果。
图12。四种学习模型的预测和常数和博弈的实验结果。
图13。四种学习模型的预测和常数和博弈的实验结果。
图13。四种学习模型的预测和常数和博弈的实验结果。
表8显示了四个学习模型预测的相应数值。我们使用CGS给出的预测。
表8。四个学习模型的预测和观察到的向上和左侧策略。
表8。四种学习模型的预测和观察到的相对频率向上和左侧策略。
| ASL公司 | IML公司 | EWA公司 | REL公司 | Selten和Chmura的观测平均值 | 格中的观测平均值 | 我们在圈内的观测平均值 |
---|
| 常数和游戏 |
向上 | 0.095 | 0.063 | 0.499 | 0.121 | 0.079 | 0.048 | 0.049 |
左侧 | 0.710 | 0.574 | 0.499 | 0.345 | 0.690 | 0.691 | 0.751 |
| 非常数和博弈 |
向上 | 0.094 | 0.098 | 0.485 | 0.170 | 0.141 | 0.111 | 0.096 |
左侧 | 0.709 | 0.637 | 0.564 | 0.380 | 0.564 | 0.744 | 0.774 |
基于观察到的和预测到的相对频率的成对比较,我们测量了四种学习模型的预测成功率。表9显示了均方距离和采样方差。
表9。四种学习模型的均方距离。
| IML公司 | ASL公司 | EWA公司 | REL公司 | 采样方差 |
---|
常数和游戏 | 格子 | 0.007596 | 0.018992 | 0.130266 | 0.245598 | 0.005011 |
圆形 | 0.005259 | 0.023143 | 0.145006 | 0.251966 | 0.003143 |
非常数。总和游戏 | 格子 | 0.004467 | 0.014609 | 0.139132 | 0.175497 | 0.002943 |
圆形 | 0.011039 | 0.025549 | 0.167395 | 0.202354 | 0.006843 |
使用均方距离作为预测成功的衡量标准,可以得出以下顺序:动作采样学习、脉冲匹配学习、强化学习和自校正EWA。
在对(长期)均衡概念的预测成功进行分析后,我们使用Kolmogorov-Smirnov双样本检验来检验预测成功的推导阶数的显著性。我们一起测试了这两种结构的结果。表10显示了所有16个独立观测值的测试的p值,以及常量和非常量和游戏的p值。表10结构与表7,表示我们显示对-测试值检查行中的学习模型是否优于列中的学习模式。
表10。预测性成功-对-支持行概念的值,上图:共16个独立观察,中:常数和游戏(八个独立观察值),下图:非恒定和游戏(八个独立观察)。
表10。预测性成功-对-支持行概念的值,上图:共16个独立观察,中:常数和游戏(八个独立观察值),下图:非恒定和游戏(八个独立观察)。
| IML公司 | REL公司 | EWA公司 |
---|
ASL公司 | 3.5% | <0.1% | <0.1% |
8.7% | <0.1% | <0.1% |
66.0% | <0.1% | <0.1% |
IML公司 | | <0.1% | <0.1% |
<0.1% | <0.1% |
<0.1% | <0.1% |
REL公司 | | | 0.3% |
0.2% |
8.7% |
当将所有16个独立观察结果进行比较时,很明显,测试结果支持我们得出的预测成功顺序,即行动抽样学习最能预测全面行为。这适用于常数和游戏,但不适用于非常数和游戏。对于非恒定和游戏,动作采样学习和脉冲匹配学习的预测没有显著差异。
结果4。 四种学习模型的预测成功率有一个明显的顺序,即:(1)动作采样学习,(2)脉冲匹配学习,(3)强化学习,(4)自校正EWA。
5.结论
在本文中,我们分析了网络学习。因此,我们在Selten和Chmura的2×2游戏中添加了网络结构[1]. 从两个不同的游戏(常量和非常量和游戏)开始,我们构建了一个具有两种不同网络结构(格子和圆)的邻域游戏,其中每个玩家有四个直接(本地)邻居。与其他研究不同,我们实验中的参与者可以针对每个邻居选择不同的策略。 由于我们的研究与SC有关,我们将我们的观察结果与它们的实验结果进行了比较,并与五个(长期)均衡概念(纳什均衡、量子响应均衡、行动抽样均衡、支付抽样均衡和脉冲均衡)的理论预测进行了比较。我们还将结果与Chmura使用的四种学习模型(动作采样学习、脉冲匹配学习、强化学习和自校正EWA)的预测联系起来等. [2],以了解学习过程。 在关键问题的指导下,我们首先分析数据,以检查参与者是否真的使用了混合策略。因为大多数玩家对每个邻居都选择了相同的策略,所以我们得出结论,参与者没有在一轮中混合他们的策略。
第二步,我们考虑不同网络结构对参与者行为的影响。我们的结果与SC的实验结果之间的差异证明了网络学习与只有一个随机匹配伙伴的2×2游戏中的学习不同。与其他研究不同,我们发现在我们使用的两种网络结构中,参与者的行为没有显著差异。我们发现,在参与者对每个邻居选择相同策略的数量上只有轻微差异。
关于我们的第三个关键问题,我们表明,在我们的实验中,五个平衡概念中没有一个能够准确预测参与者的行为。我们证明了所有非纳什概念都优于纳什概念。对于常数和和非常数和博弈,四个非纳什概念的预测成功顺序不同。值得注意的是,当这两种游戏组合在一起时,行动抽样均衡和支付抽样均衡策略比脉冲均衡策略做得更好。除此之外,在这四个非纳什概念中没有明确的排名。
关于我们的第四个关键问题,我们表明,没有一个学习模型能准确预测实验参与者的前后行为。很明显,四种学习模型的预测成功顺序是明确的,动作采样学习是最好的,自校正EWA是最小的预测模型。这个顺序是在将两个游戏的数据进行比较时得出的。虽然这种预测成功的顺序适用于常数和游戏,但不适用于非常数和游戏。在这里,行动抽样学习预测效果与冲动匹配学习一样好。然而,我们推导的预测成功顺序支持了CSG使用聚合频率的一般结果。
对于未来的研究,除了进一步复制外,还有望进一步发展理论并测试不同的网络结构。