Interacting reinforced stochastic processes: Statistical inference based on the weighted empirical means

Giacomo Aletti; Irene Crimaldi; Andrea Ghiglietti

doi:10.3150/19-BEJ1143

2020年5月交互强化随机过程：基于加权经验平均数的统计推断

贾科莫·阿莱蒂,艾琳·克里马尔迪,安德烈亚·格里利蒂（Andrea Ghiglietti）

伯努利 26(2): 1098-1138 （2020年5月）。数字对象标识码：10.3150/19-BEJ1143

摘要

这项工作涉及一个系统相互作用强化随机过程，其中每个进程$X^{j}=（X_{n，j}）_{n}$位于有限加权有向图的顶点$j$，它可以被解释为网络代理$j$采用的“动作”序列。这些进程的动力学之间的相互作用取决于与底层图关联的加权邻接矩阵$W$：实际上，代理人$j$选择某一行为的概率取决于其个人“倾向”$Z{n，j}$以及根据$W$的条目，其他代理人的倾向$Z{n，h}$和$h\neq j$。增强随机过程最著名的例子是Pólya urn。

本论文的重点是加权经验意味着$N_{N，j}=\sum_{k=1}^{n} q个_{n，k}X_{k，j}$，因为例如，在强化学习中，当前的经验比过去的经验更重要。证明了它们的几乎必然同步性和一些稳定收敛意义下的中心极限定理。加权平均的新方法强调了证明个人倾向$Z^{j}=（Z_{n，j}）{n}$和经验平均$\上划线{X}^{j{}=（sum_{k=1}的一些最新结果的关键点^{n} X（X）_{k，j}/n）{n}$在最近的论文中给出（例如Aletti，Crimaldi和Ghiglietti（2019），附录申请。普罗巴伯。 27（2017）3787–3844，克里米尔第等。 随机过程。申请。 129(2019) 70–101). 事实上，通过对所考虑的过程进行更复杂的分解，我们可以理解所涉及的随机过程的不同收敛速度是如何结合在一起的。从应用的角度来看，我们为代理人的共同极限倾向提供了置信区间，并根据加权经验平均数提供了一个检验统计量，以对矩阵$W$进行推断。特别是，我们回答了Aletti、Crimaldi和Ghiglietti（2019）提出的一个研究问题。