开放式访问
2020年5月 交互强化随机过程:基于加权经验平均数的统计推断
贾科莫·阿莱蒂,艾琳·克里马尔迪,安德烈亚·格里利蒂(Andrea Ghiglietti)
伯努利 26(2): 1098-1138 (2020年5月)。 数字对象标识码:10.3150/19-BEJ1143

摘要

这项工作涉及一个系统相互作用强化随机过程,其中每个进程$X^{j}=(X_{n,j})_{n}$位于有限加权有向图的顶点$j$,它可以被解释为网络代理$j$采用的“动作”序列。这些进程的动力学之间的相互作用取决于与底层图关联的加权邻接矩阵$W$:实际上,代理人$j$选择某一行为的概率取决于其个人“倾向”$Z{n,j}$以及根据$W$的条目,其他代理人的倾向$Z{n,h}$和$h\neq j$。增强随机过程最著名的例子是Pólya urn。

本论文的重点是加权经验意味着$N_{N,j}=\sum_{k=1}^{n} q个_{n,k}X_{k,j}$,因为例如,在强化学习中,当前的经验比过去的经验更重要。证明了它们的几乎必然同步性和一些稳定收敛意义下的中心极限定理。加权平均的新方法强调了证明个人倾向$Z^{j}=(Z_{n,j}){n}$和经验平均$\上划线{X}^{j{}=(sum_{k=1}的一些最新结果的关键点^{n} X(X)_{k,j}/n){n}$在最近的论文中给出(例如Aletti,Crimaldi和Ghiglietti(2019),附录申请。普罗巴伯。 27(2017)3787–3844,克里米尔第等。 随机过程。申请。 129(2019) 70–101). 事实上,通过对所考虑的过程进行更复杂的分解,我们可以理解所涉及的随机过程的不同收敛速度是如何结合在一起的。从应用的角度来看,我们为代理人的共同极限倾向提供了置信区间,并根据加权经验平均数提供了一个检验统计量,以对矩阵$W$进行推断。特别是,我们回答了Aletti、Crimaldi和Ghiglietti(2019)提出的一个研究问题。

引用

下载引文

贾科莫·阿莱蒂。 艾琳·克里马尔迪。 安德烈亚·格里利蒂(Andrea Ghiglietti)。 “相互作用的强化随机过程:基于加权经验平均数的统计推断。” 伯努利 26 (2) 1098 - 1138, 2020年5月。 https://doi.org/10.3150/19-BEJ1143

问询处

收到日期:2019年2月1日;修订日期:2019年6月1日;发布日期:2020年5月
欧几里德项目首次提供:2020年1月31日

zbMATH公司:07166558
数学科学网:4058362令吉
数字对象标识符:10.3150/19-BEJ1143

关键词:渐近正态性,复杂网络,相互作用随机系统,强化学习,强化随机过程,同步,urn模型,加权经验平均数

版权所有©2020伯努利数理统计与概率学会

第26卷•第2期•2020年5月
返回页首