文件Zbl 1466.60192-zbMATH Open

交互强化随机过程：基于加权经验平均数的统计推断。（英语） Zbl 1466.60192号

伯努利 26，第2期，1098-1138（2020）.

摘要：这项工作涉及一个系统相互作用强化随机过程其中每个过程（X^j=（X_{n，j}）_n）位于有限加权有向图的顶点（j），它可以被解释为网络中的代理（j）所采取的“动作”序列。这些过程的动力学之间的相互作用取决于加权邻接矩阵（W）与下面的图相关：事实上，一个代理人选择某一行动的概率取决于其个人的“倾向”（Z{n，j}）和其他代理人根据（W）项的倾向（Z{n，h}），以及（h\neq j）。强化随机过程最著名的例子是Pólya urn。
本论文的重点是加权经验平均值\（N_{N，j}=\sum_{k=1}^nq_{n，k}X_｛k，j｝\），因为例如，在强化学习中，当前的经验比过去的经验更重要。证明了它们的几乎确定同步性和稳定收敛意义上的一些中心极限定理。带加权平均数的新方法强调了证明个人倾向（Z^j=（Z_{n，j}）_n）和最近论文中给出的经验平均数（sum_{k=1}^nX_{k，j}/n）_n\的一些最新结果的关键点（例如，[作者，Bernoulli 25，No.4B，3339–3378（2019；兹比尔1430.60078); 附录申请。普罗巴伯。27，第6期，3787–3844（2017年；Zbl 1382.60046号); 第二位作者等人，《随机过程应用。129，第1号，70-101（2019年；Zbl 1404.60044号)]). 事实上，通过对所考虑的过程进行更复杂的分解，我们可以理解所涉及的随机过程的不同收敛速度是如何结合在一起的。从应用的角度来看，我们为代理的共同极限倾向提供了置信区间，并基于加权经验平均数提供了一个检验统计量来对矩阵（W）进行推断。特别是，我们回答了本文中提出的一个研究问题[Zbl 1430.60078号].

引用于6文件

MSC公司：

60K35型	相互作用的随机过程；统计力学类型模型；渗流理论
2015年1月60日	强极限定理
2012年12月62日	参数估计量的渐近性质

关键词：

渐近正态性;复杂网络;相互作用随机系统;强化学习;强化随机过程;同步;urn模型;加权经验平均数

引文：

Zbl 1430.60078号;Zbl 1382.60046号;Zbl 1404.60044号

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司欧几里得

参考文献：

[1]	Aletti，G.、Crimaldi，I.和Ghiglietti，A.（2017年）。用基于网络的交互同步强化随机过程。附录申请。普罗巴伯。27 3787-3844. ·Zbl 1382.60046号 ·doi:10.1214/17-AAP1296
[2]	Aletti，G.、Crimaldi，I.和Ghiglietti，A.（2019年）。强化随机过程网络：经验平均值的渐近性。伯努利25 3339-3378·Zbl 1430.60078号 ·doi:10.3150/18-BEJ1092
[3]	Aletti，G.、Crimaldi，I.和Ghiglietti，A.（2020年）。补充“相互作用的强化随机过程：基于加权经验平均数的统计推断”https://doi.org/10.3150/19-BEJ1143SUPP。 ·Zbl 1430.60078号 ·doi:10.3150/18-BEJ1092
[4]	Aletti，G.和Ghiglietti，A.（2017年）。交互广义弗里德曼骨灰盒系统。随机过程。申请。127 2650-2678. ·Zbl 1367.60119号 ·doi:10.1016/j.spa.2016.12.003
[5]	Aletti，G.、Ghiglietti，A.和Rosenberger，W.F.（2018年）。基于功能urn模型的非参数协变量调整响应自适应设计。安。统计师。46 3838-3866. ·Zbl 1410.62158号 ·doi:10.1214/17-AOS1677
[6]	Aletti，G.、Ghiglietti，A.和Vidyashankar，A.N.（2018年）。自适应随机增强骨灰盒的动力学。伯努利24 2204-2255·兹比尔1417.60011 ·doi:10.350/17-BEJ926
[7]	Benaím，m.、Benjamini，I.、Chen，J.和Lima，Y.（2015）。具有基于图的交互的广义Pólya瓮。随机结构算法46 614-634·Zbl 1317.05103号
[8]	Berti，P.、Crimaldi，I.、Pratelli，L.和Rigo，P.（2011）。中心极限定理及其在多色随机增强骨灰盒中的应用。J.应用。普罗巴伯。48 527-546. ·Zbl 1225.60038号 ·doi:10.1239/jap/1308662642
[9]	Berti，P.、Crimaldi，I.、Pratelli，L.和Rigo，P.（2016）。具有随机屏障的随机强化骨灰盒的渐近性。J.应用。普罗巴伯。53 1206-1220. ·Zbl 1358.60005号 ·doi:10.1017/jpr.2016.75
[10]	Chen，J.和Lucas，C.（2014）。具有基于图的交互的广义Pólya瓮：线性收敛。电子。Commun公司。普罗巴伯。19 67. ·Zbl 1326.60135号
[11]	Chen，M.-R.和Kuba，M.（2013）。关于广义Pólya urn模型。J.应用。普罗巴伯。50 1169-1186. ·Zbl 1290.60009号 ·doi:10.1239/jap/1389370106
[12]	Cirillo，P.、Gallegati，M.和Hüsler，J.（2012）。研究杠杆动力学和传染性金融脆弱性的Pólya格子模型。高级复杂系统。15 1250069. ·doi:10.1142/S0219525912500695
[13]	Collevecchio，A.、Cotar，C.和LiCalzi，M.（2013）。关于优先依附和广义Pólya的urn模型。附录申请。普罗巴伯。23 1219-1253. ·Zbl 1266.05150号 ·doi:10.1214/12-AAP869
[14]	Crimaldi，I.（2009年）。一个几乎确定的条件收敛结果及其在广义Pólya urn中的应用。国际数学。论坛4 1139-1156·兹比尔1196.60046
[15]	克里马尔迪，I.（2016）。超几何随机强化瓮的中心极限定理。J.应用。普罗巴伯。53 899-913·Zbl 1351.60024号 ·doi:10.1017/jpr.2016.48
[16]	Crimaldi，I.（2016）。Introduzione Alla Nozione di Convergenza Stabile e sue Varianti（稳定收敛及其变体概念简介）57。意大利博洛尼亚：Unione Matematica Italiana，Monograf s.r.l.用意大利语写成的书。
[17]	克里马尔迪，I.、戴普拉，P.、路易斯，P.-Y.和米内利，I.G.（2019）。交互增强随机游动的同步和函数中心极限定理。随机过程。申请。129 70-101. ·Zbl 1404.60044号 ·doi:10.1016/j.spa.2018.02.012
[18]	Crimaldi，I.、Dai Pra，P.和Minelli，I.G.（2016年）。相互作用Pólya圈同步的涨落定理。随机过程。申请。126 930-947. ·Zbl 1333.60201号 ·doi:10.1016/j.spa.2015.10.005
[19]	Crimaldi，I.、Letta，G.和Pratelli，L.（2007年）。稳定收敛的强形式。在Séminaire de ProbabilitéS XL中。数学课堂笔记。1899 203-225. 柏林：斯普林格·Zbl 1129.60030号
[20]	Crimaldi，I.和Pratelli，L.（2005）。多元鞅的收敛结果。随机过程。申请。115 571-577. ·Zbl 1070.60040号 ·doi:10.1016/j.spa.2004.10.004
[21]	Dai Pra，P.、Louis，P.-Y.和Minelli，I.G.（2014）。通过交互增强实现同步。J.应用。普罗巴伯。51 556-568. ·Zbl 1305.60105号 ·doi:10.1239/jap/1402578643
[22]	Egenberger，F.和Pólya，G.（1923年）。这是一份统计报告。ZAMM Z.Angew。数学。机械。3 279-289.
[23]	Fortini，S.、Petrone，S.和Sporysheva，P.（2018）。关于部分条件同分布序列的概念。随机过程。申请。128 819-846. ·兹比尔1390.60124 ·doi:10.1016/j.spa.2017.06.008
[24]	Ghiglietti，A.和Paganoni，A.M.（2014）。针对固定分配的双色随机增强骨灰盒设计的统计特性。电子。《美国联邦法律大全》第8卷第708-737页·兹比尔1348.62254 ·doi:10.1214/14-EJS899
[25]	Ghiglietti，A.、Vidyashankar，A.N.和Rosenberger，W.F.（2017年）。自适应随机增强urn模型的中心极限定理。附录申请。普罗巴伯。27 2956-3003. ·兹比尔1379.60025 ·doi:10.1214/16-AAP1274
[26]	Hall，P.和Heyde，C.C.（1980）。鞅极限理论及其应用。纽约-朗登：学术出版社[Harcourt Brace Jovanovich，出版商]。概率与数理统计·Zbl 0462.60045号
[27]	Hayhoe，M.、Alajaji，F.和Gharisfard，B.（2018年）。基于Polya urn的网络流行病模型。2017年美国控制会议（ACC）358-363·Zbl 1515.92071号 ·doi:10.1109/TCNS.2017.2781467
[28]	Laruelle，S.和PagèS，G.（2013）。使用随机近似重新访问随机urn模型。附录申请。普罗巴伯。23 1409-1436. ·Zbl 1429.62360号 ·doi:10.1214/12-AAP875
[29]	利马，Y.（2016）。基于图形的Pólya的瓮：线性案例的完成。斯托克。动态。16 1660007. ·Zbl 1335.60185号
[30]	Mahmoud，H.M.（2009年）。Pólya Urn模型。统计科学系列教材。佛罗里达州博卡拉顿：CRC出版社·Zbl 1149.60005号
[31]	Mokkadem，A.和Pelletier，M.（2006年）。非线性双时间尺度随机逼近算法的收敛速度和平均。附录申请。普罗巴伯。16 1671-1702. ·Zbl 1104.62095号 ·doi:10.1214/105051606000000448
[32]	Paganoni，A.M.和Secchi，P.（2004）。相互作用的加固系统。申请中的预付款。普罗巴伯。36 791-804. ·Zbl 1062.60031号 ·doi:10.1239/aap/1093962234
[33]	Pemantle，R.（2007）。钢筋随机过程的调查。普罗巴伯。Surv公司。4 1-79·Zbl 1189.60138号 ·doi:10.1214/07-PS094
[34]	张立新（2014）。双色随机增强骨灰盒的高斯过程近似。电子。J.概率。19 86. ·Zbl 1317.60040号 ·doi:10.1214/EJP.v19-3432

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑非
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

交互强化随机过程：基于加权经验平均数的统计推断。（英语） Zbl 1466.60192号

MSC公司：

关键词：

引文：

参考文献：

示例

领域

操作员

交互强化随机过程：基于加权经验平均数的统计推断。 （英语） Zbl 1466.60192号

MSC公司：

关键词：

引文：

参考文献：

交互强化随机过程：基于加权经验平均数的统计推断。（英语） Zbl 1466.60192号