×

时间非齐次马氏链的中心极限定理及其在动态规划中的应用。 (英语) Zbl 1352.60030号

摘要:我们证明了一类可加过程的中心极限定理,这类过程是在有限时域马尔可夫决策问题理论中自然产生的。主要定理推广了Dobrushin关于时间非齐次马尔可夫链的一个经典结果,主要创新点是这里允许和依赖于链的当前状态和有界数量的未来状态。我们通过几个例子表明,这种增加的灵活性为有限时域Markov决策问题的最优总报酬的渐近正态性提供了一条直接的途径。同样的例子也解释了为什么通过其他马尔科夫技术(如状态空间的扩大)不容易获得这样的结果。

MSC公司:

60F05型 中心极限和其他弱定理
60J05型 一般状态空间上的离散马尔可夫过程
49升20 最优控制与微分对策中的动态规划
60二氧化碳 组合概率
60G42型 离散参数鞅
90立方厘米 动态编程
90立方厘米 马尔可夫和半马尔可夫决策过程
90C27型 组合优化
90B05型 库存、储存、水库
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Arlotto A,Steele JM(2014),交替子序列的最优在线选择:中心极限定理。申请中的预付款。可能性。46(2):536-559. 交叉参考·兹比尔1317.60011
[2] Arlotto A,Gans N,Steele JM(2014),均值约束方差的马尔可夫决策问题。操作。物件。62(4):864-875. 链接·Zbl 1302.90240号
[3] Arlotto A,Chen RW,Shepp LA,Steele JM(2011)从随机样本中在线选择交替子序列。J.应用。可能性。48(4):1114-1132. 交叉参考·Zbl 1258.90103号
[4] Asriev AV,Rotar VI(1990)关于概率和动态控制中的渐近最优性。随机与随机报告33(1-2):1-16. 交叉参考·Zbl 0722.93079号
[5] Bannister MJ,Eppstein D(2012)Bellman-Ford算法的随机加速。程序。分析算法和组合数学会议(费城SIAM),41-47。交叉参考
[6] Belkina TA,Rotar VI(2005),关于概率最优化和具有连通性的过程的几乎必然最优化。一、离散时间案例。特奥。维罗亚特。Primen公司。50(1):3-26.
[7] Bellman R、Glicksberg I、Gross O(1955)《最优库存方程》。管理科学。2(1):83-104. 链接·Zbl 0995.90501号
[8] Brockwell PJ,Davis RA(2006)时间序列:理论与方法《斯普林格统计丛书》(Springer,纽约)。
[9] Brown BM(1971)鞅中心极限定理。安。数学。统计师。42:59-66. 交叉参考·Zbl 0218.60048号
[10] Bulinskaya EV(1964)关于最优库存策略的一些结果。理论问题。申请。9(3):389-403. 交叉参考·Zbl 0131.18804号
[11] Del Moral P(2004)Feynman-Kac公式《概率及其应用》(Springer,纽约)。交叉参考·Zbl 1130.60003号
[12] Dobrushin RL(1956)非平稳马尔可夫链的中心极限定理。I、 二、。理论问题。申请。1(1):65-80. 交叉参考
[13] Gordin-MI(1969)平稳过程的中心极限定理。多克。阿卡德。诺克SSSR188:739-741.
[14] Gordin M,Peligrad M(2011)关于鞅逼近的函数中心极限定理。伯努利17(1):424-440. 交叉参考·Zbl 1284.60070号
[15] Hall P,Heyde CC(1980)鞅极限理论及其应用(纽约学术出版社)。
[16] 哈南A(1963)《托尔埃梅斯限制了马尔可夫的流动性》。Ann.Inst.H.Poincaré18:197-301. ·Zbl 0202.48206号
[17] HoudréC,Restrepo R(2010)最长交替子序列长度渐近性的概率方法。电子。J.组合。17(1):1-19. ·Zbl 1203.60013号
[18] Iosifescu M,Theodorescu R(1969)随机过程和学习(纽约州施普林格)。交叉参考
[19] Jones GL(2004)关于马尔可夫链中心极限定理。普罗巴伯。Surv公司。1:299-320. 交叉参考·Zbl 1189.60129号
[20] Kifer Y(1998)随机环境中随机变换和过程的极限定理。事务处理。阿默尔。数学。Soc公司。350(4):1481-1518. 交叉参考·Zbl 0995.37033号
[21] Kipnis C,Varadhan SRS(1986)可逆Markov过程可加泛函的中心极限定理及其在简单排除中的应用。公共数学。物理学。104(1):1-19. 交叉参考·Zbl 0588.60058号
[22] Leizarowitz A(1987)《超车准则下的无限时域随机调节和跟踪》。随机性22(2):117-150. 交叉参考·Zbl 0629.93078号
[23] Leizarowitz A(1988)关于随机控制系统的几乎必然优化。随机性23(2):85-107. 交叉参考·Zbl 0685.93078号
[24] Leizarowitz A(1996)无限时域Markov决策过程的超车和近似最优性。数学。操作。物件。21(1):158-181. 链接·Zbl 0856.90122号
[25] Mandl P(1973)受控马尔可夫链和鞅之间的联系。凯贝内提卡9(4):237-241. ·兹比尔0265.60060
[26] Mandl P(1974a)马尔可夫链中的估计和控制。申请中的预付款。可能性。6(1):40-60. 交叉参考·Zbl 0281.60070号
[27] Mandl P(1974b)关于受控马尔可夫链中报酬的渐近正态性。统计进展(欧洲统计学家会议,布达佩斯,1972年)第二卷,499-505。集体数学。贾诺斯·博利艾Soc.János Bolyai第9卷(荷兰北部,阿姆斯特丹)。
[28] Mandl P(1985)受控马尔可夫链中的局部渐近正态性。统计师。决定2:123-127. ·Zbl 0582.62077号
[29] Mandl P,LaušmanováM(1991)受控马尔可夫链中渐近方法的两个推广。安·Oper。物件。28(1-4):67-79. 交叉参考
[30] McLeish DL(1974)相关中心极限定理和不变性原理。安·普罗巴伯。2:620-628. 交叉参考·Zbl 0287.60025号
[31] Mendoza-Pérez AF(2008)平均成本马尔可夫控制过程的渐近正态性。莫里斯莫斯12(2):33-52.
[32] Mendoza-Pérez AF,Hernández-Lerma O(2010)离散时间马尔可夫控制过程的渐近正态性。J.应用。可能性。47(3):778-795. 交叉参考·Zbl 1200.93138号
[33] Nagaev SV(1957)平稳马尔可夫链的一些极限定理。特奥。Veroyatnost公司。i Primenen公司。2(4):389-416. ·Zbl 0078.31804号
[34] Nagaev SV(1961)齐次马氏链的更精确极限定理。特奥。维罗贾诺斯特。i Primenen公司。6(1):67-86.
[35] Peligrad M(2012)非齐次马尔可夫链三角阵列的中心极限定理。普罗巴伯。理论相关领域154(3-4):409-428. 交叉参考·Zbl 1266.60043号
[36] Porteus EL(2002)随机库存理论基础《商业/营销》(斯坦福大学出版社,加利福尼亚州帕洛阿尔托)。
[37] Romik D(2011)随机排列中的局部极值和最长交替子序列的结构。第23届国际。Conf.Formal Power序列。代数组合学(FPSAC 2011)(《离散数学理论与计算科学》,法国南希),825-834·兹比尔1355.05009
[38] Rotar VI(1985)关于随机情况下的动态控制(俄语)。Petrakov NY,Rotar VI,编辑。经济系统的不确定性因素与控制(莫斯科瑙卡)。
[39] Rotar VI(1986)关于渐近最优性的一些评论(俄语)。随机经济的控制研究(中央经济和数学研究所,莫斯科),93-116。
[40] Rotar VI(1991)连通性性质和最优性几乎是确定的,并且是概率的。概率统计的新趋势第1卷(荷兰乌得勒支VSP),528-539·Zbl 0769.93083号
[41] Rotar VI(2012)关于路径渐近最优性的一些回顾性评论。动态。康定。离散脉冲。系统。序列号。B申请。算法19(1-2):207-224. ·Zbl 1263.93239号
[42] Sarymsakov TA(1961)非齐次马尔可夫链。理论问题。申请。6(2):178-185. 交叉参考·兹比尔0121.35305
[43] 塞内塔E(2006)非负矩阵与马尔可夫链《斯普林格统计系列》(Springer,纽约)·Zbl 1099.60004号
[44] Sethuraman S,Varadhan SRS(2005)非齐次马氏链Dobrushin定理的鞅证明。电子。J.概率。10(36):1221-1235. 交叉参考·Zbl 1111.60057号
[45] Stanley RP(2007)增加和减少子序列及其变体。国际。数学家大会第一卷(《欧洲数学社会》,苏黎世),545-579。交叉参考·Zbl 1133.05002号
[46] Stanley RP(2008)排列的最长交替子序列。密歇根数学。J。57:675-687. 交叉参考·Zbl 1247.05016号
[47] Stanley RP(2010)《交替排列的调查》。康斯坦普。数学。531:165-196. 交叉参考·Zbl 1231.05288号
[48] Statuljavičus VA(1969a)马尔可夫链中连接的随机变量和的极限定理。一、 二、。利托夫斯克。材料Sb。9:345-362.
[49] Statuljavičus VA(1969b)马尔可夫链中连接的随机变量和的极限定理。三、。利托夫斯克。材料Sb。10:161-169.
[50] Szewczak ZS(2012)《论Dobrushin的不等式》。统计师。普罗巴伯。莱特。82(6):1202-1207. 交叉参考·Zbl 1255.60121号
[51] Widom H(2006)关于随机置换中最长交替序列长度的极限分布。电子。J.组合。13(1):1-7. ·Zbl 1086.05012号
[52] Winkler G(2003)图像分析、随机场和马尔可夫链蒙特卡罗方法第二版(柏林施普林格出版社)。交叉参考
[53] Wu WB,Woodroof M(2004)平稳过程和的鞅逼近。安·普罗巴伯。32(2):1674-1690. 交叉参考·Zbl 1057.60022号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。