文件Zbl 1427.60148-zbMATH Open

马尔可夫链的多簇时间聚合方法。（英语） Zbl 1427.60148号

Automatica公司 99, 382-389 (2019).

小结：这项工作的重点是利用嵌入算法计算马尔可夫链的稳态分布。在这方面，在[十、曹等人，Automatica 38，No.6，929–943（2002；Zbl 1026.93054号)]. 大致来说，这个想法取决于将状态空间划分为两个子集。该划分过程的关键是一小部分状态，被选为聚合过程的状态空间，它将解释嵌入半马尔可夫过程的状态。尽管这种方法提供了一系列有趣的理论结果，并在所谓的维度诅咒的研究中取得了进展，但仍有一个高维问题需要解决。在本文中，我们研究了通过提出一种具有多个子集的时间聚合方法来解决这个问题的可能性。这是通过设计一个分解算法来实现的，该算法利用划分方案来评估链的稳态概率。除了算法的收敛性证明外，我们还证明了在状态空间被划分为具有相同基数的子集集合的情况下，划分基数相对于算法的计算量的结果。

MSC公司：

60J10型

马尔可夫链（离散状态空间上的离散时间马尔可夫过程）

关键词：

马尔可夫过程;嵌入;时间聚合;政策评估

引文：

Zbl 1026.93054号

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

参考文献：

[1]	Aldhaheri，R.W。；Khalil，H.K.，几乎完全可分解马尔可夫链的策略迭代方法的聚合，IEEE自动控制汇刊，36178-187（1991）·Zbl 0762.93079号
[2]	阿鲁达，E.F。；Fragoso，M.D.，《通过标准动态规划的时间聚集马尔可夫决策过程》，《运筹学快报》，第39期，第193-197页（2011年）·兹比尔1219.90181
[3]	Arruda，E.F.、Fragoso，M.D.和Ourique，F.O.（2017年）。马尔可夫链的多部分时间聚合。在2017 IEEE第56届决策与控制年会http://dx.doi.org/10.1109/CDC.2017.8264387; Arruda，E.F.、Fragoso，M.D.和Ourique，F.O.（2017年）。马尔可夫链的多部分时间聚合。在2017 IEEE第56届决策与控制年会http://dx.doi.org/10.1109/CDC.2017.8264387
[4]	巴克，G.P。；Plemmons，R.J.，计算马尔可夫链平稳分布的收敛迭代，SIAM代数和离散方法杂志，7390-398（1986）·Zbl 0617.65027号
[5]	Biswas，K.，《大规模连续系统稳态解的迭代聚合和分解方法》，计算机物理通信，191，25-32（2015）·Zbl 1344.60071号
[6]	Brémaud，P.，Gibbs fields，Monte Carlo simulation，and queues（1999），Springer-Verlag:Springer-Verlag纽约·Zbl 0949.60009号
[7]	曹，X。；任，Z。；巴特纳加，S。；傅，M。；Marcus，S.，《马尔可夫决策过程的时间聚合方法》，Automatica，38，929-943（2002）·Zbl 1026.93054号
[8]	De Sterck，H。；Manteuffel，T.A。；McCormick，S.F。；Nguyen，Q。；Ruge，J.，《马尔可夫链的多级自适应聚合及其在网络排名中的应用》，SIAM科学计算杂志，30，2235-2262（2008）·Zbl 1173.65028号
[9]	Forestier，J。；Varaiya，P.，大马尔可夫链的多层控制，IEEE自动控制汇刊，23298-305（1978）·兹伯利0386.49009
[10]	盖革，B.C。；彼得罗夫，T。；库宾，G。；Koeppl，H.，《通过信息瓶颈实现最优Kullback-Leibler聚合》，《IEEE自动控制汇刊》，第60期，第1010-1022页（2015年）·Zbl 1360.94153号
[11]	Haggstrom，O.，《有限马尔可夫链和算法应用》（2002），剑桥大学出版社：剑桥大学出版社·Zbl 0999.60001号
[12]	Haviv，M.，计算马尔可夫链平稳分布的聚集/分解方法，SIAM数值分析杂志，24952-966（1987）·Zbl 0637.65147号
[13]	海曼，D.P。；Goldsmith，M.J.，《聚集/分解与计算马尔可夫链平稳概率的直接算法之间的比较》，ORSA计算杂志，7，101-108（1995）·Zbl 0822.90140号
[14]	Howard，R.，《动态概率系统》（第二卷）（1971年），John Wiley&Sons：John Willey&Sons纽约·Zbl 0227.90031
[15]	黄，N。；Ma，C.，基于m-分裂的pagerank问题并行多分裂迭代方法，应用数学与计算，271337-343（2015）·Zbl 1410.65115号
[16]	Kemeny，G.J。；Snell，J.L.，有限马尔可夫链（1976），Springer-Verlag:Springer-Verlag纽约·Zbl 0328.60035号
[17]	Krieger，U.R.，《关于有限马尔可夫链的双层多重网格解方法，线性代数及其应用》，223415-438（1995），Honoring Miroslav Fiedler和Vlastimil Ptak，http://dx.doi.org/10.1016/0024-3795（95）00166-O·Zbl 0831.65149号
[18]	Leizarowitz，A。；Shwartz，A.，平均成本可数马尔可夫决策过程的精确有限近似，Automatica，441480-1487（2008）·Zbl 1283.93254号
[19]	马雷克，I。；Mayer，P.，计算马尔可夫型算子平稳概率向量的迭代聚合/分解方法，计算机与数学应用，31，27-40（1996），数值方法中的选定主题，http://dx.doi.org/10.1016/0898-1221(95)00213-8 ·Zbl 0874.65108号
[20]	Norris，J.R.，（《复杂网络的控制技术》，复杂网络控制技术，剑桥统计与概率数学系列（1997），剑桥大学出版社：剑桥大学出版社，纽约）·Zbl 0873.60043号
[21]	鲍威尔，W.B.，《近似动态编程：解决维度的诅咒》（2007），约翰·威利父子公司：约翰·威立父子公司·Zbl 1156.90021号
[22]	Puterman，M.L.，《马尔可夫决策过程：离散随机动态规划》（Markov decision processes:Discrete random dynamic programming）（1994），John Wiley&Sons:John Willey&Sons New York·Zbl 0829.90134号
[23]	Stewart，W.J.，《马尔可夫链数值解导论》（1994），普林斯顿大学出版社：普林斯顿大学出版，新泽西州普林斯顿·Zbl 0821.65099号
[24]	Sutton，R.S。；Barto，A.G.，《强化学习：导论》（1998），麻省理工学院出版社：麻省理工学院出版社剑桥
[25]	温策尔，A。；Freidlin，M.，动力系统的随机扰动（1984），施普林格：施普林格-柏林·Zbl 0522.60055号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文件类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

马尔可夫链的多簇时间聚合方法。（英语） Zbl 1427.60148号

MSC公司：

关键词：

引文：

参考文献：

示例

领域

操作员

马尔可夫链的多簇时间聚合方法。 （英语） Zbl 1427.60148号

MSC公司：

关键词：

引文：

参考文献：

马尔可夫链的多簇时间聚合方法。（英语） Zbl 1427.60148号