×

离散和连续时间的马尔可夫报酬模型和马尔可夫决策过程:性能评估和优化。 (英语) Zbl 1426.68190号

Remke,Anne(编辑)等人,《随机模型检验》。使用随机系统的模型检查技术进行严格的可靠性分析。2012年10月22日至26日,意大利瓦尔恩2012年ROCKS国际秋季学校。高级讲座。柏林:斯普林格。莱克特。注释计算。科学。8453, 156-241 (2014).
摘要:具有离散或连续时间的基于状态的系统通常借助马尔可夫链建模。为了指定此类系统的性能度量,可以在马尔可夫链上定义奖励结构,从而产生马尔可夫奖励模型(MRM)形式。以这种方式定义的性能度量的典型示例包括基于时间的度量(例如,平均故障时间)、平均能耗、货币成本(例如,维修、维护)或甚至这些度量的组合。这些措施也可以作为系统优化的目标对象。因此,可以通过附加的控制结构来增强MRM,从而形成马尔可夫决策过程(MDP)的形式。
在本教程中,我们首先介绍具有不同类型奖励结构的MRM形式,并解释如何将这些结构组合到系统模型的性能度量中。我们提供了运行示例,展示了如何使用上述一些性能度量。在此基础上,我们扩展到MDP形式主义,并引入政策的概念。通过利用非线性Bellman方程,可以将全局优化任务(在巨大的策略空间上)简化为贪婪的局部优化。我们回顾了几种可用于精确求解Bellman方程的动态规划算法。此外,我们考虑了离散时间和连续时间的马尔科夫模型,并研究了它们之间的值表示转换。在技术部分中,我们将提出的优化算法应用于示例性能模型。
关于整个系列,请参见[Zbl 1298.68033号].

MSC公司:

87年第68季度 计算机科学中的概率(算法分析、随机结构、相变等)
60J20型 马尔可夫链和离散时间马尔可夫过程在一般状态空间(社会流动、学习理论、工业过程等)上的应用
68问题85 并发和分布式计算的模型和方法(进程代数、互模拟、转换网等)

软件:

POMDP公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Altman,E.:约束马尔可夫决策过程。查普曼和霍尔(1999)·Zbl 0963.90068号
[2] Altman,E.:马尔可夫决策过程在通信网络中的应用。摘自:Feinberg,E.A.,Shwartz,A.(编辑)《马尔可夫决策过程手册》。《运筹学与管理科学国际丛书》,第40卷,第489-536页。美国施普林格(2002)·Zbl 1003.90049号 ·doi:10.1007/978-1-4615-0805-2_16
[3] Baier,C.,Haverkort,B.,Hermanns,H.,Katoen,J.-P.:连续时间马尔可夫链的模型检验算法。IEEE软件工程学报29(6),524–541(2003)·doi:10.10109/TTS.2003.1205180
[4] Bäuerle,N.,Rieder,U.:马尔可夫决策过程及其在金融中的应用。斯普林格,海德堡(2011)·Zbl 1236.90004号 ·doi:10.1007/978-3642-18324-9
[5] Bellman,R.:动态编程。普林斯顿大学出版社,普林斯顿(1957)·Zbl 0077.13605号
[6] Benini,L.,Bogliolo,A.,Palelogo,G.A.,De Micheli,G.:动态电力管理的政策优化。IEEE集成电路和系统计算机辅助设计汇刊18,813–833(1998)·数字对象标识代码:10.1109/43.766730
[7] Bertsekas,D.:动态规划与最优控制,第三版。,第一卷。雅典娜科学(1995)(2005年修订)·Zbl 0904.90170号
[8] Bertsekas,D.:《动态规划与最优控制》,第4版。,第二卷。雅典娜科学(1995)(2012年修订)·Zbl 0904.90170号
[9] Bertsekas,D.,Tsitsiklis,J.:随机最短路径问题分析。运筹学数学16(3),580-595(1991)·Zbl 0751.90077号 ·doi:10.1287/门16.3.580
[10] Bertsekas,D.,Tsitsiklis,J.:神经动力学编程,第1版。雅典娜科学(1996)·Zbl 0924.68163号
[11] Beynier,A.,Mouaddib,A.I.:处理多机器人系统中时间和资源约束的分散马尔可夫决策过程。附:DARS第七届分布式自主机器人系统国际研讨会论文集(2004)·Zbl 1217.93010号
[12] Bolch,G.,Greiner,S.,de Meer,H.,Trivedi,K.S.:排队网络和马尔可夫链-计算机科学应用的建模和性能评估,第2版。威利(2006)·Zbl 1099.60002号 ·doi:10.1002/0471791571
[13] 卡桑德拉:POMDP应用调查。摘自:1998年AAAI秋季研讨会关于部分可观测马尔可夫决策过程规划的工作说明,第17-24页(1998年)
[14] Diz,F.J.,Palacios,M.A.,Arias,M.:医学MDPs:机遇与挑战。In:《部分可观测、不确定世界中的决策:探索来自多个社区的见解》,IJCAI研讨会(2011)
[15] Fox,B.L.,Landi,D.M.:识别随机矩阵的遍历子链和瞬态的算法。ACM通信11(9),619-621(1968)·Zbl 0177.45701号 ·doi:10.1145/364063.364082
[16] Gouberman,A.,Siegle,M.:关于具有Erlang修复分布的布尔并行系统的寿命优化。摘自:《2010年运营研究论文集——德国运营研究学会年度国际会议论文集》,第187-192页。施普林格(2011年1月)·doi:10.1007/978-3-642-20009-0_30
[17] Guo,X.,Hernandez-Lerma,O.:连续时间Markov决策过程——理论与应用。施普林格(2009)·doi:10.1007/978-3642-02547-1
[18] Heidergott,B.,Hordijk,A.,Van Uitert,M.:有限状态马尔可夫链的级数展开。工程和信息科学中的概率21(3),381-400(2007)·Zbl 1124.60056号 ·doi:10.1017/S0269964807000034
[19] Hou,Z.,Filar,J.A.,Chen,A.(编辑):马尔可夫过程和受控马尔可夫链。斯普林格(2002)·Zbl 1063.60507号
[20] Howard,R.A.:动态规划和马尔可夫过程。约翰·威利父子公司,纽约(1960年)·Zbl 0091.16001号
[21] Hu,Q.,Yue,W.:马尔可夫决策过程及其应用。施普林格(2008)·Zbl 1190.90261号
[22] Janssen,J.,Manca,R.:马尔可夫和半马尔可夫报酬过程。摘自:《应用半马尔科夫过程》,第247-293页。美国施普林格(2006)·邮编1096.60002
[23] Janssen,J.,Manca,R.:金融、保险和可靠性的Semi-Markov风险模型。施普林格(2007)·Zbl 1144.91027号
[24] Jensen,A.:Markoff链作为研究Markoff过程的辅助工具。斯堪的纳维亚斯克Aktuarietidskrift 36、87–91(1953)·Zbl 0051.35607号
[25] Stidham Jr.,S.,Weber,R.:队列网络控制的马尔可夫决策模型综述。排队系统13(1-3),291–314(1993)·Zbl 0772.90082号 ·doi:10.1007/BF01158935
[26] Mahadevan,S.:马尔可夫决策过程中的学习表示和控制:新前沿。机器学习的基础和趋势1(4),403–565(2009)·Zbl 1192.93010号 ·doi:10.1561/2200000003
[27] Mahadevan,S.,Maggioni,M.:原值函数:马尔可夫决策过程中学习表示和控制的拉普拉斯框架。《机器学习研究杂志》8,2169–2231(2007)·Zbl 1222.68253号
[28] Mausam,Kolobov,A.:马尔可夫决策过程规划:人工智能视角。人工智能与机器学习综合讲座。摩根&克莱普尔出版社(2012)·Zbl 1270.68014号
[29] Momtazi,S.、Kafi,S.和Beigy,H.:解决随机路径问题:粒子群优化方法。In:Nguyen,N.T.,Borzemski,L.,Grzech,A.,Ali,M.(编辑)IEA/AIE 2008。LNCS(LNAI),第5027卷,第590-600页。斯普林格,海德堡(2008)·doi:10.1007/978-3-540-69052-862
[30] Obal,W.D.,Sanders,W.H.:州空间对基于路径的奖励变量的支持。摘自:第三届IEEE国际性能和可靠性研讨会论文集,国际性能和可信性研讨会,IPDS 1998,第233-251页。爱思唯尔科学出版社(1999)·Zbl 1051.68527号 ·doi:10.1016/S0166-5316(99)00010-3
[31] Ott,J.T.:监测应用的Markov决策模型和风险敏感Markov决策过程。卡尔斯鲁厄理工学院博士论文(2010年)
[32] 鲍威尔,W.B.:近似动态规划-解决维数的问题。威利(2007)·Zbl 1156.90021号 ·数字对象标识代码:10.1002/9780470182963
[33] Puterman,M.L.:马尔可夫决策过程-离散随机动态规划。约翰·威利父子公司(1994)·Zbl 0829.90134号
[34] 邱,Q.,佩德拉姆,M.:基于连续时间马尔可夫决策过程的动态功率管理。摘自:第36届ACM/IEEE设计自动化年会论文集,DAC 1999,第555-561页。ACM(1999)·数字对象标识代码:10.1145/309847.309997
[35] Sanders,W.H.,Meyer,J.F.:指定性能、可靠性和可执行性度量的统一方法。关键应用的可靠计算4,215–238(1991)·doi:10.1007/978-3-7091-9123-1_10
[36] Schaefer,A.J.、Bailey,M.D.、Shechter,S.M.、Roberts,M.S.:使用马尔可夫决策过程建模医疗。收录人:Brandeau,M.L.,Sainfort,F.,Pierskalla,W.P.(编辑)《运营研究与卫生保健》。《运筹学与管理科学国际丛书》,第70卷,第593–612页。Kluwer学术出版社(2005)·doi:10.1007/1-4020-8066-223
[37] Sutton,R.S.,Barto,A.G.:强化学习:简介。一本布拉德福德的书。麻省理工学院出版社(1998年3月)
[38] Trivedi,K.S.,Malhotra,M.:可靠性和可执行性技术与工具:调查。收件人:Messung,Modellierung und Bewertung von Rechen-und Kommunikationssystemen。Informatik aktuell,第27-48页。施普林格,海德堡(1993)·doi:10.1007/978-3-642-78495-83
[39] Tsitsiklis,J.N.:NP-检查平均成本MDP中单链条件的难度。《运营研究快报》35(3),319–323(2007)·Zbl 1169.90478号 ·doi:10.1016/j.orl.2006.06.005
[40] 怀特,D.J.:马尔可夫决策过程应用综述。运筹学学会杂志44(11),1073–1096(1993)·兹伯利0798.90131 ·doi:10.1057/jors.1993.181
[41] 沃尔夫,R.W.:泊松到达见时间平均值。运筹学30(2),223-231(1982)·Zbl 0489.60096号 ·doi:10.1287/opre.30.223
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。