文件Zbl 1426.68190-zbMATH Open

离散和连续时间的马尔可夫报酬模型和马尔可夫决策过程：性能评估和优化。（英语） Zbl 1426.68190号

Remke，Anne（编辑）等人，《随机模型检验》。使用随机系统的模型检查技术进行严格的可靠性分析。2012年10月22日至26日，意大利瓦尔恩2012年ROCKS国际秋季学校。高级讲座。柏林：斯普林格。莱克特。注释计算。科学。8453, 156-241 (2014).

摘要：具有离散或连续时间的基于状态的系统通常借助马尔可夫链建模。为了指定此类系统的性能度量，可以在马尔可夫链上定义奖励结构，从而产生马尔可夫奖励模型（MRM）形式。以这种方式定义的性能度量的典型示例包括基于时间的度量（例如，平均故障时间）、平均能耗、货币成本（例如，维修、维护）或甚至这些度量的组合。这些措施也可以作为系统优化的目标对象。因此，可以通过附加的控制结构来增强MRM，从而形成马尔可夫决策过程（MDP）的形式。
在本教程中，我们首先介绍具有不同类型奖励结构的MRM形式，并解释如何将这些结构组合到系统模型的性能度量中。我们提供了运行示例，展示了如何使用上述一些性能度量。在此基础上，我们扩展到MDP形式主义，并引入政策的概念。通过利用非线性Bellman方程，可以将全局优化任务（在巨大的策略空间上）简化为贪婪的局部优化。我们回顾了几种可用于精确求解Bellman方程的动态规划算法。此外，我们考虑了离散时间和连续时间的马尔科夫模型，并研究了它们之间的值表示转换。在技术部分中，我们将提出的优化算法应用于示例性能模型。
关于整个系列，请参见[Zbl 1298.68033号].

引用于2文件

MSC公司：

87年第68季度	计算机科学中的概率（算法分析、随机结构、相变等）
60J20型	马尔可夫链和离散时间马尔可夫过程在一般状态空间（社会流动、学习理论、工业过程等）上的应用
68问题85	并发和分布式计算的模型和方法（进程代数、互模拟、转换网等）

软件：

POMDP公司

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Altman，E.：约束马尔可夫决策过程。查普曼和霍尔（1999）·Zbl 0963.90068号
[2]	Altman，E.：马尔可夫决策过程在通信网络中的应用。摘自：Feinberg，E.A.，Shwartz，A.（编辑）《马尔可夫决策过程手册》。《运筹学与管理科学国际丛书》，第40卷，第489-536页。美国施普林格（2002）·Zbl 1003.90049号 ·doi:10.1007/978-1-4615-0805-2_16
[3]	Baier，C.，Haverkort，B.，Hermanns，H.，Katoen，J.-P.：连续时间马尔可夫链的模型检验算法。IEEE软件工程学报29（6），524–541（2003）·doi:10.10109/TTS.2003.1205180
[4]	Bäuerle，N.，Rieder，U.：马尔可夫决策过程及其在金融中的应用。斯普林格，海德堡（2011）·Zbl 1236.90004号 ·doi:10.1007/978-3642-18324-9
[5]	Bellman，R.：动态编程。普林斯顿大学出版社，普林斯顿（1957）·Zbl 0077.13605号
[6]	Benini，L.，Bogliolo，A.，Palelogo，G.A.，De Micheli，G.：动态电力管理的政策优化。IEEE集成电路和系统计算机辅助设计汇刊18，813–833（1998）·数字对象标识代码：10.1109/43.766730
[7]	Bertsekas，D.：动态规划与最优控制，第三版。，第一卷。雅典娜科学（1995）（2005年修订）·Zbl 0904.90170号
[8]	Bertsekas，D.：《动态规划与最优控制》，第4版。，第二卷。雅典娜科学（1995）（2012年修订）·Zbl 0904.90170号
[9]	Bertsekas，D.，Tsitsiklis，J.：随机最短路径问题分析。运筹学数学16（3），580-595（1991）·Zbl 0751.90077号 ·doi:10.1287/门16.3.580
[10]	Bertsekas，D.，Tsitsiklis，J.：神经动力学编程，第1版。雅典娜科学（1996）·Zbl 0924.68163号
[11]	Beynier，A.，Mouaddib，A.I.：处理多机器人系统中时间和资源约束的分散马尔可夫决策过程。附：DARS第七届分布式自主机器人系统国际研讨会论文集（2004）·Zbl 1217.93010号
[12]	Bolch，G.，Greiner，S.，de Meer，H.，Trivedi，K.S.：排队网络和马尔可夫链-计算机科学应用的建模和性能评估，第2版。威利（2006）·Zbl 1099.60002号 ·doi:10.1002/0471791571
[13]	卡桑德拉：POMDP应用调查。摘自：1998年AAAI秋季研讨会关于部分可观测马尔可夫决策过程规划的工作说明，第17-24页（1998年）
[14]	Diz，F.J.，Palacios，M.A.，Arias，M.：医学MDPs：机遇与挑战。In：《部分可观测、不确定世界中的决策：探索来自多个社区的见解》，IJCAI研讨会（2011）
[15]	Fox，B.L.，Landi，D.M.：识别随机矩阵的遍历子链和瞬态的算法。ACM通信11（9），619-621（1968）·Zbl 0177.45701号 ·doi:10.1145/364063.364082
[16]	Gouberman，A.，Siegle，M.：关于具有Erlang修复分布的布尔并行系统的寿命优化。摘自：《2010年运营研究论文集——德国运营研究学会年度国际会议论文集》，第187-192页。施普林格（2011年1月）·doi:10.1007/978-3-642-20009-0_30
[17]	Guo，X.，Hernandez-Lerma，O.：连续时间Markov决策过程——理论与应用。施普林格（2009）·doi:10.1007/978-3642-02547-1
[18]	Heidergott，B.，Hordijk，A.，Van Uitert，M.：有限状态马尔可夫链的级数展开。工程和信息科学中的概率21（3），381-400（2007）·Zbl 1124.60056号 ·doi:10.1017/S0269964807000034
[19]	Hou，Z.，Filar，J.A.，Chen，A.（编辑）：马尔可夫过程和受控马尔可夫链。斯普林格（2002）·Zbl 1063.60507号
[20]	Howard，R.A.：动态规划和马尔可夫过程。约翰·威利父子公司，纽约（1960年）·Zbl 0091.16001号
[21]	Hu，Q.，Yue，W.：马尔可夫决策过程及其应用。施普林格（2008）·Zbl 1190.90261号
[22]	Janssen，J.，Manca，R.：马尔可夫和半马尔可夫报酬过程。摘自：《应用半马尔科夫过程》，第247-293页。美国施普林格（2006）·邮编1096.60002
[23]	Janssen，J.，Manca，R.：金融、保险和可靠性的Semi-Markov风险模型。施普林格（2007）·Zbl 1144.91027号
[24]	Jensen，A.：Markoff链作为研究Markoff过程的辅助工具。斯堪的纳维亚斯克Aktuarietidskrift 36、87–91（1953）·Zbl 0051.35607号
[25]	Stidham Jr.，S.，Weber，R.：队列网络控制的马尔可夫决策模型综述。排队系统13（1-3），291–314（1993）·Zbl 0772.90082号 ·doi:10.1007/BF01158935
[26]	Mahadevan，S.：马尔可夫决策过程中的学习表示和控制：新前沿。机器学习的基础和趋势1（4），403–565（2009）·Zbl 1192.93010号 ·doi:10.1561/2200000003
[27]	Mahadevan，S.，Maggioni，M.：原值函数：马尔可夫决策过程中学习表示和控制的拉普拉斯框架。《机器学习研究杂志》8，2169–2231（2007）·Zbl 1222.68253号
[28]	Mausam，Kolobov，A.：马尔可夫决策过程规划：人工智能视角。人工智能与机器学习综合讲座。摩根&克莱普尔出版社（2012）·Zbl 1270.68014号
[29]	Momtazi，S.、Kafi，S.和Beigy，H.：解决随机路径问题：粒子群优化方法。In:Nguyen，N.T.，Borzemski，L.，Grzech，A.，Ali，M.（编辑）IEA/AIE 2008。LNCS（LNAI），第5027卷，第590-600页。斯普林格，海德堡（2008）·doi:10.1007/978-3-540-69052-862
[30]	Obal，W.D.，Sanders，W.H.：州空间对基于路径的奖励变量的支持。摘自：第三届IEEE国际性能和可靠性研讨会论文集，国际性能和可信性研讨会，IPDS 1998，第233-251页。爱思唯尔科学出版社（1999）·Zbl 1051.68527号 ·doi:10.1016/S0166-5316（99）00010-3
[31]	Ott，J.T.：监测应用的Markov决策模型和风险敏感Markov决策过程。卡尔斯鲁厄理工学院博士论文（2010年）
[32]	鲍威尔，W.B.：近似动态规划-解决维数的问题。威利（2007）·Zbl 1156.90021号 ·数字对象标识代码：10.1002/9780470182963
[33]	Puterman，M.L.：马尔可夫决策过程-离散随机动态规划。约翰·威利父子公司（1994）·Zbl 0829.90134号
[34]	邱，Q.，佩德拉姆，M.：基于连续时间马尔可夫决策过程的动态功率管理。摘自：第36届ACM/IEEE设计自动化年会论文集，DAC 1999，第555-561页。ACM（1999）·数字对象标识代码：10.1145/309847.309997
[35]	Sanders，W.H.，Meyer，J.F.：指定性能、可靠性和可执行性度量的统一方法。关键应用的可靠计算4，215–238（1991）·doi:10.1007/978-3-7091-9123-1_10
[36]	Schaefer，A.J.、Bailey，M.D.、Shechter，S.M.、Roberts，M.S.：使用马尔可夫决策过程建模医疗。收录人：Brandeau，M.L.，Sainfort，F.，Pierskalla，W.P.（编辑）《运营研究与卫生保健》。《运筹学与管理科学国际丛书》，第70卷，第593–612页。Kluwer学术出版社（2005）·doi:10.1007/1-4020-8066-223
[37]	Sutton，R.S.，Barto，A.G.：强化学习：简介。一本布拉德福德的书。麻省理工学院出版社（1998年3月）
[38]	Trivedi，K.S.，Malhotra，M.：可靠性和可执行性技术与工具：调查。收件人：Messung，Modellierung und Bewertung von Rechen-und Kommunikationssystemen。Informatik aktuell，第27-48页。施普林格，海德堡（1993）·doi:10.1007/978-3-642-78495-83
[39]	Tsitsiklis，J.N.：NP-检查平均成本MDP中单链条件的难度。《运营研究快报》35（3），319–323（2007）·Zbl 1169.90478号 ·doi:10.1016/j.orl.2006.06.005
[40]	怀特，D.J.：马尔可夫决策过程应用综述。运筹学学会杂志44（11），1073–1096（1993）·兹伯利0798.90131 ·doi:10.1057/jors.1993.181
[41]	沃尔夫，R.W.：泊松到达见时间平均值。运筹学30（2），223-231（1982）·Zbl 0489.60096号 ·doi:10.1287/opre.30.223

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	综述，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b：book；一：图书文章）

一&b	逻辑和
一\|b	逻辑或
!ab公司	逻辑不
作业成本法*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

离散和连续时间的马尔可夫报酬模型和马尔可夫决策过程：性能评估和优化。（英语） Zbl 1426.68190号

MSC公司：

软件：

参考文献：

示例

领域

操作员

离散和连续时间的马尔可夫报酬模型和马尔可夫决策过程：性能评估和优化。 （英语） Zbl 1426.68190号

MSC公司：

软件：

参考文献：

离散和连续时间的马尔可夫报酬模型和马尔可夫决策过程：性能评估和优化。（英语） Zbl 1426.68190号