×

多维马尔可夫决策过程中的百分比查询。 (英语) Zbl 1360.68518号

摘要:具有多维权重的马尔可夫决策过程(MDP)有助于分析具有多个目标的系统,这些目标可能相互冲突,需要进行权衡分析。我们研究了这种MDP中百分位查询的复杂性,并给出了算法来综合实施此类约束的策略。给定多维加权MDP和定量支付函数(f)、阈值(v_i)(每个维度一个)和概率阈值(alpha_i),我们展示了如何计算单个策略来强制实施对于所有维度(i),满足结果(f_i(rho)的概率至少为(alpha _i)。我们考虑文献中的经典定量回报(sup、inf、lim-sup、lim-inf、mean-payoff、截断和、折扣和)。我们的工作扩展到定量情况,即由K.Etessami公司等[Log.Methods Comput.Sci.4,No.4,Paper 8,21 p.(2008;兹比尔1161.68565)]在未加权MDP中。

MSC公司:

65年第68季度 算法和问题复杂性分析
87年第68季度 计算机科学中的概率(算法分析、随机结构、相变等)
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Baier C、Daum M、Dubslaff C、Klein J、Klüppelholz S(2014)《能源-公用事业分位数》。In:NASA正式方法,LNCS 8430,Springer,第285-299页·Zbl 1177.91031号
[2] Bertsekas DP,Tsitsiklis JN(1991)随机最短路径问题分析。数学运算研究16:580-595·Zbl 0751.90077号 ·doi:10.1287/门16.3.580
[3] Boker U,Henzinger TA(2014)折扣和自动机的精确和近似确定。对数方法计算科学10(1)·兹比尔1325.68126
[4] Boker U、Henzinger TA、Otop J(2015)《目标折扣额问题》。收录于:IEEE LICS会议记录,第750-761页·Zbl 1401.68149号
[5] Brázdil T,Chen T,Forejt V,NovotníP,Simaitis A(2013)《偿付能力-马尔可夫决策过程》(Solvency Markov decision process with interest)。收录于:FSTTCS会议录,LIPIcs第24卷,达格斯图尔-莱布尼茨-泽特鲁姆-富尔信息学院,第487-499页·Zbl 1360.91091号
[6] Brázdil T,Brozek V,Chatterjee K,Forejt V,Kucera A(2014)多个长期平均目标的马尔可夫决策过程。对数方法计算科学10(13):1-29·Zbl 1326.90101号
[7] Bruyère V、Filiot E、Randour M、Raskin J-F(2014)《保证满足您的期望:超越定量游戏中的最坏情况合成》。收录:STACS会议录,LIPIcs第25卷,达格斯图尔-莱布尼茨-泽特鲁姆-富尔信息学院,第199-213页·Zbl 1360.91042号
[8] Chatterjee K(2007)带尾目标的并行游戏。理论计算科学388(13):181-198·Zbl 1177.91031号 ·doi:10.1016/j.tcs.2007.07.047
[9] Chatterjee K,Doyen L,Henzinger TA,Raskin J-F(2010)广义平均值与能量博弈。收录于:FSTTCS会议录,LIPIcs第8卷,达格斯图尔·莱布尼兹·泽特鲁姆·富尔信息学院,第505-516页·Zbl 1245.68090号
[10] Chatterjee K、Doyen L、Randour M、Raskin J-F(2015)《通过窗户观察平均流量和总流量》。信息计算242:25-52·Zbl 1317.68065号 ·doi:10.1016/j.ic.2015.03.010
[11] Chatterjee K、Forejt V、Wojtczak D(2013)《图形和MDP中的多目标折现奖励验证》。收件人:LPAR会议记录,LNCS 8312,Springer,pp 228-242·Zbl 1406.68051号
[12] Chatterjee K,Henzinger TA(2009)具有limsup和limnf目标的概率系统。收录:Brattka MAV,Löwe VGB(eds),《逻辑和计算中的无限》,LNCS 5489,Springer,第32-45页·Zbl 1258.68099号
[13] Chatterjee K,KomárkováZ,KretínskíJ(2015)统一了马尔可夫决策过程中多个平均值目标的两种观点。收录:LICS会议记录,第244-256页·Zbl 1401.68171号
[14] Chatterjee K,Majumdar R,Henzinger TA(2006),多目标马尔可夫决策过程。收录:STACS会议记录,LNCS 3884,Springer,pp 325-336·Zbl 1136.90498号
[15] Chatterjee K、Randour M、Raskin J-F(2014)《多维量化目标的战略合成》。行动通知51(3-4):129-163·Zbl 1360.68208号 ·doi:10.1007/s00236-013-0182-6
[16] de Alfaro L(1997)概率系统的形式验证。斯坦福大学博士论文·Zbl 0105.00802号
[17] de Alfaro L(1999)计算概率系统中的最小和最大可达时间。收录:CONCUR会议记录,LNCS 1664,Springer,pp 66-81·Zbl 0949.93082号
[18] Etessami K,Kwiatkowska M,Vardi MY,Yannakakis M(2008)马尔可夫决策过程的多目标模型检验。计算科学中的日志方法4(4)·Zbl 1161.68565号
[19] Filar JA、Krass D、Ross KW(1995)限制平均马尔可夫决策过程的百分位性能标准。IEEE Trans Autom Control 40(1):2-10·Zbl 0818.90129号 ·数字对象标识代码:10.1109/9.362904
[20] Garey MR、Johnson DS(1979)《计算机与难处理性:NP完全性理论指南》。纽约州弗里曼·Zbl 0411.68039号
[21] Goldreich O(2006)《关于承诺问题:一项调查》。收录:Goldreich O,Rosenberg A,Selman AL(编辑),理论计算机科学,纪念Shimon Even的文章,LNCS 3895,施普林格,第254-290页·Zbl 0818.90129号
[22] Haase C,Kiefer S(2015)《维持预算的可能性》。In:ICALP会议记录,LNCS 9135,Springer,第234-246页·Zbl 1440.68119号
[23] Haase C,Kiefer S(2016)第K大子集问题及其相关问题的复杂性。Inf过程Lett 116(2):111-115·Zbl 1346.68110号 ·doi:10.1016/j.ipl.2015.09.015
[24] Johnson DB,Kashdan SD(1978),X+Y和其他多集中选择的下限。美国临床医学杂志25(4):556-570·Zbl 0388.68057号 ·doi:10.1145/322092.322097
[25] Minsky ML(1961)图灵机器理论中Post的“标签”问题和其他主题的递归不可解性。数学年鉴74(3):437-455·Zbl 0105.00802号 ·doi:10.2307/1970290
[26] Ohtsubo Y(2004)带目标集的未贴现马尔可夫决策过程中的最优阈值概率。应用数学计算149(2):519-532·Zbl 1084.91022号
[27] Puterman ML(1994)《马尔可夫决策过程:离散随机动态规划》,第1版。纽约威利·Zbl 0829.90134号 ·doi:10.1002/9780470316887
[28] Randour M,Raskin J-F,Sankur O(2015)多维Markov决策过程中的百分位数查询。收录:CAV会议记录,LNCS 9206,Springer,第123-139页·Zbl 1381.68219号
[29] Randour M,Raskin J-F,Sankur O(2015)随机最短路径问题的变化。在:VMCAI会议记录,LNCS 8931,施普林格,第1-18页·Zbl 1432.90155号
[30] Sakaguchi M,Ohtsubo Y(2013)与两个阈值概率标准相关的马尔可夫决策过程。控制理论应用11(4):548-557·Zbl 1299.90366号 ·doi:10.1007/s11768-013-2194-8
[31] Toda S(1991)PP与多项式时间层次结构一样困难。SIAM J计算20(5):865-877·Zbl 0733.68034号 ·doi:10.1137/0220053
[32] Tracol M(2009)《快速收敛到MDP的状态-作用频率多值性》。运营Res Lett 37(2):123-126·Zbl 1159.90512号 ·doi:10.1016/j.orl.2008.12.003
[33] Travers SD(2006)整数集上电路的隶属度问题的复杂性。计算机科学理论369(1-3):211-229·Zbl 1110.68048号 ·doi:10.1016/j.tcs.2006.08.017
[34] Ummels M,Baier C(2013)计算马尔可夫报酬模型中的分位数。收录:FOSSACS会议记录,LNCS 7794,Springer,第353-368页·Zbl 1260.68285号
[35] Vardi MY(1985)概率并发有限状态程序的自动验证。摘自:IEEE FOCS会议记录,第327-338页·Zbl 0751.90077号
[36] White DJ(1993)在折扣马尔可夫决策过程中最小化阈值概率。数学与分析应用杂志173(2):634-646·Zbl 0810.90134号 ·文件编号:10.1006/jmaa.1993.1093
[37] Congbin W,Lin Y(1999)政策取决于目标值的马尔可夫决策过程中的最小化风险模型。数学分析应用杂志231(1):47-67·Zbl 0917.90285号 ·doi:10.1006/jmaa.1998.6203
[38] Xu H,Mannor S(2011)概率目标马尔可夫决策过程。In:IJCAI会议记录,第2046-2052页·Zbl 1110.68048号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。