文件Zbl 1360.68518-zbMATH Open

多维马尔可夫决策过程中的百分比查询。（英语） Zbl 1360.68518号

形式方法系统。设计。 50，编号2-3，207-248（2017）.

摘要：具有多维权重的马尔可夫决策过程（MDP）有助于分析具有多个目标的系统，这些目标可能相互冲突，需要进行权衡分析。我们研究了这种MDP中百分位查询的复杂性，并给出了算法来综合实施此类约束的策略。给定多维加权MDP和定量支付函数（f）、阈值（v_i）（每个维度一个）和概率阈值（alpha_i），我们展示了如何计算单个策略来强制实施对于所有维度（i），满足结果（f_i（rho）的概率至少为（alpha _i）。我们考虑文献中的经典定量回报（sup、inf、lim-sup、lim-inf、mean-payoff、截断和、折扣和）。我们的工作扩展到定量情况，即由K.Etessami公司等[Log.Methods Comput.Sci.4，No.4，Paper 8，21 p.（2008；兹比尔1161.68565)]在未加权MDP中。

引用于7文件

MSC公司：

65年第68季度	算法和问题复杂性分析
87年第68季度	计算机科学中的概率（算法分析、随机结构、相变等）
90立方厘米	马尔可夫和半马尔可夫决策过程

关键词：

马尔可夫决策过程；定量目标；百分位数查询

引文：

Zbl 1161.68565号

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Baier C、Daum M、Dubslaff C、Klein J、Klüppelholz S（2014）《能源-公用事业分位数》。In:NASA正式方法，LNCS 8430，Springer，第285-299页·Zbl 1177.91031号
[2]	Bertsekas DP，Tsitsiklis JN（1991）随机最短路径问题分析。数学运算研究16:580-595·Zbl 0751.90077号 ·doi:10.1287/门16.3.580
[3]	Boker U，Henzinger TA（2014）折扣和自动机的精确和近似确定。对数方法计算科学10（1）·兹比尔1325.68126
[4]	Boker U、Henzinger TA、Otop J（2015）《目标折扣额问题》。收录于：IEEE LICS会议记录，第750-761页·Zbl 1401.68149号
[5]	Brázdil T，Chen T，Forejt V，NovotníP，Simaitis A（2013）《偿付能力-马尔可夫决策过程》（Solvency Markov decision process with interest）。收录于：FSTTCS会议录，LIPIcs第24卷，达格斯图尔-莱布尼茨-泽特鲁姆-富尔信息学院，第487-499页·Zbl 1360.91091号
[6]	Brázdil T，Brozek V，Chatterjee K，Forejt V，Kucera A（2014）多个长期平均目标的马尔可夫决策过程。对数方法计算科学10（13）：1-29·Zbl 1326.90101号
[7]	Bruyère V、Filiot E、Randour M、Raskin J-F（2014）《保证满足您的期望：超越定量游戏中的最坏情况合成》。收录：STACS会议录，LIPIcs第25卷，达格斯图尔-莱布尼茨-泽特鲁姆-富尔信息学院，第199-213页·Zbl 1360.91042号
[8]	Chatterjee K（2007）带尾目标的并行游戏。理论计算科学388（13）：181-198·Zbl 1177.91031号 ·doi:10.1016/j.tcs.2007.07.047
[9]	Chatterjee K，Doyen L，Henzinger TA，Raskin J-F（2010）广义平均值与能量博弈。收录于：FSTTCS会议录，LIPIcs第8卷，达格斯图尔·莱布尼兹·泽特鲁姆·富尔信息学院，第505-516页·Zbl 1245.68090号
[10]	Chatterjee K、Doyen L、Randour M、Raskin J-F（2015）《通过窗户观察平均流量和总流量》。信息计算242:25-52·Zbl 1317.68065号 ·doi:10.1016/j.ic.2015.03.010
[11]	Chatterjee K、Forejt V、Wojtczak D（2013）《图形和MDP中的多目标折现奖励验证》。收件人：LPAR会议记录，LNCS 8312，Springer，pp 228-242·Zbl 1406.68051号
[12]	Chatterjee K，Henzinger TA（2009）具有limsup和limnf目标的概率系统。收录：Brattka MAV，Löwe VGB（eds），《逻辑和计算中的无限》，LNCS 5489，Springer，第32-45页·Zbl 1258.68099号
[13]	Chatterjee K，KomárkováZ，KretínskíJ（2015）统一了马尔可夫决策过程中多个平均值目标的两种观点。收录：LICS会议记录，第244-256页·Zbl 1401.68171号
[14]	Chatterjee K，Majumdar R，Henzinger TA（2006），多目标马尔可夫决策过程。收录：STACS会议记录，LNCS 3884，Springer，pp 325-336·Zbl 1136.90498号
[15]	Chatterjee K、Randour M、Raskin J-F（2014）《多维量化目标的战略合成》。行动通知51（3-4）：129-163·Zbl 1360.68208号 ·doi:10.1007/s00236-013-0182-6
[16]	de Alfaro L（1997）概率系统的形式验证。斯坦福大学博士论文·Zbl 0105.00802号
[17]	de Alfaro L（1999）计算概率系统中的最小和最大可达时间。收录：CONCUR会议记录，LNCS 1664，Springer，pp 66-81·Zbl 0949.93082号
[18]	Etessami K，Kwiatkowska M，Vardi MY，Yannakakis M（2008）马尔可夫决策过程的多目标模型检验。计算科学中的日志方法4（4）·Zbl 1161.68565号
[19]	Filar JA、Krass D、Ross KW（1995）限制平均马尔可夫决策过程的百分位性能标准。IEEE Trans Autom Control 40（1）：2-10·Zbl 0818.90129号 ·数字对象标识代码：10.1109/9.362904
[20]	Garey MR、Johnson DS（1979）《计算机与难处理性：NP完全性理论指南》。纽约州弗里曼·Zbl 0411.68039号
[21]	Goldreich O（2006）《关于承诺问题：一项调查》。收录：Goldreich O，Rosenberg A，Selman AL（编辑），理论计算机科学，纪念Shimon Even的文章，LNCS 3895，施普林格，第254-290页·Zbl 0818.90129号
[22]	Haase C，Kiefer S（2015）《维持预算的可能性》。In:ICALP会议记录，LNCS 9135，Springer，第234-246页·Zbl 1440.68119号
[23]	Haase C，Kiefer S（2016）第K大子集问题及其相关问题的复杂性。Inf过程Lett 116（2）：111-115·Zbl 1346.68110号 ·doi:10.1016/j.ipl.2015.09.015
[24]	Johnson DB，Kashdan SD（1978），X+Y和其他多集中选择的下限。美国临床医学杂志25（4）：556-570·Zbl 0388.68057号 ·doi:10.1145/322092.322097
[25]	Minsky ML（1961）图灵机器理论中Post的“标签”问题和其他主题的递归不可解性。数学年鉴74（3）：437-455·Zbl 0105.00802号 ·doi:10.2307/1970290
[26]	Ohtsubo Y（2004）带目标集的未贴现马尔可夫决策过程中的最优阈值概率。应用数学计算149（2）：519-532·Zbl 1084.91022号
[27]	Puterman ML（1994）《马尔可夫决策过程：离散随机动态规划》，第1版。纽约威利·Zbl 0829.90134号 ·doi:10.1002/9780470316887
[28]	Randour M，Raskin J-F，Sankur O（2015）多维Markov决策过程中的百分位数查询。收录：CAV会议记录，LNCS 9206，Springer，第123-139页·Zbl 1381.68219号
[29]	Randour M，Raskin J-F，Sankur O（2015）随机最短路径问题的变化。在：VMCAI会议记录，LNCS 8931，施普林格，第1-18页·Zbl 1432.90155号
[30]	Sakaguchi M，Ohtsubo Y（2013）与两个阈值概率标准相关的马尔可夫决策过程。控制理论应用11（4）：548-557·Zbl 1299.90366号 ·doi:10.1007/s11768-013-2194-8
[31]	Toda S（1991）PP与多项式时间层次结构一样困难。SIAM J计算20（5）：865-877·Zbl 0733.68034号 ·doi:10.1137/0220053
[32]	Tracol M（2009）《快速收敛到MDP的状态-作用频率多值性》。运营Res Lett 37（2）：123-126·Zbl 1159.90512号 ·doi:10.1016/j.orl.2008.12.003
[33]	Travers SD（2006）整数集上电路的隶属度问题的复杂性。计算机科学理论369（1-3）：211-229·Zbl 1110.68048号 ·doi:10.1016/j.tcs.2006.08.017
[34]	Ummels M，Baier C（2013）计算马尔可夫报酬模型中的分位数。收录：FOSSACS会议记录，LNCS 7794，Springer，第353-368页·Zbl 1260.68285号
[35]	Vardi MY（1985）概率并发有限状态程序的自动验证。摘自：IEEE FOCS会议记录，第327-338页·Zbl 0751.90077号
[36]	White DJ（1993）在折扣马尔可夫决策过程中最小化阈值概率。数学与分析应用杂志173（2）：634-646·Zbl 0810.90134号 ·文件编号：10.1006/jmaa.1993.1093
[37]	Congbin W，Lin Y（1999）政策取决于目标值的马尔可夫决策过程中的最小化风险模型。数学分析应用杂志231（1）：47-67·Zbl 0917.90285号 ·doi:10.1006/jmaa.1998.6203
[38]	Xu H，Mannor S（2011）概率目标马尔可夫决策过程。In:IJCAI会议记录，第2046-2052页·Zbl 1110.68048号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

多维马尔可夫决策过程中的百分比查询。（英语） Zbl 1360.68518号

MSC公司：

关键词：

引文：

参考文献：

示例

领域

操作员

多维马尔可夫决策过程中的百分比查询。 （英语） Zbl 1360.68518号

MSC公司：

关键词：

引文：

参考文献：

多维马尔可夫决策过程中的百分比查询。（英语） Zbl 1360.68518号