×

MDP中的多成本有界权衡分析。 (英语) Zbl 1468.68132号

摘要:针对具有多成本结构的马尔可夫决策过程(MDP)的多目标模型检验问题,提出了一种有效的记忆算法。手头的关键问题是检查给定MDP是否存在调度器,以实现成本向量上的所有目标。我们涵盖多目标可达性和预期成本目标,以及它们的组合。我们进一步将单成本边界上计算分位数的方法转移到多成本情况,并强调了随后的挑战。实证评估显示了我们新方法在内存消耗和运行时方面的可伸缩性。我们讨论了在帕累托曲线之外对结果进行更详细的可视化表示的必要性,并提出了第一种可视化方法,该方法利用了算法中的所有可用信息来支持决策者。

MSC公司:

60年第68季度 规范和验证(程序逻辑、模型检查等)
87年第68季度 计算机科学中的概率(算法分析、随机结构、相变等)
90C29型 多目标规划
90立方厘米 马尔可夫和半马尔可夫决策过程

软件:

棱镜;风暴
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Andova,S.、Hermanns,H.、Katoen,J.P.:离散时间奖励模型。收录于:格式,LNCS,第2791卷,第88-104页。斯普林格(2003)·Zbl 1099.68652号
[2] Baier,C.、Daum,M.、Dubslaff,C.、Klein,J.、Klüppelholz,S.:能源-效用分位数。收录于:NFM,LNCS,第8430卷,第285-299页。斯普林格(2014)
[3] 拜尔,C。;Dubslaff,C.,《从验证到成本效用约束下的综合》,SIGLOG News,5,4,26-46(2018)·数字对象标识代码:10.1145/3292048.3292052
[4] Baier,C.,Klein,J.,Klüppelholz,S.,Wunderlich,S.:实现目标的有条件预期回报最大化。收录于:TACAS(2),LNCS,第10206卷,第269-285页(2017年)·Zbl 1453.90180号
[5] Baier,C.,Klein,J.,Leuschner,L.,Parker,D.,Wunderlich,S.:确保模型检查器的可靠性:Markov决策过程的区间迭代。收录于:CAV(1),LNCS,第10426卷,第160-180页。施普林格(2017)·Zbl 1494.68159号
[6] Barrett,L.,Narayanan,S.:学习具有多个标准的所有最优策略。见:ICML,AICPS,第307卷,第41-47页。ACM(2008)
[7] Berthon,R.,Randour,M.,Raskin,J.F.:马尔可夫决策过程中具有奇偶目标保证的阈值约束。收录于:ICALP,LIPIcs,第80卷,第121:1-121:15页。达格斯图尔宫(Schloss Dagstuhl)-莱布尼茨-泽特鲁姆富尔信息(Leibniz-Zentrum fuer Informatik)(2017年)·Zbl 1442.90199号
[8] Brázdil,T.、Brozek,V.、Chatterjee,K.、Forejt,V.和Kucera,A.:关于马尔可夫决策过程中多个平均值-平均值目标的两种观点。LMCS 10(1)(2014)·Zbl 1326.90101号
[9] Brázdil,T.、Chatterjee,K.、Chmelik,M.、Forejt,V.、Kretínsk,J.、Kwiatkowska,M.Z.、Parker,D.、Ujma,M.:使用学习算法验证马尔可夫决策过程。收录于:ATVA,LNCS,第8837卷,第98-114页。斯普林格(2014)·Zbl 1448.68290号
[10] Brázdil,T。;查特吉,K。;Forejt,V.公司。;Kucera,A.,马尔可夫决策过程稳定性的交易绩效,J.Compute。系统。科学。,84, 144-170 (2017) ·Zbl 1359.90147号 ·doi:10.1016/j.jcss.2016.09.009
[11] Bresina,J.L.,Jónsson,A.K.,Morris,P.H.,Rajan,K.:火星探测车的活动规划。摘自:ICAPS,第40-49页。AAAI(2005)
[12] Bryce,D.,Cushing,W.,Kambhampati,S.:概率规划是多目标的。亚利桑那州立大学CSE技术报告(2007)·Zbl 1216.68239号
[13] Cao,Z.,Guo,H.,Zhang,J.,Oliehoek,F.A.,Fasternath,U.:最大化准时到达的概率:一种实用的q学习方法。收录于:AAAI,第4481-4487页。AAAI出版社(2017)
[14] 查特吉,K。;Chmelik,M。;古普塔,R。;Kanodia,A.,POMDP中的最优成本-几乎安全可达性,Artif。智力。,234, 26-48 (2016) ·Zbl 1351.68307号 ·doi:10.1016/j.artint.2016.01.007
[15] Chatterjee,K.,Majumdar,R.,Henzinger,T.A.:多目标马尔可夫决策过程。收录于:STACS,LNCS,第3884卷,第325-336页。斯普林格(2006)·兹伯利1136.90498
[16] Chen,T.,Forejt,V.,Kwiatkowska,M.,Simaitis,A.,Wiltsche,C.:关于多目标随机博弈。收录于:MFCS,LNCS,第8087卷,第266-277页。施普林格(2013)·Zbl 1400.91040号
[17] Cheng,L。;Subrahmanian,E。;Westerberg,AW,《不确定性下的多目标决策过程:应用、问题公式和解决策略》,工业工程化学。研究,44,8,2405-2415(2005)·doi:10.1021/ie049622+
[18] Christman,A.和Cassamano,J.:最大化准时到达的概率。收录于:ASMTA,LNCS,第7984卷,第142-157页。施普林格(2013)·Zbl 1395.90056号
[19] Dai,P.,Mausam,Weld,D.S.,Goldsmith,J.:拓扑值迭代算法。J.JAIR 42,181-209(2011)·Zbl 1279.90183号
[20] Dehnert,C.,Junges,S.,Katoen,J.P.,Quatmann,T.,Volk,M.:风暴网站(2018)。http://stormchecker.org
[21] Dehnert,C.,Junges,S.,Katoen,J.P.,Volk,M.:风暴即将来临:现代概率模型检查器。收录于:CAV(2),LNCS,第10427卷,第592-600页。施普林格(2017)
[22] Eastwood,R.、Alexander,R.和Kelly,T.:具有后验偏好的安全多目标规划。收录于:HASE,第78-85页。IEEE计算机学会(2016)
[23] Etessami,K.,Kwiatkowska,M.,Vardi,M.Y.,Yannakakis,M.:马尔可夫决策过程的多目标模型检验。LMCS 4(4)(2008)·Zbl 1161.68565号
[24] Feng,L.、Wiltsche,C.、Humphrey,L.和Topcu,U.:与人类操作员交互的自治系统的控制器综合。载于:ICCPS,第70-79页。ACM(2015)
[25] Forejt,V.,Kwiatkowska,M.,Parker,D.:概率模型检验的Pareto曲线。收录于:ATVA,LNCS,第7561卷,第317-332页。施普林格(2012)·Zbl 1374.68285号
[26] Forejt,V.、Kwiatkowska,M.Z.、Norman,G.、Parker,D.:概率系统的自动验证技术。收录于:SFM,LNCS,第6659卷,第53-113页。施普林格(2011)·Zbl 1315.68177号
[27] Haddad,S.,Monmege,B.:MDP中的可达性:改进价值迭代的收敛性。收录于:RP,LNCS,第8762卷,第125-137页。斯普林格(2014)·Zbl 1393.68102号
[28] 哈恩,EM;Hartmanns,A.,《时间和有酬概率模型检验技术的比较》,SETTA,LNCS,9984,85-100(2016)·Zbl 1393.68104号
[29] 哈恩,EM;哈特曼斯,A。;Hermanns,H。;Katoen,JP,随机混合系统的组成建模和分析框架,系统中的形式化方法。设计。,43, 2, 191-232 (2013) ·Zbl 1291.68293号 ·文件编号:10.1007/s10703-012-0167-z
[30] Hahn,E.M.,Hashemi,V.,Hermanns,H.,Lahijanian,M.,Turrini,A.:区间Markov决策过程的多目标稳健策略综合。收录于:QEST,LNCS,第10503卷,第207-223页。施普林格(2017)·Zbl 1421.90160号
[31] Hartmanns,A.,Hermanns,H.:适度工具集:定量建模和验证的集成环境。收录于:TACAS,LNCS,第8413卷,第593-598页。斯普林格(2014)
[32] Hartmanns,A.,Junges,S.,Katoen,J.P.,Quatmann,T.:MDP中的多成本有界可达性。收录于:TACAS,LNCS,第10806卷,第320-339页。斯普林格(2018)。10.1007/978-3-319-89963-3_19 ·Zbl 1423.68282号
[33] Hartmanns,A.、Junges,S.、Katoen,J.P.、Quatmann,T.:MDP-Artifact中的多成本有界权衡分析。Zenodo(2020年)。10.5281/zenodo.3894716·Zbl 1423.68282号
[34] Hartmanns,A.,Kaminski,B.L.:乐观值迭代。收录于:CAV,《计算机科学课堂讲稿》,第12225卷,第488-511页。施普林格(2020)。doi:10.1007/978-3-030-53291-8-26·Zbl 1478.68161号
[35] Hou,P.,Yeoh,W.,Varakantham,P.:重温风险敏感MDP:新算法和结果。包含:ICAPS。AAAI(2014)
[36] Junges,S.、Jansen,N.、Dehnert,C.、Topcu,U.、Katoen,J.:MDP的安全约束强化学习。在:TACAS,LNCS,第9636卷,第130-146页。施普林格(2016)
[37] Klein,J.,Baier,C.,Chrszon,P.,Daum,M.,Dubslaff,C.,Klüppelholz,S.,Märcker,S.,Müller,D.:PRISM概率模型检验的进展:变量重新排序、分位数和弱确定性Büchi自动机。STTT第1-16页(2017年)
[38] Kolobov,A.,Mausam,Weld,D.S.:一种有死胡同的目标导向MDP理论。收录于:UAI,第438-447页。AUAI出版社(2012)
[39] Kwiatkowska,M.,Norman,G.,Parker,D.:PRISM 4.0:概率实时系统的验证。收录于:CAV,LNCS,第6806卷,第585-591页。施普林格(2011)
[40] Kwiatkowska,M.,Norman,G.,Parker,D.:PRISM基准套件。参见:QEST,第203-204页。IEEE CS出版社(2012)
[41] Kwiatkowska,M.Z.,Norman,G.,Sproston,J.:IEEE 802.11无线局域网协议的概率模型检查。收录于:PAPM-PROBMIV,LNCS,第2399卷,第169-187页。施普林格(2002)·兹比尔1065.68583
[42] Lacerda,B.,Parker,D.,Hawes,N.:概率有时限保证下移动机器人的多目标策略生成。摘自:ICAPS,第504-512页。AAAI出版社(2017)
[43] Lankaites Pinheiro,R。;Landa-Silva,D。;Atkin,J.,一种基于权衡图的技术,用于可视化和分析优化问题中目标之间的关系,J.Multi-Criteria Decis。分析。,24, 1-2, 37-56 (2017) ·doi:10.1002/mcda.1604
[44] Laroussinie,F.,Sproston,J.:持续概率系统的模型检验。收录于:FoSSaCS,LNCS,第3441卷,第140-154页。斯普林格(2005)·Zbl 1118.68548号
[45] 诺曼,G。;帕克,D。;Kwiatkowska,MZ;Shukla,SK,使用PRISM评估NAND多路复用的可靠性,IEEE Trans。集成CAD。电路系统。,24, 10, 1629-1637 (2005) ·doi:10.1109/TCAD.2005.852033
[46] Puterman,ML,Markov决策过程(1994),Hoboken D:Wiley,HoboKen D
[47] Quatmann,T.、Junges,S.、Katoen,J.P.:多目标马尔可夫自动机。收录于:CAV(1),LNCS,第10426卷,第140-159页。施普林格(2017)·Zbl 1494.68146号
[48] Quatmann,T.、Katoen,J.P.:声音值迭代。收录于:CAV,LNCS,第10981卷,第643-661页。施普林格(2018)·Zbl 1511.68167号
[49] Randour,M。;JF拉斯金;Sankur,O.,多维马尔可夫决策过程中的百分比查询,FMSD,50,2-3207-248(2017)·兹比尔1360.68518
[50] MK Reiter;鲁宾,AD,《人群:网络交易的匿名性》,ACM Trans。信息系统。安全。,1, 1, 66-92 (1998) ·doi:10.1145/290163.290168
[51] 罗杰斯,DM;Vamplew,P。;怀特森,S。;Dazeley,R.,《多目标顺序决策调查》,J.Artif。智力。决议,48,67-113(2013)·兹伯利1364.68323 ·doi:10.1613/jair.3987
[52] Sardar,M.U.、Dubslaff,C.、Klüppelholz,S.、Baier,C.、Kumar,A.:多核系统中热约束调度策略的性能评估。载于:EPEW,LNCS,第12039卷,第133-147页。斯普林格(2019)。10.1007/978-3-030-44411-2_9
[53] 斯坦梅茨,M。;霍夫曼,J。;巴菲特,O.,《概率规划中的目标概率分析:探索和提高最新水平》,J.Artif。智力。决议,57,229-271(2016)·Zbl 1401.68294号 ·doi:10.1613/jair.5153
[54] Stoelinga,M.,Vaandrager,F.W.:IEEE 1394中的根争用。在:实时和概率系统的ARTS形式方法,LNCS,第1601卷,第53-74页。斯普林格(1999)
[55] Teichteil-Königsbuch,F.:随机最安全和最短路径问题。输入:AAAI。AAAI出版社(2012)·Zbl 1327.68289号
[56] 国际概率规划竞赛。http://www.icaps-conference.org/index.php/Main/Competitions网站
[57] Ummels,M.,Baier,C.:在马尔可夫报酬模型中计算分位数。收录于:FOSSACS,LNCS,第7794卷,第353-368页。施普林格(2013)·Zbl 1260.68285号
[58] Vamplew,P。;达泽利,R。;A.贝里。;Issabekov,R。;Dekker,E.,多目标强化学习算法的经验评估方法,马赫。学习。,84, 1-2, 51-80 (2011) ·doi:10.1007/s10994-10-5232-5
[59] 余,SX;Lin,Y。;Yan,P.,离散时间初至目标分布函数的优化模型,J.Math。分析。申请。,225, 1, 193-223 (1998) ·Zbl 0924.90133号 ·doi:10.1006/jmaa.1998.6015
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。