×

长期平均和总回报的多目标优化。 (英语) Zbl 1467.68094号

Groote,Jan Friso(编辑)等人,《系统构建和分析的工具和算法》。第27届国际会议,TACAS 2021,作为欧洲软件理论与实践联合会议的一部分,于2021年3月27日至4月1日在卢森堡卢森堡市举行。诉讼程序。第一部分查姆:施普林格。莱克特。票据计算。科学。12651, 230-249 (2021).
摘要:本文提出了一种对长期平均报酬(也称为平均回报)和总报酬目标及其组合进行多目标模型检验的有效方法。我们将其用于马尔可夫自动机,这是一种既能捕获传统马尔可夫决策过程(MDP)又能捕获其连续时间变体的组合模型。我们程序的关键是将Forejt等人的MDP总回报方法推广到马尔可夫自动机上长期和总回报目标的任意组合。风暴模型检查器显示了两种模型类型的令人鼓舞的结果,并表明与基于线性规划的现有多目标长期MDP模型检查相比,性能有了显著提高。
关于整个系列,请参见[Zbl 1466.68015号].

MSC公司:

第68季度第60季度 规范和验证(程序逻辑、模型检查等)
65年第68季度 形式语言和自动机
87年第68季度 计算机科学中的概率(算法分析、随机结构、相变等)
90C29型 多目标规划
90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Ashok,P.、Chatterjee,K.、Daca,P.,Kretínskí,J.、Meggendorfer,T.:马尔可夫决策过程中长期平均报酬的价值迭代。输入:CAV(1)。LNCS,第10426卷,第201-221页。施普林格(2017)。数字对象标识代码:10.1007/978-3-319-63387-9_10·Zbl 1494.68126号
[2] Ashok,P.,Chatterjee,K.,Kretínskí,J.,Weininger,M.,Winkler,T.:广义可达性随机对策的近似值。单位:LICS。第102-115页。ACM(2020年)。数字对象标识代码:10.1145/3373718.3394761·Zbl 1455.91035号
[3] Baier,C.,Bertrand,N.,Dubslaff,C.,Gburek,D.,Sankur,O.:马尔可夫决策过程中的随机最短路径和加权性质。单位:LICS。第86-94页。ACM(2018)。数字对象标识代码:10.1145/3209108.3209184·Zbl 1452.90315号
[4] Baier,C.,Dubslaff,C.,Klüppelholz,S.:权衡分析满足概率模型检查。包含:CSL-LICS。第1:1-1:10页。ACM(2014)。doi:10.1145/2603088.2603089·Zbl 1401.68181号
[5] Baier,C.、Dubslaff,C.、Klüppelholz,S.、Daum,M.、Klein,J.、Märcker,S.和Wunderlich,S.:概率模型检查和非标准多目标推理。收录:Gnesi,S.,Rensink,A.(编辑)FASE。LNCS,第8411卷,第1-16页。斯普林格(2014)。doi:10.1007/978-3-642-54804-8_1
[6] Baier,C.、Dubslaff,C.、Korenciak,L.、Kucera,A.、Rehák,V.:最佳弹性控制策略的综合。输入:ATVA。LNCS,第10482卷,第417-434页。施普林格(2017)。doi:10.1007/978-3-319-68167-2_27·Zbl 1495.68021号
[7] Baier,C.,Hermanns,H.,Katoen,J.:MDP模型检查的10000个方面。收录于:《计算与软件科学》,LNCS,第10000卷,第420-451页。斯普林格(2019)。doi:10.1007/978-3-319-91908-9_21·兹比尔1482.68133
[8] Basset,N.、Kwiatkowska,M.Z.、Topcu,U.、Wiltsche,C.:具有多个长期目标的随机博弈的策略综合。包含:TACAS。LNCS,第9035卷,第256-271页。斯普林格(2015)。doi:10.1007/978-3-662-46681-0_22·Zbl 1420.91011号
[9] Basset,N.,Kwiatkowska,M.Z.,Wiltsche,C.:多目标随机博弈的合成策略综合。Inf.计算。261(部分),536-587(2018)。doi:10.1016/j.ic.2017.09.010·Zbl 1395.68265号
[10] Bork,A.,Junges,S.,Katoen,J.,Quatmann,T.:不确定地平线POMDP的验证。在:亚视。LNCS,第12302卷,第288-304页。施普林格(2020)。doi:10.1007/978-3-030-59152-6_16·Zbl 1517.68225号
[11] Brázdil,T.、Brozek,V.、Chatterjee,K.、Forejt,V.和Kucera,A.:关于马尔可夫决策过程中多个平均值-平均值目标的两种观点。LMCS 10(1)(2014)。doi:10.2168/LMCS-10(1:13)2014年·Zbl 1326.90101号
[12] Brázdil,T.、Chatterjee,K.、Forejt,V.、Kucera,A.:MultiGain:具有多个平均值目标的MDP控制器合成工具。包含:TACAS。LNCS,第9035卷,第181-187页。施普林格(2015)。doi:10.1007/978-3-662-46681-0_12
[13] Brázdil,T.、Chatterjee,K.、Forejt,V.、Kucera,A.:马尔可夫决策过程稳定性的交易绩效。J.计算。系统。科学。84, 144-170 (2017). doi:10.1016/j.jcss.2016.09.009·Zbl 1359.90147号
[14] Budde,C.E.,Dehnert,C.,Hahn,E.M.,Hartmanns,A.,Junges,S.,Turrini,A.:JANI:定量模型和工具交互。In:TACAS(2)。LNCS,第10206卷,第151-168页(2017年)。doi:10.1007/978-3-662-54580-59
[15] Butkova,Y.,Fox,G.:并发系统的最优时限可达性分析。In:TACAS(2)。LNCS,第11428卷,第191-208页。斯普林格(2019),doi:10.1007/978-3-030-17465-1_11
[16] Butkova,Y.、Hatefi,H.、Hermanns,H.和Krcál,J.:最优连续时间Markov决策。输入:ATVA。LNCS,第9364卷,第166-182页。斯普林格(2015)。数字对象标识代码:10.1007/978-3-319-24953-7_12·Zbl 1471.68132号
[17] Butkova,Y.,Wimmer,R.,Hermanns,H.:马尔可夫自动机的长期回报。In:TACAS(2)。LNCS,第10206卷,第188-203页(2017年)。doi:10.1007/978-3-662-54580-5_11·Zbl 1452.68102号
[18] Chatterjee,K.:具有多个长期平均目标的马尔可夫决策过程。输入:FSTTCS。LNCS,第4855卷,第473-484页。斯普林格(2007)。doi:10.1007/978-3-540-77050-3_39·Zbl 1135.90427号
[19] Chatterjee,K.,Doyen,L.:具有广义平均值目标的完美信息随机对策。单位:LICS。第247-256页。ACM(2016)。doi:10.1145/2933575.2934513·Zbl 1401.68238号
[20] Chatterjee,K.,Kretínská,Z.,Kritíns Kíns kj:统一马尔可夫决策过程中关于多个均值-均值目标的两种观点。LMCS 13(2)(2017)。doi:10.23638/LMCS-13(2:15)2017年·Zbl 1448.68280号
[21] Chatterjee,K.,Majumdar,R.,Henzinger,T.A.:多目标马尔可夫决策过程。包含:STACS。LNCS,第3884卷,第325-336页。Springer(2006),doi:10.1007/11672142_26·Zbl 1136.90498号
[22] Delgrange,F.、Katoen,J.、Quatmann,T.、Randour,M.:多目标MDP中的简单策略。In:TACAS(1)。LNCS,第12078卷,第346-364页。施普林格(2020)。doi:10.1007/978-3-030-45190-5_19·Zbl 1507.68183号
[23] Deng,Y.,Hennessy,M.:关于马尔可夫自动机的语义。Inf.计算。222139-168(2013年)。doi:10.1016/j.ic.2012.10.010·Zbl 1286.68362号
[24] Eisentraut,C.,Hermanns,H.,Katoen,J.,Zhang,L.:每个GSPN的语义。在:Petri Nets中。LNCS,第7927卷,第90-109页。施普林格(2013)·Zbl 1381.68199号
[25] Eisentraut,C.,Hermanns,H.,Zhang,L.:关于连续时间中的概率自动机。单位:LICS。第342-351页。IEEE计算机学会(2010)。doi:10.1109/LICS.2010.41
[26] Etessami,K.,Kwiatkowska,M.Z.,Vardi,M.Y.,Yannakakis,M.:马尔可夫决策过程的多目标模型检验。LMCS 4(4)(2008)。doi:10.2168/LMCS-4(4:8)2008年·Zbl 1161.68565号
[27] Forejt,V.、Kwiatkowska,M.Z.、Norman,G.、Parker,D.、Qu,H.:概率系统的定量多目标验证。包含:TACAS。LNCS,第6605卷,第112-127页。斯普林格(2011),doi:10.1007/978-3-642-19835-9_11·Zbl 1315.68177号
[28] Forejt,V.,Kwiatkowska,M.Z.,Parker,D.:概率模型检查的Pareto曲线。在:亚视。LNCS,第7561卷,第317-332页。施普林格(2012)。doi:10.1007/978-3-642-33386-6_25·Zbl 1374.68285号
[29] Guck,D.,Hatefi,H.,Hermanns,H.、Katoen,J.、Timmer,M.:马尔可夫自动机的时间和长期目标分析。LMCS 10(3)(2014)。doi:10.2168/LMCS-10(3:17)2014年·Zbl 1342.68135号
[30] Guck,D.,Timmer,M.,Hatefi,H.,Ruijters,E.,Stoelinga,M.:马尔可夫报酬自动机的建模和分析。输入:ATVA。LNCS,第8837卷,第168-184页。斯普林格(2014)。doi:10.1007/978-3-319-11936-6_13·Zbl 1448.68265号
[31] Guo,M.,Zavlanos,M.M.:时间任务和软约束下的概率运动规划。IEEE传输。自动。控制。63(12), 4051-4066 (2018). doi:10.1109/TAC.2018.2799561·Zbl 1423.90268号
[32] Gurobi Optimization,L.:古罗比优化器参考手册(2020),网址:http://www.gurobi.com
[33] Hahn,E.M.,Hashemi,V.,Hermanns,H.,Lahijanian,M.,Turrini,A.:多目标区间马尔可夫决策过程:从稳健策略到帕累托曲线。ACM事务处理。模型。计算。模拟。29(4), 27:1-27:31 (2019). doi:10.1145/3309683
[34] Hartmanns,A.,Junges,S.,Katoen,J.,Quatmann,T.:MDP中的多成本有界可达性。In:TACAS(2)。LNCS,第10806卷,第320-339页。斯普林格(2018)。doi:10.1007/978-3-319-89963-3_19·兹比尔1423.68282
[35] Hartmanns,A.,Junges,S.,Katoen,J.,Quatmann,T.:MDP中的多成本有界权衡分析。J.汽车。原因。64(7), 1483-1522 (2020). doi:10.1007/s10817-020-09574-9·Zbl 1468.68132号
[36] Hartmanns,A.,Kaminski,B.L.:乐观值迭代。输入:CAV(2)。LNCS,第12225卷,第488-511页。施普林格(2020)。doi:10.1007/978-3-030-53291-8-26·Zbl 1478.68161号
[37] Hartmanns,A.、Klauck,M.、Parker,D.、Quatmann,T.、Ruijters,E.:定量验证基准集。输入:TACAS(1)。LNCS,第11427卷,第344-350页。斯普林格(2019)。doi:10.1007/978-3-030-17462-0_20
[38] Hatefi,H.,Hermanns,H.:马尔可夫自动机的模型检查算法。电子。Commun公司。欧洲协会软件。科学。Technol公司。53 (2012). doi:10.14279/tuj.eceasst.53.783。
[39] Haverkort,B.R.,Hermanns,H.,Katoen,J.:关于可靠性评估中模型检查技术的使用。包含:SRDS。第228-237页。IEEE计算机学会(2000)。doi:10.1010/RELDI.2000.885410
[40] Hensel,C.,Junges,S.,Katoen,J.,Quatmann,T.,Volk,M.:概率模型检查器Storm。CoRR abs/2002.07080(2020)
[41] Klein,J.、Baier,C.、Chrszon,P.、Daum,M.、Dubslaff,C.、Klüppelholz,S.、Märcker,S.和Müller,D.:PRISM概率模型检验的进展:变量重排、分位数和弱确定性büchi自动机。国际期刊软件。技术工具。Transf公司。20(2), 179-194 (2018). doi:10.1007/s10009-017-0456-3
[42] Kretínskí,J.,Meggendorfer,T.:马尔可夫决策过程中平均收益的有效策略迭代。输入:ATVA。LNCS,第10482卷,第380-399页。施普林格(2017)。数字对象标识代码:10.1007/978-3-319-68167-2_25·Zbl 1495.68152号
[43] Kwiatkowska,M.,Norman,G.,Parker,D.,Santos,G.:棱镜游戏3.0:具有并发性、均衡性和时间的随机游戏验证。输入:CAV(2)。LNCS,第12225卷,第475-487页。施普林格(2020)。doi:10.1007/978-3-030-53291-8-25
[44] Kwiatkowska,M.,Parker,D.,Wiltsche,C.:PRISM博弈:具有多个目标的随机多玩家博弈的验证和策略综合。STTT 20(2),195-210(2018)。文件编号:10.1007/s10009-017-0476-z
[45] Kwiatkowska,M.Z.,Norman,G.,Parker,D.:PRISM 4.0:概率实时系统的验证。输入:CAV。LNCS,第6806卷,第585-591页。施普林格(2011)。doi:10.1007/978-3642-22110-147
[46] Puterman,M.L.:马尔可夫决策过程。约翰·威利父子(1994)·Zbl 0829.90134号
[47] Quatmann,T.、Junges,S.、Katoen,J.:多目标马尔可夫自动机。输入:CAV(1)。LNCS,第10426卷,第140-159页。施普林格(2017)。doi:10.1007/978-3-319-63387-97·Zbl 1494.68146号
[48] Quatmann,T.,Katoen,J.:声音值迭代。输入:CAV(1)。LNCS,第10981卷,第643-661页。斯普林格(2018)。文件编号:10.1007/978-3-319-96145-3_37·Zbl 1511.68167号
[49] Quatmann,T.,Katoen,J.:长期平均和总回报的多目标优化:补充材料。Zenodo(2020年)。doi:10.5281/zenodo.4094999·Zbl 1467.68094号
[50] Randour,M.,Raskin,J.,Sankur,O.:多维Markov决策过程中的百分位查询。FMSD 50(2-3),207-248(2017)。doi:10.1007/s10703-016-0262-7·Zbl 1360.68518号
[51] Rennen,G.,van Dam,E.R.,den Hertog,D.:用于逼近高维凸Pareto集的三明治算法的增强。信息J.计算。23(4), 493-517 (2011). doi:10.1287/ijoc.1100.0419·Zbl 1243.90204号
[52] Roijers,D.M.,Scharpff,J.,Spaan,M.T.J.,Oliehoek,F.A.,de Weerdt,M.,Whiteson,S.:不确定性下线性多目标规划的有界近似。包含:ICAPS。AAAI(2014),http://www.aaai.org/ocs/index.php/ICAPS/ICAPS14/paper/view/7929
[53] Solanki,R.S.,Appino,P.A.,Cohon,J.L.:多目标线性规划问题中非劣集的近似。《欧洲运筹学杂志》68(3),356-373(1993)。doi:10.1016/0377-2217(93)90192-P·Zbl 0782.90084号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。