文件Zbl 1467.68094-zbMATH Open

长期平均和总回报的多目标优化。（英语） Zbl 1467.68094号

Groote，Jan Friso（编辑）等人，《系统构建和分析的工具和算法》。第27届国际会议，TACAS 2021，作为欧洲软件理论与实践联合会议的一部分，于2021年3月27日至4月1日在卢森堡卢森堡市举行。诉讼程序。第一部分查姆：施普林格。莱克特。票据计算。科学。12651, 230-249 (2021).

摘要：本文提出了一种对长期平均报酬（也称为平均回报）和总报酬目标及其组合进行多目标模型检验的有效方法。我们将其用于马尔可夫自动机，这是一种既能捕获传统马尔可夫决策过程（MDP）又能捕获其连续时间变体的组合模型。我们程序的关键是将Forejt等人的MDP总回报方法推广到马尔可夫自动机上长期和总回报目标的任意组合。在风暴模型检查器显示了两种模型类型的令人鼓舞的结果，并表明与基于线性规划的现有多目标长期MDP模型检查相比，性能有了显著提高。
关于整个系列，请参见[Zbl 1466.68015号].

引用于1文件

MSC公司：

第68季度第60季度	规范和验证（程序逻辑、模型检查等）
65年第68季度	形式语言和自动机
87年第68季度	计算机科学中的概率（算法分析、随机结构、相变等）
90C29型	多目标规划
90立方厘米	马尔可夫和半马尔可夫决策过程

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Ashok，P.、Chatterjee，K.、Daca，P.，Kretínskí，J.、Meggendorfer，T.：马尔可夫决策过程中长期平均报酬的价值迭代。输入：CAV（1）。LNCS，第10426卷，第201-221页。施普林格（2017）。数字对象标识代码：10.1007/978-3-319-63387-9_10·Zbl 1494.68126号
[2]	Ashok，P.，Chatterjee，K.，Kretínskí，J.，Weininger，M.，Winkler，T.：广义可达性随机对策的近似值。单位：LICS。第102-115页。ACM（2020年）。数字对象标识代码：10.1145/3373718.3394761·Zbl 1455.91035号
[3]	Baier，C.，Bertrand，N.，Dubslaff，C.，Gburek，D.，Sankur，O.：马尔可夫决策过程中的随机最短路径和加权性质。单位：LICS。第86-94页。ACM（2018）。数字对象标识代码：10.1145/3209108.3209184·Zbl 1452.90315号
[4]	Baier，C.，Dubslaff，C.，Klüppelholz，S.：权衡分析满足概率模型检查。包含：CSL-LICS。第1:1-1:10页。ACM（2014）。doi:10.1145/2603088.2603089·Zbl 1401.68181号
[5]	Baier，C.、Dubslaff，C.、Klüppelholz，S.、Daum，M.、Klein，J.、Märcker，S.和Wunderlich，S.：概率模型检查和非标准多目标推理。收录：Gnesi，S.，Rensink，A.（编辑）FASE。LNCS，第8411卷，第1-16页。斯普林格（2014）。doi:10.1007/978-3-642-54804-8_1
[6]	Baier，C.、Dubslaff，C.、Korenciak，L.、Kucera，A.、Rehák，V.：最佳弹性控制策略的综合。输入：ATVA。LNCS，第10482卷，第417-434页。施普林格（2017）。doi:10.1007/978-3-319-68167-2_27·Zbl 1495.68021号
[7]	Baier，C.，Hermanns，H.，Katoen，J.：MDP模型检查的10000个方面。收录于：《计算与软件科学》，LNCS，第10000卷，第420-451页。斯普林格（2019）。doi:10.1007/978-3-319-91908-9_21·兹比尔1482.68133
[8]	Basset，N.、Kwiatkowska，M.Z.、Topcu，U.、Wiltsche，C.：具有多个长期目标的随机博弈的策略综合。包含：TACAS。LNCS，第9035卷，第256-271页。斯普林格（2015）。doi:10.1007/978-3-662-46681-0_22·Zbl 1420.91011号
[9]	Basset，N.，Kwiatkowska，M.Z.，Wiltsche，C.：多目标随机博弈的合成策略综合。Inf.计算。261（部分），536-587（2018）。doi:10.1016/j.ic.2017.09.010·Zbl 1395.68265号
[10]	Bork，A.，Junges，S.，Katoen，J.，Quatmann，T.：不确定地平线POMDP的验证。在：亚视。LNCS，第12302卷，第288-304页。施普林格（2020）。doi:10.1007/978-3-030-59152-6_16·Zbl 1517.68225号
[11]	Brázdil，T.、Brozek，V.、Chatterjee，K.、Forejt，V.和Kucera，A.：关于马尔可夫决策过程中多个平均值-平均值目标的两种观点。LMCS 10（1）（2014）。doi:10.2168/LMCS-10（1:13）2014年·Zbl 1326.90101号
[12]	Brázdil，T.、Chatterjee，K.、Forejt，V.、Kucera，A.：MultiGain：具有多个平均值目标的MDP控制器合成工具。包含：TACAS。LNCS，第9035卷，第181-187页。施普林格（2015）。doi:10.1007/978-3-662-46681-0_12
[13]	Brázdil，T.、Chatterjee，K.、Forejt，V.、Kucera，A.：马尔可夫决策过程稳定性的交易绩效。J.计算。系统。科学。84, 144-170 (2017). doi:10.1016/j.jcss.2016.09.009·Zbl 1359.90147号
[14]	Budde，C.E.，Dehnert，C.，Hahn，E.M.，Hartmanns，A.，Junges，S.，Turrini，A.：JANI：定量模型和工具交互。In:TACAS（2）。LNCS，第10206卷，第151-168页（2017年）。doi:10.1007/978-3-662-54580-59
[15]	Butkova，Y.，Fox，G.：并发系统的最优时限可达性分析。In:TACAS（2）。LNCS，第11428卷，第191-208页。斯普林格（2019），doi:10.1007/978-3-030-17465-1_11
[16]	Butkova，Y.、Hatefi，H.、Hermanns，H.和Krcál，J.：最优连续时间Markov决策。输入：ATVA。LNCS，第9364卷，第166-182页。斯普林格（2015）。数字对象标识代码：10.1007/978-3-319-24953-7_12·Zbl 1471.68132号
[17]	Butkova，Y.，Wimmer，R.，Hermanns，H.：马尔可夫自动机的长期回报。In:TACAS（2）。LNCS，第10206卷，第188-203页（2017年）。doi:10.1007/978-3-662-54580-5_11·Zbl 1452.68102号
[18]	Chatterjee，K.：具有多个长期平均目标的马尔可夫决策过程。输入：FSTTCS。LNCS，第4855卷，第473-484页。斯普林格（2007）。doi:10.1007/978-3-540-77050-3_39·Zbl 1135.90427号
[19]	Chatterjee，K.，Doyen，L.：具有广义平均值目标的完美信息随机对策。单位：LICS。第247-256页。ACM（2016）。doi:10.1145/2933575.2934513·Zbl 1401.68238号
[20]	Chatterjee，K.，Kretínská，Z.，Kritíns Kíns kj：统一马尔可夫决策过程中关于多个均值-均值目标的两种观点。LMCS 13（2）（2017）。doi:10.23638/LMCS-13（2:15）2017年·Zbl 1448.68280号
[21]	Chatterjee，K.，Majumdar，R.，Henzinger，T.A.：多目标马尔可夫决策过程。包含：STACS。LNCS，第3884卷，第325-336页。Springer（2006），doi:10.1007/11672142_26·Zbl 1136.90498号
[22]	Delgrange，F.、Katoen，J.、Quatmann，T.、Randour，M.：多目标MDP中的简单策略。In:TACAS（1）。LNCS，第12078卷，第346-364页。施普林格（2020）。doi:10.1007/978-3-030-45190-5_19·Zbl 1507.68183号
[23]	Deng，Y.，Hennessy，M.：关于马尔可夫自动机的语义。Inf.计算。222139-168（2013年）。doi:10.1016/j.ic.2012.10.010·Zbl 1286.68362号
[24]	Eisentraut，C.，Hermanns，H.，Katoen，J.，Zhang，L.：每个GSPN的语义。在：Petri Nets中。LNCS，第7927卷，第90-109页。施普林格（2013）·Zbl 1381.68199号
[25]	Eisentraut，C.，Hermanns，H.，Zhang，L.：关于连续时间中的概率自动机。单位：LICS。第342-351页。IEEE计算机学会（2010）。doi:10.1109/LICS.2010.41
[26]	Etessami，K.，Kwiatkowska，M.Z.，Vardi，M.Y.，Yannakakis，M.：马尔可夫决策过程的多目标模型检验。LMCS 4（4）（2008）。doi:10.2168/LMCS-4（4:8）2008年·Zbl 1161.68565号
[27]	Forejt，V.、Kwiatkowska，M.Z.、Norman，G.、Parker，D.、Qu，H.：概率系统的定量多目标验证。包含：TACAS。LNCS，第6605卷，第112-127页。斯普林格（2011），doi:10.1007/978-3-642-19835-9_11·Zbl 1315.68177号
[28]	Forejt，V.，Kwiatkowska，M.Z.，Parker，D.：概率模型检查的Pareto曲线。在：亚视。LNCS，第7561卷，第317-332页。施普林格（2012）。doi:10.1007/978-3-642-33386-6_25·Zbl 1374.68285号
[29]	Guck，D.，Hatefi，H.，Hermanns，H.、Katoen，J.、Timmer，M.：马尔可夫自动机的时间和长期目标分析。LMCS 10（3）（2014）。doi:10.2168/LMCS-10（3:17）2014年·Zbl 1342.68135号
[30]	Guck，D.，Timmer，M.，Hatefi，H.，Ruijters，E.，Stoelinga，M.：马尔可夫报酬自动机的建模和分析。输入：ATVA。LNCS，第8837卷，第168-184页。斯普林格（2014）。doi:10.1007/978-3-319-11936-6_13·Zbl 1448.68265号
[31]	Guo，M.，Zavlanos，M.M.：时间任务和软约束下的概率运动规划。IEEE传输。自动。控制。63(12), 4051-4066 (2018). doi:10.1109/TAC.2018.2799561·Zbl 1423.90268号
[32]	Gurobi Optimization，L.：古罗比优化器参考手册（2020），网址：http://www.gurobi.com
[33]	Hahn，E.M.，Hashemi，V.，Hermanns，H.，Lahijanian，M.，Turrini，A.：多目标区间马尔可夫决策过程：从稳健策略到帕累托曲线。ACM事务处理。模型。计算。模拟。29(4), 27:1-27:31 (2019). doi:10.1145/3309683
[34]	Hartmanns，A.，Junges，S.，Katoen，J.，Quatmann，T.：MDP中的多成本有界可达性。In:TACAS（2）。LNCS，第10806卷，第320-339页。斯普林格（2018）。doi:10.1007/978-3-319-89963-3_19·兹比尔1423.68282
[35]	Hartmanns，A.，Junges，S.，Katoen，J.，Quatmann，T.：MDP中的多成本有界权衡分析。J.汽车。原因。64(7), 1483-1522 (2020). doi:10.1007/s10817-020-09574-9·Zbl 1468.68132号
[36]	Hartmanns，A.，Kaminski，B.L.：乐观值迭代。输入：CAV（2）。LNCS，第12225卷，第488-511页。施普林格（2020）。doi:10.1007/978-3-030-53291-8-26·Zbl 1478.68161号
[37]	Hartmanns，A.、Klauck，M.、Parker，D.、Quatmann，T.、Ruijters，E.：定量验证基准集。输入：TACAS（1）。LNCS，第11427卷，第344-350页。斯普林格（2019）。doi:10.1007/978-3-030-17462-0_20
[38]	Hatefi，H.，Hermanns，H.：马尔可夫自动机的模型检查算法。电子。Commun公司。欧洲协会软件。科学。Technol公司。53 (2012). doi:10.14279/tuj.eceasst.53.783。
[39]	Haverkort，B.R.，Hermanns，H.，Katoen，J.：关于可靠性评估中模型检查技术的使用。包含：SRDS。第228-237页。IEEE计算机学会（2000）。doi:10.1010/RELDI.2000.885410
[40]	Hensel，C.，Junges，S.，Katoen，J.，Quatmann，T.，Volk，M.：概率模型检查器Storm。CoRR abs/2002.07080（2020）
[41]	Klein，J.、Baier，C.、Chrszon，P.、Daum，M.、Dubslaff，C.、Klüppelholz，S.、Märcker，S.和Müller，D.：PRISM概率模型检验的进展：变量重排、分位数和弱确定性büchi自动机。国际期刊软件。技术工具。Transf公司。20(2), 179-194 (2018). doi:10.1007/s10009-017-0456-3
[42]	Kretínskí，J.，Meggendorfer，T.：马尔可夫决策过程中平均收益的有效策略迭代。输入：ATVA。LNCS，第10482卷，第380-399页。施普林格（2017）。数字对象标识代码：10.1007/978-3-319-68167-2_25·Zbl 1495.68152号
[43]	Kwiatkowska，M.，Norman，G.，Parker，D.，Santos，G.：棱镜游戏3.0：具有并发性、均衡性和时间的随机游戏验证。输入：CAV（2）。LNCS，第12225卷，第475-487页。施普林格（2020）。doi:10.1007/978-3-030-53291-8-25
[44]	Kwiatkowska，M.，Parker，D.，Wiltsche，C.：PRISM博弈：具有多个目标的随机多玩家博弈的验证和策略综合。STTT 20（2），195-210（2018）。文件编号：10.1007/s10009-017-0476-z
[45]	Kwiatkowska，M.Z.，Norman，G.，Parker，D.：PRISM 4.0：概率实时系统的验证。输入：CAV。LNCS，第6806卷，第585-591页。施普林格（2011）。doi:10.1007/978-3642-22110-147
[46]	Puterman，M.L.：马尔可夫决策过程。约翰·威利父子（1994）·Zbl 0829.90134号
[47]	Quatmann，T.、Junges，S.、Katoen，J.：多目标马尔可夫自动机。输入：CAV（1）。LNCS，第10426卷，第140-159页。施普林格（2017）。doi:10.1007/978-3-319-63387-97·Zbl 1494.68146号
[48]	Quatmann，T.，Katoen，J.：声音值迭代。输入：CAV（1）。LNCS，第10981卷，第643-661页。斯普林格（2018）。文件编号：10.1007/978-3-319-96145-3_37·Zbl 1511.68167号
[49]	Quatmann，T.，Katoen，J.：长期平均和总回报的多目标优化：补充材料。Zenodo（2020年）。doi:10.5281/zenodo.4094999·Zbl 1467.68094号
[50]	Randour，M.，Raskin，J.，Sankur，O.：多维Markov决策过程中的百分位查询。FMSD 50（2-3），207-248（2017）。doi:10.1007/s10703-016-0262-7·Zbl 1360.68518号
[51]	Rennen，G.，van Dam，E.R.，den Hertog，D.：用于逼近高维凸Pareto集的三明治算法的增强。信息J.计算。23(4), 493-517 (2011). doi:10.1287/ijoc.1100.0419·Zbl 1243.90204号
[52]	Roijers，D.M.，Scharpff，J.，Spaan，M.T.J.，Oliehoek，F.A.，de Weerdt，M.，Whiteson，S.：不确定性下线性多目标规划的有界近似。包含：ICAPS。AAAI（2014），http://www.aaai.org/ocs/index.php/ICAPS/ICAPS14/paper/view/7929
[53]	Solanki，R.S.，Appino，P.A.，Cohon，J.L.：多目标线性规划问题中非劣集的近似。《欧洲运筹学杂志》68（3），356-373（1993）。doi:10.1016/0377-2217（93）90192-P·Zbl 0782.90084号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

长期平均和总回报的多目标优化。（英语） Zbl 1467.68094号

MSC公司：

参考文献：

示例

领域

操作员

长期平均和总回报的多目标优化。 （英语） Zbl 1467.68094号

MSC公司：

参考文献：

长期平均和总回报的多目标优化。（英语） Zbl 1467.68094号