×

多目标随机博弈的合成策略综合。 (英语) Zbl 1395.68265号

摘要:通过从形式化模型和规范自动合成控制器,可以促进自治系统的设计。我们关注随机游戏,它可以模拟与不利环境的交互作用,以及由不确定性引起的概率行为。我们的贡献是双重的。首先,我们研究了以定量多维均值-比值和比率目标表示的长期规范。然后,我们开发了一种算法来综合平均收益和比率报酬(在一般游戏中)以及期望平均收益的布尔组合(在可控多链游戏中)的几乎确定满意的连接的(varepsilon)最优策略。其次,我们提出了一个组合框架以及假设保证规则,它使为单个组件合成的获胜策略能够组合为组合游戏的获胜策略。该框架适用于广泛的一类属性,其中还包括预期的总奖励,并已在软件工具PRISM游戏中实现。

MSC公司:

68T40型 机器人人工智能
60年第68季度 规范和验证(程序逻辑、模型检查等)
第91页第15页 随机对策,随机微分对策
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] 拜尔,C。;Dubslaff,C。;Klüppelholz,S。;Leuschner,L.,使用概率模型检查对弹性系统进行能源效用分析,(Petri Nets,(2014),Springer),20-39·Zbl 1407.68280号
[2] 拜尔,C。;格里尔,M。;Ciesinski,F.,公平约束下的定量分析,(ATVA,LNCS,第5799卷,(2009年),Springer),135-150·兹比尔1262.68102
[3] 拜尔,C。;格里尔,M。;Leucker,M。;Bollig,B。;Ciesinski,F.,概率系统的控制器综合(扩展抽象),IFIP TCS,第155卷,493-506,(2004),Springer·Zbl 1073.93037号
[4] Basset,N。;Kwiatkowska,M。;托普库,美国。;Wiltsche,C.,具有多个长期目标的随机博弈的策略综合,(TACAS,LNCS,第9035卷,(2015),Springer),256-271·Zbl 1420.91011号
[5] Basset,N。;Kwiatkowska,M。;Wiltsche,C.,随机博弈的组合控制器综合,(CONCUR,LNCS,第8704卷,(2014),Springer),173-187·Zbl 1421.93053号
[6] Brázdil,T。;布罗泽克,V。;查特吉,K。;Forejt,V。;Kučera,A.,关于马尔可夫决策过程中多个平均收益目标的两种观点,Log。方法计算。科学。,10, 4, (2014)
[7] Brázdil,T。;布罗泽克,V。;Forejt,V。;库切拉,A.,《具有分支时间获胜目标的随机游戏》(LICS,(2006),ACM/IEEE),349-358
[8] Brázdil,T。;扬查尔,P。;Kučera,A.,带状态的扩展向量加法系统的可达性博弈,(ICALP,LNCS,第6199卷,(2010),Springer),478-489·Zbl 1288.68179号
[9] Brenguier,R。;Raskin,J.F.,多维平均收益博弈的最优值,(2014),比利时布鲁塞尔自由大学,研究报告
[10] 布鲁埃、维罗尼克;艾曼纽尔·菲利奥特;米凯尔·兰多尔(Mickael Randour);Raskin,Jean-François,《用保证满足您的期望:超越定量游戏中的最坏情况合成》,(Mayr,Ernst W.;Portier,Natacha,第31届计算机科学理论方面国际研讨会(STACS 2014),STACS 2014,法国里昂,2014年3月5日至8日,LIPIcs,第25卷,(2014),Dagstuhl-Leibniz-Zentrum fuer Informatik),199-213年·Zbl 1360.91042号
[11] 查特吉,K。;多恩,L。;Henzinger,T.A。;Raskin,J.F.,广义平均值与能量博弈,(FSTTCS,LIPIcs,第8卷,(2010),Schloss Dagstuhl),505-516·Zbl 1245.68090号
[12] 查特吉,K。;Henzinger,M.,概率验证中最大终成分分解和相关图问题的快速动态算法,(SODA,(2011),ACM-SIAM),1318-1336·Zbl 1374.68272号
[13] 查特吉,K。;Henzinger,T.A.,假设保证合成,(TACAS,LNCS,第4424卷,(2007),Springer),261-275·Zbl 1186.68284号
[14] 查特吉,K。;科马尔科娃,Z。;Křetínskõ,J.,统一马尔可夫决策过程中多个平均值目标的两种观点,(LICS,(2015),ACM/IEEE),244-256·Zbl 1401.68171号
[15] 查特吉,K。;马朱姆达尔,R。;Henzinger,T.A.,多目标马尔可夫决策过程,(STACS,LNCS,第3884卷,(2006),Springer),325-336·Zbl 1136.90498号
[16] 查特吉,K。;Randour,M。;Raskin,J.F.,《多维量化目标的战略综合》,《信息学报》。,51, 3-4, 129-163, (2014) ·Zbl 1360.68208号
[17] 克里希南德·查特吉;Doyen,Laurent,《具有广义平均值目标的完美信息随机博弈》,(Grohe,Martin;Koskinen,Eric;Shankar,Natarajan,Proc.LICS’16,(2016),ACM),247-256·Zbl 1401.68238号
[18] Chen,T。;Forejt,V。;Kwiatkowska,M。;帕克,D。;Simaitis,A.,PRISM-games:随机多层游戏的模型检查器,(TACAS,LNCS,vol.7795,(2013),Springer),185-191·Zbl 1381.68151号
[19] Chen,T。;Forejt,V。;Kwiatkowska,M。;西马蒂斯,A。;特里维迪,A。;Ummels,M.,精确地玩随机游戏,(CONCUR,LNCS,第7454卷,(2012)),348-363·Zbl 1364.91024号
[20] Chen,T。;Forejt,V。;Kwiatkowska,M。;Simaitis,A。;Wiltsche,C.,《关于多目标随机博弈》,(MFCS,LNCS,卷8087,(2013),Springer),266-277·Zbl 1400.91040号
[21] Chen,T。;Kwiatkowska,M。;Simaitis,A。;Wiltsche,C.,《多目标随机博弈的合成:自动城市驾驶的应用》(QEST,LNCS,第8054卷,(2013),Springer),322-337
[22] Cheung,L.公司。;林奇,N。;塞加拉,R。;Vaandrager,F.,《交换式PIOA:通过分布式调度进行并行组合》,Theor。计算。科学。,365, 1-2, 83-108, (2006) ·Zbl 1118.68038号
[23] Davey,B.A。;普里斯特利,H.A.,《格与序导论》(1990),剑桥大学出版社·Zbl 0701.06001号
[24] De Alfaro,L.,概率系统的形式验证,(1997),斯坦福大学,博士论文
[25] de Alfaro,L.公司。;Henzinger,T.A.,接口自动机,SIGSOFT Softw。工程注释,26,5,109-120,(2001)
[26] de Alfaro,L.公司。;Henzinger,T.A。;Jhala,R.,概率系统的组合方法,(CONCUR,LNCS,第2154卷,(2001),Springer),351-365·Zbl 1006.68083号
[27] 埃伦菲赫特,A。;Mycielski,J.,平均收益博弈的位置策略,国际博弈论,8,2,109-113,(1979)·Zbl 0499.90098号
[28] Etessami,K。;Kwiatkowska,M。;瓦尔迪,M.Y。;Yannakakis,M.,马尔可夫决策过程的多目标模型检验,Log。方法计算。科学。,4, 8, 1-21, (2008) ·Zbl 1161.68565号
[29] 冯·L。;威尔舍,C。;汉弗莱,L。;Topcu,U.,《自治系统人机交互控制协议的合成》,IEEE Trans。自动化。科学。工程师,13,2,450-462,(2016年4月)
[30] 菲拉尔,J。;Vrieze,K.,竞争马尔可夫决策过程,(1996),Springer
[31] Forejt,V。;Kwiatkowska,M。;Parker,D.,概率模型检验的Pareto曲线,(ATVA,LNCS,第7561卷,(2012),Springer),317-332·Zbl 1374.68285号
[32] Gelderie,M.,《合成游戏中的策略合成》,(ICALP,LNCS,第7966卷,(2013),施普林格出版社),263-274·Zbl 1335.68120号
[33] Ghosh,S。;拉马努贾姆,R。;Simon,S.,《并行进行大规模游戏》(CLIMA,LNCS,第6245卷,(2010年),斯普林格出版社),153-170·Zbl 1286.68413号
[34] Gimbert,H。;Horn,F.,《求解简单随机尾部博弈》(SODA,(2010),ACM-SIAM),847-862·Zbl 1288.91020号
[35] Gimbert,H。;Kelmendi,E.,《双人完全信息变换提交随机游戏是半位置的》(2014),arXiv预印本
[36] Horn,F.,《随机游戏》,(2008年),巴黎第七大学丹尼斯·狄德罗分校和亚琛科技大学,博士论文
[37] Katz,G。;贝利德,D。;Schewe,S.,通过知识积累合成分布式控制,(CAV,LNCS,第6806卷,(2011),Springer),510-525
[38] Kwiatkowska,M.,《随机博弈的模型检验和策略综合:从理论到实践》,(第43届国际自动机、语言和编程学术讨论会,ICALP 2016,(2016),Schloss Dagstuhl-Leibniz-Zentrum fuer Informatik),4:1-4:18·Zbl 1388.68186号
[39] Kwiatkowska,M。;诺曼,G。;帕克,D。;Qu,H.,通过多目标模型检查进行组合概率验证,Inf.Comput。,232, 38-65, (2013) ·Zbl 1277.68138号
[40] Kwiatkowska,M。;Parker,D.,概率系统的自动验证和策略综合,(ATVA,LNCS,第8172卷,(2013),Springer),5-22·Zbl 1410.68233号
[41] Kwiatkowska,M。;帕克,D。;Wiltsche,C.,PRISM-games 2.0:随机博弈多目标策略综合工具,(第22届系统构建和分析工具和算法国际会议(TACAS’16),LNCS,第9636卷,(2016),Springer),560-566
[42] 莱文,D.A。;佩雷斯,Y。;Wilmer,E.L.,马尔可夫链和混合时间,(2009),AMS·Zbl 1160.60001号
[43] MacDermed,L.公司。;Isbell,C.L.,《解决随机游戏》,(NIPS,(2009),Curran Associates,Inc.),1186-1194
[44] Madhusudan,P。;Thiagarajan,P.S.,异步分布式控制器的可判定类,(CONCUR,LNCS,第7454卷,(2002),Springer),145-160·Zbl 1012.68118号
[45] 莫哈利克,S。;Walukiewicz,I.,《分布式游戏》,(FSTTCS,LNCS,第2914卷,(2003),施普林格出版社),338-351·Zbl 1205.68089号
[46] Pneuli,A。;Rosner,R.,《分布式反应系统难以合成》(FOCS,(1990),IEEE),746-757
[47] Puterman,M.L.,《马尔可夫决策过程:离散随机动态规划》,(2009年),Wiley-Interscience
[48] Michael O.Rabin,概率自动机,Inf.Control,6,3,230-245,(1963)·Zbl 0182.33602号
[49] Randour,M。;Raskin,J.F。;Sankur,O.,随机最短路径问题的变化,(VMCAI,LNCS,第8318卷,(2014),Springer),1-18·兹比尔1432.90155
[50] Randour,M。;Raskin,J.F。;Sankur,O.,多维Markov决策过程中的百分比查询,(CAV,LNCS,第9206卷,(2015),Springer),123-139·Zbl 1381.68219号
[51] Rockafellar,R.T.,凸分析,(1997),普林斯顿大学出版社·Zbl 0932.90001号
[52] Ross,S.M.,《随机过程》,第2卷,(1996),John Wiley&Sons New York·Zbl 0888.60002号
[53] Sankur,O.,《时间自动机的鲁棒性:分析、综合、实现》(2013),LSV,ENS Cachan France,Thèse de doctorat
[54] Segala,R.,随机分布式实时系统的建模与验证,(1995),麻省理工学院,博士论文
[55] Shapley,Lloyd S.,《随机游戏》,Proc。国家。阿卡德。科学。美国,39,10,1095,(1953)·Zbl 0051.35805号
[56] Shimkin,N。;Shwartz,A.,《马尔科夫系统与竞争决策者的保证性能区域》,Autom。控制,38,1,84-95,(1993)·兹比尔0779.90080
[57] Simaitis,A.,竞争随机系统的自动验证,(2013),牛津大学博士论文·Zbl 1291.68252号
[58] Sokolova,A。;de Vink,E.P.,概率自动机:系统类型,并行组合和比较,(VOSS,LNCS,第2925卷,(2004),Springer),1-43·Zbl 1203.68089号
[59] 马里,斯沃伦诺娃;Kwiatkowska,Marta,随机博弈的定量验证和策略合成,《欧洲控制杂志》,30,15-30,(2016),第15届欧洲控制会议,ECC16·Zbl 1347.93240号
[60] Velner,Y.,稳健多维平均值目标的有限记忆策略综合,(LICS,(2014),ACM/IEEE),79:1-79:10·Zbl 1401.91035号
[61] Velner,纱线;克里希南德·查特吉;Laurent Doyen;托马斯·亨辛格(Thomas A.Henzinger)。;亚历山大·莫舍(Alexander Moshe),拉比诺维奇(Rabinovich);Raskin,Jean-François,《多平均值和多能量游戏的复杂性》,Inf.Comput。,241, 177-196, (2015) ·Zbl 1309.68082号
[62] 冯·埃森,C。;Jobstmann,B.,《合成高效控制器》,(VMCAI,LNCS,第7148卷,(2012),施普林格出版社),428-444·Zbl 1326.68190号
[63] 怀特,D.J.,多目标无限小时折扣马尔可夫决策过程,J.数学。分析。申请。,89, 2, 639-647, (1982) ·Zbl 0496.90083号
[64] Wiltsche,C.,假设随机博弈的保证策略综合,(2016),牛津大学,博士论文
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。