×

多目标随机对策的组合策略综合。 (英语) Zbl 1395.68265

总结:通过从形式化模型和规范中自动综合控制器,有助于自主系统的设计。我们关注随机博弈,它可以模拟与不利环境的相互作用,以及不确定性引起的概率行为。我们的贡献是双重的。首先,我们研究用多维平均收益率和比率目标表示的长期指标。然后,我们发展了一个算法来综合\(\varepsilon\)—平均报酬和比率报酬(一般博弈中)和期望平均报酬的布尔组合(在可控的多链博弈中)的几乎肯定满意的合取的最优策略。其次,我们提出了一个组合框架,并结合假设保证规则,使得针对单个组件综合的获胜策略可以组合成组合游戏的获胜策略。该框架适用于广泛的物业类别,其中也包括预期的总回报,并已在软件工具PRISM games中实现。

理学硕士:

68吨40 机器人学的人工智能
68Q60型 规范和验证(程序逻辑、模型检查等)
91A15型 随机对策,随机微分对策
PDF格式 BibTeX公司 XML 引用
全文: 内政部 链接

参考文献:

[1] 拜尔,C。;杜布拉夫,C。;克鲁佩尔霍尔茨,S。;Leuschner,L.,使用概率模型检查对弹性系统的能量效用分析,(Petri网,(2014),Springer),20-39·Zbl 1407.68280号
[2] 拜尔,C。;格伦,M。;Ciesinski,F.,公平约束下的定量分析,(ATVA,LNCS,第5799卷,(2009),Springer),135-150·Zbl 1262.68102
[3] 拜尔,C。;格伦,M。;莱克,M。;博利格,B。;Ciesinski,F.,概率系统的控制器综合(扩展摘要),IFIP TCS,第155卷,493-506,(2004),Springer·Zbl 1073.93037
[4] 巴塞特,N。;奎亚特科夫斯卡,M。;美国托普大学。;Wiltsche,C.,《具有多个长期目标的随机博弈的策略综合》(TACAS,LNCS,vol.9035,(2015),Springer),256-271
[5] 巴塞特,N。;奎亚特科夫斯卡,M。;Wiltsche,C.,随机对策的组合控制器综合,(CONCUR,LNCS,第8704卷,(2014),Springer),173-187·Zbl 1421.93053号
[6] 布拉兹迪尔,T。;布鲁克,V。;查特吉,K。;福雷特,V。;Kučera,A.,《马尔可夫决策过程中多个平均收益目标的两种观点》,Log。方法计算。科学。,2014年10月4日
[7] 布拉兹迪尔,T。;布鲁克,V。;福雷特,V。;Kučera,A.,《具有分支时间获胜目标的随机博弈》,(LICS,(2006),ACM/IEEE),349-358
[8] 布拉兹迪尔,T。;Jančar,P。;Kučera,A.,《带状态的扩展向量加法系统的可达性对策》,(ICALP,LNCS,第6199卷,(2010年),Springer),478-489·Zbl 1288.68179
[9] 布伦圭尔,R。;Raskin,J.F.,多维平均收益博弈的最优值,(2014),比利时布鲁克塞尔大学(U.L.B.),研究报告
[10] 布鲁伊埃,维罗尼克;菲利奥特,伊曼纽;兰多尔,米凯尔;Raskin,Jean François,《用保证满足您的期望:超越量化游戏中最坏情况下的综合》(Mayr,Ernst W.;Portier,Natacha,第31届计算机科学理论方面国际研讨会(STACS 2014),STACS 2014,里昂,法国,2014年3月5日至8日,LIPIcs,第25卷,(2014年),Schloss Dagstuhl Leibniz Zentrum fuer信息,199-213·Zbl 1360.91042号
[11] 查特吉,K。;多恩,L。;亨辛格,T.A。;Raskin,J.F.,广义平均收益和能量博弈,(FSTTCS,LIPIcs,第8卷,(2010),Schloss-Dagstuhl),505-516·Zbl 1245.68090
[12] 查特吉,K。;Henzinger,M.,概率验证中最大端部分量分解和相关图问题的快速动态算法,(SODA,(2011),ACM-SIAM),1318-1336·Zbl 1374.68272
[13] 查特吉,K。;Henzinger,T.A.,《假设保证综合》(TACAS,LNCS,vol.4424,(2007),Springer),261-275·Zbl 1186.68284号
[14] 查特吉,K。;科马科娃,Z。;Křetínský,J.,《马尔可夫决策过程中多个平均收益目标的统一观点》,(LICS,(2015),ACM/IEEE),244-256·Zbl 1401.68171
[15] 查特吉,K。;马朱姆达尔,R。;Henzinger,T.A.,多目标马尔可夫决策过程(STACS,LNCS,vol.3884,(2006),Springer),325-336·Zbl 1136.90498
[16] 查特吉,K。;兰多尔,M。;拉斯金,J.F.,《多维定量目标的策略综合》,《信息学报》。,51,3-4,129-163,(2014年)·Zbl 1360.68208
[17] 查特吉,克莉什南杜;Doyen,Laurent,带广义平均收益目标的完全信息随机博弈,(Grohe,Martin;Koskinen,Eric;Shankar,Natarajan,Proc.LICS'16,(2016),ACM),247-256·Zbl 1401.68238
[18] 陈,T。;福雷特,V。;奎亚特科夫斯卡,M。;帕克,D。;Simaitis,A.,PRISM games:随机多人游戏的模型检验器(TACAS,LNCS,vol.7795,(2013),Springer),185-191·Zbl 1381.68151号
[19] 陈,T。;福雷特,V。;奎亚特科夫斯卡,M。;西迈蒂斯,A。;特里维迪,A。;Ummels,M.,精确地玩随机博弈,(CONCUR,LNCS,卷7454,(2012)),348-363·Zbl 1364.91024号
[20] 陈,T。;福雷特,V。;奎亚特科夫斯卡,M。;西迈蒂斯,A。;Wiltsche,C.,多目标随机博弈论,(MFCS,LNCS,vol.8087,(2013),Springer),266-277·Zbl 1400.91040
[21] 陈,T。;奎亚特科夫斯卡,M。;西迈蒂斯,A。;Wiltsche,C.,《多目标随机博弈的综合:在城市自主驾驶中的应用》(QEST,LNCS,vol.8054,(2013),Springer),322-337
[22] 张,L。;林奇,N。;塞加拉,R。;Vaandrager,F.,Switched PIOA:通过分布式调度的并行组合,理论。计算机。科学。,365,1-2,83-108,(2006年)·Zbl 1118.68038
[23] 戴维,文学学士。;《格与序导论》(1990),剑桥大学出版社·Zbl 0701.06001
[24] De Alfaro,L.,概率系统的形式验证,(1997),斯坦福大学,博士论文
[25] 德阿尔法罗,L。;Henzinger,T.A.,接口自动机,SIGSOFT软件。《工程笔记》,26,5,109-120,(2001)
[26] 德阿尔法罗,L。;亨辛格,T.A。;Jhala,R.,概率系统的组合方法,(CONCUR,LNCS,第2154卷,(2001),Springer),351-365·Zbl 1006.68083
[27] 埃伦费赫特,A。;《平均报酬博弈的位置策略》,国际博弈论,8,2,109-113,(1979)·Zbl 0499.90098
[28] 埃特萨米,K。;奎亚特科夫斯卡,M。;瓦迪,M.Y。;Yannakakis,M.,《马尔可夫决策过程的多目标模型检验》,Log。方法计算。科学。,2008年4月8日1-21日·Zbl 1161.68565
[29] 冯,L。;威尔切,C。;汉弗莱,L。;Topcu,U.,《自治系统人在回路控制协议的综合》,IEEE Trans。自动驾驶。科学。Eng.,13,2450-462,(2016年4月)
[30] 费尔,J。;Vrieze,K.,《竞争马尔可夫决策过程》(1996),Springer
[31] 福雷特,V。;奎亚特科夫斯卡,M。;Parker,D.,概率模型检验的帕累托曲线,(ATVA,LNCS,第7561卷,(2012),Springer),317-332·兹布1374.68285
[32] Geldrie,M.,《组合游戏中的策略组合》(ICALP,LNCS,第7966卷,(2013年),Springer),263-274·Zbl 1335.68120
[33] Ghosh,S。;拉马努贾姆,R。;Simon,S.,并行进行大量形式游戏,(CLIMA,LNCS,vol.6245,(2010),Springer),153-170·Zbl 1286.68413
[34] 吉姆伯特,H。;Horn,F.,求解简单随机尾对策,(SODA,(2010),ACM-SIAM),847-862·Zbl 1288.91020号
[35] 吉姆伯特,H。;Kelmendi,E.,两人完全信息移动不变提交随机对策是半位置的,(2014),arXiv预印本
[36] Horn,F.,《随机游戏》(2008),巴黎7和莱茵理工大学,博士论文
[37] 卡茨,G。;佩雷德,D。;Schewe,S.,通过知识积累综合分布式控制,(CAV,LNCS,第6806卷,(2011),Springer),510-525
[38] Kwiatkowska,M.,《随机博弈的模型检验与策略综合:从理论到实践》,(第43届自动机、语言和编程国际学术讨论会论文集,ICALP 2016,(2016),Schloss-Dagstuhl-Leibniz-Zentrum-fuer-Informatik),4:1-4:18·Zbl 1388.68186
[39] 奎亚特科夫斯卡,M。;诺曼,G。;帕克,D。;Qu,H.,通过多目标模型检查进行组合概率验证,基础计算。,232,38-65,(2013年)·兹布1277.68138
[40] 奎亚特科夫斯卡,M。;Parker,D.,《概率系统的自动验证和策略综合》(ATVA,LNCS,第8172卷,(2013年),Springer),5-22·Zbl 1410.68233
[41] 奎亚特科夫斯卡,M。;帕克,D。;Wiltsche,C.,PRISM games 2.0:随机博弈的多目标策略综合工具,(第22届系统构建与分析工具与算法国际会议(TACAS'16),LNCS,第9636卷,(2016),Springer),560-566
[42] 莱文,D.A。;佩雷斯,Y。;威尔默,E.L.,马尔可夫链和混合时间,(2009),AMS
[43] 麦克德梅德,L。;Isbell,C.L.,求解随机博弈,(NIPS,(2009),Curran Associates,Inc.,1186-1194
[44] 马杜苏丹,P。;Thiagarajan,P.S.,异步分布式控制器的可判定类,(CONCUR,LNCS,卷7454,(2002),Springer),145-160·Zbl 1012.68118号
[45] 莫哈利克,S。;Walukiewicz,I.,分布式游戏,(FSTTCS,LNCS,vol.2914,(2003),Springer),338-351·Zbl 1205.68089
[46] 普内利,A。;Rosner,R.,分布式反应系统难以合成,(FOCS,(1990),IEEE),746-757
[47] 《马尔可夫决策过程:离散随机动态规划》,(2009),威利国际科学出版社
[48] Rabin,Michael O.,概率自动机,信息控制,6,3,230-245,(1963)·Zbl 0182.33602
[49] 兰多尔,M。;拉斯金,J.F。;Sankur,O.,随机最短路径问题的变化,(VMCAI,LNCS,卷8318,(2014),Springer),1-18·Zbl 1432.90155
[50] 兰多尔,M。;拉斯金,J.F。;Sankur,O.,多维马尔可夫决策过程中的百分位查询,(CAV,LNCS,vol.9206,(2015),Springer),123-139·Zbl 1381.68219
[51] 《凸分析》(1997),普林斯顿大学出版社·Zbl 0932.90001
[52] Ross,S.M.,《随机过程》,第2卷,(1996年),John Wiley&Sons纽约
[53] Sankur,O.,《时间自动机的稳健性:分析,综合,实现》,(2013),LSV,ENS Cachan France,Thèse de Doctorata
[54] Segala,R.,随机分布式实时系统的建模与验证,(1995),麻省理工学院,博士论文
[55] Shapley,Lloyd S.,随机游戏,Proc。自然。阿卡德。科学。美国,39,10,1095,(1953年)·Zbl 0051.35805
[56] 新罕布什金。;Shwartz,A.,有竞争决策者的马尔科夫系统的保证性能区域,Autom。对照组,38,1,84-95,(1993年)·Zbl 0779.90080
[57] Simaitis,A.,竞争随机系统的自动验证,(2013),牛津大学博士论文·Zbl 1291.68252
[58] 索科洛娃,A。;de Vink,E.P.,概率自动机:系统类型,并行组合与比较,(VOSS,LNCS,第2925卷,(2004),Springer),1-43·Zbl 1203.68089
[59] 斯沃伦诺夫,Mária;Kwiatkowska,Marta,《随机博弈的定量验证与策略综合》,欧洲控制杂志,30,15-30,(2016),第15届欧洲控制会议,ECC16·Zbl 1347.93240
[60] Velner,Y.,稳健多维平均收益目标的有限记忆策略综合(LICS,(2014),ACM/IEEE),79:1-79:10·Zbl 1401.91035号
[61] 韦尔纳,亚龙;查特吉,克莉什南杜;多恩,劳伦特;亨辛格,托马斯A。;拉比诺维奇,亚历山大·莫舍;拉斯金,让-弗朗索瓦,《多均值支付和多能量博弈的复杂性》,计算机基础。,24177-196,(2015年)·Zbl 1309.68082
[62] 冯·埃森,C。;Jobstmann,B.,合成高效控制器,(VMCAI,LNCS,第7148卷,(2012),Springer),428-444·兹布1326.68190
[63] 《多目标无限时域折现马尔可夫决策过程》,数学。肛门。申请。,892639-647,(1982年)·Zbl 0496.90083
[64] Wiltsche,C.,假设随机博弈的保证策略综合,(2016),牛津大学博士论文
此参考列表基于出版商或数字数学图书馆提供的信息。它的项被试探性地匹配到zbMATH标识符,并且可能包含数据转换错误。它试图尽可能准确地反映原始论文中列出的参考文献,而不要求匹配的完整性或精确性。