×

无遗憾的反应合成。 (英语) Zbl 1364.68263号

学报信息。 54,第1期,3-39页(2017年); 更正同上,第59号,第5671(2022)。
摘要:在验证过程中,使用了无限持续时间的两人零和游戏及其定量版本来模拟控制器(夏娃)与其环境(亚当)之间的交互作用。通常要解决的问题是夏娃的策略是否存在(以及可计算性),相对于亚当的任何策略,夏娃都能获得最大回报。在这部作品中,我们对夏娃的策略感兴趣,这些策略可以最大限度地减少她的后悔,也就是说,这些策略能够最大限度地减小她实际获得的回报与如果她事先知道亚当的策略,她本可以获得的回报之间的差异。我们给出了计算Eve策略的算法,以确保对策略选择(1)不受限制、(2)仅限于位置策略或(3)仅限于单词策略的对手的遗憾最小,并表明最后两种情况具有自然建模应用。这些结果适用于用经典支付函数(mathsf{Inf})、(mathsf{Sup})和({mathsf}LimInf}})定义的定量博弈。我们还表明,我们的悔恨最小化概念(其中Adam仅限于单词策略)概括了T.A.亨廷格N.皮特曼[《计算科学》第4207、395–410页(2006年;Zbl 1225.68118号)],与通过修剪来确定的概念有关,因为[B.氨基等,ACM事务。算法6,第2期,论文7,36页(2010;Zbl 1300.68071号)].

MSC公司:

第68季度第60季度 规范和验证(程序逻辑、模型检查等)
第68季度85 并发和分布式计算的模型和方法(进程代数、互模拟、转换网等)
68兰特 计算机科学中的图论(包括图形绘制)
91A43型 涉及图形的游戏
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Aminof,B.,Kupferman,O.,Lampert,R.:用加权自动机推理在线算法。ACM算法汇刊(2010)·Zbl 1300.68071号
[2] 阿米诺夫,B.,鲁宾,S.:第一轮自行车比赛。收录于:SR,第83-90页(2014年)·Zbl 1371.91019号
[3] Bell,D.E.:对不确定性下的决策感到后悔。操作。第30(5)号决议,961-981(1982)·Zbl 0491.90004号 ·doi:10.1287/opre.30.5.961
[4] Bloem,R.、Chatterjee,K.、Greimel,K.,Henzinger,T.A.、Hofferek,G.、Jobstmann,B.、Könighfer,B.、Khnighofer,R.:综合鲁棒系统。《信息学报》51(3-4),193-220(2014)·Zbl 1302.93079号 ·doi:10.1007/s00236-013-0191-5
[5] Boker,U.,Henzinger,TA:折扣和自动机的精确和近似确定。LMCS 10(1)(2014)。doi:10.2168/LMCS-10(1:10)2014年·兹比尔1325.68126
[6] Brim,L.、Chaloupka,J.、Doyen,L.,Gentilini,R.、Raskin,J.-F.:均值对均值游戏的更快算法。形式方法系统。设计。38(2), 97-118 (2011) ·兹比尔1213.68430 ·文件编号:10.1007/s10703-010-0105-x
[7] Chakrabarti,A.、de Alfaro,L.、Henzinger,T.A.、Stoelinga,M.:资源接口。收录于:EMSOFT,LNCS第2855卷,第117-133页。斯普林格(2003)
[8] Chatterjee,K.,Doyen,L.,Filiot,E.,Raskin,JF.:欧米伽规则游戏的末日均衡。收录于:VMCAI,第8318卷,第78-97页。斯普林格(2014)·兹比尔1428.68181
[9] Chatterjee,K.、Doyen,L.、Henzinger,TA:定量语言。ACM计算逻辑学报11(4),1-38(2010)·Zbl 1351.68155号
[10] Chatterjee,K.,Doyen,L.,Henzinger,T.A.,Raskin,J.-F.:广义平均值与能量博弈。收录于:FSTTCS,第505-516页(2010年)·Zbl 1245.68090号
[11] Damm,W.,Finkbeiner,B.:扩展世界模型的周长值得吗?收录于:FM,LNCS第6664卷,第12-26页。施普林格(2011)·Zbl 1278.91039号
[12] Degorre,A.,Doyen,L.,Gentilini,R.,Raskin,J.-F.,Toruñczyk,S.:不完全信息下的能量和平均支付游戏。收录于:CSL,第260-274页(2010年)·Zbl 1287.91028号
[13] Dziembowski,S.,Jurdziánski,M.,Walukiewicz,I.:赢得无限比赛需要多少内存?收录于:IEEE计算机学会LICS,第99-110页(1997)·Zbl 0871.68138号
[14] Ehrenfeucht,A.,Mycielski,J.:平均回报游戏的位置策略。《国际博弈论杂志》8,109-113(1979)·Zbl 0499.90098号 ·doi:10.1007/BF01768705
[15] Eilam-Tzoreff,T.:不相交最短路径问题。离散应用程序。数学。85(2), 113-138 (1998) ·Zbl 0902.68147号 ·doi:10.1016/S0166-218X(97)00121-2
[16] Filiot,E.,Le Gall,T.,Raskin,J.-F.:游戏图中的重复后悔最小化。在:《加拿大医学会杂志》,《加拿大医学会杂志》第6281卷,第342-354页。施普林格(2010)·Zbl 1287.91029号
[17] Garey,M.R.,Johnson,D.S.:《计算机与难治性:NP-完备性理论指南》。W.H.Freeman and Company,纽约(1979)·Zbl 0411.68039号
[18] Halpern,J.Y.,Pass,R.:重复后悔最小化:一种新的解决方案概念。游戏经济。贝哈夫。74(1), 184-207 (2012) ·兹比尔1278.91039 ·doi:10.1016/j.geb.2011.05.012
[19] Henzinger,T.A.,Piterman,N.:在不确定的情况下解决游戏。CSL,第395-410页(2006年)·Zbl 1225.68118号
[20] Hunter,P.,Pérez G.A.,Raskin,J.-F.:带有部分观察的Mean-payoff博弈(扩展抽象)。In:可达性问题,第163-175页(2014年)·兹比尔1393.68106
[21] Jurdziánski,M.:在平价游戏中决定胜利者是在\[{\sf UP}\cup{\sf coUP}\]UPкcoUP中。IPL 68(3),119-124(1998)·Zbl 1338.68109号 ·doi:10.1016/S0020-0190(98)00150-1
[22] Jurdzinski,M.,Sproston,J.,Laroussinie,F.:用一个或两个时钟对概率时间自动机进行模型检查。LMCS 4(3)(2008)。doi:10.2168/LMCS-4(3:12)2008年·Zbl 1147.68574号
[23] Papadimitriou,C.H.,Yannakakis,M.:没有地图的最短路径。TCS 84(1),127-150(1991)·Zbl 0733.68065号 ·doi:10.1016/0304-3975(91)90263-2
[24] Piterman,N.:从非确定性Büchi和Streett自动机到确定性奇偶自动机。LMCS 3(3)(2007)。doi:10.2168/LMCS-3(3:5)2007年·Zbl 1125.68067号
[25] Piterman,N.,Pnueli,A.:拉宾和斯特雷特游戏的更快解决方案。收录于:LICS,第275-284页(2006年)
[26] Pnueli,A.,Rosner,R.:关于反应模的合成。收录于:POPL,第179-190页。ACM出版社(1989)·Zbl 0686.68015号
[27] Wen,M.,Ehlers,R.,Topcu,U.:具有时间逻辑约束的正确综合强化学习。In:IROS的IEEE,第4983-4990页(2015)·Zbl 1213.68430号
[28] Zinkevich,M.,Johanson,M.、Bowling,M.和Piccione,C.:信息不完整游戏中的后悔最小化。收录于:NIPS,第905-912页(2008年)
[29] Zwick,U.,Paterson,M.:图上平均收益博弈的复杂性。TCS 158(1),343-359(1996)·Zbl 0871.68138号 ·doi:10.1016/0304-3975(95)00188-3
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。