×

大型零和博弈的随机抽样。 (英语) Zbl 1319.91012号

摘要:本文讨论了使用随机方法求解大型零和矩阵对策的问题。我们形式化了一个过程,称为抽样安全策略(SSP)算法,通过该算法,玩家可以使用随机方法计算出对抗对手的安全策略,并具有很高的可信度,以探索游戏的可能结果。SSP算法本质上包括求解一个随机采样的子游戏,该子游戏比原始游戏小得多。我们还提出了一种随机算法,称为抽样安全值(SSV)算法,该算法计算给定策略的高置信度安全级别(即最坏情况的结果),这可能是使用SSP算法获得的,也可能不是。对于SSP和SSV算法,我们提供了结果,以确定需要多少样本才能保证所需的置信水平。我们首先提供当两个参与者对具有相同分布的策略进行采样时的结果,然后将这些结果扩展到不匹配分布的情况。我们证明了这些结果在显示指数复杂性的隐藏和搜索游戏中的有用性。

MSC公司:

91A05型 2人游戏
91A60型 概率博弈;赌博
68瓦20 随机算法

软件:

棱镜
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] 阿拉莫,T。;节奏,R。;Camacho,E.F.,不确定可行性和优化问题概率解的随机策略,IEEE自动控制汇刊,54,11,2545-2559(2009)·兹伯利1367.90106
[3] 巴萨,T。;Olsder,G.J.,《动态非合作博弈论》(1999),SIAM:美国宾夕法尼亚州费城SIAM·Zbl 0946.91001号
[4] Bellman,R.,《旅行推销员问题的动态规划处理》,计算机协会期刊,961-63(1962)·兹伯利0106.14102
[9] Browne,C.B。;鲍利,E。;怀特豪斯,D。;Lucas,S.M。;Cowling,P.I。;罗尔夫沙根,P。;Tarede,S。;佩雷斯,D。;萨莫特拉基斯,S。;Colton,S.,《蒙特卡洛树搜索方法调查》,IEEE游戏中计算智能和人工智能交易,4,1,1-43(2012)
[10] Calafiore,G.,关于抽样凸规划中违反约束的预期概率,优化理论与应用杂志,143,2,405-412(2009)·Zbl 1177.90316号
[11] Calafiore,G.,随机凸规划,SIAM优化杂志,20,6,3427-3463(2010)·Zbl 1211.90168号
[12] Calafiore,G.C。;Campi,M.C.,鲁棒控制设计的情景方法,IEEE自动控制汇刊,51,5,742-753(2006)·兹比尔1366.93457
[13] 坎皮,M.C。;Calafiore,G.C.,场景设计方法注释,IEEE自动控制交易,54,2,382-385(2009)·Zbl 1367.93223号
[14] 坎皮,M.C。;Garatti,S.,稳健凸规划随机解的精确可行性,SIAM控制与优化杂志,19,3,1211-1230(2008)·兹比尔1180.90235
[15] 坎皮,M.C。;加拉蒂,S。;Prandini,M.,《系统和控制设计的情景方法》,《控制年度审查》,第33、2、149-157页(2009年)
[16] de Farias,D.P。;Roy,B.V.,《关于近似动态规划的线性规划方法中的约束抽样》,运筹学数学,29,3,462-478(2004)·兹比尔1082.90124
[17] 埃尔多安,E。;Iyengar,G.,《模糊机会约束问题和稳健优化》,《数学规划》,107,1-2,37-61(2006)·Zbl 1134.90028号
[18] Frank,A.,《不完全信息游戏中的暴力搜索》,(《人工智能中的启发式编程2:第二届计算机奥运会》(1989),埃利斯·霍伍德),204-209,(第章)
[19] I·弗兰克。;Basin,D.,《对抗最佳防守的最佳战术:复杂性和启发式》(Herik,H.J.;Iida,H.,《计算机和游戏》,计算机科学讲义,第1558卷(1999),施普林格:施普林格柏林,海德堡),50-73
[23] 安德鲁·辛顿(Andrew Hinton);玛尔塔·奎亚特科夫斯卡;格钦·诺曼;Parker,David,PRISM:概率系统自动验证工具,(Hermanns,Holger;Palsberg,Jens,系统构建和分析的工具和算法。系统构建与分析的工具与算法,计算机科学讲义,第3920卷(2006),Springer:Springer Berlin,Heidelberg), 441-444
[27] Lye,K.-W。;Wing,J.,《网络安全中的游戏策略》,《国际信息安全杂志》,第471-86页(2005年)
[28] Motwani,R。;Raghavan,P.,《随机算法》(1995),剑桥大学出版社·Zbl 0849.68039号
[30] 节奏,R。;Bai,E.W。;Dabbene,F.,概率稳健性分析:最小样本数的显式界,《系统与控制快报》,30,5,237-242(1997)·Zbl 0901.93017号
[31] 节奏,R。;Calafiore,G。;Dabbene,F.,不确定系统分析和控制的随机算法(2004),Springer-Verlag:Springer-Verlag London
[32] Vapnik,V.,《统计学习理论》(1998),约翰·威利:约翰·威利纽约·兹比尔0935.62007
[33] Vidyasagar,M.,控制的统计学习理论和随机算法,IEEE控制系统杂志,18,6,69-85(1998)
[34] 维迪亚萨加,M。;Blondel,V.D.,一些NP-hard矩阵问题的概率解,Automatica,37,9,1397-1405(2001)·Zbl 1031.93165号
[35] 冯·诺依曼,J.,《数学年鉴》,100295-320(1928)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。