×

不完全信息游戏中的有限前瞻性。 (英语) Zbl 1437.91067号

总结:几十年来,人们一直在研究完美信息游戏中的有限前瞻性。我们通过两个同时的偏离点来启动一个新的方向:对不完全信息游戏的推广和游戏理论方法。我们研究当面对前方视野有限的对手时应该如何行动。我们针对那些根据前瞻深度、是否也有不完美信息以及如何打破僵局而有所不同的对手进行了研究。我们描述了为任何一方寻找纳什均衡或最优承诺策略的难度,表明在其中一些变量中,问题可以在多项式时间内解决,而在其他变量中,它是PPAD-hard、NP-hard或不可逼近的。我们继续设计计算最优承诺策略的算法——当对手根据固定规则有利或敌对地打破平局时。然后,我们通过实验研究了有限前瞻的影响。如果有限前瞻玩家知道游戏树中节点的期望值以达到某种平衡,那么她通常会获得游戏的价值,但我们证明这通常是不够的。最后,我们研究了噪声在这些估计和不同的前瞻深度中的影响。

MSC公司:

91A18号 广泛形式的游戏
91A68型 算法博弈论与复杂性
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Berliner,H.,《搜索与知识》(《国际人工智能联合会议论文集》,国际人工智能联席会议论文集,IJCAI 77(1977)),975-979
[2] Bouzy,B。;Cazenave,T.,《计算机go:一项面向人工智能的调查》,Artif。智力。,132, 1, 39-103 (2001) ·Zbl 0983.68152号
[3] Brown,N。;甘兹弗里德,S。;Sandholm,T.,《分层抽象、分布式平衡计算和后处理,及其在无限制Texas Hold'em代理中的应用》(自治代理和多代理系统国际会议,自治代理和多重代理系统国际大会,AAMAS(2015))
[4] Brown,N。;Sandholm,T.,不完全信息游戏的安全和嵌套子游戏求解,(神经信息处理系统年度会议论文集。神经信息处理体系年度会议论文集中,NIPS(2017)),689-699
[5] Brown,N。;Sandholm,T.,多人扑克的超人AI,《科学》,365,6456,885-890(2019)·Zbl 1433.68316号
[6] Brown,N。;桑德霍姆,T。;Amos,B.,不完全信息游戏的深度有限解算,(神经信息处理系统进展(2018)),7663-7674
[7] Carmel,D。;Markovitch,S.,将对手模型纳入对手搜索,(AAAI/IAAI,第1卷(1996)),120-125
[8] Chen,K。;Bowling,M.,稳健政策优化的可追踪目标,(神经信息处理系统年度会议记录。神经信息处理体系年度会议记录,NIPS(2012))
[9] 陈,X。;邓,X。;Teng,S.-H.,解决计算双层纳什均衡的复杂性,J.ACM(2009)·Zbl 1325.68095号
[10] 科尼策,V。;Sandholm,T.,《计算承诺的最佳战略》,(《ACM电子商务会议论文集》,ACM电子商业会议论文集,ACM-EC,密歇根州安阿伯(2006))
[11] I·弗兰克。;Basin,D.,《不完全信息游戏中的搜索:使用桥牌游戏的案例研究》,Artif。智力。,100, 1-2, 87-123 (1998) ·Zbl 0906.68049号
[12] 甘兹弗里德,S。;Sandholm,T.,《不完全信息游戏中基于推土机距离的潜在感知不完全-再调用抽象》(AAAI人工智能会议,AAAI(2014))
[13] Hástad,J.,《一些最佳不可逼近性结果》,J.ACM,48,4,798-859(2001)·Zbl 1127.68405号
[14] Hoda,S。;Gilpin,A。;佩尼亚,J。;Sandholm,T.,计算序列博弈纳什均衡的平滑技术,数学。操作。决议,35,2(2010年)·Zbl 1232.91042号
[15] Jansen,P.,《有问题的立场和投机游戏》,(计算机、国际象棋和认知(1990),施普林格出版社),169-181
[16] Johanson,M。;Waugh,K。;保龄球,M。;Zinkevich,M.,《在大规模游戏中加速最佳响应计算》,(国际人工智能联合会议论文集。国际人工智能联合会议论文集,IJCAI(2011))
[17] 科勒,D。;梅吉多,N.,《广泛形式的两人零和游戏的复杂性》,《游戏经济》。行为。,4528-552(1992年10月)·Zbl 0758.90084号
[18] 科勒,D。;梅吉多,N。;von Stengel,B.,广泛的两人博弈均衡的有效计算,博弈经济学。行为。,14, 2 (1996) ·Zbl 0859.90127号
[19] Korf,R.,实时启发式搜索,Artif。智力。,42、2-3、189-211(1990年3月)·Zbl 0718.68082号
[20] Korf,R.E.,《广义博弈树》(IJCAI(1989)),第328-333页·Zbl 0707.68083号
[21] Kroer,C。;Farina,G。;Sandholm,T.,《扩展形式游戏中的鲁棒Stackelberg均衡与有限前瞻的扩展》(AAAI人工智能会议,AAAI人造智能会议,2018)
[22] Kroer,C。;Sandholm,T.,指导免疫系统适应的顺序规划,(国际人工智能联合会议论文集。国际人工智能联席会议论文集,IJCAI(2016))
[23] Kroer,C。;Sandholm,T.,《带边界的扩展形式游戏抽象的统一框架》(神经信息处理系统年度会议论文集。神经信息处理体系年度会议论文集中,NeurIPS(2018))
[24] Kuhn,H.W.,简化的两人扑克,(Kuhn和H.W.Tucker,A.W.,《对游戏理论的贡献》,第1卷。《对游戏理论的贡献》,第一卷,《数学研究年鉴》,第24卷(1950年),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿),97-103·Zbl 0041.25601号
[25] Lanctot,M。;吉布森,R。;伯奇,N。;Zinkevich,M。;Bowling,M.,《回忆不完全的扩展形式游戏中的无回报学习》(机器学习国际会议,机器学习国际大会,ICML(2012))
[26] Lanctot,M。;Waugh,K。;Zinkevich,M。;Bowling,M.,Monte Carlo抽样在广泛游戏中最小化后悔,(神经信息处理系统年度会议论文集。神经信息处理体系年度会议论文集中,NIPS(2009))
[27] Letchford,J。;Conitzer,V.,《计算在扩展形式游戏中承诺的最佳策略》,(《ACM电子商务会议论文集》,《ACM关于电子商务会议文献集》,EC(2010))
[28] Mirrokni,V.公司。;塞恩,N。;Vetta,A.,《实用游戏的理论检验:前瞻搜索》(Algorithmic game Theory(2012),Springer),251-262·兹比尔1284.91025
[29] 莫拉维克,M。;施密德,M。;伯奇,北。;Lis公司ỳ, 五、。;莫里尔,D。;巴德,N。;Davis,T。;Waugh,K。;Johanson,M。;Bowling,M.,《Deepstack:头戴式无限制扑克中的专家级人工智能》,《科学》,3566337508-513(2017)·Zbl 1403.68202号
[30] Nau,D.S.,《游戏树上的病理学》重访,以及最小化的替代品Artif。智力。,21, 1, 221-244 (1983) ·Zbl 0507.68064号
[31] Nau,D.S。;卢斯特雷克,M。;A.帕克。;I.布拉特科。;Gams,M.,什么时候不向前看更好?,Artif公司。智力。,174, 16, 1323-1338 (2010) ·Zbl 1237.91047号
[32] Pearl,J.,《启发式搜索理论:近期结果调查》(IJCAI,第1卷(1981)),554-562
[33] Pearl,J.,《游戏搜索中的病理学本质》,Artif。智力。,20, 4, 427-453 (1983) ·Zbl 0509.68105号
[34] Ramanujan,R。;Sabharwal,A。;Selman,B.,《关于对抗性搜索空间和基于抽样的规划》(ICAPS,第10卷(2010)),242-245
[35] Ramanujan,R。;Selman,B.,《基于抽样的对抗性规划中的权衡》(ICAPS(2011)),202-209年
[36] Romanovskii,I.,将具有完全记忆的游戏简化为矩阵游戏,Sov。数学。,3 (1962)
[37] Sandholm,T.,《通过连续游戏进行医疗规划》(美国临时专利申请(2012))
[38] Sandholm,T.,解决大型不完全信息游戏的抽象,(AAAI人工智能会议,AAAI,高级会员跟踪(2015))
[39] Sandholm,T.,《战略性地指导进化:治疗规划、药物设计和合成生物学的计算博弈论和对手利用》(AAAI人工智能会议,AAAI,高级会员跟踪(2015))
[40] von Stengel,B.,行为策略的有效计算,《游戏经济》。行为。,14220-246(1996年)·Zbl 0867.90131号
[41] 尹,Z。;蒋,A。;Tambe,M。;基特金特维尔德,C。;莱顿-布朗,K。;桑德霍姆,T。;Sullivan,J.,TRUSTS:为公交系统的票价检查安排随机巡逻,(人工智能的创新应用,IAAI,会议(2012))
[42] Zinkevich,M。;保龄球,M。;约翰森,M。;Piccione,C.,《不完全信息博弈中的后悔最小化》(神经信息处理系统年度会议论文集,神经信息处理体系年度会议论文集中,NIPS(2007))
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。