×

实时战略游戏中用于规划的非对称动作抽象。 (英语) Zbl 1502.68277号

摘要:动作抽象限制了零和扩展形式游戏中可用于实时规划的合法动作的数量,从而允许算法将搜索重点放在一组有希望的动作上。尽管未抽象的游戏树可以导致最优策略,但由于实时限制和树大小,它们不是一个实际的选择。在此背景下,我们引入了一种动作抽象方案,我们称之为非对称动作抽象。非对称抽象允许搜索算法通过在游戏的不同方面不均衡地分配算法的搜索努力来“更加关注”游戏的某些方面。我们还介绍了四种在不对称抽象的博弈树中搜索的算法,以评估我们的抽象方案的有效性。我们的两个算法是为在行为抽象空间中搜索而开发的算法的改编,即投资组合贪婪搜索和分层策略选择,另外两个算法则是为在非抽象空间中进行搜索而开发算法的改编NaiveMCTS。实时策略游戏中的一组广泛实验表明,使用非对称抽象的搜索算法能够优于所有其他测试的搜索算法。

MSC公司:

68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
91A18号 广泛形式的游戏

关键词:

搜索;玩游戏;规划

软件:

天秤座
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Atkin,L.和Slate,D.(1988)。电脑国际象棋简编。。第4.5章国际象棋——西北大学国际象棋项目,第80-103页。斯普林格·弗拉格,柏林,海德堡。
[2] Balla,R.-K.和Fern,A.(2009年)。实时战略游戏中战术攻击规划的UCT。《国际人工智能联合会议记录》,第40-45页。
[3] Barriga,N.A.、Stanescu,M.和Buro,M.(2017)。在实时战略游戏中结合战略学习和战术搜索。《AAAI人工智能和交互式数字娱乐会议论文集》,第9-15页。AAAI出版社。
[4] Barriga,N.A.、Stanescu,M.和Buro,M.(2018年)。实时战略游戏中基于非确定性动作脚本的游戏树搜索。IEEE游戏交易,10,69-77。
[5] Billings,D.、Burch,N.、Davidson,A.、Holte,R.、Schaeffer,J.、Schauenberg,T.和Szafron,D.(2003)。全尺寸扑克的近似游戏理论最优策略。《国际人工智能联合会议论文集》,第661-668页,美国加利福尼亚州旧金山,摩根考夫曼出版社。
[6] Bosansk´y,B.、Lis´y、V.、Lanctot,M.、Cerm´ak,J.和Winands,M.H.M.(2016)。两层同时移动游戏中计算策略的算法。人工智能,237,1-40·Zbl 1357.68203号
[7] Brown,N.和Sandholm,T.(2018年)。超人ai为头戴式无限制扑克:天秤座击败顶级专业人士。《科学》,359(6374),418-424·Zbl 1415.68163号
[8] Campbell,M.、Hoane,A.和Hsu,F.(2002)。深蓝色。人工智能,134(1),57-83·Zbl 0982.68122号
[9] Chung,M.、Buro,M.和Schaeffer,J.(2005)。RTS游戏中的蒙特卡洛规划。IEEE计算智能与游戏研讨会论文集。
[10] Churchill,D.和Buro,M.(2013)。《星际争霸》中大规模战斗的投资组合贪婪搜索和模拟。。《游戏中的计算智能会议记录》,第1-8页。电气与电子工程师协会。
[11] Churchill,D.和Buro,M.(2015)。分级组合搜索:Prismata强大的AI架构,适用于搜索空间较大的游戏。InAAAI人工智能和交互式数字娱乐会议,第16-22页。
[12] Churchill,D.、Saffidine,A.和Buro,M.(2012年)。RTS游戏战斗场景的快速启发式搜索。。美国人工智能学会人工智能和交互式数字娱乐会议论文集。
[13] Hawkin,J.A.、Holte,R.和Szafron,D.(2011年)。不完全信息扩展形式游戏的自动动作抽象。《AAAI人工智能会议记录》,第681-687页。
[14] Hawkin,J.A.、Holte,R.和Szafron,D.(2012年)。在形式广泛的游戏中使用滑动窗口生成动作抽象。美国人工智能学会人工智能会议论文集。AAAI出版社。
[15] Helmert,M.(2006)。快速向下规划系统。《人工智能研究杂志》,26(1),191-246·Zbl 1182.68245号
[16] Hoffmann,J.和Nebel,B.(2001年)。ff计划系统:通过启发式搜索快速生成计划。《人工智能研究杂志》,14(1),253-302·Zbl 0970.68044号
[17] Justesen,N.、Tillman,B.、Togelius,J.和Risi,S.(2014)。星际争霸基于脚本和集群的UCT。IEEE计算智能与游戏会议,第1-8页。
[18] Knuth,D.E.和Moore,R.W.(1975年)。α-β修剪分析。人工智能,6(4),293-326·Zbl 0358.68143号
[19] Kocsis,L.和Szepesv´ari,C.(2006年)。基于Bandit的蒙特卡洛规划。《欧洲机器学习会议记录》,第282-293页。斯普林格·弗拉格。
[20] Kovarsky,A.和Buro,M.(2005)。启发式搜索应用于抽象战斗游戏。《人工智能进展:加拿大智能计算研究学会会议》,第66-78页。斯普林格·Zbl 1121.68410号
[21] Lelis,L.H.S.(2017)。实时策略游戏中单元控制的分层策略选择。国际人工智能联合会议,第3735-3741页。
[22] Lelis,L.H.S.(2020年)。具有指数动作空间的零和游戏的规划算法:统一的观点。在国际人工智能联合会议上。
[23] Liu,S.、Louis,S.J.和Ballinger,C.A.(2016)。在实时战略游戏中进化出有效的微生物行为。IEEE游戏中的计算智能和AI汇刊,8(4),351-362。
[24] Moraes,R.O.和Lelis,L.H.S.(2018)。对抗实时场景中多单元控制的非对称动作抽象。《第三十二届AAAI人工智能会议论文集》,第876-883页。AAAI公司。
[25] Moraes,R.O.、Mari~no、J.R.H.、Lelis、L.H.S.和Nascimento,M.A.(2018a)。组合多臂盗贼树搜索的动作抽象。《AAAI人工智能和交互式数字娱乐会议论文集》,第74-80页。AAAI公司。
[26] Moraes,R.O.,Mariáno,J.R.H.,&Lelis,L.H.S.(2018b)。对抗性实时游戏的嵌套自由搜索。《AAAI人工智能和交互式数字娱乐会议论文集》,第67-73页。
[27] Ontaán´on,S.(2013)。组合多臂盗贼问题及其在实时战略游戏中的应用。《AAAI人工智能和交互式数字娱乐会议论文集》,第58-64页。
[28] Ontaán´on,S.和Buro,M.(2015)。复杂实时游戏的对抗性分层任务网络规划。《国际人工智能联合会议记录》,第1652-1658页。
[29] Ontaán´on,S.(2017)。实时战略游戏中的组合多武器强盗。《人工智能研究杂志》,58665-702·Zbl 1422.91160号
[30] Ontaán´on,S.、Barriga,n.A.、Silva,C.R.、Moraes,R.O.和Lelis,L.H.(2018)。第一届microrts人工智能竞赛。。AI杂志,39(1)。
[31] Richter,S.和Helmert,M.(2009年)。满意规划中的首选操作员和延迟评估。《国际自动规划和调度会议记录》,19(1),273-280。
[32] Sailer,F.、Buro,M.和Lanctot,M.(2007年)。通过战略模拟进行对抗计划。IEEE计算智能与游戏研讨会论文集,第80-87页。
[33] Sandholm,T.和Singh,S.(2012年)。有界的有损随机博弈抽象。《ACM电子商务会议记录》,第880-897页。计算机协会。
[34] Silva,C.R.、Moraes,R.O.、Lelis,L.H.S.和Gal,K.(2019年)。通过投票为多单元实时游戏生成策略。IEEE游戏交易,11(4),426-435。
[35] Stanescu,M.、Barriga,N.A.、Hess,A.和Buro,M.(2016)。使用卷积神经网络评估实时策略游戏状态。InComputation Intelligence and Games(CIG),2016年IEEE会议,第1-7页。电气与电子工程师协会。
[36] Usunier,N.、Synnaeve,G.、Lin,Z.和Chintala,S.(2016)。深度确定性策略的情景探索:星际争霸微观管理任务的应用。CoRR,abs/1609.02993。
[37] Vinyals,O.,Babuschkin,I.,Czarnecki,W.M.,Mathieu,M.,Dudzik,A.,Chung,J.,Choi,D.H.,Powell,R.,Ewalds,T.,Georgiev,P.,Oh,J.,Horgan,D.,Kroiss,M.,Danihelka,I.,Huang,A.,Sifre,L.,Cai,T.,Agapiou,J.P.,Jaderberg,M.,…和Silver,D.(2019年)。《星际争霸2》大师级使用多智能体强化学习。《自然》,575(7782),350-354。
[38] Wang,C.,Chen,P.,Li,Y.,Holmg˚ard,C.,&Togelius,J.(2016)。《星际争霸》中的组合在线进化。《人工智能和交互式数字娱乐会议记录》,第114-120页。
[39] Yang,Z.和Ontaán´on,S.(2019年)。实时策略游戏中通过脚本指导蒙特卡洛树搜索。《人工智能和交互式数字娱乐会议记录》,第100-107页。
[40] Zobrist,A.L.(1990)。一种新的散列方法及其在游戏中的应用。ICGA杂志,13,69-73
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。