×

使用PRISM-games验证自学游戏的游戏策略。 (英语) Zbl 1458.68189号

Vasant,Pandian(编辑)等人,《智能计算与优化》。2019年第二届智能计算与优化国际会议(ICO 2019)会议记录,2019年10月3日至4日,泰国苏梅岛。查姆:斯普林格。高级智能。系统。计算。1072, 148-159 (2020).
摘要:强化学习(RL)在计算机科学中获得了巨大的普及;应用于游戏、智能机器人、遥感等领域。强化学习的目标是生成最优策略。该最优策略的主要问题是,它不能完全保证满足所有系统规范。模型检查是一种验证系统是否符合系统规范的技术。PRISM-games是用于验证具有竞争或协作行为的概率系统的模型检查工具之一。通过屏蔽进行安全强化学习是一种使用屏蔽来限制RL代理的行为的方法,如果RL代理违反了使用时序逻辑的规范。本文比较了三个代理人的获胜策略;蒙特卡罗树搜索代理(MCTS)、RL代理和屏蔽RL代理(SRL)使用PRISM-games来限制基于Tic-Tac-Toe游戏的动作。经过上千次的仿真,实验表明,MCTS代理相对于其他代理具有最高的获胜率,但使用PRISM-games可以降低屏蔽代理的失败率。
有关整个系列,请参见[Zbl 1429.68009号].

MSC公司:

68T05型 人工智能中的学习和自适应系统
60年第68季度 规范和验证(程序逻辑、模型检查等)
91A26型 博弈论中的理性与学习
91A80型 博弈论的应用
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alhiekh,M.、Bloem,R.、Ehlers,R.、Knighfer,B.,Niekum,S.,Topcu,U.:通过屏蔽进行安全强化学习。在:第三十二届AAAI人工智能大会(2018)
[2] Chen,P.、Doan,J.、Xu,E.:终极Tic-Tac-Toe的人工智能代理,2018年12月30日
[3] Kwiatkowska,M.,Norman,G.,Parker,D.:PRISM:4.0:概率实时系统验证。参加:第23届计算机辅助验证国际会议(2011年)
[4] Chen,T.,Forejt,V.,Kwiakowskam,M.,Parker,D.,Simaitis,A.:PRISM-games:随机多人游戏的模型检查器。In:第19届国际系统构建和分析工具和算法会议(2013年)·Zbl 1381.68151号
[5] Ahantab,A.,Filip,R.:基于RL方法的形式验证
[6] Baier,H.,Winands,M.H.M.:Monte-Carlo树搜索和minimax杂交
[7] Jamieson,K.:第19讲:蒙特卡洛树搜索。CSE599i:在线和自适应机器学习,冬季(2018)
[8] Mason,G.,Calinescu,R.,Kudenko,D.,Banks,A.:使用正式验证的抽象策略进行有保证的强化学习。参加:第九届代理与人工智能国际会议(ICAART)(2017年)
[9] Mason,G.,Calinescu,R.,Banks,A.:安全关键应用的有保障强化学习。参加:第十届代理与人工智能国际会议(ICAART)(2017年)
[10] Kwiatkowska,M.,Parker,D.,Wiltsche,C.:PRISM-游戏:具有多个目标的随机多层游戏的验证和策略合成。国际期刊软件。技术工具。Transf公司。20, 195-210 (2018) ·文件编号:10.1007/s10009-017-0476-z
[11] Basset,N.,Kwiatkowska,M.,Wiltsche,C.:多目标随机博弈的组合策略综合·Zbl 1395.68265号
[12] Amrani,M.,Lucio,L.,Bibal,A.:机器学习在形式验证中的应用调查
[13] PRISM网站。www.prismmodelchecker.org/
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。