文件Zbl 1458.68189-zbMATH Open

使用PRISM-games验证自学游戏的游戏策略。（英语） Zbl 1458.68189号

Vasant，Pandian（编辑）等人，《智能计算与优化》。2019年第二届智能计算与优化国际会议（ICO 2019）会议记录，2019年10月3日至4日，泰国苏梅岛。查姆：斯普林格。高级智能。系统。计算。1072, 148-159 (2020).

摘要：强化学习（RL）在计算机科学中获得了巨大的普及；应用于游戏、智能机器人、遥感等领域。强化学习的目标是生成最优策略。该最优策略的主要问题是，它不能完全保证满足所有系统规范。模型检查是一种验证系统是否符合系统规范的技术。PRISM-games是用于验证具有竞争或协作行为的概率系统的模型检查工具之一。通过屏蔽进行安全强化学习是一种使用屏蔽来限制RL代理的行为的方法，如果RL代理违反了使用时序逻辑的规范。本文比较了三个代理人的获胜策略；蒙特卡罗树搜索代理（MCTS）、RL代理和屏蔽RL代理（SRL）使用PRISM-games来限制基于Tic-Tac-Toe游戏的动作。经过上千次的仿真，实验表明，MCTS代理相对于其他代理具有最高的获胜率，但使用PRISM-games可以降低屏蔽代理的失败率。
有关整个系列，请参见[Zbl 1429.68009号].

MSC公司：

68T05型	人工智能中的学习和自适应系统
60年第68季度	规范和验证（程序逻辑、模型检查等）
91A26型	博弈论中的理性与学习
91A80型	博弈论的应用

关键词：

强化学习;蒙特卡罗树搜索;模型检查;PRISM-游戏

软件：

棱镜;PRISM-游戏

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Alhiekh，M.、Bloem，R.、Ehlers，R.、Kὄnighfer，B.，Niekum，S.，Topcu，U.：通过屏蔽进行安全强化学习。在：第三十二届AAAI人工智能大会（2018）
[2]	Chen，P.、Doan，J.、Xu，E.：终极Tic-Tac-Toe的人工智能代理，2018年12月30日
[3]	Kwiatkowska，M.，Norman，G.，Parker，D.：PRISM:4.0：概率实时系统验证。参加：第23届计算机辅助验证国际会议（2011年）
[4]	Chen，T.，Forejt，V.，Kwiakowskam，M.，Parker，D.，Simaitis，A.：PRISM-games:随机多人游戏的模型检查器。In:第19届国际系统构建和分析工具和算法会议（2013年）·Zbl 1381.68151号
[5]	Ahantab，A.，Filip，R.：基于RL方法的形式验证
[6]	Baier，H.，Winands，M.H.M.：Monte-Carlo树搜索和minimax杂交
[7]	Jamieson，K.：第19讲：蒙特卡洛树搜索。CSE599i：在线和自适应机器学习，冬季（2018）
[8]	Mason，G.，Calinescu，R.，Kudenko，D.，Banks，A.：使用正式验证的抽象策略进行有保证的强化学习。参加：第九届代理与人工智能国际会议（ICAART）（2017年）
[9]	Mason，G.，Calinescu，R.，Banks，A.：安全关键应用的有保障强化学习。参加：第十届代理与人工智能国际会议（ICAART）（2017年）
[10]	Kwiatkowska，M.，Parker，D.，Wiltsche，C.：PRISM-游戏：具有多个目标的随机多层游戏的验证和策略合成。国际期刊软件。技术工具。Transf公司。20, 195-210 (2018) ·文件编号：10.1007/s10009-017-0476-z
[11]	Basset，N.，Kwiatkowska，M.，Wiltsche，C.：多目标随机博弈的组合策略综合·Zbl 1395.68265号
[12]	Amrani，M.，Lucio，L.，Bibal，A.：机器学习在形式验证中的应用调查
[13]	PRISM网站。www.prismmodelchecker.org/

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

使用PRISM-games验证自学游戏的游戏策略。（英语） Zbl 1458.68189号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

使用PRISM-games验证自学游戏的游戏策略。 （英语） Zbl 1458.68189号

MSC公司：

关键词：

软件：

参考文献：

使用PRISM-games验证自学游戏的游戏策略。（英语） Zbl 1458.68189号