第条

备用Good-for-MDP自动机

作者：
恩斯特·莫里茨·哈恩

荷兰恩舍德特温特大学

荷兰恩舍德特温特大学

http://orcid.org/0000-0002-9348-7684
查看个人资料

,
马特奥·佩雷斯

美国科罗拉多大学博尔德分校

美国科罗拉多大学博尔德分校

http://orcid.org/0000-0003-4220-3212
查看个人资料

,
斯文·舍韦

英国利物浦大学

英国利物浦大学

http://orcid.org/0000-0002-9093-9518
查看个人资料

,
法比奥·萨蒙齐

美国科罗拉多大学博尔德分校

美国科罗拉多大学博尔德分校

http://orcid.org/0000-0002-2003年
查看个人资料

,
阿什图什·特里维迪

美国科罗拉多大学博尔德分校

美国科罗拉多大学博尔德分校

http://orcid.org/0000-0001-9346-0126
查看个人资料

,
多米尼克·沃伊特扎克

英国利物浦大学

英国利物浦大学

http://orcid.org/0000-0001-5560-0546
查看个人资料

作者信息和声明

自动化验证和分析技术：第20届国际研讨会，ATVA 2022，虚拟活动，2022年10月25日至28日，会议记录2022年10月第303–319页https://doi.org/10.1007/978-3-031-19992-9_19

出版：2022年10月25日出版历史

验证和分析自动化技术：第20届国际研讨会，ATVA 2022，虚拟活动，2022年10月25日至28日，会议记录

第303–319页

摘要

当在无模型强化学习（RL）中首次提出欧米伽规则目标以控制MDP时，使用确定性拉宾自动机试图提供从其转换到标量值的直接转换。虽然这些翻译失败了，但事实证明，可以使用goodfor-MDP（GFM）Büchi自动机来修复它们。这些是非确定性的Büchi自动机，具有受限类型的非确定性，尽管不像在好对偶自动机中那样受限。事实上，确定性拉宾自动机可以很直接地转换为GFM自动机，它在状态和对的数量上是双线性的。有趣的是，对于确定性Streett自动机来说，情况并非如此：即使不要求目标自动机对MDP有利，对非确定性Rabin或Büchi自动机的转换也要付出指数代价。我们需要支付更多的费用才能获得一台性能良好的MDP机器人吗？令人惊讶的答案是，当我们将good-for-MDPs属性扩展为交替自动机时，我们需要付出的代价要少得多：就像从确定性Rabin自动机获得的非确定性GFM自动机一样，我们从确定性Streett自动机生成的交替好的MDP自动机在确定性自动机的大小及其索引方面是双线性的。因此，它们可以比最小非确定性Büchi自动机更加简洁。

工具书类

1de Alfaro，L.：概率系统的形式验证。斯坦福大学博士论文（1998年）谷歌学者
2拜尔C卡托恩JP模型检查原理2008剑桥麻省理工学院出版社1179.68076谷歌学者数字图书馆
三。布隆·RJobstmann B公司皮特曼N普努利A萨尔Y反应性（1）设计的合成J.计算。系统。科学。201278三91193829000402016年10月10日/j.jcss.2011.08.0071247.68050谷歌学者数字图书馆
4Buhrke N号莱斯科H伏日J玛格丽亚·T斯特芬BStreett和Rabin连锁获胜条件下无限对策的策略构建用于系统构建和分析的工具和算法1996海德堡施普林格20722410.1007/3-540-61042-1_46谷歌学者
5Courcoubetis C课程Yannakakis M公司概率验证的复杂性J.ACM公司1995424857907141178810.1145/210332.210339谷歌学者数字图书馆
6Dziembowski，S.，Jurdziánski，M.，Walukiewicz，I.：赢得无限比赛需要多少内存？In:计算机科学中的逻辑专题讨论会（LICS 1997），第99–110页（1997）谷歌学者
7Gurevich，Y.，Harrington，L.：树、自动机和游戏。摘自：计算机理论研讨会（STOC 1982），第60-65页（1982）谷歌学者
8Hahn，E.M.，Li，G.，Schewe，S.，Turrini，A.，Zhang，L.：没有确定性的懒惰概率模型检查。摘自：并发理论，第354–367页（2015年）谷歌学者
9哈恩EM佩雷斯MSchewe S公司萨蒙齐F特里维迪A沃伊特扎克DVojnar T公司张磊无模型强化学习中的Omega-regular目标系统构建和分析的工具和算法2019查姆施普林格39541210.1007/978-3-030-17462-0_27谷歌学者数字图书馆
10哈恩EM佩雷斯MSchewe S公司萨蒙齐F特里维迪A沃伊特扎克D悬挂DV索科尔斯基Oω-正则目标无模型强化学习的忠实有效奖励方案验证和分析自动化技术2020查姆施普林格10812410.1007/978-3-030-59152-6_6谷歌学者数字图书馆
11哈恩EM佩雷斯MSchewe S公司萨蒙齐F特里维迪A沃伊特扎克D用于概率分析和强化学习的Good-for-MDPs自动机系统构建和分析的工具和算法2020查姆施普林格30632310.1007/978-3-030-45190-5_17谷歌学者数字图书馆
12Hahn，E.M.，Perez，M.，Schewe，S.，Somenzi，F.，Trivedi，A.，Wojtczak，D.：随机奇偶博弈的无模型强化学习。CONCUR：并发理论国际会议，第21:1–21:16页。LIPIcs 171（2020）谷歌学者
13Hahn，E.M.，Perez，M.，Schewe，S.，Somenzi，F.，Trivedi，A.，Wojtczak，D.：自动机理论强化学习的不可能结果。收录：ATVA：验证和分析自动化技术（2022年）。（出现）谷歌学者
14Hahn，E.M.，Perez，M.，Schewe，S.，Somenzi，F.，Trivedi，A.，Wojtczak，D.：交替适用于MDP自动机。arXiv预印本arXiv:2205.03243(2022)谷歌学者
15亨廷格TA皮特曼N埃西克Z在不确定的情况下解决游戏计算机科学逻辑2006海德堡施普林格39541010.1007/11874683_26谷歌学者数字图书馆
16Löding，C.： $ω$ -自动机：复杂性和与二阶逻辑的联系。基尔大学Christian-Albrechts-University博士论文（1998）。主管，Wolfgang Thomas教授谷歌学者
17阿拉斯加州麦克维尔摩根CC巴兹·M沃伦科夫A博弈、概率和数量 $μ$ -微积分质量管理 $μ$ 编程、人工智能和推理逻辑2002海德堡施普林格29231010.1007/3-540-36078-6_20谷歌学者
18Perrin，D.和Pin，J.É：无限词：自动机，半群，逻辑和游戏。Elsevier（2004）谷歌学者
19.Piterman，N.，Pnueli，A.：拉宾和斯特雷特游戏的更快解决方案。摘自：计算机科学逻辑研讨会，第275-284页（2006年）谷歌学者
20普努利：程序的时序逻辑。摘自：IEEE计算机科学基础研讨会，第46-57页（1977年）谷歌学者
21普特曼ML马尔可夫决策过程：离散随机动态规划1994纽约州约翰·威利父子公司10.1002/9780470316887谷歌学者交叉引用
22Sadigh，D.，Kim，E.，Coogan，S.，Sastry，S.S.，Seshia，S.A.：一种基于学习的方法，用于控制线性时间逻辑规范的马尔可夫决策过程的合成。摘自：决策与控制会议（CDC），第1091–1096页（2014年）谷歌学者
23Safra，S.，Vardi，M.Y.：关于 $ω$ -自动机和时序逻辑。摘自：第二十届ACM计算机理论年会论文集，第127-137页。STOC 1989，ACM，NY（1989）。内政部：https://doi.org/10.1145/73007.73019谷歌学者
24Safra，S.：具有强公平接受条件的欧米伽自动机的指数测定（扩展摘要）。摘自：《第24届ACM计算机理论年度研讨会论文集》，1992年5月4-6日，不列颠哥伦比亚省维多利亚市，第275-282页。ACM（1992）。内政部：https://doi.org/10.1145/129712.129739谷歌学者
25萨夫拉S强公平接受条件下欧米伽自动机的指数决定SIAM J.计算。200636三803814226301310.1137/S0097539797983325181120.68072谷歌学者数字图书馆
26.Sutton，R.S.，Barto，A.G.：强化学习：简介。第二版。麻省理工学院出版社（2018）谷歌学者
27托马斯·W·：无限对象上的自动机。摘自：《理论计算机科学手册》，第133-191页。麻省理工学院出版社/爱思唯尔出版社（1990）谷歌学者
28Vardi，M.Y.：概率并发有限状态程序的自动验证。摘自：《计算机科学基础》，第327–338页（1985年）谷歌学者

索引术语

备用Good-for-MDP自动机

索引项已通过自动分类分配给内容。

建议

交替有限自动机及其相关问题
阅读更多信息
交替时间自动机

提出了交替时间自动机的概念。结果表明，这种只有一个时钟的自动机在有限字上存在可判定的空性问题。这给出了一类新的定时语言，它在布尔运算下是封闭的，并且具有。。。
阅读更多信息
卵石交替树行走自动机及其识别能力

Milo、Suciu和Vianu（2003）首先研究了具有交替的卵石树行走自动机，他们表明这些设备识别的树语言正是常规树语言。我们通过证明…的相同结果来加强这一点。。。
阅读更多信息

登录选项

请检查您是否可以通过登录凭据或您的机构访问此文章以获得完全访问权限。

完全访问权限

获取此出版物

发布于
验证和分析自动化技术：第20届国际研讨会，ATVA 2022，虚拟活动，2022年10月25日至28日，会议记录
2022年10月
441页
国际标准图书编号：978-3-031-19991-2
内政部：10.1007/978-3-031-19992-9
编辑：
艾哈迈德·布阿贾尼
法国巴黎迪德罗巴黎大学
,
卢卡什·霍利克
捷克共和国布尔诺市布尔诺科技大学
,
吴志林
中国科学院，北京
©作者，获得Springer Nature Switzerland AG 2022的独家许可
赞助商
合作中
出版商
Springer-Verlag公司
柏林，海德堡
出版历史
- 出版：2022年10月25日
限定符
- 第条
会议
资金来源
其他指标
查看文章指标

文章指标
- 0
  引文总数
  查看引文
- 0
  下载总量
- 下载次数（过去12个月）0
- 下载次数（最近6周）0
其他指标
查看作者指标
引用人
本出版物尚未被引用

备用Good-for-MDP自动机

验证和分析自动化技术：第20届国际研讨会，ATVA 2022，虚拟活动，2022年10月25日至28日，会议记录

摘要

工具书类

引用人

索引术语

建议

交替有限自动机及其相关问题

交替时间自动机

卵石交替树行走自动机及其识别能力

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

限定符

会议

资金来源

其他指标

文章指标

其他指标

引用人

数字版

解说词

备用Good-for-MDP自动机

验证和分析自动化技术：第20届国际研讨会，ATVA 2022，虚拟活动，2022年10月25日至28日，会议记录

摘要

工具书类

引用人

索引术语

建议

交替有限自动机及其相关问题

交替时间自动机

卵石交替树行走自动机及其识别能力

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

限定符

会议

资金来源

文章指标

其他指标

数字版

共享此出版物链接

在社交媒体上分享