跳到主要内容
10.1007/978-3-031-19992-9_19指导程序文章/章节视图摘要出版物页面会议记录acm-pubtype公司
第条

备用Good-for-MDP自动机

出版:2022年10月25日出版历史

摘要

当在无模型强化学习(RL)中首次提出欧米伽规则目标以控制MDP时,使用确定性拉宾自动机试图提供从其转换到标量值的直接转换。虽然这些翻译失败了,但事实证明,可以使用goodfor-MDP(GFM)Büchi自动机来修复它们。这些是非确定性的Büchi自动机,具有受限类型的非确定性,尽管不像在好对偶自动机中那样受限。事实上,确定性拉宾自动机可以很直接地转换为GFM自动机,它在状态和对的数量上是双线性的。有趣的是,对于确定性Streett自动机来说,情况并非如此:即使不要求目标自动机对MDP有利,对非确定性Rabin或Büchi自动机的转换也要付出指数代价。我们需要支付更多的费用才能获得一台性能良好的MDP机器人吗?令人惊讶的答案是,当我们将good-for-MDPs属性扩展为交替自动机时,我们需要付出的代价要少得多:就像从确定性Rabin自动机获得的非确定性GFM自动机一样,我们从确定性Streett自动机生成的交替好的MDP自动机在确定性自动机的大小及其索引方面是双线性的。因此,它们可以比最小非确定性Büchi自动机更加简洁。

工具书类

  1. 1de Alfaro,L.:概率系统的形式验证。斯坦福大学博士论文(1998年)谷歌学者谷歌学者
  2. 2拜尔C卡托恩JP模型检查原理2008剑桥麻省理工学院出版社1179.68076谷歌学者谷歌学者数字图书馆数字图书馆
  3. 三。布隆·RJobstmann B公司皮特曼N普努利A萨尔Y反应性(1)设计的合成J.计算。系统。科学。20127891193829000402016年10月10日/j.jcss.2011.08.0071247.68050谷歌学者谷歌学者数字图书馆数字图书馆
  4. 4Buhrke N号莱斯科H伏日J玛格丽亚·T斯特芬BStreett和Rabin连锁获胜条件下无限对策的策略构建用于系统构建和分析的工具和算法1996海德堡施普林格20722410.1007/3-540-61042-1_46谷歌学者谷歌学者
  5. 5Courcoubetis C课程Yannakakis M公司概率验证的复杂性J.ACM公司1995424857907141178810.1145/210332.210339谷歌学者谷歌学者数字图书馆数字图书馆
  6. 6Dziembowski,S.,Jurdziánski,M.,Walukiewicz,I.:赢得无限比赛需要多少内存?In:计算机科学中的逻辑专题讨论会(LICS 1997),第99–110页(1997)谷歌学者谷歌学者
  7. 7Gurevich,Y.,Harrington,L.:树、自动机和游戏。摘自:计算机理论研讨会(STOC 1982),第60-65页(1982)谷歌学者谷歌学者
  8. 8Hahn,E.M.,Li,G.,Schewe,S.,Turrini,A.,Zhang,L.:没有确定性的懒惰概率模型检查。摘自:并发理论,第354–367页(2015年)谷歌学者谷歌学者
  9. 9哈恩EM佩雷斯MSchewe S公司萨蒙齐F特里维迪A沃伊特扎克DVojnar T公司张磊无模型强化学习中的Omega-regular目标系统构建和分析的工具和算法2019查姆施普林格39541210.1007/978-3-030-17462-0_27谷歌学者谷歌学者数字图书馆数字图书馆
  10. 10哈恩EM佩雷斯MSchewe S公司萨蒙齐F特里维迪A沃伊特扎克D悬挂DV索科尔斯基Oω-正则目标无模型强化学习的忠实有效奖励方案验证和分析自动化技术2020查姆施普林格10812410.1007/978-3-030-59152-6_6谷歌学者谷歌学者数字图书馆数字图书馆
  11. 11哈恩EM佩雷斯MSchewe S公司萨蒙齐F特里维迪A沃伊特扎克D用于概率分析和强化学习的Good-for-MDPs自动机系统构建和分析的工具和算法2020查姆施普林格30632310.1007/978-3-030-45190-5_17谷歌学者谷歌学者数字图书馆数字图书馆
  12. 12Hahn,E.M.,Perez,M.,Schewe,S.,Somenzi,F.,Trivedi,A.,Wojtczak,D.:随机奇偶博弈的无模型强化学习。CONCUR:并发理论国际会议,第21:1–21:16页。LIPIcs 171(2020)谷歌学者谷歌学者
  13. 13Hahn,E.M.,Perez,M.,Schewe,S.,Somenzi,F.,Trivedi,A.,Wojtczak,D.:自动机理论强化学习的不可能结果。收录:ATVA:验证和分析自动化技术(2022年)。(出现)谷歌学者谷歌学者
  14. 14Hahn,E.M.,Perez,M.,Schewe,S.,Somenzi,F.,Trivedi,A.,Wojtczak,D.:交替适用于MDP自动机。arXiv预印本arXiv:2205.03243(2022)谷歌学者谷歌学者
  15. 15亨廷格TA皮特曼N埃西克Z在不确定的情况下解决游戏计算机科学逻辑2006海德堡施普林格39541010.1007/11874683_26谷歌学者谷歌学者数字图书馆数字图书馆
  16. 16Löding,C.:ω-自动机:复杂性和与二阶逻辑的联系。基尔大学Christian-Albrechts-University博士论文(1998)。主管,Wolfgang Thomas教授谷歌学者谷歌学者
  17. 17阿拉斯加州麦克维尔摩根CC巴兹·M沃伦科夫A博弈、概率和数量μ-微积分质量管理μ编程、人工智能和推理逻辑2002海德堡施普林格29231010.1007/3-540-36078-6_20谷歌学者谷歌学者
  18. 18Perrin,D.和Pin,J.É:无限词:自动机,半群,逻辑和游戏。Elsevier(2004)谷歌学者谷歌学者
  19. 19.Piterman,N.,Pnueli,A.:拉宾和斯特雷特游戏的更快解决方案。摘自:计算机科学逻辑研讨会,第275-284页(2006年)谷歌学者谷歌学者
  20. 20普努利:程序的时序逻辑。摘自:IEEE计算机科学基础研讨会,第46-57页(1977年)谷歌学者谷歌学者
  21. 21普特曼ML马尔可夫决策过程:离散随机动态规划1994纽约州约翰·威利父子公司10.1002/9780470316887谷歌学者谷歌学者交叉引用交叉引用
  22. 22Sadigh,D.,Kim,E.,Coogan,S.,Sastry,S.S.,Seshia,S.A.:一种基于学习的方法,用于控制线性时间逻辑规范的马尔可夫决策过程的合成。摘自:决策与控制会议(CDC),第1091–1096页(2014年)谷歌学者谷歌学者
  23. 23Safra,S.,Vardi,M.Y.:关于ω-自动机和时序逻辑。摘自:第二十届ACM计算机理论年会论文集,第127-137页。STOC 1989,ACM,NY(1989)。内政部:https://doi.org/10.1145/73007.73019谷歌学者谷歌学者
  24. 24Safra,S.:具有强公平接受条件的欧米伽自动机的指数测定(扩展摘要)。摘自:《第24届ACM计算机理论年度研讨会论文集》,1992年5月4-6日,不列颠哥伦比亚省维多利亚市,第275-282页。ACM(1992)。内政部:https://doi.org/10.1145/129712.129739谷歌学者谷歌学者
  25. 25萨夫拉S强公平接受条件下欧米伽自动机的指数决定SIAM J.计算。200636803814226301310.1137/S0097539797983325181120.68072谷歌学者谷歌学者数字图书馆数字图书馆
  26. 26.Sutton,R.S.,Barto,A.G.:强化学习:简介。第二版。麻省理工学院出版社(2018)谷歌学者谷歌学者
  27. 27托马斯·W·:无限对象上的自动机。摘自:《理论计算机科学手册》,第133-191页。麻省理工学院出版社/爱思唯尔出版社(1990)谷歌学者谷歌学者
  28. 28Vardi,M.Y.:概率并发有限状态程序的自动验证。摘自:《计算机科学基础》,第327–338页(1985年)谷歌学者谷歌学者

索引术语

  1. 备用Good-for-MDP自动机
            索引项已通过自动分类分配给内容。

            建议

            评论

            登录选项

            请检查您是否可以通过登录凭据或您的机构访问此文章以获得完全访问权限。

            登录

            完全访问权限

            • 发布于

              封面图片指南会议记录
              验证和分析自动化技术:第20届国际研讨会,ATVA 2022,虚拟活动,2022年10月25日至28日,会议记录
              2022年10月
              441页
              国际标准图书编号:978-3-031-19991-2
              内政部:10.1007/978-3-031-19992-9

              ©作者,获得Springer Nature Switzerland AG 2022的独家许可

              出版商

              Springer-Verlag公司

              柏林,海德堡

              出版历史

              • 出版:2022年10月25日

              限定符

              • 第条
            • 文章指标

              • 下载次数(过去12个月)0
              • 下载次数(最近6周)0

              其他指标