文件Zbl 1522.68269-zbMATH Open

恩斯特·莫里茨·哈恩;马特奥·佩雷斯;斯文·舍韦;法比奥·萨蒙齐;阿舒托什·特里维迪;多米尼克·沃伊特扎克

不可能导致自动机理论强化学习。（英语） Zbl 1522.68269号

Bouajjani，Ahmed（编辑）等人，《验证和分析自动化技术》。第20届国际研讨会，ATVA 2022，虚拟活动，2022年10月25日至28日。诉讼程序。查姆：斯普林格。莱克特。注释计算。科学。13505, 42-57 (2022).

总结：强化学习（RL）在安全关键型系统设计中的作用不断扩大，这促进了自动机作为表达学习需求的一种方式——通常是非马尔科夫式的——比标量奖励信号更容易表达和解释。当在无模型RL中首次提出（ω）-自动机时，确定性拉宾接受条件被用于提供从ω-自动机到在相同自动机结构上定义的有限状态“奖励”机器的直接转换（无记忆奖励转换）。虽然最初试图为拉宾接受条件提供忠实的、无记忆的奖励翻译仍然没有成功，但发现了其他接受条件的翻译，如适当的、有限的确定性Büchi接受，或者更普遍地说，有利于MDP Büchi接受条件。然而，“是否无记忆的拉宾条件转化为标量奖励的问题“仍未解决。
本文给出了一个不可能的结果，这意味着任何直接（无额外内存）使用拉宾自动机进行无模型RL的尝试都注定会失败。为了建立这个结果，我们展示了一类支持无记忆报酬转换的自动机与其接受和拒绝无穷集的闭包属性之间的联系，以及该属性及其补码都需要考虑位置策略才能使这种方法起作用的洞察力。我们相信，这种不可能性结果将为RL在安全关键系统中的应用奠定基础。
关于整个系列，请参见[Zbl 1511.68011号].

MSC公司：

65年第68季度	形式语言和自动机
第68季度32	计算学习理论
68T05年	人工智能中的学习和自适应系统
60年第68季度	规范和验证（程序逻辑、模型检查等）
93立方	由微分方程以外的函数关系控制的控制/观测系统（例如混合系统和开关系统）

软件：

棱镜

PDF格式 BibTeX公司 XML格式引用

全文：内政部链接

参考文献：

[1]	de Alfaro，L.：概率系统的形式化验证。斯坦福大学博士论文（1998年）
[2]	Baier，C.，Katoen，J.P.：模型检查原则（表征和思维系列）。麻省理工学院出版社（2008）·Zbl 1179.68076号
[3]	Bertsekas，D.：强化学习和最优控制。雅典娜科技（2019）
[4]	鲍耶，P。；Brinksma，E。；Larsen，KG，多值时间自动机的最优无限调度，形式方法系统。设计。，32, 1, 3-23 (2008) ·Zbl 1133.68360号 ·doi:10.1007/s10703-007-0043-4
[5]	Bozkurt，A.K.，Wang，Y.，Zavlanos，M.M.，Pajic，M.：使用无模型强化学习从线性时间逻辑规范进行控制合成。摘自：机器人与自动化国际会议（ICRA），第10349-10355页（2020年）
[6]	Buhrke，N。；Lescow，H。；Vöge，J。；Margaria，T。；Steffen，B.，《具有Streett和Rabin链获胜条件的无限对策中的策略构建》，《系统构建和分析的工具和算法》，207-224（1996），海德堡：斯普林格，海德伯格·doi:10.1007/3-540-61042-1_46
[7]	Camacho，A.，Toro Icarte，R.，Klassen，T.Q.，Valenzano，R.A.，McIlraith，S.A.：LTL及以上：强化学习中奖励函数规范的形式语言。收录于：IJCAI，第19卷，第6065-6073页（2019年）
[8]	查特吉，K。；Doyen，L。；TA Henzinger；阿尔伯斯，S。；马尔切蒂·斯帕卡梅拉，A。；马蒂亚斯，Y。；Nikoletseas，S。；Thomas，W.，《具有limsup和liminf目标的随机博弈调查》，《自动机，语言与编程》，1-15（2009），海德堡：斯普林格出版社·Zbl 1248.91015号 ·doi:10.1007/978-3642-02930-1_1
[9]	Courcoubetis，C。；Yannakakis，M.，《概率验证的复杂性》，J.ACM，42，4，857-907（1995）·兹伯利0885.68109 ·doi:10.145/210332.210339
[10]	Gaon，M.，Brafman，R.：非马尔可夫奖励的强化学习。摘自：《AAAI人工智能会议记录》，第34-04卷，第3980-3987页（2020年）
[11]	Gimbert，H.，Zielonka，W.：多冲刷马尔可夫决策过程的极限。摘自：计算机科学中的逻辑专题讨论会（LICS 2007），第89-98页（2007）
[12]	Goodfellow，I.，Bengio，Y.，Courville，A.，Bengio，Y.：深度学习，第1卷。麻省理工学院出版社（2016）·Zbl 1373.68009号
[13]	哈恩，EM；佩雷斯，M。；Schewe，S。；Somenzi，F。；特里维迪，A。；Wojtczak，D。；Vojnar，T。；Zhang，L.，无模型强化学习中的欧米伽规则目标，系统构建和分析的工具和算法，395-412（2019），Cham:Springer，Cham·Zbl 1527.68177号 ·doi:10.1007/978-3-030-17462-027
[14]	哈恩，EM；佩雷斯，M。；Schewe，S。；Somenzi，F。；特里维迪，A。；Wojtczak，D。；悬挂，DV；Sokolsky，O.，《针对欧米伽规则目标的无模型强化学习的忠实有效奖励计划》，《验证与分析自动化技术》，108-124（2020），查姆：斯普林格，查姆·Zbl 1517.68331号 ·doi:10.1007/978-3-030-59152-66
[15]	哈恩，EM；佩雷斯，M。；Schewe，S。；Somenzi，F。；特里维迪，A。；Wojtczak，D.，适用于概率分析和强化学习的MDP自动机，系统构建和分析的工具和算法，306-323（2020），Cham:Spriger，Cham·Zbl 1507.68167号 ·doi:10.1007/978-3-030-45190-5_17
[16]	Hahn，E.M.，Perez，M.，Schewe，S.，Somenzi，F.，Trivedi，A.，Wojtczak，D.：随机奇偶博弈的无模型强化学习。CONCUR：并行理论国际会议。LIPIcs，第171卷，第21:1-21:16页（2020年）·Zbl 07559477号
[17]	Kwiatkowska，M。；诺曼，G。；帕克，D。；Gopalakrishnan，G。；Qadeer，S.，PRISM 4.0：概率实时系统验证，计算机辅助验证，585-591（2011），海德堡：施普林格·文件编号：10.1007/978-3-642-22110-1_47
[18]	Landweber，LH，（\omega）-自动机的决策问题，数学。系统。理论，3，4，376-384（1969）·Zbl 0182.02402号 ·doi:10.1007/BF01691063
[19]	Löding，C。；兰根，CP；拉曼，V。；Ramanujam，R.，《（upomega）-自动机变换的最佳边界》，《软件技术和理论计算机科学基础》，97-109（1999），海德堡：斯普林格出版社·Zbl 0961.68074号 ·doi:10.1007/3-540-46691-68
[20]	McNaughton，R.，《有限图上的无限游戏》，Ann.Pure Appl。逻辑，65149-184（1993）·Zbl 0798.90151号 ·doi:10.1016/0168-0072（93）90036-D
[21]	Perrin，D.，Pin，J.E.：无限词：自动机，半群，逻辑和游戏。爱思唯尔（2004）·Zbl 1094.68052号
[22]	Piterman，N.，Pnueli，A.：拉宾和斯特雷特游戏的更快解决方案。摘自：计算机科学逻辑研讨会，第275-284页（2006）
[23]	普努利：程序的时序逻辑。摘自：IEEE计算机科学基础研讨会，第46-57页（1977年）
[24]	Puterman，ML，《马尔可夫决策过程：离散随机动态规划》（1994），纽约：威利出版社·Zbl 0829.90134号 ·doi:10.1002/9780470316887
[25]	Sadigh，D.，Kim，E.，Coogan，S.，Sastry，S.S.，Seshia，S.A.：一种基于学习的方法，用于控制线性时序逻辑规范的Markov决策过程的合成。摘自：决策与控制会议（CDC），第1091-1096页（2014年）
[26]	萨顿，RS；Barto，AG，《强化学习：导论》（2018），剑桥：麻省理工学院出版社，剑桥·兹比尔1407.68009
[27]	托马斯·W·：无限对象上的自动机。摘自：《理论计算机科学手册》，第133-191页。麻省理工学院出版社/爱思唯尔出版社（1990）·Zbl 0900.68316号
[28]	Toro Icarte，R.、Klassen，T.、Valenzano，R.和McIlraith，S.：在强化学习中使用奖励机器进行高级任务规范和分解。摘自：机器学习国际会议，第2107-2116页（2018年）
[29]	Toro Icarte，R.、Waldie，E.、Klassen，T.、Valenzano，R.，Castro，M.、McIlraith，S.：用于部分可观察强化学习的学习奖励机器。在：《神经信息处理系统的进展》，第32卷，第15523-15534页（2019）
[30]	Vardi，M.Y.：概率并发有限状态程序的自动验证。摘自：《计算机科学基础》，第327-338页（1985年）
[31]	徐，Z。；吴，B。；Ojha，A。；奈德，D。；托普库，美国。；Holzinger，A。；Kieseberg，P。；Tjoa，上午；Weipple，E.，使用查询和反例的主动有限报酬自动机推理和强化学习，机器学习和知识提取，115-135（2021），Cham:Springer，Cham·数字对象标识代码：10.1007/978-3-030-84060-08
[32]	Zielonka，W.，《有限色图上的无限游戏与无限树上自动机的应用》，Theor。计算。科学。，200, 1-2, 135-183 (1998) ·Zbl 0915.68120号 ·doi:10.1016/S0304-3975（98）00009-7

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
拉	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

不可能导致自动机理论强化学习。（英语） Zbl 1522.68269号

MSC公司：

软件：

参考文献：

示例

领域

操作员

不可能导致自动机理论强化学习。 （英语） Zbl 1522.68269号

MSC公司：

软件：

参考文献：

不可能导致自动机理论强化学习。（英语） Zbl 1522.68269号