自动机理论强化学习中的一个不可能结果

Ernst Moritz Hahn、Mateo Perez、Sven Schewe、Fabio Somenzi*、Ashutosh Trivedi、Dominik Wojtczak

*此作品的通讯作者

研究成果:书籍/报告/会议记录中的章节会议贡献学术同行评审

2 引文(Scopus)
38 下载(纯)

摘要

强化学习(RL)在安全关键系统设计中的扩展作用促进了ω
-自动机作为一种表达学习需求的方式——通常是非马尔可夫的——比标量奖励信号更容易表达和解释。当ω
-自动机最初是在无模型RL中提出的,使用确定性拉宾接受条件试图提供ω的直接转换
-自动机到在相同自动机结构上定义的有限状态“奖励”机器(无记忆奖励翻译)。虽然这些最初尝试为拉宾接受条件提供忠实、无记忆的奖励翻译仍然没有成功,但发现了其他接受条件的翻译,例如合适的、有限确定的Büchi接受条件,或者更广泛地说,适合MDP Büchi接受条件。然而,“是否存在将拉宾条件无记忆地翻译为标量奖励的问题”仍未解决。
本文给出了一个不可能的结果,这意味着任何直接(无额外内存)使用拉宾自动机进行无模型RL的尝试都注定会失败。为了建立这个结果,我们展示了一类支持无记忆报酬转换的自动机与其接受和拒绝无穷集的闭包属性之间的联系,以及该属性及其补码都需要考虑位置策略才能使这种方法起作用的洞察力。我们相信,这种不可能的结果将为RL在安全关键系统中的应用提供基础。
原始语言英语
主办出版物标题验证和分析自动化技术
编辑Ahmed Bouajjani、Lukás Holík、Zhilin Wu
出版商斯普林格自然
42-57
页数16
体积13505
ISBN(电子版)978-3-031-19992-9
ISBN(印刷版)978-3-031-19991-2
内政部
出版物状态已发布-2022
事件第20届验证和分析自动化技术国际研讨会,ATVA 2022-虚拟事件
持续时间:2022年10月25日2022年10月28日
会议编号:20

出版物系列

姓名计算机科学课堂讲稿
出版商施普林格

会议

会议第20届验证和分析自动化技术国际研讨会,ATVA 2022
简称阿特拉华2022
西蒂虚拟事件
期间25/10/2228/10/22

关键词

  • 2023 OA程序

指纹

深入研究“自动机理论强化学习的不可能结果”这一研究主题。它们一起形成了一个独特的指纹。

引用这个