An Impossibility Result in Automata-Theoretic Reinforcement Learning

Ernst Moritz Hahn; Mateo Perez; Sven Schewe; Fabio Somenzi; Ashutosh Trivedi; Dominik Wojtczak

doi:10.1007/978-3-031-19992-9_3

自动机理论强化学习中的一个不可能结果

Ernst Moritz Hahn、Mateo Perez、Sven Schewe、Fabio Somenzi^*、Ashutosh Trivedi、Dominik Wojtczak

^*此作品的通讯作者

形式化方法和工具

研究成果:书籍/报告/会议记录中的章节›会议贡献›学术›同行评审

2 引文（Scopus）

38 下载（纯）

摘要

强化学习（RL）在安全关键系统设计中的扩展作用促进了ω
-自动机作为一种表达学习需求的方式——通常是非马尔可夫的——比标量奖励信号更容易表达和解释。当ω
-自动机最初是在无模型RL中提出的，使用确定性拉宾接受条件试图提供ω的直接转换
-自动机到在相同自动机结构上定义的有限状态“奖励”机器（无记忆奖励翻译）。虽然这些最初尝试为拉宾接受条件提供忠实、无记忆的奖励翻译仍然没有成功，但发现了其他接受条件的翻译，例如合适的、有限确定的Büchi接受条件，或者更广泛地说，适合MDP Büchi接受条件。然而，“是否存在将拉宾条件无记忆地翻译为标量奖励的问题”仍未解决。
本文给出了一个不可能的结果，这意味着任何直接（无额外内存）使用拉宾自动机进行无模型RL的尝试都注定会失败。为了建立这个结果，我们展示了一类支持无记忆报酬转换的自动机与其接受和拒绝无穷集的闭包属性之间的联系，以及该属性及其补码都需要考虑位置策略才能使这种方法起作用的洞察力。我们相信，这种不可能的结果将为RL在安全关键系统中的应用提供基础。

原始语言	英语
主办出版物标题	验证和分析自动化技术
编辑	Ahmed Bouajjani、Lukás Holík、Zhilin Wu
出版商	斯普林格自然
页	42-57
页数	16
体积	13505
ISBN（电子版）	978-3-031-19992-9
ISBN（印刷版）	978-3-031-19991-2
内政部	https://doi.org/10.1007/978-3-031-19992-9_3
出版物状态	已发布-2022
事件	第20届验证和分析自动化技术国际研讨会，ATVA 2022-虚拟事件持续时间：2022年10月25日→2022年10月28日会议编号：20

出版物系列

姓名	计算机科学课堂讲稿
出版商	施普林格

会议

会议	第20届验证和分析自动化技术国际研讨会，ATVA 2022
简称	阿特拉华2022
西蒂	虚拟事件
期间	25/10/22→28/10/22

关键词

2023 OA程序

访问文档

10.1007/978-3-031-19992-9_3

978-3-031-19992-9_3最终发布版本，435 KB许可证：酒馆

引用这个

@进行中{f7123c75906c4ca5a9b03a8f399c467b，

title=“自动机理论强化学习的不可能结果”，

abstract=“强化学习（RL）的扩展作用在安全关键系统设计中，ω-自动机作为一种表达学习需求的方式，通常是非马尔可夫的，比标量奖励信号更易于表达和解释。当ω-自动机首次在无模型RL中被提出时，确定性Rabin接受条件被用于提供从ω-自动机到在相同自动机结构上定义的有限状态“奖励”机器的直接转换（无记忆奖励转换）。虽然这些最初尝试为拉宾接受条件提供忠实、无记忆的奖励翻译仍然没有成功，但发现了其他接受条件的翻译，例如合适的、有限确定的B{“u}chi接受，或者更一般地说，适合于MDP B{”u}chi接受条件。然而，“是否存在将拉宾条件无记忆地翻译为标量奖励的问题”仍未解决。本文给出了一个不可能的结果，这意味着任何直接（无额外内存）使用拉宾自动机进行无模型RL的尝试都注定会失败。为了建立这个结果，我们展示了一类支持无记忆报酬转换的自动机与其接受和拒绝无穷集的闭包属性之间的联系，以及该属性及其补码都需要考虑位置策略才能使这种方法起作用的洞察力。我们相信，这种不可能性结果将为RL在安全关键系统中的应用奠定基础。",

keywords=“2023 OA程序”，

author=“哈恩、{恩斯特·莫里茨}、马特奥·佩雷斯、斯文·舍韦、法比奥·萨蒙齐、阿什图什·特里维迪和多米尼克·沃伊特扎克”，

年=“2022”，

doi=“10.1007/978-3-031-19992-93”，

language=“英语”，

isbn=“978-3-031-19991-2”，

volume=“13505”，

series=“计算机科学课堂讲稿”，

publisher=“Springer Nature”，

pages=“42-57”，

editor=“Ahmed Bouajjani and Luk{\'a}s Hol{\'i}k and Zhilin Wu”，

booktitle=“用于验证和分析的自动化技术”，

address=“瑞士”，

注=“第20届自动验证与分析技术国际研讨会，ATVA 2022，ATVA 2020；会议日期：2022年10月25日至2022年11月28日”，

}

Hahn，EM，Perez，M，Schewe，S，Somenzi，F，Trivedi，A&Wojtczak，D 2022，自动机理论强化学习中的一个不可能结果在A Bouajjani、L Holík和Z Wu（编辑）中，验证和分析自动化技术。第13505卷，《计算机科学讲义》，《Springer Nature》，第42-57页，第20届国际验证与分析自动化技术研讨会，ATVA 2022，虚拟事件，25/10/22.https://doi.org/10.1007/978-3-031-19992-9_3

自动机理论强化学习中的一个不可能结果。/恩斯特·莫里茨·哈恩（Ernst Moritz Hahn）；马特奥·佩雷斯（Mateo Perez）；Schewe，Sven等人。
验证和分析自动化技术。编辑/Ahmed Bouajjani；卢卡斯·霍利克；吴志林。《施普林格自然》第13505卷，2022年。第42-57页（计算机科学课堂讲稿）。

研究成果:书籍/报告/会议记录中的章节›会议贡献›学术›同行审查

TY-发电机

T1-自动机理论强化学习中的一个不可能结果

AU-Hahn，Ernst Moritz

AU-佩雷斯，马特奥

阿乌-舍韦，斯文

AU-法比奥·萨蒙齐

AU-特里维迪，阿舒托什

AU-多米尼克·沃伊特扎克

N1-会议代码：20

2022年上半年

2022年1月

N2-强化学习（RL）在安全关键系统设计中的作用不断扩大，这促使ω-自动机成为表达学习需求的一种方式，通常是非马尔科夫式的，比标量奖励信号更易于表达和解释。当ω-自动机首次在无模型RL中被提出时，确定性Rabin接受条件被用于提供从ω-自动机到在相同自动机结构上定义的有限状态“奖励”机器的直接转换（无记忆奖励转换）。虽然这些最初尝试为拉宾接受条件提供忠实、无记忆的奖励翻译仍然没有成功，但发现了其他接受条件的翻译，例如合适的、有限确定的Büchi接受条件，或者更广泛地说，适合MDP Büchi接受条件。然而，“是否存在将拉宾条件无记忆地翻译为标量奖励的问题”仍未解决。本文给出了一个不可能的结果，这意味着任何直接使用Rabin自动机（没有额外的内存）进行无模型RL的尝试都注定会失败。为了建立这个结果，我们展示了一类支持无记忆报酬转换的自动机与其接受和拒绝无穷集的闭包属性之间的联系，以及该属性及其补码都需要考虑位置策略才能使这种方法起作用的洞察力。我们相信，这种不可能性结果将为RL在安全关键系统中的应用奠定基础。

AB-强化学习（RL）在安全关键系统设计中的作用不断扩大，这促使ω-自动机成为表达学习需求的一种方式，通常是非马尔可夫式的，比标量奖励信号更易于表达和解释。当ω-自动机首次在无模型RL中被提出时，确定性Rabin接受条件被用于提供从ω-自动机到在相同自动机结构上定义的有限状态“奖励”机器的直接转换（无记忆奖励转换）。虽然这些最初尝试为拉宾接受条件提供忠实、无记忆的奖励翻译仍然没有成功，但发现了其他接受条件的翻译，例如合适的、有限确定的Büchi接受条件，或者更广泛地说，适合MDP Büchi接受条件。然而，“是否存在将拉宾条件无记忆地翻译为标量奖励的问题”仍未解决。本文给出了一个不可能的结果，这意味着任何直接（无额外内存）使用拉宾自动机进行无模型RL的尝试都注定会失败。为了建立这个结果，我们展示了一类支持无记忆报酬转换的自动机与其接受和拒绝无穷集的闭包属性之间的联系，以及该属性及其补码都需要考虑位置策略才能使这种方法起作用的洞察力。我们相信，这种不可能性结果将为RL在安全关键系统中的应用奠定基础。

KW-2023 OA程序

U2-2007年10月10日/978-3-031-19992-9_3

DO-2007年10月10日/978-3-031-19992-9_3

M3-会议贡献

序号：978-3-031-1991-2

VL-13505

T3-计算机科学课堂讲稿

SP-42型

EP-57

BT-验证和分析自动化技术

A2-艾哈迈德·博阿贾尼

A2-卢卡斯·霍利克

A2-吴志林

PB-施普林格自然

T2-第20届验证和分析自动化技术国际研讨会，ATVA 2022

Y2-2022年10月25日至2022年11月28日

急诊室-

自动机理论强化学习中的一个不可能结果

摘要

出版物系列

会议

关键词

访问文档

指纹

引用这个