@进行中{f7123c75906c4ca5a9b03a8f399c467b,
title=“自动机理论强化学习的不可能结果”,
abstract=“强化学习(RL)的扩展作用在安全关键系统设计中,ω-自动机作为一种表达学习需求的方式,通常是非马尔可夫的,比标量奖励信号更易于表达和解释。当ω-自动机首次在无模型RL中被提出时,确定性Rabin接受条件被用于提供从ω-自动机到在相同自动机结构上定义的有限状态“奖励”机器的直接转换(无记忆奖励转换)。虽然这些最初尝试为拉宾接受条件提供忠实、无记忆的奖励翻译仍然没有成功,但发现了其他接受条件的翻译,例如合适的、有限确定的B{“u}chi接受,或者更一般地说,适合于MDP B{”u}chi接受条件。然而,“是否存在将拉宾条件无记忆地翻译为标量奖励的问题”仍未解决。本文给出了一个不可能的结果,这意味着任何直接(无额外内存)使用拉宾自动机进行无模型RL的尝试都注定会失败。为了建立这个结果,我们展示了一类支持无记忆报酬转换的自动机与其接受和拒绝无穷集的闭包属性之间的联系,以及该属性及其补码都需要考虑位置策略才能使这种方法起作用的洞察力。我们相信,这种不可能性结果将为RL在安全关键系统中的应用奠定基础。",
keywords=“2023 OA程序”,
author=“哈恩、{恩斯特·莫里茨}、马特奥·佩雷斯、斯文·舍韦、法比奥·萨蒙齐、阿什图什·特里维迪和多米尼克·沃伊特扎克”,
年=“2022”,
doi=“10.1007/978-3-031-19992-93”,
language=“英语”,
isbn=“978-3-031-19991-2”,
volume=“13505”,
series=“计算机科学课堂讲稿”,
publisher=“Springer Nature”,
pages=“42-57”,
editor=“Ahmed Bouajjani and Luk{\'a}s Hol{\'i}k and Zhilin Wu”,
booktitle=“用于验证和分析的自动化技术”,
address=“瑞士”,
注=“第20届自动验证与分析技术国际研讨会,ATVA 2022,ATVA 2020;会议日期:2022年10月25日至2022年11月28日”,
}