×

安全强化学习综合调查。 (英语) Zbl 1351.68209号

总结:安全强化学习可以定义为学习政策的过程,在学习和/或部署过程中,最大限度地期望问题的回报,在这些问题中,确保合理的系统性能和/或尊重安全约束非常重要。我们对安全强化学习的两种方法进行了分类和分析。第一种是基于对最优性准则的修改,即经典的折现有限/无限时域,具有安全系数。第二种方法是通过结合外部知识或指导风险度量来修改勘探过程。我们使用建议的分类来调查现有文献,并建议安全强化学习的未来方向。

MSC公司:

68T05型 人工智能中的学习和自适应系统
68-02 与计算机科学有关的研究展览会(专著、调查文章)
PDF格式BibTeX公司 XML格式引用
全文: 链接