哈维尔·加西亚;费尔南多·费尔南德斯 安全强化学习综合调查。 (英语) Zbl 1351.68209号 J.马赫。学习。物件。 16, 1437-1480 (2015). 总结:安全强化学习可以定义为学习政策的过程,在学习和/或部署过程中,最大限度地期望问题的回报,在这些问题中,确保合理的系统性能和/或尊重安全约束非常重要。我们对安全强化学习的两种方法进行了分类和分析。第一种是基于对最优性准则的修改,即经典的折现有限/无限时域,具有安全系数。第二种方法是通过结合外部知识或指导风险度量来修改勘探过程。我们使用建议的分类来调查现有文献,并建议安全强化学习的未来方向。 引用于40文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 68-02 与计算机科学有关的研究展览会(专著、调查文章) 关键词:强化学习;风险敏感性;安全勘探;教师建议 软件:TAMER公司;TEXPLORE公司 PDF格式BibTeX公司 XML格式引用 \textit{J.García}和textit{F.Fernández},J.Mach。学习。第16号决议,1437--1480(2015年;Zbl 1351.68209) 全文: 链接