塞佩斯瓦里(Csaba Szepesvári) 强化学习的算法。 (英语) Zbl 1205.68320号 人工智能与机器学习综合讲座9.加利福尼亚州圣拉斐尔:摩根和克莱普尔出版社(ISBN 978-1-60845-492-1/pbk;978-1-60845-493-8/电子书)。xiii,89页。(2010). 在本书中,作者重点讨论了基于强大的动态规划理论的强化学习算法。他给出了一个相当全面的学习问题目录,描述了核心思想,并指出了大量最先进的算法,然后讨论了它们的理论性质和局限性。从目录来看:1。马尔可夫决策过程;2.价值预测问题;3.控制;4.进一步探索,A.折扣马尔可夫决策过程理论。审核人:克劳斯·多曼(Mittweida) 引用于43文件 MSC公司: 68T05型 人工智能中的学习和自适应系统 68周05 非数值算法 68-02 与计算机科学有关的研究展览会(专著、调查文章) 90立方厘米 动态编程 90立方厘米 马尔可夫和半马尔可夫决策过程 关键词:强化学习;马尔可夫决策过程;时间差分学习;随机近似;函数近似;随机梯度法;最小二乘法;过盈;偏方差权衡;在线学习;主动学习;规划;模拟;PAC-学习;增强学习;actor-critic方法;政策梯度;自然坡度 软件:R-最大 PDF格式BibTeX公司 XML格式引用 \textit{C.Szepesvári},强化学习算法。加利福尼亚州圣拉斐尔:Morgan&Claypool出版社(2010;Zbl 1205.68320) 全文: 内政部