文件Zbl 1407.68009-zbMATH打开

强化学习。引言。第二次扩展和更新版本。（英语） Zbl 1407.68009号

自适应计算与机器学习马萨诸塞州剑桥：麻省理工学院出版社（ISBN 978-0-262-03924-6）。第二十二、526页。(2018).

出版商描述：强化学习是人工智能中最活跃的研究领域之一，是一种计算学习方法，通过该方法，代理在与复杂、不确定的环境交互时，试图最大化其获得的总回报。在这本书中，理查德·萨顿（Richard Sutton）和安德鲁·巴托（Andrew Barto）清晰而简单地描述了该领域的关键思想和算法。第二版已经进行了显著的扩展和更新，提出了新的主题并更新了其他主题的覆盖范围。
与第一版一样，第二版侧重于核心在线学习算法，更多数学材料放在阴影框中。第一部分涵盖了尽可能多的强化学习，而不超出可以找到精确解决方案的表格案例。本部分介绍的许多算法是第二版的新算法，包括UCB、Expected Sarsa和Double Learning。第二部分将这些思想扩展到函数近似，新增了人工神经网络和傅里叶基等主题，并对非策略学习和策略粒度方法进行了扩展处理。第三部分有关于强化学习与心理学和神经科学的关系的新章节，以及更新的案例研究章节，包括AlphaGo和AlphaGo-Zero、Atari游戏以及IBM Watson的赌注策略。最后一章讨论了强化学习的未来社会影响。

引用于三评论

引用于656文件

MSC公司：

68-01	与计算机科学相关的介绍性说明（教科书、教程论文等）
68T05年	人工智能中的学习和自适应系统

PDF格式 BibTeX公司 XML格式引用

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑非
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

强化学习。引言。第二次扩展和更新版本。（英语） Zbl 1407.68009号

MSC公司：

示例

领域

操作员

强化学习。引言。第二次扩展和更新版本。 （英语） Zbl 1407.68009号

MSC公司：

强化学习。引言。第二次扩展和更新版本。（英语） Zbl 1407.68009号