文件Zbl 1515.68005-zbMATH Open

序列决策和最优控制的强化学习。（英语）兹比尔1515.68005

新加坡：Springer（ISBN 978-981-19-7783-1/hbk；978-981-9-7786-2/pbk；988-981-19-19-7784-8/电子书）。xxx，462页。(2023).

出版商描述：你有没有想过AlphaZero是如何打败顶尖的人类围棋选手的？关于自动驾驶系统如何逐渐超越普通驾驶员发展自我驾驶技能，你有什么线索吗？AlphaStar在《星际争霸》（Starcraft）中做出决策的关键是什么？这是一款众所周知的难度很大的战略游戏，其中包含部分信息和复杂规则？这些最新技术突破背后的核心机制是强化学习（RL），该理论可以帮助代理通过持续的环境交互来发展自我解决能力。在过去几年里，人工智能社区见证了强化学习在各个领域取得的巨大成功，包括国际象棋游戏、计算机游戏和机器人控制。RL也被认为是未来创建通用人工智能的一个有前途和强大的工具。
作为一个尝试错误学习和优化控制的跨学科领域，RL类似于人类如何通过与环境的交互来增强其智能，并为大规模复杂问题中的顺序决策和优化控制提供了原则性解决方案。由于强化学习包含了广泛的新概念和新理论，学者们可能会被一些问题困扰：强化学习的内在机制是什么？RL和最优控制之间的内在联系是什么？RL在过去几十年中是如何发展的，里程碑是什么？我们如何为真实场景选择和实施实用有效的RL算法？RL今天面临的主要挑战是什么？我们如何解决这些挑战？RL研究的当前趋势是什么？你可以在这本书中找到所有这些问题的答案。
本书的目的是帮助研究人员和从业者全面了解RL，并了解RL和最优控制之间的深层联系。这本书不仅包括对理论基础的系统和透彻的解释，还包括对实际算法实现的系统指导。这本书旨在全面涵盖经典理论和最新成果，内容精心且逻辑有序，包括RL的主要概念和术语、马尔可夫决策过程（MDP）、贝尔曼最优性条件、蒙特卡罗学习、时间差学习等基本主题，随机动态规划、函数逼近、策略梯度方法、近似动态规划和深度RL，以及行为和状态约束、安全保证、参考协调、鲁棒RL、部分可观测MDP、多智能体RL、逆RL、离线RL等方面的最新进展。

MSC公司：

68-01	与计算机科学相关的介绍性说明（教科书、教程论文等）
49升20	最优控制与微分对策中的动态规划
65二氧化碳	蒙特卡罗方法
68T05年	人工智能中的学习和自适应系统

PDF格式 BibTeX公司 XML格式引用

全文： DOI程序

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：书本；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	括号

示例

领域

操作员

序列决策和最优控制的强化学习。（英语）兹比尔1515.68005

MSC公司：

示例

领域

操作员

序列决策和最优控制的强化学习。 （英语） 兹比尔1515.68005

MSC公司：

序列决策和最优控制的强化学习。（英语）兹比尔1515.68005