文件Zbl 1205.68320-zbMATH Open

强化学习的算法。（英语） Zbl 1205.68320号

人工智能与机器学习综合讲座9.加利福尼亚州圣拉斐尔：摩根和克莱普尔出版社（ISBN 978-1-60845-492-1/pbk；978-1-60845-493-8/电子书）。xiii，89页。(2010).

在本书中，作者重点讨论了基于强大的动态规划理论的强化学习算法。他给出了一个相当全面的学习问题目录，描述了核心思想，并指出了大量最先进的算法，然后讨论了它们的理论性质和局限性。
从目录来看：1。马尔可夫决策过程；2.价值预测问题；3.控制；4.进一步探索，A.折扣马尔可夫决策过程理论。

PDF格式 BibTeX公司 XML格式引用

全文：内政部