穆罕默德·沙希德·阿卜杜拉;沙拉布·巴特纳加 基于强化学习的平均成本马尔可夫决策过程算法。 (英语) 兹伯利1146.90521 离散事件动态。系统。 17,第1期,23-52(2007).理学硕士:90立方厘米 68T05型 PDF格式BibTeX公司 XML格式引用 \textit{M.S.Abdulla}和\textit{S.Bhatnagar},离散事件动力学。系统。17,第1号,第23-52条(2007;Zbl 1146.90521) 全文: 内政部
曹锡仁 从扰动分析到马尔可夫决策过程和强化学习。 (英语) Zbl 1031.93166号 离散事件动态。系统。 13,编号1-2,9-39(2003). 审核人:吴成勋(上海) 理学硕士:第93页第35页 93E25型 93C73号 90立方厘米 68T05型 PDF格式BibTeX公司 XML格式引用 \textit{X.-R.Cao},离散事件动态。系统。13、编号1--2、9--39(2003;Zbl 1031.93166) 全文: 内政部