巴伊拉克塔尔,埃尔罕;阿里·德夫兰·卡拉 受控扩散过程的近似Q学习及其近似最优性。 (英语) Zbl 1521.93214号 SIAM J.数学。数据科学。 5,第3号,615-638(2023).MSC公司:第93页第35页 90立方厘米 93E20型 60J60型 PDF格式BibTeX公司 XML格式引用 \textit{E.Bayraktar}和\textit{A.D.Kara},SIAM J.数学。数据科学。5,编号3,615--638(2023;Zbl 1521.93214) 全文: 内政部 arXiv公司
理查德·阿奇博尔德;包,冯;勇炯敏 参数化环境下强化学习的随机最大值原理方法。 (英语) Zbl 07696994号 J.计算。物理学。 488,文章ID 112238,23 p.(2023).MSC公司:60华氏度 65立方厘米 68泰克 PDF格式BibTeX公司 XML格式引用 \textit{R.Archibald}等人,《计算杂志》。物理学。488,文章ID 112238,23 p.(2023;Zbl 07696994) 全文: 内政部 arXiv公司
恩斯特·莫里茨·哈恩;马特奥·佩雷斯;舍韦,斯文;法比奥·萨蒙齐;阿舒托什·特里维迪;多米尼克·沃伊特扎克 分枝马尔可夫决策过程的无模型强化学习。 (英语) Zbl 1493.93060号 Silva,Alexandra(编辑)等人,《计算机辅助验证》。第33届国际会议,CAV 2021,虚拟活动,2021年7月20日至23日。诉讼程序。第二部分。查姆:斯普林格。莱克特。注释计算。科学。12760, 651-673 (2021).MSC公司:第93页第35页 60J80型 90立方厘米 PDF格式BibTeX公司 XML格式引用 \textit{E.M.Hahn}等人,Lect。注释计算。科学。12760、651--673(2021年;Zbl 1493.93060) 全文: 内政部 arXiv公司
西蒙·戈茨查克;迈克尔·汉堡;马蒂亚斯·格德斯 一种用于深度强化学习的投影原-对偶梯度最优控制方法。 (英语) 兹比尔1472.49042 数学杂志。印度。 10,第9号论文,22页(2020年).MSC公司:49公里15 90立方厘米 第93页第35页 60J20型 2006年第68季度 PDF格式BibTeX公司 XML格式引用 \textit{S.Gottschalk}等人,J.Math。Ind.10,论文编号9,22 p.(2020;Zbl 1472.49042) 全文: 内政部
伦克·库尔曼 学习掌握非线性内部点方法。 (英语) Zbl 1437.90148号 EURO J.计算。最佳方案。 7,第4号,381-419(2019).MSC公司:90立方 68T05型 60J20型 90摄氏51度 PDF格式BibTeX公司 XML格式引用 \文本{R.Kuhlmann},EURO J.Comput。最佳方案。7,第4号,381--419(2019;Zbl 1437.90148) 全文: 内政部
德文·施瓦布;索米亚·雷 使用任务层次结构进行离线强化学习。 (英语) Zbl 1455.68181号 机器。学习。 106,编号9-10,1569-1598(2017).MSC公司:68T05型 60J20型 90立方厘米 PDF格式BibTeX公司 XML格式引用 \textit{D.Schwab}和\textit{S.Ray},马赫。学习。106,编号9-10,1569-1598(2017;兹bl 1455.68181) 全文: 内政部
丹尼尔,克里斯蒂安;van Hoof,赫克;简·彼得斯;格哈德·诺伊曼 用于确定强化学习中选项的概率推理。 (英语) Zbl 1386.68127号 机器。学习。 104,编号2-3,337-357(2016).MSC公司:68T05型 60 K15 68T40型 PDF格式BibTeX公司 XML格式引用 \textit{C.Daniel}等人,马赫。学习。104,编号2--3,337--357(2016;Zbl 1386.68127) 全文: 内政部
威廉·B·哈斯克尔。;拉胡尔·贾恩;迪利普·卡拉提尔 经验动态规划。 (英语) Zbl 1338.49055号 数学。操作。物件。 41,第2期,402-429(2016).MSC公司:49升20 90立方厘米 93E20型 90立方厘米 60水25 62C12号机组 90立方厘米 65千5 47磅80 2005年3月37日 37小时99 PDF格式BibTeX公司 XML格式引用 \textit{W.B.Haskell}等人,《数学》。操作。第41号决议,第2402-429号(2016年;兹bl 1338.49055) 全文: 内政部 arXiv公司
徐欣;左、雷;黄振华 函数逼近强化学习算法:最新进展和应用。 (英语) 兹比尔1328.68176 信息科学。 261, 1-31 (2014).MSC公司:68T05型 60J20型 PDF格式BibTeX公司 XML格式引用 \textit{X.Xu}等人,《信息科学》。261、1--31(2014年;Zbl 1328.68176) 全文: 内政部
贝克,C.L。;R·斯里坎特。 恒定步长(Q\)学习的误差界。 (英语) Zbl 1255.93129号 系统。控制信函。 61,第12期,1203-1208(2012).MSC公司:93E03型 68T05型 60J20型 PDF格式BibTeX公司 XML格式引用 \textit{C.L.Beck}和\textit{R.Srikant},系统。控制信函。61,第12号,1203-1208(2012;Zbl 1255.93129) 全文: 内政部
安德烈亚·冈巴;泰瑟,马蒂奥 实物期权模型的结构估计。 (英语) Zbl 1170.91340号 《经济学杂志》。动态。控制 33,编号4,798-816(2009).MSC公司:91B24型 93E10型 60J20型 PDF格式BibTeX公司 XML格式引用 \textit{A.Gamba}和\textit{M.Tesser},J.Econ。动态。控制33,编号4,798--816(2009;Zbl 1170.91340) 全文: 内政部
安德烈·科斯塔;瓦兹奎兹·阿巴德,费利萨·J。 用于在状态切换环境中进行跟踪的自适应步长选择。 (英语) 兹比尔1128.62091 Automatica公司 43,第11期,1896-1908(2007).MSC公司:62L20型 60F05型 PDF格式BibTeX公司 XML格式引用 \textit{A.Costa}和\textit{F.J.Vázquez-Abad},自动化43,第11期,1896年--1908年(2007年;Zbl 1128.62091) 全文: 内政部
曹锡仁 马尔可夫系统基于事件优化的基本思想。 (英语) Zbl 1130.90054号 离散事件动态。系统。 15,第2期,169-197(2005).MSC公司:90立方厘米 60J10型 60J20型 93元65角 PDF格式BibTeX公司 XML格式引用 \textit{X.Cao},离散事件动态。系统。15,第2169--197号(2005年;兹bl 1130.90054) 全文: 内政部
罗纳德·莫勒。;沃伊切赫·J·科洛德齐耶(Wojciech J.Kolodziej)。 一类非线性随机系统的最优控制。 (英语) Zbl 0474.93075号 IEEE传输。自动。控制 26, 1048-1053 (1981).MSC公司:93E20型 93立方厘米 93E11号机组 49J55型 60 H10型 34F05型 PDF格式BibTeX公司 XML格式引用 \textit{R.R.Mohler}和\textit{W.J.Kolodziej},IEEE Trans。自动。控制26,1048--1053(1981;Zbl 0474.93075) 全文: 内政部