×

具有在线特征自适应的Actor-critic算法。 (英语) Zbl 1369.90190号


MSC公司:

90立方厘米 马尔可夫和半马尔可夫决策过程
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] P.A.Absil、R.Mahony和R.Sepulchre。2009.矩阵流形上的优化算法。普林斯顿大学出版社·兹比尔1147.65043
[2] L.C.Baird公司。1995.残差算法:函数近似的强化学习。第十二届机器学习国际会议论文集。30–37. ·doi:10.1016/B978-1-55860-377-6.50013-X
[3] J.S.Baras和V.S.Borkar。具有自适应状态聚合的马尔可夫决策过程的学习算法。第39届IEEE决策与控制会议论文集,第4卷。3351–3356. ·doi:10.1109/CDC.2000.912220
[4] A.G.巴托。1998年,强化学习:导论。麻省理工学院出版社。
[5] A.G.Barto、R.S.Sutton和C.W.Anderson。1983.可解决学习控制难题的类神经自适应元件。IEEE系统、人与控制论汇刊,5(1983),834-846·doi:10.1109/TSMC.1983.6313077
[6] D.P.Bertsekas博士。2011.动态规划和最优控制。第2卷,第4版,《雅典娜科学》,马萨诸塞州贝尔蒙特。
[7] S.Bhatnagar、V.S.Borkar和K.J.Prabuchandran。2013年a。在线强化学习中的格拉斯曼岛特征搜索。IEEE信号处理选定主题杂志7,5(2013a),746–758·doi:10.1109/JSTSP.2013.2255022
[8] S.Bhatnagar、V.S.Borkar和L.A.Prashanth。2012.自适应特征追求:在线适应强化学习中的特征。反馈控制的强化学习和近似动态规划。IEEE出版社计算智能科学,IEEE出版社和威利出版社,517-534。
[9] S.Bhatnagar、H.L.Prasad和L.A.Prashanth。2013年b。优化的随机递归算法:同时扰动方法。斯普林格·Zbl 1260.90002号 ·doi:10.1007/978-1-4471-4285-0
[10] S.Bhatnagar、R.S.Sutton、M.Ghavamzadeh和M.Lee。2009年,自然演员-评论家算法。Automatica 45,11(2009),2471–2482·Zbl 1183.93130号 ·doi:10.1016/j.automatica.2009.07.008
[11] V.S.博卡尔。1997.具有两个时间尺度的随机近似。系统&《控制快报》29,5(1997),291–294·Zbl 0895.62085号 ·doi:10.1016/S0167-6911(97)90015-3
[12] V.S.博卡尔。2008.随机近似:动力学系统观点。剑桥大学出版社·Zbl 1159.60002号
[13] D.D.Castro和S.Mannor。2010.强化学习的适应性基础。数据库中的机器学习和知识发现(2010),312–327。
[14] A.Edelman、T.A.Arias和S.T.Smith。1998年。正交约束算法的几何。SIAM矩阵分析与应用杂志20,2(1998),303–353·Zbl 0928.6500号 ·doi:10.1137/S089547989529290954
[15] J.Hamm和D.D.Lee。2008.格拉斯曼判别分析:基于子空间学习的统一观点。在第25届国际机器学习大会论文集上。美国医学会,376–383·数字对象标识代码:10.1145/1390156.1390204
[16] P.W.Keller、S.Mannor和D.Precup。2006.用于近似动态规划和强化学习的自动基函数构造。第23届机器学习国际会议论文集。美国医学会,449–456·数字对象标识代码:10.1145/1143844.1143901
[17] V.R.Konda和J.N.Tsitsiklis。2003年,Onactor-critic算法。SIAM控制与优化杂志42,4(2003),1143–1166·Zbl 1049.93095号 ·doi:10.1137/S0363012901385691
[18] V.R.Konda和J.N.Tsitsiklis。2004.线性双时间尺度随机逼近的收敛速度。《应用概率年鉴》14,2(2004),796–819·Zbl 1094.62103号 ·doi:10.1214/10505160400000116
[19] H.J.Kushner和D.S.Clark,1978年。约束和非约束系统的随机逼近方法。第6卷。纽约施普林格-弗拉格·Zbl 0381.60004号 ·doi:10.1007/978-1-4684-9352-8
[20] M.G.Lagoudakis和R.Parr。2003.最小二乘法政策迭代。机器学习研究杂志4(2003),1107–1149·Zbl 1094.68080号
[21] S.Mahadevan和B.Liu。2010年,根据价值函数的幂级数展开进行基础构建。神经信息处理系统进展。1540–1548.
[22] S.Mahadevan和M.Maggioni。原值函数:马尔可夫决策过程中学习表示和控制的拉普拉斯框架。《机器学习研究杂志》8,16(2007),2169–2231·Zbl 1222.68253号
[23] P.Marbach和J.N Tsitsiklis。2001.马尔可夫奖励过程的模拟优化。IEEE自动控制汇刊,46,2(2001),191-209·Zbl 0992.93088号 ·数字对象标识代码:10.1109/9.905687
[24] I.Menache、S.Mannor和N.Shimkin。2005.时差强化学习中的基函数自适应。《运筹学年鉴》134,1(2005),215–238·Zbl 1075.90073号 ·doi:10.1007/s10479-005-5732-z
[25] G.Meyer、S.Bonnabel和R.Sepulchre。定秩半正定矩阵的回归:黎曼方法。《机器学习研究杂志》12(2011),593–625·Zbl 1280.68185号
[26] R.Parr、C.Painter-Wakefield、L.Li和M.Littman。2007.分析值函数近似的特征生成。第24届机器学习国际会议论文集。737–744. ·doi:10.1145/1273496.1273589
[27] K.J.Prabuchandran、S.Bhatnagar和V.S.Borkar。2014年,一个基于格拉斯曼搜索的演员-评论家算法。第53届IEEE决策与控制会议记录。3597–3602. ·doi:10.1109/CDC.2014.7039948
[28] K.Rohanimanesh、N.Roy和R.Tedrake。2009年。演员-评论家算法中的特征选择。在强化学习中的抽象研讨会上。42–48.
[29] S.T.史密斯。1993年。自适应滤波的几何优化方法。哈佛大学,马萨诸塞州剑桥。
[30] J.C.剥落。1992.使用同时扰动梯度近似的多元随机近似。IEEE自动控制汇刊,37,3(1992),332–341·Zbl 0745.60110号 ·doi:10.1109/9.119632
[31] Y.Sun、M.Ring、J.Schmidhuber和F.J.Gomez。2011.基于时差误差的增量基础构建。第28届机器学习国际会议论文集。481–488.
[32] R.S.Sutton、D.McAllester、S.Singh和Y.Mansour。2000.函数逼近强化学习的策略梯度方法。神经信息处理系统进展,第12卷。1057–1063.
[33] P.S.Thomas、W.C.Dabney、S.Giguere和S.Mahadevan。2013年,预计自然因素至关重要。神经信息处理系统进展。2337–2345之间。
[34] J.N.Tsitsiklis和B.Van Roy。1997年。用函数逼近分析时间差学习。IEEE自动控制汇刊,42,5(1997),674-690·Zbl 0914.93075号 ·数字对象标识代码:10.1109/9.580874
[35] J.N.Tsitsiklis和B.Van Roy。1999.平均成本时间差异学习。Automatica 35,11(1999),1799–1808·Zbl 0932.93085号 ·doi:10.1016/S0005-1098(99)00099-0
[36] L.Wolf和A.Shashua。2003.使用核主角学习集合。机器学习研究杂志4(2003),913–931·Zbl 1098.68679号
[37] H.Yu和D.P.Bertsekas。2009年,MDP中成本近似的基函数自适应方法。在自适应动态规划和强化学习中。IEEE,74-81·doi:10.1109/ADPRL.2009.4927528
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。