文件Zbl 1369.90190-zbMATH Open

Prabuchandran，K.J。;沙拉布·巴特纳加;Vivek S.博卡尔。

具有在线特征自适应的Actor-critic算法。（英语） Zbl 1369.90190号

ACM事务处理。模型。计算。模拟。 26，第4号，第24条，第26页（2016年）.

引用于1文件

MSC公司：

90立方厘米

马尔可夫和半马尔可夫决策过程

关键词：

格拉斯曼流形;马尔可夫决策过程;SPSA公司;actor-critic算法;特征自适应;函数近似;在线学习;政策梯度;剩余梯度法;随机近似;时间差异学习

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	P.A.Absil、R.Mahony和R.Sepulchre。2009.矩阵流形上的优化算法。普林斯顿大学出版社·兹比尔1147.65043
[2]	L.C.Baird公司。1995.残差算法：函数近似的强化学习。第十二届机器学习国际会议论文集。30–37. ·doi:10.1016/B978-1-55860-377-6.50013-X
[3]	J.S.Baras和V.S.Borkar。具有自适应状态聚合的马尔可夫决策过程的学习算法。第39届IEEE决策与控制会议论文集，第4卷。3351–3356. ·doi:10.1109/CDC.2000.912220
[4]	A.G.巴托。1998年，强化学习：导论。麻省理工学院出版社。
[5]	A.G.Barto、R.S.Sutton和C.W.Anderson。1983.可解决学习控制难题的类神经自适应元件。IEEE系统、人与控制论汇刊，5（1983），834-846·doi:10.1109/TSMC.1983.6313077
[6]	D.P.Bertsekas博士。2011.动态规划和最优控制。第2卷，第4版，《雅典娜科学》，马萨诸塞州贝尔蒙特。
[7]	S.Bhatnagar、V.S.Borkar和K.J.Prabuchandran。2013年a。在线强化学习中的格拉斯曼岛特征搜索。IEEE信号处理选定主题杂志7，5（2013a），746–758·doi:10.1109/JSTSP.2013.2255022
[8]	S.Bhatnagar、V.S.Borkar和L.A.Prashanth。2012.自适应特征追求：在线适应强化学习中的特征。反馈控制的强化学习和近似动态规划。IEEE出版社计算智能科学，IEEE出版社和威利出版社，517-534。
[9]	S.Bhatnagar、H.L.Prasad和L.A.Prashanth。2013年b。优化的随机递归算法：同时扰动方法。斯普林格·Zbl 1260.90002号 ·doi:10.1007/978-1-4471-4285-0
[10]	S.Bhatnagar、R.S.Sutton、M.Ghavamzadeh和M.Lee。2009年，自然演员-评论家算法。Automatica 45，11（2009），2471–2482·Zbl 1183.93130号 ·doi:10.1016/j.automatica.2009.07.008
[11]	V.S.博卡尔。1997.具有两个时间尺度的随机近似。系统&#38；《控制快报》29，5（1997），291–294·Zbl 0895.62085号 ·doi:10.1016/S0167-6911（97）90015-3
[12]	V.S.博卡尔。2008.随机近似：动力学系统观点。剑桥大学出版社·Zbl 1159.60002号
[13]	D.D.Castro和S.Mannor。2010.强化学习的适应性基础。数据库中的机器学习和知识发现（2010），312–327。
[14]	A.Edelman、T.A.Arias和S.T.Smith。1998年。正交约束算法的几何。SIAM矩阵分析与应用杂志20，2（1998），303–353·Zbl 0928.6500号 ·doi:10.1137/S089547989529290954
[15]	J.Hamm和D.D.Lee。2008.格拉斯曼判别分析：基于子空间学习的统一观点。在第25届国际机器学习大会论文集上。美国医学会，376–383·数字对象标识代码：10.1145/1390156.1390204
[16]	P.W.Keller、S.Mannor和D.Precup。2006.用于近似动态规划和强化学习的自动基函数构造。第23届机器学习国际会议论文集。美国医学会，449–456·数字对象标识代码：10.1145/1143844.1143901
[17]	V.R.Konda和J.N.Tsitsiklis。2003年，Onactor-critic算法。SIAM控制与优化杂志42，4（2003），1143–1166·Zbl 1049.93095号 ·doi:10.1137/S0363012901385691
[18]	V.R.Konda和J.N.Tsitsiklis。2004.线性双时间尺度随机逼近的收敛速度。《应用概率年鉴》14，2（2004），796–819·Zbl 1094.62103号 ·doi:10.1214/10505160400000116
[19]	H.J.Kushner和D.S.Clark，1978年。约束和非约束系统的随机逼近方法。第6卷。纽约施普林格-弗拉格·Zbl 0381.60004号 ·doi:10.1007/978-1-4684-9352-8
[20]	M.G.Lagoudakis和R.Parr。2003.最小二乘法政策迭代。机器学习研究杂志4（2003），1107–1149·Zbl 1094.68080号
[21]	S.Mahadevan和B.Liu。2010年，根据价值函数的幂级数展开进行基础构建。神经信息处理系统进展。1540–1548.
[22]	S.Mahadevan和M.Maggioni。原值函数：马尔可夫决策过程中学习表示和控制的拉普拉斯框架。《机器学习研究杂志》8，16（2007），2169–2231·Zbl 1222.68253号
[23]	P.Marbach和J.N Tsitsiklis。2001.马尔可夫奖励过程的模拟优化。IEEE自动控制汇刊，46，2（2001），191-209·Zbl 0992.93088号 ·数字对象标识代码：10.1109/9.905687
[24]	I.Menache、S.Mannor和N.Shimkin。2005.时差强化学习中的基函数自适应。《运筹学年鉴》134，1（2005），215–238·Zbl 1075.90073号 ·doi:10.1007/s10479-005-5732-z
[25]	G.Meyer、S.Bonnabel和R.Sepulchre。定秩半正定矩阵的回归：黎曼方法。《机器学习研究杂志》12（2011），593–625·Zbl 1280.68185号
[26]	R.Parr、C.Painter-Wakefield、L.Li和M.Littman。2007.分析值函数近似的特征生成。第24届机器学习国际会议论文集。737–744. ·doi:10.1145/1273496.1273589
[27]	K.J.Prabuchandran、S.Bhatnagar和V.S.Borkar。2014年，一个基于格拉斯曼搜索的演员-评论家算法。第53届IEEE决策与控制会议记录。3597–3602. ·doi:10.1109/CDC.2014.7039948
[28]	K.Rohanimanesh、N.Roy和R.Tedrake。2009年。演员-评论家算法中的特征选择。在强化学习中的抽象研讨会上。42–48.
[29]	S.T.史密斯。1993年。自适应滤波的几何优化方法。哈佛大学，马萨诸塞州剑桥。
[30]	J.C.剥落。1992.使用同时扰动梯度近似的多元随机近似。IEEE自动控制汇刊，37，3（1992），332–341·Zbl 0745.60110号 ·doi:10.1109/9.119632
[31]	Y.Sun、M.Ring、J.Schmidhuber和F.J.Gomez。2011.基于时差误差的增量基础构建。第28届机器学习国际会议论文集。481–488.
[32]	R.S.Sutton、D.McAllester、S.Singh和Y.Mansour。2000.函数逼近强化学习的策略梯度方法。神经信息处理系统进展，第12卷。1057–1063.
[33]	P.S.Thomas、W.C.Dabney、S.Giguere和S.Mahadevan。2013年，预计自然因素至关重要。神经信息处理系统进展。2337–2345之间。
[34]	J.N.Tsitsiklis和B.Van Roy。1997年。用函数逼近分析时间差学习。IEEE自动控制汇刊，42，5（1997），674-690·Zbl 0914.93075号 ·数字对象标识代码：10.1109/9.580874
[35]	J.N.Tsitsiklis和B.Van Roy。1999.平均成本时间差异学习。Automatica 35，11（1999），1799–1808·Zbl 0932.93085号 ·doi:10.1016/S0005-1098（99）00099-0
[36]	L.Wolf和A.Shashua。2003.使用核主角学习集合。机器学习研究杂志4（2003），913–931·Zbl 1098.68679号
[37]	H.Yu和D.P.Bertsekas。2009年，MDP中成本近似的基函数自适应方法。在自适应动态规划和强化学习中。IEEE，74-81·doi:10.1109/ADPRL.2009.4927528

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

具有在线特征自适应的Actor-critic算法。（英语） Zbl 1369.90190号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

具有在线特征自适应的Actor-critic算法。 （英语） Zbl 1369.90190号

MSC公司：

关键词：

参考文献：

具有在线特征自适应的Actor-critic算法。（英语） Zbl 1369.90190号