{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期-部分”:[[2024,9,11]],“日期-时间”:“2024-09-11T09:44:47Z”,“时间戳”:1726047887920},“引用-计数”:52,“发布者”:“运筹学与管理科学研究所(INFORMS)”,“问题”:“3”,“内容-域”:{-“域”:[],“交叉标记-限制”:false},“short-container-title”:[“Operations Research”],“published-print”:{“date-parts”:[[2021,5]]},”抽象“:”时间差分学习(TD)是一种简单的迭代算法,广泛用于马尔可夫奖励过程中的策略评估。Bhandari等人用线性函数逼近证明了TD学习的有限时间收敛速度。接下来的分析使用了一个关键洞察力,该洞察力在TD更新和在线梯度下降之间建立了严格的联系。在观测值被i.i.d.噪声破坏的模型中,TD的收敛结果基本上反映了在线梯度下降的分析。使用信息理论技术,作者还提供了将TD应用于单个马尔科夫数据流时算法更新可能严重偏差的情况的结果。他们的分析无缝地扩展到了TD学习和高维最优停车问题的资格跟踪和Q学习的研究<\/jats:p>“,”DOI“:”10.1287\/opre.2020.2024“,”type“:”期刊文章“,”created“:{”日期部分“:[[2021,3,19]],”日期时间“:”2021-03-19T13:05:46Z“,”时间戳“:1616159146000},”page“:”950-973“,”source“:”Crossref“,”由count引用“:25,”title“:[”线性函数近似的时间差学习的有限时间分析“],”prefix“:”10.1287”,“volume”:“69”,“author”:[{“given”:“Jalaj”,“family”:“Bhandari”,“sequence”:“first”,“affiliation”:[{“name”:“Operations Research,Columbia University,New York,New York 10027;”}]},{“ORCID”:“http:\/\/ORCID.org/0000-0001-5926-8624”,“authenticated ORCID”:false,“given”:“Daniel”,“family”:“Russo”,“sequence”:“additional”,“affiliation”:[{“name”:“纽约哥伦比亚大学商学院,邮编10027“}]},{“ORCID”:“http://\/ORCID.org\/0000-0001-9277-7383”,“authenticated-ORCID”:false,“given”:”Raghav“,“family”:“Singal”,“sequence”:“additional”,“affiliation”:[{“name”:“运筹学,哥伦比亚大学,纽约10027;”}]}],“member”:“109”,“reference”:[}“key”:B1“,”doi-asserted-by“:”publisher“,”doi“:”10.1287\/mnsc.1040.0258“},{“key”:“B2”,“doi-assert-by”:“publisher”、“doi”:“10.1007\/s10994-007-5038-2”}、{“key”:“B3”,”first page“:”773“,”author“:”Bach F“,”year“:”2013“,”journal-title“:”Adv.Neural Inform.Process.Systems“}“volume-title”:“自适应算法和随机近似”,“volume“:”22“,”author“:”Benveniste A“,”year“:”2012“},”{“key”:“B6”,”volume-title“:”Dynamic Programming and Optimal Control“,”user“:“Bertsekas DP”,“year”:“1995”},{“密钥”:“B7”,“volume-title”:“随机最优控制:离散时间情况”,“author”:“Bertesekas DP“,”year“:“1978”}、{“key”:”B8“,”volume-title“:“”随机近似:动态系统观点“,”卷“:”48“,”作者“:”Borkar VS“,”年份“:”2009“},{“key”:“B9”,“doi-asserted-by”:“publisher”,“doi”:“10.1137\/S0363012997331639”},“key“:”B10“,”doi-assert-by“:”publisher“,“publisher”,“doi”:“10.1007\/BF00114723”},{“key”:“B13”,“doi-asserted-by“:”crossref“,”unstructured“:”Dalal G,\nSz\u00f6r\u00e9nyi B,\nShoppe G,\nManor S(2018a)TD(0)的有限样本分析,函数近似。McIlraith SA,Weinberger KQ,eds.第32期AAAI Conf.Artificial Intelligence,第34卷(AAI出版社,加利福尼亚州帕洛阿尔托),6144-6160.“,“DOI”:“10.1609\/AAAI.v32i1.12079”},{“key”:“B14”,“unstructured”:“Dalal G,\nSz\u00f6r\u00e9nyi B,\nHoppe G,\nManor S(2018b)双时间尺度随机逼近的有限样本分析及其在强化学习中的应用。Bubeck S,Perchet V,Rigollet P编辑,Proc。第31届Conf.学习。Theory,(PMLR,纽约,纽约),1199\u20131233.“},{”key“:”B15“,”first page“:“809”,“volume”:“15”,“author”:“Dann C”,“year”:“2014”,“journal-title”:“J.Machine Learning Res.”},“key”:”B16“,”doi-asserted-by“:”publisher“,”doi“:”10.1287\/opere.51.6850.24925“}“:”publisher“,”doi“:”10.1287\/mnsc.1120.1551“},{”key“:”B18“,”首页:“2235”,“卷”:“30”,“作者”:“Devraj AM”,“年份”:“2017年”,“新闻标题”:“高级神经信息”。处理系统“},{”key“:”B19“,”doi-asserted-by“:”publisher“,”doi“:”10.1090\/pcms\/025\/03“}、{”密钥“:”B20“,”首页“:”721“,”卷“:”23“,”作者“:”Ghavamzadeh M“,”年份“:”2010“,”日志标题“:”Adv.Neural Inform.Processing Systems“}”,{“key”:“B22”,“doi-assert-by”:“publisher”,“doi”:“10.1137\/S036301299222661”},{“key”:“B23”,“doi-asserted-by”:“publisher“,”DOI“:”10.1287\/opere.1030.0070“},{”key“:”B24“,”first page“:“703”,“volume”:“7”,”author“:”Jaakkola T“,”year“:”1994“,”journal-title“:”Adv.Neural Inform.Processing Systems“}”,{“key”:”B26“,”unstructured“:”Konda VR(2002)Actor-critic algorithms。博士论文,马萨诸塞州剑桥市麻省理工学院。“}非结构化”:“Korda N,Prashanth LA(2015)关于TD(0)的函数逼近:浓度边界和指数收敛的中心变量。巴赫F,布莱D编辑。第32届国际。Conf.机器学习。,(PMLR,纽约州纽约市),626\u2013634.“},{”key“:”B28“,”doi-asserted-by“:”publisher“,”doi“:”10.1002\/wics.57“}、{”key“:“B29”,”volume-title“:”随机近似和递归算法及应用“,”volumity“:”35“,”author“:”Kushner H“,”year“:”2003“}”,{“key”:“B32”,”unstructured“:”Lakshminarayanan C,\n zepesv\u00e1ri C(2018)线性随机近似:恒定步长和迭代平均能走多远?Storkey A,Perez-Cruz F,编辑Proc。第21届国际。Conf.Artificial Intelligence Statistics,(PMLR,纽约州纽约市),1347\u20131355.“},{”key“:”B33“,”unstructured“:”Lazarica A,Ghavamzadeh M,\nMunos R(2010)LSTD的Finite-sample analysis of LSTD.F\u00fcrnkranz J,Joachims T,eds.Proc.27th Internat.Conf.Machine Learn.,(Omnipress,Madison,WI),615\u2013622.“}”,{“key”:“B34”,“doi-asserted-by”:“”publisher“,”DOI“:”10.1090\/mbk\/107“},{“key”:“B35”,“unstructured”:“Liu B,\nLiu J,\nGhavamzadeh M,\nHadevan S,\nMetrik M(2015)近端梯度TD算法的Finite-sample分析。Meila M,Heskes T,eds.Proc.31 Conf.不确定性人工智能,(AUAI Press,Corvallis,OR),504\u2013513.”},“{”key“:”B36“,”doi-asserted-by“:”publisher“,”doi“:”10.1109\/TAC.2014.2368731“},{”key“:”B37“,”volume-title“:”Markov链和随机稳定性“,”author“:”Meyn SP“,”year“:”2012“}”,{“key”:“B38”,“doi-assert-by”:“publisher“:”10.1137\/070704277“},{”密钥“:”B40“,”非结构化“:”Pires B\u00c1,\nSzepesv\u00e1ri C(2012)带惩罚估计量的统计线性估计:强化学习的应用。Langford J、Pineau J编辑。第29届国际。Conf.机器学习。,(威斯康星州麦迪逊Omnipress),1755\u20131762。“},{“key”:“B41”,“doi-asserted-by”:“publisher”,“doi”:“10.1137\/0330046”},}“key:”B42“,”doi-assert-by“:”crossref“,”unstructured“:”Prashanth LA,\nKorda N,\nMunos R(2014)使用随机近似的快速LSTD:有限时间分析和交通控制应用。Calders T,Esposito F,H\u00fcllermier E,Meo R,eds.联合欧洲Conf.机器学习。知识发现数据库,(Springer,Berlin,Heidelberg),66\u201381.“,”DOI“:”10.1007\/978-3662-44851-9_5“},{“key”:“B43”,“DOI-asserted-by”:“publisher”,“DOI”:“10.1214\/15495780410000024”},“key“:”B44“,”volume-title“:”从缓慢收敛的Robbins-Monro过程中进行有效估计。技术报告,“作者”:“Ruppert D”,“年份”:“1988”}{“key“:”B45“,”doi-asserted-by“:”publisher“,”doi“:”10.1109\/TIT.2019.2945779“},{“key”:“B46”,“doi-assert-by”:“publisher”,“doi”:“10.1007\/BF00114725”},}“key:”B47“,”unstructured“:”Seijen H,\nButton RS(2014)True online TD(\u03bb)。Xing EP,Jebara T,eds.Proc.31 Internat.Conf.Machine Learn.,(PM.LR,纽约州纽约市),692\u2013700。“},{”key“:”B48“,”doi-asserted-by“:”publisher“,”doi“:”10.1007\/BF00115009“},{“key”:”B49“,”doi-assertd-by“:”publisher“,”DI:“10.1109\/TNN.1998.712192”},}“key:”B50“,”首页“:”1609“,”author“:”Sutton RS“,”year“:”2009“,”journal-title“:”Adv.Neural Inform.Processing Systems“},“doi-asserted-by”:“crossref”,“非结构化”:“Sutton RS,\nMei HR,\nPrecup D,\nBhatnagar S,\nSilver D,\nZepesv\u00e1ri C,\nViewiora E(2009b)线性函数近似下时间差分学习的快速梯度下降方法。Bottou L,Littman M,编辑:Proc。第26届国际。Conf.机器学习。,(Omnipress,Madison,WI),993\u20131000.“,”DOI“:”10.1145\\1553374.1553501“},{”键“:”B52“,”非结构化“:”Touati A,\nBarcon PL,\nPress D,\nFirent P(2018)收敛TREE BACKUP和RETRACE与函数近似。Dy J,Krause A,eds.Proc.35th Internal.Conf.Machine Learn.,(PMLR,New York,NY),4955\u20134964.“},{”键“:”B53“,”doi-asserted-by“:”publisher“,”doi“:”10.1109 \/9.580874“},{“key”:“B54”,“doi-assert-by”:“publisher”,“doi”:“10.1109 \/9.793723”},“key“:”B55“,”unstructured“:”Tu S,\nRecht B(2018)线性二次调节器的最小二乘时差学习。Dy J,Krause A,eds.Proc.35th Internat.Conf.Machine Learn.,(PMLR,纽约,NY),5005\u20135014.“},{“key”:“B56”,“unstructured”:“Van Roy B(1998)复杂决策过程中的学习和价值函数近似。马萨诸塞州剑桥市麻省理工学院博士论文。”},},“key“:”B57“,“首页”:“2524”,“author”:“Xu A”,“year”:“2017”,“journal title”:“Adv.Neural Inform.Processing Systems”}doi-asserted-by“:”publisher“,”doi“:”10.1109\/TAC.2009.2022097“}],”container-title“:[”Operations Research“],”original-title”:[],”language“:”en“,”link“:[{”URL“:”https:\/\/pubsonline.netails.org\/doi\/pdf\/10.1287\/opere.2020.2024“,”content-type“:”unspecified“,”content-version“:”vor“,”intended-application“:”similarity-checking“}],“存放”:{“date-parts“:[[2023,4,2],”date-time“:”2023-04-02T16:50:12Z“,”timestamp“:1680454212000},”score“:1,”resource“:{”primary“:”URL“:”https:\/\/pubsonline.netails.org\/doi\/10.1287\/opere.2020.2024“},“subtitle”:[],“shorttitle”:[],“issued”:{“date-part”:[2021,5]]},《参考计数》:52,“新闻发布”:{“发布”:“3”,“发布-发布”:}date-parts“:[[2021,5]]}},”alternative-id“:[”10.1287\/opere.2020.2024“],”URL“:”http://\/dx.doi.org\/10.1287\/oper.e020.2024“,”relationship“:{},“ISSN”:[“0030-364X”,“1526-5463”],“ISSN-type”:[{“value”:“0030-365X”,”type“:”print“},{“value”:“1526-5563”,“type”“:”电子“}],”主题“:[],”发布“:{”日期部分“:[[2021,5]]}}}