{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{“日期-部分”：[[2024,9,11]]，“日期-时间”：“2024-09-11T09:44:47Z”，“时间戳”：1726047887920}，“引用-计数”：52，“发布者”：“运筹学与管理科学研究所（INFORMS）”，“问题”：“3”，“内容-域”：{-“域”：[]，“交叉标记-限制”：false}，“short-container-title”：[“Operations Research”]，“published-print”：{“date-parts”：[[2021,5]]}，”抽象“：”时间差分学习（TD）是一种简单的迭代算法，广泛用于马尔可夫奖励过程中的策略评估。Bhandari等人用线性函数逼近证明了TD学习的有限时间收敛速度。接下来的分析使用了一个关键洞察力，该洞察力在TD更新和在线梯度下降之间建立了严格的联系。在观测值被i.i.d.噪声破坏的模型中，TD的收敛结果基本上反映了在线梯度下降的分析。使用信息理论技术，作者还提供了将TD应用于单个马尔科夫数据流时算法更新可能严重偏差的情况的结果。他们的分析无缝地扩展到了TD学习和高维最优停车问题的资格跟踪和Q学习的研究<\/jats:p>“，”DOI“：”10.1287\/opre.2020.2024“，”type“：”期刊文章“，”created“：｛”日期部分“：[[2021,3,19]]，”日期时间“：”2021-03-19T13:05:46Z“，”时间戳“：1616159146000｝，”page“：”950-973“，”source“：”Crossref“，”由count引用“：25，”title“：[”线性函数近似的时间差学习的有限时间分析“]，”prefix“：”10.1287”，“volume”：“69”，“author”：[｛“given”：“Jalaj”，“family”：“Bhandari”，“sequence”：“first”，“affiliation”：[｛“name”：“Operations Research，Columbia University，New York，New York 10027；”｝]｝，｛“ORCID”：“http:\/\/ORCID.org/0000-0001-5926-8624”，“authenticated ORCID”：false，“given”：“Daniel”，“family”：“Russo”，“sequence”：“additional”，“affiliation”：[｛“name”：“纽约哥伦比亚大学商学院，邮编10027“}]}，{“ORCID”：“http://\/ORCID.org\/0000-0001-9277-7383”，“authenticated-ORCID”：false，“given”：”Raghav“，“family”：“Singal”，“sequence”：“additional”，“affiliation”：[{“name”：“运筹学，哥伦比亚大学，纽约10027；”}]}]，“member”：“109”，“reference”：[}“key”：B1“，”doi-asserted-by“：”publisher“，”doi“：”10.1287\/mnsc.1040.0258“}，{“key”：“B2”，“doi-assert-by”：“publisher”、“doi”：“10.1007\/s10994-007-5038-2”}、{“key”：“B3”，”first page“：”773“，”author“：”Bach F“，”year“：”2013“，”journal-title“：”Adv.Neural Inform.Process.Systems“}“volume-title”：“自适应算法和随机近似”，“volume“：”22“，”author“：”Benveniste A“，”year“：”2012“}，”{“key”：“B6”，”volume-title“：”Dynamic Programming and Optimal Control“，”user“：“Bertsekas DP”，“year”：“1995”}，{“密钥”：“B7”，“volume-title”：“随机最优控制：离散时间情况”，“author”：“Bertesekas DP“，”year“：“1978”}、{“key”：”B8“，”volume-title“：“”随机近似：动态系统观点“，”卷“：”48“，”作者“：”Borkar VS“，”年份“：”2009“}，{“key”：“B9”，“doi-asserted-by”：“publisher”，“doi”：“10.1137\/S0363012997331639”}，“key“：”B10“，”doi-assert-by“：”publisher“，“publisher”，“doi”：“10.1007\/BF00114723”}，{“key”：“B13”，“doi-asserted-by“：”crossref“，”unstructured“：”Dalal G，\nSz\u00f6r\u00e9nyi B，\nShoppe G，\nManor S（2018a）TD（0）的有限样本分析，函数近似。McIlraith SA，Weinberger KQ，eds.第32期AAAI Conf.Artificial Intelligence，第34卷（AAI出版社，加利福尼亚州帕洛阿尔托），6144-6160.“，“DOI”：“10.1609\/AAAI.v32i1.12079”}，{“key”：“B14”，“unstructured”：“Dalal G，\nSz\u00f6r\u00e9nyi B，\nHoppe G，\nManor S（2018b）双时间尺度随机逼近的有限样本分析及其在强化学习中的应用。Bubeck S，Perchet V，Rigollet P编辑，Proc。第31届Conf.学习。Theory，（PMLR，纽约，纽约），1199\u20131233.“}，{”key“：”B15“，”first page“：“809”，“volume”：“15”，“author”：“Dann C”，“year”：“2014”，“journal-title”：“J.Machine Learning Res.”}，“key”：”B16“，”doi-asserted-by“：”publisher“，”doi“：”10.1287\/opere.51.6850.24925“}“：”publisher“，”doi“：”10.1287\/mnsc.1120.1551“}，{”key“：”B18“，”首页：“2235”，“卷”：“30”，“作者”：“Devraj AM”，“年份”：“2017年”，“新闻标题”：“高级神经信息”。处理系统“}，{”key“：”B19“，”doi-asserted-by“：”publisher“，”doi“：”10.1090\/pcms\/025\/03“}、{”密钥“：”B20“，”首页“：”721“，”卷“：”23“，”作者“：”Ghavamzadeh M“，”年份“：”2010“，”日志标题“：”Adv.Neural Inform.Processing Systems“}”，{“key”：“B22”，“doi-assert-by”：“publisher”，“doi”：“10.1137\/S036301299222661”}，{“key”：“B23”，“doi-asserted-by”：“publisher“，”DOI“：”10.1287\/opere.1030.0070“}，{”key“：”B24“，”first page“：“703”，“volume”：“7”，”author“：”Jaakkola T“，”year“：”1994“，”journal-title“：”Adv.Neural Inform.Processing Systems“}”，{“key”：”B26“，”unstructured“：”Konda VR（2002）Actor-critic algorithms。博士论文，马萨诸塞州剑桥市麻省理工学院。“}非结构化”：“Korda N，Prashanth LA（2015）关于TD（0）的函数逼近：浓度边界和指数收敛的中心变量。巴赫F，布莱D编辑。第32届国际。Conf.机器学习。，（PMLR，纽约州纽约市），626\u2013634.“}，{”key“：”B28“，”doi-asserted-by“：”publisher“，”doi“：”10.1002\/wics.57“}、{”key“：“B29”，”volume-title“：”随机近似和递归算法及应用“，”volumity“：”35“，”author“：”Kushner H“，”year“：”2003“}”，{“key”：“B32”，”unstructured“：”Lakshminarayanan C，\n zepesv\u00e1ri C（2018）线性随机近似：恒定步长和迭代平均能走多远？Storkey A，Perez-Cruz F，编辑Proc。第21届国际。Conf.Artificial Intelligence Statistics，（PMLR，纽约州纽约市），1347\u20131355.“}，{”key“：”B33“，”unstructured“：”Lazarica A，Ghavamzadeh M，\nMunos R（2010）LSTD的Finite-sample analysis of LSTD.F\u00fcrnkranz J，Joachims T，eds.Proc.27th Internat.Conf.Machine Learn.，（Omnipress，Madison，WI），615\u2013622.“}”，{“key”：“B34”，“doi-asserted-by”：“”publisher“，”DOI“：”10.1090\/mbk\/107“}，{“key”：“B35”，“unstructured”：“Liu B，\nLiu J，\nGhavamzadeh M，\nHadevan S，\nMetrik M（2015）近端梯度TD算法的Finite-sample分析。Meila M，Heskes T，eds.Proc.31 Conf.不确定性人工智能，（AUAI Press，Corvallis，OR），504\u2013513.”}，“{”key“：”B36“，”doi-asserted-by“：”publisher“，”doi“：”10.1109\/TAC.2014.2368731“}，{”key“：”B37“，”volume-title“：”Markov链和随机稳定性“，”author“：”Meyn SP“，”year“：”2012“}”，{“key”：“B38”，“doi-assert-by”：“publisher“：”10.1137\/070704277“}，{”密钥“：”B40“，”非结构化“：”Pires B\u00c1，\nSzepesv\u00e1ri C（2012）带惩罚估计量的统计线性估计：强化学习的应用。Langford J、Pineau J编辑。第29届国际。Conf.机器学习。，（威斯康星州麦迪逊Omnipress），1755\u20131762。“}，{“key”：“B41”，“doi-asserted-by”：“publisher”，“doi”：“10.1137\/0330046”}，}“key:”B42“，”doi-assert-by“：”crossref“，”unstructured“：”Prashanth LA，\nKorda N，\nMunos R（2014）使用随机近似的快速LSTD：有限时间分析和交通控制应用。Calders T，Esposito F，H\u00fcllermier E，Meo R，eds.联合欧洲Conf.机器学习。知识发现数据库，（Springer，Berlin，Heidelberg），66\u201381.“，”DOI“：”10.1007\/978-3662-44851-9_5“}，{“key”：“B43”，“DOI-asserted-by”：“publisher”，“DOI”：“10.1214\/15495780410000024”}，“key“：”B44“，”volume-title“：”从缓慢收敛的Robbins-Monro过程中进行有效估计。技术报告，“作者”：“Ruppert D”，“年份”：“1988”}{“key“：”B45“，”doi-asserted-by“：”publisher“，”doi“：”10.1109\/TIT.2019.2945779“}，{“key”：“B46”，“doi-assert-by”：“publisher”，“doi”：“10.1007\/BF00114725”}，}“key:”B47“，”unstructured“：”Seijen H，\nButton RS（2014）True online TD（\u03bb）。Xing EP，Jebara T，eds.Proc.31 Internat.Conf.Machine Learn.，（PM.LR，纽约州纽约市），692\u2013700。“}，{”key“：”B48“，”doi-asserted-by“：”publisher“，”doi“：”10.1007\/BF00115009“}，{“key”：”B49“，”doi-assertd-by“：”publisher“，”DI:“10.1109\/TNN.1998.712192”}，}“key:”B50“，”首页“：”1609“，”author“：”Sutton RS“，”year“：”2009“，”journal-title“：”Adv.Neural Inform.Processing Systems“}，“doi-asserted-by”：“crossref”，“非结构化”：“Sutton RS，\nMei HR，\nPrecup D，\nBhatnagar S，\nSilver D，\nZepesv\u00e1ri C，\nViewiora E（2009b）线性函数近似下时间差分学习的快速梯度下降方法。Bottou L，Littman M，编辑：Proc。第26届国际。Conf.机器学习。，（Omnipress，Madison，WI），993\u20131000.“，”DOI“：”10.1145\\1553374.1553501“｝，｛”键“：”B52“，”非结构化“：”Touati A，\nBarcon PL，\nPress D，\nFirent P（2018）收敛TREE BACKUP和RETRACE与函数近似。Dy J，Krause A，eds.Proc.35th Internal.Conf.Machine Learn.，（PMLR，New York，NY），4955\u20134964.“｝，｛”键“：”B53“，”doi-asserted-by“：”publisher“，”doi“：”10.1109 \/9.580874“}，{“key”：“B54”，“doi-assert-by”：“publisher”，“doi”：“10.1109 \/9.793723”}，“key“：”B55“，”unstructured“：”Tu S，\nRecht B（2018）线性二次调节器的最小二乘时差学习。Dy J，Krause A，eds.Proc.35th Internat.Conf.Machine Learn.，（PMLR，纽约，NY），5005\u20135014.“}，{“key”：“B56”，“unstructured”：“Van Roy B（1998）复杂决策过程中的学习和价值函数近似。马萨诸塞州剑桥市麻省理工学院博士论文。”}，}，“key“：”B57“，“首页”：“2524”，“author”：“Xu A”，“year”：“2017”，“journal title”：“Adv.Neural Inform.Processing Systems”}doi-asserted-by“：”publisher“，”doi“：”10.1109\/TAC.2009.2022097“}]，”container-title“：[”Operations Research“]，”original-title”：[]，”language“：”en“，”link“：[{”URL“：”https:\/\/pubsonline.netails.org\/doi\/pdf\/10.1287\/opere.2020.2024“，”content-type“：”unspecified“，”content-version“：”vor“，”intended-application“：”similarity-checking“}]，“存放”：{“date-parts“：[[2023,4,2]，”date-time“：”2023-04-02T16:50:12Z“，”timestamp“：1680454212000}，”score“：1，”resource“：{”primary“：”URL“：”https:\/\/pubsonline.netails.org\/doi\/10.1287\/opere.2020.2024“}，“subtitle”：[]，“shorttitle”：[]，“issued”：{“date-part”：[2021,5]]}，《参考计数》：52，“新闻发布”：{“发布”：“3”，“发布-发布”：}date-parts“：[[2021,5]]}}，”alternative-id“：[”10.1287\/opere.2020.2024“]，”URL“：”http://\/dx.doi.org\/10.1287\/oper.e020.2024“，”relationship“：{}，“ISSN”：[“0030-364X”，“1526-5463”]，“ISSN-type”：[{“value”：“0030-365X”，”type“：”print“}，{“value”：“1526-5563”，“type”“：”电子“}]，”主题“：[]，”发布“：{”日期部分“：[[2021,5]]}}}