{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{-“日期部分”：[[2024,9,14]]，“日期时间”：“2024-09-14T17:11:50Z”，“时间戳”：1726333910027}，“引用计数”：22，“发布者”：“IEEE”，“内容域”:{“域”：[]，“交叉标记限制”：false}，”短容器时间“：[]”，“published-print”：{“日期部分”：[[2013,8]]}，“DOI”：“10.1109\/devlrn.2013.6652533”，“type”：“proceedings-article”，“created”：{“date-parts”：[[2013,11,11]]，“date-time”：“2013-11-11T14:56:15Z”，“timestamp”：1384181775000}，“source”：”Crossref“，”is-referenced-by-count“：12，“title”：[“使用与状态相关的折扣因子进行强化学习”]，“prefix”：“101109”，“author”：[{“给定”：“Naoto”，“家庭”：“吉田”，“sequence”：“first”，“affiliation”：[]}，{“given”：“Eiji”，“family”：“Uchibe”，“序列”：“additional”，“ffiliation”：[]}，}“givin”：”Kenji“，”family“：Doya”，”sequence“：”additional“，”affiliance“：[]]，“member”：“263”，“reference”：[{“key”:“19”，“doi-asserted-by”：”publisher“，“doi”：“10.2307\/321 5024“}，{”键“：”22“，”首页“：”394“，”文章标题“：“关于解决马尔可夫决策问题的复杂性”，“author”：“littman”，“year”：“1995”，“journal-title”：“第十一届人工智能不确定性会议论文集”}，{“key”：“17”，“doi-asserted-by”：“publisher”，“doi”：“10.1109\/ICASSP.2012.6288330”}：“在线时间差异学习的自适应步长”，“author”：“dabney”，“year”：“2012”，“journal-title”：“第二十六届AAAI人工智能会议”}，{“key”：“15”，“article-title“：“强化学习中的最佳标准”，“author”:“mahadevan”，“year”:“1996”，“journal-ttitle”：“AAAI秋季自适应智能系统复杂行为学习研讨会论文集”}，{“key”：“16”，“doi-asserted-by”：“publisher”，“doi”：“10.1007\/BF00114727”}，“doi断言者”：“publisher”，“doi”：“10.1007\\s12035-012-8232-6”}，{“key”：“11”，“doi断言者”：“publisher”，“doi”：“10.1109\\/TAMD.2010.2051031”}，{“key”：“12”，“doi断言者”：“publisher”，“doi”：“10.1162\\neco.1994.6.6.1185”}，{“key”：“21”，“author”：“hansen”，“year”：“2005”，“期刊标题”：“CMA进化策略教程“｝，｛”键“：”3“，”作者“：“watkins”，“year”：“1989”，“journal-title”：“从延迟的奖励中学习”，“doi-asserted-by”：“crossref”，“first page”：“1593”，“doi”：“10.1126\/science.275.5306.1593”，”article-title“：“预测和奖励的神经基质”，“volume”：”275“，“author”：“schultz”，“year”：“1997”，“journal-title”：“science”}，{“key”:“1”，“首页”：“369”，“article-title”：“具有状态依赖折扣因子和无限报酬/成本的马尔可夫决策过程”，“数量”：“39”，“作者”：“伟”，“年份”：“2011”，“日记标题”：“Oper Res Lett”}，{“键”：“10”，“首页”：“2601”，“文章标题”：”奖励来自哪里？“，”作者“：”辛格“，”年份“：”2009“，”日记标题“：“认知科学学会第三十一届年会论文集”}，{“key”：“7”，“doi-asserted-by”：“publisher”，“doi”：“10.1016\/S0893-6080（02）00044-8”}、{“key”：”6“，“author”：“sutton”，“year”：“1998”，“journal-title”：“强化学习导论”}键“：”4“，“doi-asserted-by”：“publisher”，“doi”：“10.1016\/S0893-6080（02）00056-4”}，{“key”：“9”，“article-title”：“没有学习速度的时间差异更新”，“author”：“hutter”，“year”：“2008”，“journal-title“：“Conference on Advances in Neural Information Processing Systems（NIPS 2007）”}：“10.1016\\S0893-6080（02）00228-9”｝]，“活动”：｛“名称”：“2013 IEEE国际开发与学习与表观遗传学机器人会议（ICDL）”，“地点”：“日本大阪”，“开始”：｛“日期部分”：[[2013,8,18]]｝，“结束”：｛“日期部分”：[[2013,8,22]]]｝｝，“容器标题”：[“2013 IEEE第三届发展、学习和表观遗传机器人联合国际会议（ICDL）”]，“original-title”：[]，“link”：[{“URL”：“http://\/xplorestaging.IEEE.org\/ielx7\/6645681\/66525320\/0665253.pdf？arnumber=6652533”，“content-type”：“unspecified”，“content-version”：“vor”，“intended-application”：“similarity-checking”}]，“deposed”：{“date-parts”：[[2017,6,21]]，“date-time”：“2017-06-21T21:45:22Z”，“timestamp”：1498081522000}，“score”：1，“resource”：{”primary“：{”URL“：”http://\/ieeexplore.iee.org\/document\/66525333/“}，”subtitle“：[]，”shorttitle“：[]，”issued“：{“date-ports”：[2013,8]]}”，“references-count”：22，“URL“：”http://\/dx.doi.org\/10.109\/devlrn.2013.6652533“，”关系“：{}，“主题”：[]，“发布”：{“日期部分”：[[2013,8]]}}