{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期部分”:[[2024,9,14]],“日期时间”:“2024-09-14T17:11:50Z”,“时间戳”:1726333910027},“引用计数”:22,“发布者”:“IEEE”,“内容域”:{“域”:[],“交叉标记限制”:false},”短容器时间“:[]”,“published-print”:{“日期部分”:[[2013,8]]},“DOI”:“10.1109\/devlrn.2013.6652533”,“type”:“proceedings-article”,“created”:{“date-parts”:[[2013,11,11]],“date-time”:“2013-11-11T14:56:15Z”,“timestamp”:1384181775000},“source”:”Crossref“,”is-referenced-by-count“:12,“title”:[“使用与状态相关的折扣因子进行强化学习”],“prefix”:“101109”,“author”:[{“给定”:“Naoto”,“家庭”:“吉田”,“sequence”:“first”,“affiliation”:[]},{“given”:“Eiji”,“family”:“Uchibe”,“序列”:“additional”,“ffiliation”:[]},}“givin”:”Kenji“,”family“:Doya”,”sequence“:”additional“,”affiliance“:[]],“member”:“263”,“reference”:[{“key”:“19”,“doi-asserted-by”:”publisher“,“doi”:“10.2307\/321 5024“},{”键“:”22“,”首页“:”394“,”文章标题“:“关于解决马尔可夫决策问题的复杂性”,“author”:“littman”,“year”:“1995”,“journal-title”:“第十一届人工智能不确定性会议论文集”},{“key”:“17”,“doi-asserted-by”:“publisher”,“doi”:“10.1109\/ICASSP.2012.6288330”}:“在线时间差异学习的自适应步长”,“author”:“dabney”,“year”:“2012”,“journal-title”:“第二十六届AAAI人工智能会议”},{“key”:“15”,“article-title“:“强化学习中的最佳标准”,“author”:“mahadevan”,“year”:“1996”,“journal-ttitle”:“AAAI秋季自适应智能系统复杂行为学习研讨会论文集”},{“key”:“16”,“doi-asserted-by”:“publisher”,“doi”:“10.1007\/BF00114727”},“doi断言者”:“publisher”,“doi”:“10.1007\\s12035-012-8232-6”},{“key”:“11”,“doi断言者”:“publisher”,“doi”:“10.1109\\/TAMD.2010.2051031”},{“key”:“12”,“doi断言者”:“publisher”,“doi”:“10.1162\\neco.1994.6.6.1185”},{“key”:“21”,“author”:“hansen”,“year”:“2005”,“期刊标题”:“CMA进化策略教程“},{”键“:”3“,”作者“:“watkins”,“year”:“1989”,“journal-title”:“从延迟的奖励中学习”,“doi-asserted-by”:“crossref”,“first page”:“1593”,“doi”:“10.1126\/science.275.5306.1593”,”article-title“:“预测和奖励的神经基质”,“volume”:”275“,“author”:“schultz”,“year”:“1997”,“journal-title”:“science”},{“key”:“1”,“首页”:“369”,“article-title”:“具有状态依赖折扣因子和无限报酬/成本的马尔可夫决策过程”,“数量”:“39”,“作者”:“伟”,“年份”:“2011”,“日记标题”:“Oper Res Lett”},{“键”:“10”,“首页”:“2601”,“文章标题”:”奖励来自哪里?“,”作者“:”辛格“,”年份“:”2009“,”日记标题“:“认知科学学会第三十一届年会论文集”},{“key”:“7”,“doi-asserted-by”:“publisher”,“doi”:“10.1016\/S0893-6080(02)00044-8”}、{“key”:”6“,“author”:“sutton”,“year”:“1998”,“journal-title”:“强化学习导论”}键“:”4“,“doi-asserted-by”:“publisher”,“doi”:“10.1016\/S0893-6080(02)00056-4”},{“key”:“9”,“article-title”:“没有学习速度的时间差异更新”,“author”:“hutter”,“year”:“2008”,“journal-title“:“Conference on Advances in Neural Information Processing Systems(NIPS 2007)”}:“10.1016\\S0893-6080(02)00228-9”}],“活动”:{“名称”:“2013 IEEE国际开发与学习与表观遗传学机器人会议(ICDL)”,“地点”:“日本大阪”,“开始”:{“日期部分”:[[2013,8,18]]},“结束”:{“日期部分”:[[2013,8,22]]]}},“容器标题”:[“2013 IEEE第三届发展、学习和表观遗传机器人联合国际会议(ICDL)”],“original-title”:[],“link”:[{“URL”:“http://\/xplorestaging.IEEE.org\/ielx7\/6645681\/66525320\/0665253.pdf?arnumber=6652533”,“content-type”:“unspecified”,“content-version”:“vor”,“intended-application”:“similarity-checking”}],“deposed”:{“date-parts”:[[2017,6,21]],“date-time”:“2017-06-21T21:45:22Z”,“timestamp”:1498081522000},“score”:1,“resource”:{”primary“:{”URL“:”http://\/ieeexplore.iee.org\/document\/66525333/“},”subtitle“:[],”shorttitle“:[],”issued“:{“date-ports”:[2013,8]]}”,“references-count”:22,“URL“:”http://\/dx.doi.org\/10.109\/devlrn.2013.6652533“,”关系“:{},“主题”:[],“发布”:{“日期部分”:[[2013,8]]}}