{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{-“日期部分”:[[2024,9,6]],“日期时间”:“2024-09-06T20:17:56Z”,“时间戳”:1725653876629},“引用计数”:24,“发布者”:“IEEE”,“内容域”:{“域”:[],“交叉标记限制”:false},”短容器时间“:[]”,“发布-发布int“:{“日期部分”:[[2014,10]]},“DOI”:“10.1109 \/devlrn.2014.6982985”,“type”:“proceedings-article”,“created”:{“date-parts”:[[2014,12,30]],“date-time”:“2014-12-30T23:48:19Z”,“timestamp”:141998329000},“page”:”222-228“,“source”:“作者”用法:[{“given”:“Eiji”,“family”:“Uchibe”,“sequence”:“first”,“affiliation”:[]},{“given”:“Kenji”、“families”:“Doya”,”sequence“:”additional“,“affaliation”:[]}],“member”:“263”,“reference”:[{key“:”19“,”doi-asserted-by“:”publisher“,”doi“:”10.1587\/transinf.E93.D.583“},”{“key“:”22“,”doi-asserted-by“:”publisher“,”doi“:”10.1162\/089976600300015961“},{”key“:”17“,“首页”:“3207”,“文章标题”:“动态政策规划”,“卷”:“13”,“作者”:“gheshlaghi azar”,“年份”:“2012年”,“期刊标题”:《机器学习研究杂志》},{“期刊名称”:“第十六届国际机器学习会议纪要”,“论文标题”:“奖励转换下的政策不变性:奖励形成的理论与应用”,“年份”:“1999”,“作者”:“ng”,“key”:“23”},{“key“:“18”,“首页”:“1391”,“文章标题”:“直接重要性估计的最小二乘法”,“数量”:“10”,“作家”:“kanamori”,“年”:“2009”,“期刊标题”:《机器学习研究杂志》},{“期刊标题”:“机器学习的概率视角”,“年份”:“2012”,“作者”:“murphy”,“key”:“24”},{“key”:“15”,“首页”:“1016”,“文章标题”:“通过结构化分类的反向强化学习”,“卷”:“25”,“作者”:“klein”,“年份”:“2012”,“期刊标题”:“神经信息处理系统的进展”},{“key”:“16”,“doi-asserted-by”:“publisher”,“doi”:“10.1007\/978-3642-40988-2_1”},{“key”:“13”,“article-title”:“相对熵反向强化学习”,“volume”:”15“,“author”:“boularias”,“year”:“2011”,“journal-title“:“Proc of the International Conference on Artificial Intelligence and Statistics”}、{“key”:“14”,“doi-asserted-by”:”publisher“doi“:“10.1007\/s00422-014-0599-1”},{“key”:“11”,“doi-asserted-by”:“publisher”,“doi”:“10.1109\/IROS.2011.6094679”}“},{”key“:”3“,”doi-asserted-by“:”publisher“,”doi“:”10.1145\/1015330.1015430“}”,{“key”:“20”,“doi-asserted-by”:“publisher”,“doi”:“10.1017\/CBO9781139035613”},{“journal-title”:“第十七届国际机器学习会议纪要”,“文章标题”:“逆强化学习算法”,“年份”:“2000”,“author”:“ng”,“key”:“2”}:“10”,“首页”:“3137”,“文章-标题”:“强化学习的广义路径积分控制方法”,“卷”:“11”,“作者”:“theodorou”,“年份”:“2010年”,“新闻标题”:《机器学习研究杂志》},{“key”:“7”,“doi-asserted-by”:“publisher”,”doi“:”10.3389\/fnbot.2013.0007:“10.1073\/pnas.0710743106”},{“journal-title”:“第27届国际机器学习会议纪要”,“文章标题”:“线性可解MDP的逆最优控制”,“年份”:“2010”,“作者”:“dvijotham”,“key”:“5”}:“最大熵逆强化学习”,“年份”:“2008”,“作者”:“ziebart”,“key”:“4”},{“key”:“9”,“doi断言者”:“publisher”,“doi”:“10.1007\\s10994-012-5278-7”},{“key”:“8”,“doi断言者”:“publisher”,“doi”:“10.1109\\ICRA.2014.6907631”}],“event”:{“name”:“2014 IEEE发展与学习及表观遗传机器人联合国际会议(ICDL-Epirob)”,“开始”:{“date-parts”:[[2014,10,13]]},“位置”:“热那亚,意大利”,“结束”:{-“date-parts”:[[2014,10,16]]}],“container-title”:[“第四届发展与学习与表观遗传机器技术国际会议”],“原始标题”:[],“链接”用法:[{“URL”:“http://\/xplorestaging.ieee.org\/ielx7\/6971976\/6982939\/069822985.pdf?arnumber=6982985”,“content-type”:“unspecified”,“content-version”:“vor”,“intended-application”:“similarity-checking”},“deposed”:{“date-parts”:[2020,10,14],“date-time”::“2020-14T15:19:20Z”,“timestamp”:160068760000},”score“:1,”资源“:{”主“:{“URL”:“https:\/\/ieeexplore.iee.org\/document\/6982985”}},“副标题”:[],“短标题”:[],“已发布”:{“日期-部件”:[[2014,10]]},”引用计数“:24,”URL“:”http://\/dx.doi.org\/10.109\/devlrn.2014.6982982985“,”关系“:{},}}