{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{-“日期部分”：[[2024,9,6]]，“日期时间”：“2024-09-06T20:17:56Z”，“时间戳”：1725653876629}，“引用计数”：24，“发布者”：“IEEE”，“内容域”:{“域”：[]，“交叉标记限制”：false}，”短容器时间“：[]”，“发布-发布int“：{“日期部分”：[[2014,10]]}，“DOI”：“10.1109 \/devlrn.2014.6982985”，“type”：“proceedings-article”，“created”：{“date-parts”：[[2014,12,30]]，“date-time”：“2014-12-30T23:48:19Z”，“timestamp”：141998329000}，“page”：”222-228“，“source”：“作者”用法：[{“given”：“Eiji”，“family”：“Uchibe”，“sequence”：“first”，“affiliation”：[]}，{“given”:“Kenji”、“families”：“Doya”，”sequence“：”additional“，“affaliation”:[]}]，“member”：“263”，“reference”：[{key“：”19“，”doi-asserted-by“：”publisher“，”doi“：”10.1587\/transinf.E93.D.583“}，”{“key“:”22“，”doi-asserted-by“：”publisher“，”doi“：”10.1162\/089976600300015961“}，{”key“：”17“，“首页”：“3207”，“文章标题”：“动态政策规划”，“卷”：“13”，“作者”：“gheshlaghi azar”，“年份”：“2012年”，“期刊标题”：《机器学习研究杂志》}，{“期刊名称”：“第十六届国际机器学习会议纪要”，“论文标题”：“奖励转换下的政策不变性：奖励形成的理论与应用”，“年份”：“1999”，“作者”：“ng”，“key”：“23”}，{“key“：“18”，“首页”：“1391”，“文章标题”：“直接重要性估计的最小二乘法”，“数量”：“10”，“作家”：“kanamori”，“年”：“2009”，“期刊标题”：《机器学习研究杂志》}，｛“期刊标题”：“机器学习的概率视角”，“年份”：“2012”，“作者”：“murphy”，“key”：“24”｝，｛“key”：“15”，“首页”：“1016”，“文章标题”：“通过结构化分类的反向强化学习”，“卷”：“25”，“作者”：“klein”，“年份”：“2012”，“期刊标题”：“神经信息处理系统的进展”｝，｛“key”：“16”，“doi-asserted-by”：“publisher”，“doi”：“10.1007\/978-3642-40988-2_1”}，{“key”：“13”，“article-title”：“相对熵反向强化学习”，“volume”：”15“，“author”：“boularias”，“year”：“2011”，“journal-title“：“Proc of the International Conference on Artificial Intelligence and Statistics”}、{“key”：“14”，“doi-asserted-by”：”publisher“doi“：“10.1007\/s00422-014-0599-1”}，{“key”：“11”，“doi-asserted-by”：“publisher”，“doi”：“10.1109\/IROS.2011.6094679”}“}，{”key“：”3“，”doi-asserted-by“：”publisher“，”doi“：”10.1145\/1015330.1015430“}”，{“key”：“20”，“doi-asserted-by”：“publisher”，“doi”：“10.1017\/CBO9781139035613”}，{“journal-title”：“第十七届国际机器学习会议纪要”，“文章标题”：“逆强化学习算法”，“年份”：“2000”，“author”：“ng”，“key”：“2”}：“10”，“首页”：“3137”，“文章-标题”：“强化学习的广义路径积分控制方法”，“卷”：“11”，“作者”：“theodorou”，“年份”：“2010年”，“新闻标题”：《机器学习研究杂志》}，{“key”：“7”，“doi-asserted-by”：“publisher”，”doi“：”10.3389\/fnbot.2013.0007：“10.1073\/pnas.0710743106”}，{“journal-title”：“第27届国际机器学习会议纪要”，“文章标题”：“线性可解MDP的逆最优控制”，“年份”：“2010”，“作者”：“dvijotham”，“key”：“5”}：“最大熵逆强化学习”，“年份”：“2008”，“作者”：“ziebart”，“key”：“4”｝，｛“key”：“9”，“doi断言者”：“publisher”，“doi”：“10.1007\\s10994-012-5278-7”｝，｛“key”：“8”，“doi断言者”：“publisher”，“doi”：“10.1109\\ICRA.2014.6907631”｝]，“event”：｛“name”：“2014 IEEE发展与学习及表观遗传机器人联合国际会议（ICDL-Epirob）”，“开始”：{“date-parts”：[[2014,10,13]]}，“位置”：“热那亚，意大利”，“结束”：{-“date-parts”：[[2014,10,16]]}]，“container-title”：[“第四届发展与学习与表观遗传机器技术国际会议”]，“原始标题”：[]，“链接”用法：[{“URL”：“http://\/xplorestaging.ieee.org\/ielx7\/6971976\/6982939\/069822985.pdf？arnumber=6982985”，“content-type”：“unspecified”，“content-version”：“vor”，“intended-application”：“similarity-checking”}，“deposed”：{“date-parts”：[2020,10,14]，“date-time”：：“2020-14T15:19:20Z”，“timestamp”：160068760000}，”score“：1，”资源“：{”主“：{“URL”：“https:\/\/ieeexplore.iee.org\/document\/6982985”}}，“副标题”：[]，“短标题”：[]，“已发布”：{“日期-部件”：[[2014,10]]}，”引用计数“：24，”URL“：”http://\/dx.doi.org\/10.109\/devlrn.2014.6982982985“，”关系“：{}，}}