{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“讯息”：{“索引”：{“日期部分”：[[2024,4,22]]，“日期时间”：“2024-04-22T15:15:59Z”，“时间戳”：1713798959377}，“参考计数”：39，“出版商”：“电气与电子工程师学会（IEEE）”，“发行”：“4”，“许可证”：[{“开始”：{-“日期部分“：[2022,10,1]]，”日期时间”：“2022-10-01T00:00:00Z”，“timestamp”：1664582400000}，“content-version”：“vor”，“delay-in-days”：0，“URL”：“https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode”}]，“funder”：[{“name”：“Innovative Science and Technology Initiative for Security”，“award”：[“JPJ004596”]}，{“name”：“ATLA，Japan”}，}“DOI”：“10.13039\/5010000 1863“，“名称”：“新能源和工业技术发展组织”，“doi-asserted-by”：“出版商”，“奖项”：[“JPNP20006”]，“id”：[{“id”:“10.13039\/501100001863”，“id类型”：“doi”，“asserted by”：“publisher”}]}，{“名称”：“JSPS KAKENHI”，”奖项“：[”JP21H03527“]}]，“内容域”：{“域”：[]，“交叉标记限制”：false}，“短容器”蒂尔”：[“IEEE Robot.Autom.Lett.”]，“published-print”：{“date-parts”：[[2022,10]]}，“DOI”：“10.1109\/lra.2022.3196139”，“type”：“journal-article”，“created”：{“date-ports”：[2022,8,22]]，“date-time”：“2022-08-2T19:50:50Z”，“timestamp”：1661197850000}，”page“：”10922-10929“，”source“Crossref”，”is-referenced-by-count“：1，“标题”：[“使用模型和策略的熵正则化进行基于模型的模拟学习”]，“前缀”：“10.1109”，“卷”：“7”，“作者”：[{“ORCID”：“http://\/ORCID.org\/00000-0001-7908-0258”，“authenticated-ORCID”：false，“given”：：“ATR计算神经科学实验室脑-机器人接口系，Soraku gun，Kyoto，Japan”，“成员”：“263”，“参考文献”：[｛“key”：“ref1”，“文章标题”：“生成对抗性网络、反向强化学习和基于能量的模型之间的联系”，“卷标题”：“Proc.Adv.Neural Inf。过程。系统。对抗训练研讨会”，“作者”：“Finn”，“年份”：“2016”}，{“key”：“ref2”，“首页”：“4572”，“文章标题”：“生成性对抗性模仿学习”，“卷标”：“Proc.30th Int.Conf.Neural Inf.Process.Syst.”，“author”：“Ho”，“year”：“2016”}}，{“键”：ref4“，”doi-asserted-by“：”publisher“，”doi“：”10.1016\/j.artint.2021.103500“}，{”key“：”ref5“，”article-title“：”通过对抗性反向强化学习学习稳健奖励“，”volume-title”：“Proc.Int.Conf.Learn.Representations”，“author”：“Fu”，“year”：“2018”}，}”key:“ref6”，“first page”：“3138”，“article-title”通过生成性对抗网进行有效样本模仿学习”，“卷时间”：“过程。第22届国际会议条款。智力。统计师。“，”author“：”Blond“，”year“：”2019“}，{”key“：”ref7“，”article-title“：”Discriminator-actor-critic:“解决对抗性模仿学习中的样本效率低下和奖励偏见”，“volume-title”：“Proc.Int.Conf.Learn.Representations”，“author”：“Kostrikov”，“year”：“2019”}，”{”key“：“ref8”，“article-title”连续控制的样本有效模仿学习”，“体积-时间”：“过程。Int.Conf.学习。陈述”，“作者”：“佐佐木”，“年份”：“2019”}，{“key”：“ref9”，“doi-asserted-by”：“publisher”，“doi”：“10.1016\/j.neunet.2021.08.017”}，“volume-title”：“第14届国际法院。Conf.工件。智力。统计师。“，”author“：”Boularias“，”year“：”2011“}，{”key“：”ref12“，”first page“：“1433”，”article-title“：”Maximum熵反向强化学习“，”volume-title”：“Proc.AAAI Conf.Artif.Intell.”，“author”：“Ziebart”，“year”：“2008”}，}“key”：“ref13”，“doi-asserted-by”：“publisher”，“doi”：“10.1007\/s11063-017-9702-7”}“ref14”，“首页”：“12334”，“article-title“：“对手软优势拟合：没有政策优化的模仿学习”，“volume-title”：“Proc。Int.Conf.Adv.Neural Inf.流程。系统。“，”author“：”Barde“，”year“：”2020“}，{”key“：”ref15“，”doi-asserted-by“：”publisher“，”doi“：”10.1016\/j.neucom.2020.016.016“}”，{“key”：“ref16”，“doi-assert-by”：“publisher”，“doi”：“10.1016\/j.asoc.2020.106795”}，}”key“：“ref17”，“首页”：“12402”，“article-title”：“非政策模仿学习”根据观察结果“，”卷时间“：”Proc.Int.Conf.Adv。神经信息处理。系统。“，”author“：”Zhu“，”year“：”2020“}，{”key“：”ref18“，”doi-asserted-by“：”publisher“，“doi”：“10.1109\/ICRA46639.2022.9811660”}，“key”：“ref19”，“article-title”：“SQIL：通过正规行为克隆模仿学习”，“volume-title“：”Proc.Int.Conf.Learn.Representations“，”author“:”Reddy“，”year“：“2020”}doi-asserted-by“：”publisher“，”DOI“：”10.1109\/GCCE50665.2020.9292009“}，{”key“：”ref21“，”first page“：“102”，”article-title“：”反向强化学习，同时评估奖励和动态“，”volume-title”：“Proc.Int.Conf.Artif.Intell.Statist.”，“author”：“Herman”，“year”：“2016”}，“key”：“ref22”，”first-page:“390”，“article-title”端到端可微对抗性模仿学习”，“卷标题”：“Proc。内部配置机。学习。“，”author“：”Baram“，”year“：”2017“}，{”key“：”ref23“，”doi-asserted-by“：”publisher“，”doi“：”10.1007\/978-3-030-01261-8_47“}”，{“key”：“ref24”，“doi-assert-by”：“publisher”，“doi”：“10.1109\/LRA.2021.3061397”}，”key：“ref25”，“article-title”：“Dyna-AIL:通过计划进行对抗性模仿学习”，“volume-title“：”Proc.Int.Conf。学习。代表2020年研讨会：超越Tabula Rasa加固”，“作者”：“Saxena”，“年份”：“2020”}，{“key”：“ref26”，“doi-asserted-by”：“publisher”，“doi”：“10.1109”\/IROS51168.2021.9636169 I“：”10.2307\/2334029“}，{“键”：“ref29“，”doi-asserted-by“：”publisher“，”doi“：”10.1016\/B978-1-55860-141-3.50030-4“}，{“key”：”ref30“，”first page“：”1057“，”article-title“：”Policy gradient methods for reinforcement learning with function approximation“，“volume-title”：“Proc.Int.Conf.Adv.Neural Inf.Process.Syst.”，“author”：“Sutton”，“year”：“2000”}，}“key”：“ref31”，“article-title”“：”通过非政策分布匹配模拟学习”，“卷时间”：“程序。Int.Conf.学习。陈述”，“作者”：“科斯特里科夫”，“年份”：“2019年”}，{“关键”：“参考32”，“首页”：“1861”，“文章标题”：“软行动者-关键：非政策最大熵深度强化学习与随机行动者”，“卷标题”：”Proc.Int.Conf.Mach.Learn.“，”author“：”Haarnoja“，”year“：”2018“}，”{“重点”：“ref33”，“论文标题”：Brockman“，“年份”：“2016年”，“新闻标题”：“arXiv:1606.01540”}，{“key”：“ref34”，“首页”：“1889”，“article-title”：“信任区域政策优化”，“volume-title“：”Proc.Int.Conf.Mach.Learn.“，”author“：”Schulman“，”year“：”2015“}，”{“密钥”：“ref35”，“doi-asserted-by”：“publisher”，“doi”：“10.1016\/j.neunet.2017.12.02 12“}，{”key“：”ref36“，”article-title“：”从变分到确定性自动编码器”，“体积-时间”：“程序。Int.Conf.学习。陈述”，“作者”：“Ghosh”，“年份”：“2020”}，{“问题”：“1”，“关键”：“ref37”，“doi-asserted-by”：“crossref”，“首页”：“18”，“doi”：“10.1109\/MRA.2011.2181749”，“文章标题”：“Moveit！”，“卷”：“19”，“作家”：“奇塔”，“年”：“2012”，“日志标题”：38“，”首页“：”11044“，”文章标题“：”使用神经网络的生成性对抗性模拟学习：全局最优性和收敛速度”，“体积-时间”：“Proc。内部配置机。学习。“，”author“：”Zhang“，”year“：”2020“}，{“key”：”ref39“，”first page“：”1117“，”article-title“：”生成性对抗性模仿学习算法何时实现全局收敛“，”volume-title”：“Proc.Int.Conf.Artif.Intell.Statist.”，“author”：“Guan”，“year”：“2021”}]，“container-title链接“：[{”URL“：”http://\/xplorestaging.ieee.org\/ielx7\/7083369\/98849015.pdf？arnumber=9849015“，”content-type“：”unspecified“，”内容版本“：”vor“，”intended-application“：”similarity-checking“}]，”存放“：{”date-parts“：[2024,2,1]]，”日期时间“：”2024-02-01T11:47:52Z“，”时间戳“：1706788072000}，”score“：1，”resource“：{”primary”：{“URL”：“https:\/\/ieeexplore.iee.org\/document\/9849015\/“}}，”副标题“：[]，”短标题“：[]，”已发布“：{”日期部分“：[2022,10]]}，“引用计数”：39，“日志发布”：{“发布”：“4”}，‘URL’：“http://\/dx.doi.org\/10.109\/lra.2022.3196139”，“关系”：{}，’ISSN：[“2377-3766”，“2377-3774”]，“ISSN-type”：[{“value”：“23773766”，“type”:“electronic”}，{“value”：“2377-3774“，”type“：”electronic“}]，”subject“：[]，”published“：{”date-parts“：[2022,10]]}}}