{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“讯息”:{“索引”:{“日期部分”:[[2024,4,22]],“日期时间”:“2024-04-22T15:15:59Z”,“时间戳”:1713798959377},“参考计数”:39,“出版商”:“电气与电子工程师学会(IEEE)”,“发行”:“4”,“许可证”:[{“开始”:{-“日期部分“:[2022,10,1]],”日期时间”:“2022-10-01T00:00:00Z”,“timestamp”:1664582400000},“content-version”:“vor”,“delay-in-days”:0,“URL”:“https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode”}],“funder”:[{“name”:“Innovative Science and Technology Initiative for Security”,“award”:[“JPJ004596”]},{“name”:“ATLA,Japan”},}“DOI”:“10.13039\/5010000 1863“,“名称”:“新能源和工业技术发展组织”,“doi-asserted-by”:“出版商”,“奖项”:[“JPNP20006”],“id”:[{“id”:“10.13039\/501100001863”,“id类型”:“doi”,“asserted by”:“publisher”}]},{“名称”:“JSPS KAKENHI”,”奖项“:[”JP21H03527“]}],“内容域”:{“域”:[],“交叉标记限制”:false},“短容器”蒂尔”:[“IEEE Robot.Autom.Lett.”],“published-print”:{“date-parts”:[[2022,10]]},“DOI”:“10.1109\/lra.2022.3196139”,“type”:“journal-article”,“created”:{“date-ports”:[2022,8,22]],“date-time”:“2022-08-2T19:50:50Z”,“timestamp”:1661197850000},”page“:”10922-10929“,”source“Crossref”,”is-referenced-by-count“:1,“标题”:[“使用模型和策略的熵正则化进行基于模型的模拟学习”],“前缀”:“10.1109”,“卷”:“7”,“作者”:[{“ORCID”:“http://\/ORCID.org\/00000-0001-7908-0258”,“authenticated-ORCID”:false,“given”::“ATR计算神经科学实验室脑-机器人接口系,Soraku gun,Kyoto,Japan”,“成员”:“263”,“参考文献”:[{“key”:“ref1”,“文章标题”:“生成对抗性网络、反向强化学习和基于能量的模型之间的联系”,“卷标题”:“Proc.Adv.Neural Inf。过程。系统。对抗训练研讨会”,“作者”:“Finn”,“年份”:“2016”},{“key”:“ref2”,“首页”:“4572”,“文章标题”:“生成性对抗性模仿学习”,“卷标”:“Proc.30th Int.Conf.Neural Inf.Process.Syst.”,“author”:“Ho”,“year”:“2016”}},{“键”:ref4“,”doi-asserted-by“:”publisher“,”doi“:”10.1016\/j.artint.2021.103500“},{”key“:”ref5“,”article-title“:”通过对抗性反向强化学习学习稳健奖励“,”volume-title”:“Proc.Int.Conf.Learn.Representations”,“author”:“Fu”,“year”:“2018”},}”key:“ref6”,“first page”:“3138”,“article-title”通过生成性对抗网进行有效样本模仿学习”,“卷时间”:“过程。第22届国际会议条款。智力。统计师。“,”author“:”Blond“,”year“:”2019“},{”key“:”ref7“,”article-title“:”Discriminator-actor-critic:“解决对抗性模仿学习中的样本效率低下和奖励偏见”,“volume-title”:“Proc.Int.Conf.Learn.Representations”,“author”:“Kostrikov”,“year”:“2019”},”{”key“:“ref8”,“article-title”连续控制的样本有效模仿学习”,“体积-时间”:“过程。Int.Conf.学习。陈述”,“作者”:“佐佐木”,“年份”:“2019”},{“key”:“ref9”,“doi-asserted-by”:“publisher”,“doi”:“10.1016\/j.neunet.2021.08.017”},“volume-title”:“第14届国际法院。Conf.工件。智力。统计师。“,”author“:”Boularias“,”year“:”2011“},{”key“:”ref12“,”first page“:“1433”,”article-title“:”Maximum熵反向强化学习“,”volume-title”:“Proc.AAAI Conf.Artif.Intell.”,“author”:“Ziebart”,“year”:“2008”},}“key”:“ref13”,“doi-asserted-by”:“publisher”,“doi”:“10.1007\/s11063-017-9702-7”}“ref14”,“首页”:“12334”,“article-title“:“对手软优势拟合:没有政策优化的模仿学习”,“volume-title”:“Proc。Int.Conf.Adv.Neural Inf.流程。系统。“,”author“:”Barde“,”year“:”2020“},{”key“:”ref15“,”doi-asserted-by“:”publisher“,”doi“:”10.1016\/j.neucom.2020.016.016“}”,{“key”:“ref16”,“doi-assert-by”:“publisher”,“doi”:“10.1016\/j.asoc.2020.106795”},}”key“:“ref17”,“首页”:“12402”,“article-title”:“非政策模仿学习”根据观察结果“,”卷时间“:”Proc.Int.Conf.Adv。神经信息处理。系统。“,”author“:”Zhu“,”year“:”2020“},{”key“:”ref18“,”doi-asserted-by“:”publisher“,“doi”:“10.1109\/ICRA46639.2022.9811660”},“key”:“ref19”,“article-title”:“SQIL:通过正规行为克隆模仿学习”,“volume-title“:”Proc.Int.Conf.Learn.Representations“,”author“:”Reddy“,”year“:“2020”}doi-asserted-by“:”publisher“,”DOI“:”10.1109\/GCCE50665.2020.9292009“},{”key“:”ref21“,”first page“:“102”,”article-title“:”反向强化学习,同时评估奖励和动态“,”volume-title”:“Proc.Int.Conf.Artif.Intell.Statist.”,“author”:“Herman”,“year”:“2016”},“key”:“ref22”,”first-page:“390”,“article-title”端到端可微对抗性模仿学习”,“卷标题”:“Proc。内部配置机。学习。“,”author“:”Baram“,”year“:”2017“},{”key“:”ref23“,”doi-asserted-by“:”publisher“,”doi“:”10.1007\/978-3-030-01261-8_47“}”,{“key”:“ref24”,“doi-assert-by”:“publisher”,“doi”:“10.1109\/LRA.2021.3061397”},”key:“ref25”,“article-title”:“Dyna-AIL:通过计划进行对抗性模仿学习”,“volume-title“:”Proc.Int.Conf。学习。代表2020年研讨会:超越Tabula Rasa加固”,“作者”:“Saxena”,“年份”:“2020”},{“key”:“ref26”,“doi-asserted-by”:“publisher”,“doi”:“10.1109”\/IROS51168.2021.9636169 I“:”10.2307\/2334029“},{“键”:“ref29“,”doi-asserted-by“:”publisher“,”doi“:”10.1016\/B978-1-55860-141-3.50030-4“},{“key”:”ref30“,”first page“:”1057“,”article-title“:”Policy gradient methods for reinforcement learning with function approximation“,“volume-title”:“Proc.Int.Conf.Adv.Neural Inf.Process.Syst.”,“author”:“Sutton”,“year”:“2000”},}“key”:“ref31”,“article-title”“:”通过非政策分布匹配模拟学习”,“卷时间”:“程序。Int.Conf.学习。陈述”,“作者”:“科斯特里科夫”,“年份”:“2019年”},{“关键”:“参考32”,“首页”:“1861”,“文章标题”:“软行动者-关键:非政策最大熵深度强化学习与随机行动者”,“卷标题”:”Proc.Int.Conf.Mach.Learn.“,”author“:”Haarnoja“,”year“:”2018“},”{“重点”:“ref33”,“论文标题”:Brockman“,“年份”:“2016年”,“新闻标题”:“arXiv:1606.01540”},{“key”:“ref34”,“首页”:“1889”,“article-title”:“信任区域政策优化”,“volume-title“:”Proc.Int.Conf.Mach.Learn.“,”author“:”Schulman“,”year“:”2015“},”{“密钥”:“ref35”,“doi-asserted-by”:“publisher”,“doi”:“10.1016\/j.neunet.2017.12.02 12“},{”key“:”ref36“,”article-title“:”从变分到确定性自动编码器”,“体积-时间”:“程序。Int.Conf.学习。陈述”,“作者”:“Ghosh”,“年份”:“2020”},{“问题”:“1”,“关键”:“ref37”,“doi-asserted-by”:“crossref”,“首页”:“18”,“doi”:“10.1109\/MRA.2011.2181749”,“文章标题”:“Moveit!”,“卷”:“19”,“作家”:“奇塔”,“年”:“2012”,“日志标题”:38“,”首页“:”11044“,”文章标题“:”使用神经网络的生成性对抗性模拟学习:全局最优性和收敛速度”,“体积-时间”:“Proc。内部配置机。学习。“,”author“:”Zhang“,”year“:”2020“},{“key”:”ref39“,”first page“:”1117“,”article-title“:”生成性对抗性模仿学习算法何时实现全局收敛“,”volume-title”:“Proc.Int.Conf.Artif.Intell.Statist.”,“author”:“Guan”,“year”:“2021”}],“container-title链接“:[{”URL“:”http://\/xplorestaging.ieee.org\/ielx7\/7083369\/98849015.pdf?arnumber=9849015“,”content-type“:”unspecified“,”内容版本“:”vor“,”intended-application“:”similarity-checking“}],”存放“:{”date-parts“:[2024,2,1]],”日期时间“:”2024-02-01T11:47:52Z“,”时间戳“:1706788072000},”score“:1,”resource“:{”primary”:{“URL”:“https:\/\/ieeexplore.iee.org\/document\/9849015\/“}},”副标题“:[],”短标题“:[],”已发布“:{”日期部分“:[2022,10]]},“引用计数”:39,“日志发布”:{“发布”:“4”},‘URL’:“http://\/dx.doi.org\/10.109\/lra.2022.3196139”,“关系”:{},’ISSN:[“2377-3766”,“2377-3774”],“ISSN-type”:[{“value”:“23773766”,“type”:“electronic”},{“value”:“2377-3774“,”type“:”electronic“}],”subject“:[],”published“:{”date-parts“:[2022,10]]}}}