{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期部分”:[[2024,3,13]],“日期时间”:“2024-03-13T00:25:01Z”,“时间戳”:1710289501668},“出版商位置”:“查姆”,“参考计数”:39,“出版者”:“斯普林格国际出版公司”,“isbn-type”:[{“值”:“9783031147135”,“类型”:”打印“},{“值”:“9783031147142”,“type”:“electronic”}],“license”:[{“start”:{“date-parts”:[2022,1,1]],“date-time”:“2022-01-01T00:00:00Z”,“timestamp”:1640995200000},“content-version”:“tdm”,“delay-in-days”:0,“URL”:“https:\/\/www.springer.com\/tdm”},{“开始”:{“date-ports”:[2022,1,1],“日期-时间”:“2042-01-01T 00:00Z”,“timestamp”:1640995200000},“content-version”:“vor”,“delay-in-days”:0,“URL”:“https:\/\/www.springer.com\/tdm”},{“start”:{“date-parts”:[2022,1,1]],“date-time”:“2022-01-01T00:00:00Z”,“timestamp”:1640995200000},“content-version”:“tdm”,“delay-in-days“:0,”URL“https:\\/www.splingernature.com\/gp\/researters\/text-and-data-mining”}rts“:[2022,1,1]],“日期时间”:“2022-01-01T00:00:00Z”,“timestamp”:1640995200000},“content-version”:“vor”,“delay-in-days”:0,“URL”:“https:\\/www.springernature.com//gp\/researters\/text-and-data-mining”}],“content-domain”:{“domain”:[“link.springer.com”],“crossmark-restriction”:false},”short-container-title“:[],”published-print“:{”date-parts“:[2022]}”,“DOI”:“10.1007\/978-3-031-14714-2_27“,”类型“:“book-chapter”,“created”:{“date-parts”:[[2022,8,13]],“date-time”:“2022-08-13T21:03:13Z”,“timestamp”:1660424593000},“page”:“385-399”,“update-policy”:”http://\/dx.doi.org\/10.10007\/springer_crossmark_policy“,”source“:”Crossref“,“is-referenced-by-count”:0,“title”:[“生成性对抗性模仿学习的\u00a0策略类的概括和\u00a计算”],“前缀”:“10.1007”,“作者”:[{“给定”:“一瑞”,“家庭”:“周”,“序列”:“第一”,“从属”:[]}“”,“隶属关系”:[]},{“给定”:“万英”,“家庭”:“王”,“序列”:“附加”,“隶属”:[]},}“给定的”:“正平”,“家族”:“车”,“顺序”:“额外”,“从属关系”:[]}:[]},{“给定”:“雅欣”,“家庭”:“Peng”,“sequence”:“additional”,“affiliation”:[]}],“member”:“297”,“published-on-line”:{“date-parts”:[2022,8,14]]},“reference”:[{“key”:“27_CR1”,“doi-asserted-by”:“crossref”,《unstructured》:“Abbeel,P.,Ng,A.Y.:通过反向强化学习进行学徒学习。In:机器学习国际会议,pp.1\u20138(2004)”,“doi”:“10.1145\/1015330.1015430”},{“key”:“27_CR2”,“unstructured”:“Arora,S.,Du,S.S.,Hu,W.,Li,Z.,Salakhutdinov,R.R.,Wang,R.:关于无限宽神经网络的精确计算。In:Advances In neural Information Processing Systems,vol.32,pp.8139\u20138148(2019)”}:“Arora,S.,Ge,R.,Liang,Y.,Ma,T.,Zhang,Y.:生成对抗网(GANs)中的泛化与均衡。摘自:机器学习国际会议,第224\u2013232页(2017)”},{“问题”:“1”,“关键”:“27_CR4”,“首页”:“714”,《卷》:“18”,“作者”:“巴赫”,“年份”:“2017”,“非结构化”:“Bach,F.:关于核求积规则和随机特征展开之间的等价性。J.Mach.Learn.Res.18(1),714\u2013751(2017)”,“日志标题”:“J.Mach.Learn.Res.”},{“键”:“27_CR5”,“首页”:“103”,“卷”:“15”,“作者”:“M Bain”,“年份”:“1995”,“非结构化”:“Bain,M.,Sammut,C.:行为克隆框架。Mach.Intell.15,103\u2013129(1995)”,“新闻标题”:“Mach.Intell.”},{“key”:“27_CR6”,“doi-asserted-by”:“crossref”,“unstructured”:“Bhattacharyya,R.P.,Phillips,D.J.,Wulfe,B.,Morton,J.,Kuefler,A.,Kochenderfer,M.J.:驾驶模拟的多智能体模拟学习。摘自:2018 IEEE \/RSJ智能机器人与系统国际会议(IROS),第1534\u20131539页。IEEE(2018)“,“DOI”:“10.1109\/IROS.2018.8593758”},{“key”:“27_CR7”,“unstructured”:“Bietti,A.,Mairal,J.:关于神经切线核的归纳偏差。In:Advances In neural Information Processing Systems,vol.32,pp.12873\u201312884(2019)”}Chen,M.等:关于生成性对抗性模仿学习的计算和推广。在:国际学习表征会议(2020)“},{“key”:“27_CR9”,“doi断言”:“crossref”,“非结构化”:“Chi,W.等人:具有生成对抗性模仿学习的协作机器人辅助血管内导管插入术。在:2020 IEEE国际机器人与自动化会议(ICRA),pp.2414\u20132420(2020)“,”DOI“:”10.1109\/ICRA45.2020.9196912“},{“key”:“27_CR10”,“DOI-asserted-by”:“crossref”,“unstructured”:“Dally,K.,Van Kampen,E.J.:容错飞行控制的软actor-critic深度强化学习。摘自:AIAA SCITECH 2022 Forum,pp.2078\u20132097(2022)”,“DOI”:“10.2514\/6.2022-2078”},“{”key“:”27_CR11“,”非结构化“:”Fu,J.,Luo,K.,Levine,S.:使用对抗性反向强化学习学习稳健回报。arXiv预印本arXiv:1710.11248(2017)“},{“key”:“27_CR12”,“unstructured”:“Guan,Z.,Xu,T.,Liang,Y.:生成性对抗性模拟学习算法何时实现全局收敛?摘自:国际人工智能与统计会议,第1117\u20131125(2021)页”},}Haarnoja,T.、Tang,H.、Abbeel,P.、Levine,S.:利用深度能源政策强化学习。摘自:国际机器学习会议,pp.1352\u20131361(2017)“},{“key”:“27_CR14”,“unstructured”:“Haarnoja,T.,Zhou,A.,Abbeel,P.,Levine,S.:Soft actor-critic:非策略最大熵深度强化随机参与者学习。摘自:机器学习国际会议,pp.1861\u20131870(2018)”}27_CR15“,“非结构化”:“Haarnoja,T.等人:软actor-critic算法和应用。arXiv预印本arXiv:1812.05905(2018)“},{“key”:“27_CR16”,“unstructured”:“Ho,J.,Ermon,S.:生成性对抗性模仿学习。In:Advances In Neural Information Processing Systems,vol.29,pp.4565\u20134573(2016)”},“{”key“:”27_CR17“,”doi-asserted-by“:”crossref“,”unstructure“:”Jabri,M.K.:使用生成性对抗性模仿学习进行机器人操作学习。摘自:《第三十届国际人工智能联合会议论文集》,IJCAI-21,第4893\u20134894(2021)页,“DOI”:“10.24963\/IJCAI.2021\/678”},{“key”:“27_CR18”,“DOI-asserted-by”:“crossref”,“unstructured”:“Kim,K.E.,Park,H.S.:通过内核均值嵌入进行模拟学习。摘自:《AAAI人工智能会议论文集》,第3415\u20133422页(2018)“,“DOI”:“10.1609\/AAAI.v32i1.11720”},{“key”:“27_CR19”,“unstructured”:“Li,S.,Xiao,S.、Zhu,S..,Du,N.,Xie,Y.,Song,L.:通过强化学习学习时点过程。arXiv预印本arXiv:1811.05016(2018)”}、{“issue”:“3\u20134”,“key“:”27_CR20”,“首页”:“293”,“卷”:“8”,“作者”:“林俊杰”,“年份”:“1992”,“非结构化”:“林,林俊杰:基于强化学习、规划和教学的自我改进反应剂。机器。学习。8(3\u20134),293\u2013321(1992)”,“期刊标题”:“马赫。学习。“},{”key“:”27_CR21“,”unstructured“:”Mohri,M.,Rostamizadeh,A.,Talwalkar,A.:《机器学习基础》,麻省理工学院出版社,剑桥(2018)“}”,{“issue”:“2”,“key”:“27_CR22”,“doi-asserted-by”:“publisher”,“first-page”:“429”,“doi”:“10.2307\/1428011”,“volument”:“29”,“author”:“A M\u00fcller”,“year”:“1997”,“unstructure”“:”M\u00fcller,A.:积分概率度量及其函数生成类。高级申请。普罗巴伯。29(2),429\u2013443(1997)“,“新闻标题”:“高级申请。普罗巴伯。},{“key”:“27_CR23”,“unstructured”:“Ng,A.Y.,Russell,S.J.,et al.:逆强化学习算法。In:机器学习国际会议,pp.663\u2013670(2000)”},“key“:”27_CR24“,”unstructure“:”Puterman,M.L.:“马尔可夫决策过程:离散随机动态规划”,John Wiley&Sons,Hoboken(2014)“},”key“:”27_CR25“,”unstructured“:”Rahimi,A.,Recht,B.:大型内核机器的随机特性。In:Advances In Neural Information Processing Systems,vol.20,pp.1177\u20131184(2007)“},{“key”:“27_CR26”,“unstructured”:“Ross,S.,Bagnell,D.:有效减少模仿学习。In:International Conference on Artificial Intelligence and Statistics,pp.661\u2013668(2010)”},},“key“:”27_CR27“非结构化”:“Ross,S.,Gordon,G.,Bagnell,D.:将模仿学习和结构化预测减少为无梯度在线学习。摘自:国际人工智能与统计会议,第627\u2013635(2011)页“},{“key”:“27_CR28”,“unstructured”:“Schulman,J.,Wolski,F.,Dhariwal,P.,Radford,A.,Klimov,O.:近似策略优化算法。arXiv预印本arXiv:1707.06347(2017)”},},“key“:”27_CR29“,“doi-asserted-by”:“crossref”,“非结构化”:“Shalev Shwartz,S.,Ben David,S.:理解机器学习:从理论到算法。剑桥大学出版社,剑桥(2014)“,“DOI”:“10.1017\/CBO9781107298019”},{“key”:“27_CR30”,“unstructured”:“Shani,L.,Zahavy,T.,Mannor,S.:在线学徒学习。arXiv预印本arXiv:2102.06924(2021)”}Shi,J.C.,Yu,Y.,Da,Q.,Chen,S.Y.,Zeng,A.X.:虚拟淘宝:虚拟现实在线零售环境用于强化学习。摘自:《AAAI人工智能会议论文集》,第4902\u20134909页(2019年)“,“DOI”:“10.1609\/AAAI.v33i01.33014902”},{“key”:“27_CR32”,“DOI-asserted-by”:“crossref”,“unstructured”:“Sutton,R.S.,Barto,A.G.:《强化学习:导论》,麻省理工学院出版社,剑桥(1998年)”,“DOI:”10.1109\/TNN.1998.712192“},“key“:”27_CR33“,”非结构化”:“Syed,U.,Schapire,R.E.:学徒学习的游戏理论方法。收录于:《神经信息处理系统进展》,第20卷,第1449\u20131456(2007)页“},{“key”:“27_CR34”,“unstructured”:“Syed,U.,Schapire,R.E.:从学徒学习到分类的减少。收录于《神经信息加工系统进展》第23卷,第2253\u20132261页。Citeser(2010)“},{“key”:“27_CR35”,“unstructured”:“Xu,T.,Li,Z.,Yu,Y.:关于模仿学习的价值差异。arXiv预印本arXiv:1911.07027Xu,T.,Li,Z.,Yu,Y.:模拟政策和环境的误差界限。In:Advances In Neural Information Processing Systems,vol.33,pp.15737\u201315749(2020)“},{“key”:“27_CR37”,“doi-asserted-by”:“crossref”,“unstructured”:“Zhang,Y.F.,Luo,F.M.,Yu,Y.:通过奖赏方差正则化改进生成的对抗性模仿学习。Mach.Learn.11(3),977\u2013995(2022)”,“doi”:“10.1007 \/s10994-021-06083-7“},{“key”:“27_CR38”,“unstructured”:“Zhang,Y.,Cai,Q.,Yang,Z.,Wang,Z.:带神经网络参数化的生成性对抗性模拟学习:全局最优性和收敛速度。In:国际机器学习会议,pp.11044\u201311054(2020)”}Ziebart,B.D.等人:最大熵反向强化学习。摘自:《AAAI人工智能会议论文集》,第8卷,第1433\u20131438页(2008)“}],“容器-时间”:[“计算机科学课堂讲稿”,“自然并行问题解决\u2013 PPSN XVII”],“原始标题”:[],“链接”:[{“URL”:“https:\/\/link.springer.com\/content\/pdf\/10.10007\/978-3-031-14714-2_27”,“内容类型”:“未指定“,”content-version“:”vor“,”intended-application“:”similarity-checking“}],”deposed“:{”date-parts“:[2024,3,12],”date-time“:”2024-03-12T16:44:15Z“,”timestamp“:1710261855000},”score“:1,”resource“:{primary“:[],“已发布”:{“日期-部分”:[[2022]]},“ISBN”:[“9783031147135”,“97830.31147142”],“references-count”:39,“URL”:“http://\/dx.doi.org\/10.1007\/978-3-031-14714-2_27”,“关系”:{},“ISSN”:【“0302-9743”,“1611-3349”],”ISSN-type“:[{”value“:”0302-974“,”type“”:“print”},{“value”:“1611-349”,“type”:”electronic“}],“subject“:[],”published“:{”date-parts“:[2022]]},”assertion“:[{”value“:“2022年8月14日”,“订单”:1,“名称”:“first_online”,“标签”:“首次在线”,“群组”:{“name”:“ChapterHistory”:“国际自然并行问题解决会议”,“顺序”:2,“名称”:“Conference_name”,“标签”:“会议名称”,“组”:{“名称”:“ConferenceInfo”,“标签”:“会议信息”}},{“值”:“多特蒙德”,“顺序”:3,“名称”:“Conference_city”,“标签”:“会议城市”,“组”:{“名称”:“ConferenceInfo”,“标签”:“会议信息”}},{“value”:“Germany”,“order”:4,“name”:“conference_country”,“label”:“conference country”,”group“:{“name”:“ConferenceInfo”,”label“:”ConferenceInformation“}},{“value”:“2022”,”order“:5,”name“:”conference_year“,”label:“ConfeenceYear”,“group”:“名称”:“conference_start_date”,“label”:“会议开始日期”,“group”:{“name”:“ConferenceInfo”“”:“会议编号”,“组”:{“name”:“ConferenceInfo”,“label”:“会议信息”}},{“value”:“ppsn2022”,“order”:10,“名称”:“Conference_id”,“标签”:“会议id”,“group”:“,”label“:”会议url“,“group”:{“name”:“ConferenceInfo”,“label”:“会议信息”}},{“value”:“Double-blind”,“order”:1,“name”:“type”,”label“:”type“,”group“:{”name“:”ConfEventPeerReviewInformation:“会议管理系统”,“group”:{“name”:“ConfEventPeerReviewInformation”,“label”:“同行评审信息(由会议组织者提供)”}},{“value”:“185”,“order”:3,“name”:“number_of_submissions_sent_for_Review”:“同行评议信息(由会议组织者提供)”}},{“value”:“85”,“order”:4,“name”:“number_of_full_papers_accepted”,“label”:“已接受的全文数”,“group”:{“name”:“ConfEventPeerReviewInformation”,“label”:”同行评议资讯(由会议主办方提供)“}}:“number_of_short_papers_accepted”,“label”:“接受的短文数”,“group”:{“name”:“ConfEventPeerReviewInformation”,“标签”:“同行评审信息(由会议组织者提供)”}},{“value”:“46%-值由等式计算\”已接受的全文数\/已发送供审阅的提交数*100“,然后四舍五入为整数。”,“顺序”:6,“名称”:“acceptance_rate_of_Full_Papers”,“标签”:“全文接受率”,“组”:{“名称”:“ConfEventPeerReviewInformation”,“label”:“同行审阅信息(由会议组织者提供)”}},{“值”:“3.75”,“order”:7,“name”:“average_number_of_reviews_per_paper”,“label”:“每篇论文的平均评论数”,“group”:{“name”:“ConfEventPeerReviewInformation”,“标签”:“同行评论信息(由会议组织者提供)”}},{“value”:“3.11”,“orders”:8,“name“average _number_ of_papers_per_reviewer”,”label“:“每位审阅者的平均论文数”,“group”:{“name”:“ConfEventPeerReviewInformation”,“label”:“同行评审信息(由会议组织者提供)”}}}]}}