{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{“日期部分”：[[2024,3,13]]，“日期时间”：“2024-03-13T00:25:01Z”，“时间戳”：1710289501668}，“出版商位置”：“查姆”，“参考计数”：39，“出版者”：“斯普林格国际出版公司”，“isbn-type”：[{“值”：“9783031147135”，“类型”：”打印“}，{“值”：“9783031147142”，“type”：“electronic”}]，“license”：[{“start”：{“date-parts”：[2022,1,1]]，“date-time”：“2022-01-01T00:00:00Z”，“timestamp”：1640995200000}，“content-version”：“tdm”，“delay-in-days”：0，“URL”：“https:\/\/www.springer.com\/tdm”}，{“开始”：{“date-ports”：[2022,1,1]，“日期-时间”：“2042-01-01T 00:00Z”，“timestamp”：1640995200000}，“content-version”：“vor”，“delay-in-days”：0，“URL”：“https:\/\/www.springer.com\/tdm”}，{“start”：{“date-parts”：[2022,1,1]]，“date-time”：“2022-01-01T00:00:00Z”，“timestamp”：1640995200000}，“content-version”：“tdm”，“delay-in-days“：0，”URL“https:\\/www.splingernature.com\/gp\/researters\/text-and-data-mining”}rts“：[2022,1,1]]，“日期时间”：“2022-01-01T00:00:00Z”，“timestamp”：1640995200000}，“content-version”：“vor”，“delay-in-days”：0，“URL”：“https:\\/www.springernature.com//gp\/researters\/text-and-data-mining”}]，“content-domain”：{“domain”:[“link.springer.com”]，“crossmark-restriction”：false}，”short-container-title“：[]，”published-print“：{”date-parts“：[2022]}”，“DOI”：“10.1007\/978-3-031-14714-2_27“，”类型“：“book-chapter”，“created”：{“date-parts”：[[2022,8,13]]，“date-time”：“2022-08-13T21:03:13Z”，“timestamp”：1660424593000}，“page”：“385-399”，“update-policy”：”http://\/dx.doi.org\/10.10007\/springer_crossmark_policy“，”source“：”Crossref“，“is-referenced-by-count”：0，“title”：[“生成性对抗性模仿学习的\u00a0策略类的概括和\u00a计算”]，“前缀”：“10.1007”，“作者”：[{“给定”：“一瑞”，“家庭”：“周”，“序列”：“第一”，“从属”：[]}“”，“隶属关系”：[]}，{“给定”：“万英”，“家庭”：“王”，“序列”：“附加”，“隶属”：[]}，}“给定的”：“正平”，“家族”：“车”，“顺序”：“额外”，“从属关系”：[]}：[]}，{“给定”：“雅欣”，“家庭”：“Peng”，“sequence”：“additional”，“affiliation”：[]}]，“member”：“297”，“published-on-line”：{“date-parts”：[2022,8,14]]}，“reference”：[{“key”：“27_CR1”，“doi-asserted-by”：“crossref”，《unstructured》：“Abbeel，P.，Ng，A.Y.：通过反向强化学习进行学徒学习。In:机器学习国际会议，pp.1\u20138（2004）”，“doi”：“10.1145\/1015330.1015430”}，{“key”：“27_CR2”，“unstructured”：“Arora，S.，Du，S.S.，Hu，W.，Li，Z.，Salakhutdinov，R.R.，Wang，R.：关于无限宽神经网络的精确计算。In:Advances In neural Information Processing Systems，vol.32，pp.8139\u20138148（2019）”}：“Arora，S.，Ge，R.，Liang，Y.，Ma，T.，Zhang，Y.：生成对抗网（GANs）中的泛化与均衡。摘自：机器学习国际会议，第224\u2013232页（2017）”}，{“问题”：“1”，“关键”：“27_CR4”，“首页”：“714”，《卷》：“18”，“作者”：“巴赫”，“年份”：“2017”，“非结构化”：“Bach，F.：关于核求积规则和随机特征展开之间的等价性。J.Mach.Learn.Res.18（1），714\u2013751（2017）”，“日志标题”：“J.Mach.Learn.Res.”}，{“键”：“27_CR5”，“首页”：“103”，“卷”：“15”，“作者”：“M Bain”，“年份”：“1995”，“非结构化”：“Bain，M.，Sammut，C.：行为克隆框架。Mach.Intell.15，103\u2013129（1995）”，“新闻标题”：“Mach.Intell.”}，{“key”：“27_CR6”，“doi-asserted-by”：“crossref”，“unstructured”：“Bhattacharyya，R.P.，Phillips，D.J.，Wulfe，B.，Morton，J.，Kuefler，A.，Kochenderfer，M.J.：驾驶模拟的多智能体模拟学习。摘自：2018 IEEE \/RSJ智能机器人与系统国际会议（IROS），第1534\u20131539页。IEEE（2018）“，“DOI”：“10.1109\/IROS.2018.8593758”}，{“key”：“27_CR7”，“unstructured”：“Bietti，A.，Mairal，J.：关于神经切线核的归纳偏差。In:Advances In neural Information Processing Systems，vol.32，pp.12873\u201312884（2019）”}Chen，M.等：关于生成性对抗性模仿学习的计算和推广。在：国际学习表征会议（2020）“｝，｛“key”：“27_CR9”，“doi断言”：“crossref”，“非结构化”：“Chi，W.等人：具有生成对抗性模仿学习的协作机器人辅助血管内导管插入术。在：2020 IEEE国际机器人与自动化会议（ICRA），pp.2414\u20132420（2020）“，”DOI“：”10.1109\/ICRA45.2020.9196912“}，{“key”：“27_CR10”，“DOI-asserted-by”：“crossref”，“unstructured”：“Dally，K.，Van Kampen，E.J.：容错飞行控制的软actor-critic深度强化学习。摘自：AIAA SCITECH 2022 Forum，pp.2078\u20132097（2022）”，“DOI”：“10.2514\/6.2022-2078”}，“{”key“：”27_CR11“，”非结构化“：”Fu，J.，Luo，K.，Levine，S.：使用对抗性反向强化学习学习稳健回报。arXiv预印本arXiv:1710.11248（2017）“}，{“key”：“27_CR12”，“unstructured”：“Guan，Z.，Xu，T.，Liang，Y.：生成性对抗性模拟学习算法何时实现全局收敛？摘自：国际人工智能与统计会议，第1117\u20131125（2021）页”}，}Haarnoja，T.、Tang，H.、Abbeel，P.、Levine，S.：利用深度能源政策强化学习。摘自：国际机器学习会议，pp.1352\u20131361（2017）“}，{“key”：“27_CR14”，“unstructured”：“Haarnoja，T.，Zhou，A.，Abbeel，P.，Levine，S.：Soft actor-critic:非策略最大熵深度强化随机参与者学习。摘自：机器学习国际会议，pp.1861\u20131870（2018）”}27_CR15“，“非结构化”：“Haarnoja，T.等人：软actor-critic算法和应用。arXiv预印本arXiv:1812.05905（2018）“}，{“key”：“27_CR16”，“unstructured”：“Ho，J.，Ermon，S.：生成性对抗性模仿学习。In:Advances In Neural Information Processing Systems，vol.29，pp.4565\u20134573（2016）”}，“{”key“：”27_CR17“，”doi-asserted-by“：”crossref“，”unstructure“：”Jabri，M.K.：使用生成性对抗性模仿学习进行机器人操作学习。摘自：《第三十届国际人工智能联合会议论文集》，IJCAI-21，第4893\u20134894（2021）页，“DOI”：“10.24963\/IJCAI.2021\/678”}，{“key”：“27_CR18”，“DOI-asserted-by”：“crossref”，“unstructured”：“Kim，K.E.，Park，H.S.：通过内核均值嵌入进行模拟学习。摘自：《AAAI人工智能会议论文集》，第3415\u20133422页（2018）“，“DOI”：“10.1609\/AAAI.v32i1.11720”}，{“key”：“27_CR19”，“unstructured”：“Li，S.，Xiao，S.、Zhu，S..，Du，N.，Xie，Y.，Song，L.：通过强化学习学习时点过程。arXiv预印本arXiv:1811.05016（2018）”}、{“issue”：“3\u20134”，“key“：”27_CR20”，“首页”：“293”，“卷”：“8”，“作者”：“林俊杰”，“年份”：“1992”，“非结构化”：“林，林俊杰：基于强化学习、规划和教学的自我改进反应剂。机器。学习。8（3\u20134），293\u2013321（1992）”，“期刊标题”：“马赫。学习。“}，{”key“：”27_CR21“，”unstructured“：”Mohri，M.，Rostamizadeh，A.，Talwalkar，A.：《机器学习基础》，麻省理工学院出版社，剑桥（2018）“}”，{“issue”：“2”，“key”：“27_CR22”，“doi-asserted-by”：“publisher”，“first-page”：“429”，“doi”：“10.2307\/1428011”，“volument”：“29”，“author”：“A M\u00fcller”，“year”：“1997”，“unstructure”“：”M\u00fcller，A.：积分概率度量及其函数生成类。高级申请。普罗巴伯。29（2），429\u2013443（1997）“，“新闻标题”：“高级申请。普罗巴伯。}，{“key”：“27_CR23”，“unstructured”：“Ng，A.Y.，Russell，S.J.，et al.：逆强化学习算法。In：机器学习国际会议，pp.663\u2013670（2000）”}，“key“：”27_CR24“，”unstructure“：”Puterman，M.L.：“马尔可夫决策过程：离散随机动态规划”，John Wiley&Sons，Hoboken（2014）“}，”key“：”27_CR25“，”unstructured“：”Rahimi，A.，Recht，B.：大型内核机器的随机特性。In:Advances In Neural Information Processing Systems，vol.20，pp.1177\u20131184（2007）“}，{“key”：“27_CR26”，“unstructured”：“Ross，S.，Bagnell，D.：有效减少模仿学习。In:International Conference on Artificial Intelligence and Statistics，pp.661\u2013668（2010）”}，}，“key“：”27_CR27“非结构化”：“Ross，S.，Gordon，G.，Bagnell，D.：将模仿学习和结构化预测减少为无梯度在线学习。摘自：国际人工智能与统计会议，第627\u2013635（2011）页“}，{“key”：“27_CR28”，“unstructured”：“Schulman，J.，Wolski，F.，Dhariwal，P.，Radford，A.，Klimov，O.：近似策略优化算法。arXiv预印本arXiv:1707.06347（2017）”}，}，“key“：”27_CR29“，“doi-asserted-by”：“crossref”，“非结构化”：“Shalev Shwartz，S.，Ben David，S.：理解机器学习：从理论到算法。剑桥大学出版社，剑桥（2014）“，“DOI”：“10.1017\/CBO9781107298019”}，{“key”：“27_CR30”，“unstructured”：“Shani，L.，Zahavy，T.，Mannor，S.：在线学徒学习。arXiv预印本arXiv:2102.06924（2021）”}Shi，J.C.，Yu，Y.，Da，Q.，Chen，S.Y.，Zeng，A.X.：虚拟淘宝：虚拟现实在线零售环境用于强化学习。摘自：《AAAI人工智能会议论文集》，第4902\u20134909页（2019年）“，“DOI”：“10.1609\/AAAI.v33i01.33014902”}，{“key”：“27_CR32”，“DOI-asserted-by”：“crossref”，“unstructured”：“Sutton，R.S.，Barto，A.G.：《强化学习：导论》，麻省理工学院出版社，剑桥（1998年）”，“DOI:”10.1109\/TNN.1998.712192“}，“key“：”27_CR33“，”非结构化”：“Syed，U.，Schapire，R.E.：学徒学习的游戏理论方法。收录于：《神经信息处理系统进展》，第20卷，第1449\u20131456（2007）页“}，{“key”：“27_CR34”，“unstructured”：“Syed，U.，Schapire，R.E.：从学徒学习到分类的减少。收录于《神经信息加工系统进展》第23卷，第2253\u20132261页。Citeser（2010）“}，{“key”：“27_CR35”，“unstructured”：“Xu，T.，Li，Z.，Yu，Y.：关于模仿学习的价值差异。arXiv预印本arXiv:1911.07027Xu，T.，Li，Z.，Yu，Y.：模拟政策和环境的误差界限。In:Advances In Neural Information Processing Systems，vol.33，pp.15737\u201315749（2020）“}，{“key”：“27_CR37”，“doi-asserted-by”：“crossref”，“unstructured”：“Zhang，Y.F.，Luo，F.M.，Yu，Y.：通过奖赏方差正则化改进生成的对抗性模仿学习。Mach.Learn.11（3），977\u2013995（2022）”，“doi”：“10.1007 \/s10994-021-06083-7“}，{“key”：“27_CR38”，“unstructured”：“Zhang，Y.，Cai，Q.，Yang，Z.，Wang，Z.:带神经网络参数化的生成性对抗性模拟学习：全局最优性和收敛速度。In:国际机器学习会议，pp.11044\u201311054（2020）”}Ziebart，B.D.等人：最大熵反向强化学习。摘自：《AAAI人工智能会议论文集》，第8卷，第1433\u20131438页（2008）“}]，“容器-时间”：[“计算机科学课堂讲稿”，“自然并行问题解决\u2013 PPSN XVII”]，“原始标题”：[]，“链接”：[{“URL”：“https:\/\/link.springer.com\/content\/pdf\/10.10007\/978-3-031-14714-2_27”，“内容类型”：“未指定“，”content-version“：”vor“，”intended-application“：”similarity-checking“}]，”deposed“：{”date-parts“：[2024,3,12]，”date-time“：”2024-03-12T16:44:15Z“，”timestamp“：1710261855000}，”score“：1，”resource“：{primary“：[]，“已发布”：{“日期-部分”：[[2022]]}，“ISBN”：[“9783031147135”，“97830.31147142”]，“references-count”：39，“URL”：“http://\/dx.doi.org\/10.1007\/978-3-031-14714-2_27”，“关系”：{}，“ISSN”：【“0302-9743”，“1611-3349”]，”ISSN-type“：[{”value“：”0302-974“，”type“”：“print”}，{“value”：“1611-349”，“type”：”electronic“}]，“subject“：[]，”published“：{”date-parts“：[2022]]}，”assertion“：[{”value“：“2022年8月14日”，“订单”：1，“名称”：“first_online”，“标签”：“首次在线”，“群组”：{“name”：“ChapterHistory”：“国际自然并行问题解决会议”，“顺序”：2，“名称”：“Conference_name”，“标签”：“会议名称”，“组”：｛“名称”：“ConferenceInfo”，“标签”：“会议信息”｝｝，｛“值”：“多特蒙德”，“顺序”：3，“名称”：“Conference_city”，“标签”：“会议城市”，“组”：｛“名称”：“ConferenceInfo”，“标签”：“会议信息”｝｝，{“value”：“Germany”，“order”：4，“name”：“conference_country”，“label”：“conference country”，”group“：{“name”:“ConferenceInfo”，”label“：”ConferenceInformation“}}，{“value”：“2022”，”order“：5，”name“：”conference_year“，”label:“ConfeenceYear”，“group”：“名称”：“conference_start_date”，“label”：“会议开始日期”，“group”：{“name”：“ConferenceInfo”“”：“会议编号”，“组”：{“name”：“ConferenceInfo”，“label”：“会议信息”}}，{“value”：“ppsn2022”，“order”：10，“名称”：“Conference_id”，“标签”：“会议id”，“group”：“，”label“：”会议url“，“group”：{“name”：“ConferenceInfo”，“label”：“会议信息”}}，{“value”：“Double-blind”，“order”：1，“name”:“type”，”label“：”type“，”group“：{”name“：”ConfEventPeerReviewInformation：“会议管理系统”，“group”：{“name”：“ConfEventPeerReviewInformation”，“label”：“同行评审信息（由会议组织者提供）”}}，{“value”：“185”，“order”：3，“name”:“number_of_submissions_sent_for_Review”：“同行评议信息（由会议组织者提供）”}}，{“value”：“85”，“order”：4，“name”：“number_of_full_papers_accepted”，“label”：“已接受的全文数”，“group”：{“name”:“ConfEventPeerReviewInformation”，“label”：”同行评议资讯（由会议主办方提供）“}}：“number_of_short_papers_accepted”，“label”：“接受的短文数”，“group”：{“name”：“ConfEventPeerReviewInformation”，“标签”：“同行评审信息（由会议组织者提供）”}}，{“value”：“46%-值由等式计算\”已接受的全文数\/已发送供审阅的提交数*100“，然后四舍五入为整数。”，“顺序”：6，“名称”：“acceptance_rate_of_Full_Papers”，“标签”：“全文接受率”，“组”：{“名称”:“ConfEventPeerReviewInformation”，“label”：“同行审阅信息（由会议组织者提供）”}}，{“值”：“3.75”，“order”：7，“name”：“average_number_of_reviews_per_paper”，“label”：“每篇论文的平均评论数”，“group”：{“name”:“ConfEventPeerReviewInformation”，“标签”：“同行评论信息（由会议组织者提供）”}}，{“value”：“3.11”，“orders”：8，“name“average _number_ of_papers_per_reviewer”，”label“：“每位审阅者的平均论文数”，“group”：{“name”：“ConfEventPeerReviewInformation”，“label”：“同行评审信息（由会议组织者提供）”}}}]}}