{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{-“日期部分”：[[2024,9,19]]，“日期时间”：“2024-09-19T15:24:00Z”，“时间戳”：1726759440224}，“出版商位置”：“柏林，海德堡”，“参考计数”：17，“出版者”：“斯普林格-柏林-海德堡“，”isbn-type“：[{”type“打印”，“值”：“9783838 642237799“}，{”类型“：“电子”，“值”：“9783642237805”｝]，“许可证”：[｛“开始”：｛“日期部分”：[[2011,1,1]]，“日期时间”：“2011-01-01T00:00:00Z”，“时间戳”：1293840000000｝，“内容版本”：“tdm”，“延迟天数”：0，“URL”：“https://www.springer.com\/tdm”｝，｛“开始”：｛“日期部分”：[[2011,1,1]]，“日期时间”：“2011-01-01T00:00:00Z”，“时间戳“：1293840000000｝，”内容版本“：“vor”，“delay-in-days”：0，“URL”：“https:\\/www.springer.com//tdm”}]，“content-domain”：{“domain”:[“link.springer.com”]，“crossmark-restriction”：false}，“short-container-title”：[]，“published-print”：{“date-parts”：[[2011]]}，”DOI“：”10.1007\\978-3-642-23780-5_30“，”type“：”book-capter“，”created“：{”date-part“parts“：[[2011,8,17]]，“日期时间”：“2011-08-17T17:54:37Z”，“时间戳”：1313603677000}，“页面”：“312-327”，“更新策略”：“http://\/dx.doi.org\/10.1007\/springer_crossmark_policy”，“源”：“Crossref”，《is-referenced-by-count》：13，“标题”：[“基于偏好的策略迭代：利用偏好学习进行强化学习”]，“前缀”：“10.1007”，”作者“：[{”给定“Weiwei”，“family”：“Cheng”，“sequence”：“first”，“affiliation”：[]}，{“given”：“Johannes”，“family”：“F\u00fcrnkranz”，“sequence”：“additional”，“abfiliation“：[]{”given“：”Eyke“，”family“：”H\u00fc llermier“，”sequence“：”additional“，”affiliance“：[]}，}“giving”：“Sang-Hyeun”，“家庭”：“Park”，“sequence”:“additionable”，“atriation”：“[]}]，“member”：“297”“，”引用“：[{”键“：”30_CR1“，”首页“：”835“，“卷”：“13”，“作者”：“A.G.Barto”，“年份”：“1983”，“非结构化”：“Barto，A.G.，Sutton，R.S.，Anderson，C.：可以解决困难的学习控制问题的神经元样元素。IEEE Transaction on Systems，Man and Cybernetics \u00a013，835\u2013846（1983）”，“期刊标题”：“IEEE Transaction on Systems，Man and Cybernetics”}，{“issue”：“11”，“key”：“30_CR2”，“doi-asserted-by”：“publisher”，“first page”：“2471”，“doi”：“10.1016\/j.automatica.2009.07.008”，“volume”：”45“，“author”：“S.Bhatnagar”，“year”：“2009”，“unstructured”：“Bhatngar，S.，Sutton，R.S.，Ghavamzadeh，M.，Lee，M.：自然actor-critic算法。automatica\u00a045（11），2471\u20132482（2009）”，“journal-title”：“Automatic”ica“}，{“问题”：“3”，“key”：“30_CR3”，“doi-asserted-by”：“publisher”，“first page”：”157“，“doi”：“10.1007\/s10994-008-5069-3”，“volume”：：“72”，“author”：“C.Dimitrakakis”，“year”：“2008”，“unstructured”：“Dimitraakis，C.，Lagoudakis，M.G.：推出抽样近似策略迭代。机器学习\u00a072（3），157\u2013171（2008）”，“日志标题”：“机器学习”}，{键“：“30_CR4”，“doi-asserted-by”：“crossref”，“first-page”：“75”，“doi”：“10.1613\/jair.1700”，“volume”：“25”，“author”：“A.Fern”，“year”：“2006”，“unstructured”：“Fern，A.，Yoon，S.W.，Givan，R.：具有政策语言偏差的近似政策迭代：解决关系马尔可夫决策过程。人工智能研究杂志\u00a025，75\u2013118（2006）”，“期刊标题”：“人工智能研究期刊”}，{“卷时间”：“偏好学习”，“年份”：“2010”，“关键”：“30_CR5”，“非结构化”：“F\u00fcrnkranz，J.，H\u00ffllermier，E.（eds.）：偏好学习。Springer，Heidelberg（2010）”}，{“关键”：“30_CR6”，“非结构性”：“Gabillon，V.，Lazaric，A.，Ghavamzadeh，M.：基于分类的政策迭代的推出分配策略。In：Auer，P.，Kaski，S.，Szepesv\u00e0ri，CICML 2010年超大空间强化学习与搜索研讨会论文集（2010）“}，{“issue”：“1”，“key”：“30_CR7”，“doi-asserted-by”：“publisher”，“first page”：”10“，“doi”：“10.1145\/1656274.1656278”，“volume”：：“11”，“author”：“M.Hall”，“year”：“2009”，“unstructured”：“Hall，M.、Frank，E.、Holmes，G.、Pfahringer，B.、Reutemann，P.、Witten，I.：weka数据挖掘软件：更新。SIGKDD Explorations\u00a011（1），10\u201318（2009）”，“期刊标题”：“SIGKDD Explorations”}，｛“key”：“30_CR8”，“doi断言”：“publisher”，“首页”：“1897”，“doi”：“10.1016\/j.artint.2008.08.0002”，“volume”：“172”，“author”：“E.H\u00fcllermeier”，“year”：“2008”，“nonstructured”：“H.u00fcllermier，E.，F\u00fcrnkranz，J.，Cheng，W.，Brinker，K.：通过学习成对偏好进行标签排名。人工智能\u00a01721897\u20131916（2008）“，”杂志标题“：”人工智能“}，{“key”：“30_CR9”，“doi-asserted-by”：“publisher”，“first page”：”456“，”doi“：”10.1145\/1390156.1390214“，”volume-title“：”第25届国际机器学习会议（ICML 2008）论文集“，”author“：”K.Kersting“，”year“：”2008“，”unstructured“：”Kersting，K.，Driessens，K.：非参数政策梯度：命题域和关系域的统一处理。Cohen，W.W.，McCallum，A.，Roweis，S.T.（编辑）《第25届机器学习国际会议论文集》（ICML 2008），第456\u2013463页。ACM，Helsinki（2008）“}，{“issue”：“4”，“key”：“30_CR10”，“doi-asserted-by”：“publisher”，“first-page”：“1143”，“doi”：“10.1137\/S0363012901385691”，“volume”：《42》，“author”：“V.R.Konda”，《year》：“2003”，“unstructured”：“Konda，V.R.，Tsitsiklis，J.N.：关于actor-critic算法。SIAM控制与优化杂志\u00a042（4），1143\ u20131166（2003）“，”journal-title“：”SIAM控制与优化杂志“}，{“key”：“30_CR11”，“first page”：”424“，“volume-title”：“Proceedings of the 20th International Conference on Machine Learning（ICML 2003）”，“author”：“M.G.Lagoudakis”，“year”：“2003”，“unstructured”：“Lagoudakis，M.G.，Parr，R.：强化学习作为分类：利用现代分类器。摘自：Fawcett，T.E.，Mishra，N.（编辑）《第20届机器学习国际会议论文集》（ICML 2003），第424\u2013431页。AAAI Press，Washington，DC（2003）“}，{”key“：”30_CR12“，”首页“：”9“，”volume“：“3”，”author“：”R.S.Sutton“，”year“：”1988“，”unstructured“：”Sutton，R.S.：“通过时间差异的方法学习预测。机器学习\u00a03，9\u201344（1988）“，”journal-title“：”Machine Learning“}神经信息处理系统进展12（NIPS-1999）”，“作者”：“R.S.Sutton”，“年份”：“1999”，“非结构化”：“Sutton，R.S.，McAllester，D.A.，Singh，S.P.，Mansour，Y.：函数逼近强化学习的策略梯度方法。收录于：Solla，S.A.、Leen，T.K.、M\u00fcller，K.-R.（编辑）《神经信息处理系统的进展》12（NIPS-1999），第1057\u20131063页。麻省理工学院出版社，丹佛（1999）“}，{“key”：“30_CR14”，“doi-asserted-by”：“crossref”，“unstructured”：“Vembu，S.，G\u00e4rtner，T.：标签排名算法：一项调查。收录于：F\u00fcrnkranz和H\u00FCllermier[5]，第45\u201364页。”，“doi”：“10.1007\/978-3642-14125-6_3”}，“key“：”30_CR15”，“首页”：“279”，“卷”：“8“，”作者“：”C.J.Watkins“，”年份“：”1992“，”非结构化”：“Watkins，C.J.，Dayan，P.：Q-learning。机器学习\u00a08，279\u2013292（1992）“，”日记标题“：”机器学习“}，{“key”：“30_CR16”，“first page”：”229“，”volume“：”8“，”author“：”R.J.Williams“，”year“：”1992“，”unstructured“：”Williams，R.J.：“简单统计梯度算法用于连接强化学习。机器学习\u 00a08、229\u2013 256（1992）”，“journal-title“：“机器学习”}，{“key”：“30_CR17”，“首页”：“3295”，“卷”：“28”，“作者”：“Y.Zhao”，“年份”：“2009”，“非结构化”：“Zhao，Y.，Kosorok，M.，Zeng，D.：癌症临床试验的强化学习设计。医学统计学\u00a028，3295\u20133315（2009）”，“期刊标题”：“医学统计学”}]，“container-title”：[“计算机科学课堂讲稿”，“数据库中的机器学习和知识发现”]，“original-title”：[]，“language”：“en”，“link”：[{“URL”：“https:\/\/link.springer.com/content\/pdf\/10.1007\/978-23780-5_30”，“content-type”：“unspecified”，“content-version”：“vor”，“intended-application”：“similarity-checking”}]，“deposed”：{date-parts“：[[2021,9,1]]，“date-time”：“2021-09-01T00:19:19Z”，“timestamp”：1630455559000}，“score”：1，“resource”：{“primary”：{“URL”：“https:\/\/link.springer.com\/10.1007\/978-3-642-23780-5_30”}，”subtitle“：[]，”shorttitle“：[]，”issued“：{”date-part“：[2011]]}”，“ISBN”：[“9783642237799”，“9783642237805”]，“references-count”：17，“URL”：“http:\/\/dx.doi.org\/10.1007\/978-3642-23780-5_30“，”关系“：{}，”ISSN“：[”0302-9743“，”1611-3349“]，”ISSN-type“：[{”类型“：”打印“，”值“：”0302-7743“}，{”型号“：”电子“，”数值“：”1611-33049“}]，”主题“：[]，”发布“：{”日期部分“：[2011]]}，“断言”：[{“值”：“This内容已提供给所有人。“，”name“：”free“，”label“：”free to read“}]}}