{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{“日期部分”：[[2024,9,7]]，“日期时间”：“2024-09-07T14:58:27Z”，“时间戳”：1725721107278}，“出版商位置”：“柏林，海德堡”，“参考计数”：57，“出版者”：“施普林格-柏林-海德堡（Springer Berlin Heidelberg）”，“isbn-type”：[{“类型”：”打印“，“值”：“9783646 2323744“}，{”类型“：“electronic”，“value”：“9783642323751”}]，“license”：[{“start”：{“date-parts”：[[2012,11,10]]，“date-time”：“2012-11-10T00:00:00Z”，“timestamp”：1352505600000}，“content-version”：“unspecified”，“delay-in-days”：0，“URL”：“http://www.springer.com\/tdm”}，{“start”：{“date-ports”：[2012,11,10]，“日期-时间”：“2012-11-10T00:00:00Z”，“时间戳”：1352505600000}，“content-version”：“tdm”，“delay-in-days”：0，“URL”：“http://www.springer.com/tdm”}，{“start”：{“date-parts”：[[2012,11,10]]，“date-time”：“2012-11-10T00:00:00Z”，“timestamp”：1352505600000}，“content-version”：“vor”，“delay-in-days”：“0，“URL”：“http://www.springer.com\/tdm”}]，“content-domain”“：{”domain“：[”link.springer.com“]，”crossmark-restriction“：false}，”，“short-container-title”：[]，“published-print”：{“date-parts”：[[2013]]}，“DOI”：“10.1007\/978-3642-32375-1_11”，“type”：“book-chapter”，“created”：{“date-parts”：[2013,3,29]]，“date-time”：“2013-03-29T03:35:02Z”，“timestamp”：1364528102000}，”page“：”257-278“，”update-policy“http://\/dx.DOI.org \/10.1007\/springer_crossmark_policy“，”source“：”Crossref“，“is-referenced-by-count”：7，“title”：[“Deciming When to Learn When：Temporal-Difference Competency Based Intrinsic Motivation（TD-CB-IM）”]，“prefix”：“10.1007”，“author”：[{“given”：“Gianluca”，“family”：“Baldassarre”，“sequence”：“first”，“affiliation”：[]}，{“给定”：“Marco”，“家族”：“Mirolli”，“序列”：“additional”，“从属关系”：[]}]，“成员”：“297”，“published-online”：{“date-parts”：[[2012,11,10]]}，“reference”：[{“volume-title”：“第四届认知建模国际会议论文集（ICCM2001），第37\u201342页。美国弗吉尼亚州费尔法克斯，2013年7月26日-2001年7月29日”，“年份”：“2001年”，“作者”：“G Baldassarre”，“密钥”：“11_CR1”，“非结构化”：“Baldassarre，G.：基底神经节在学习和选择运动行为中作用的模块化神经网络模型。摘自：Altmann，E.M.，Cleermans，A.，Schunn，C.D，Gray，W.D.（编辑）《第四届认知建模国际会议论文集》（ICCM2001），pp.\u00a037\u201342。费尔法克斯，弗吉尼亚州，美国，2013年7月26日至29日。Lawrence Erlbaum，Mahwah（2001）“}，{“key”：“11_CR2”，“doi-asserted-by”：“crossref”，“unstructured”：“Baldassarre，G.：基底神经节在学习和选择运动行为中的作用的模块化神经网络模型。J.Cogn.Syst.Res.3（2），5\u201313。专题动态和递归神经网络（2002a）”，“DOI”：“10.1016\/S1389-0417（01）00039-0”}，{“key”：“11_CR3”，“unstructured”：“Baldassarre，G.：用神经网络和强化学习进行规划。英国科尔切斯特埃塞克斯大学计算机科学系博士论文（2002b）”}、{“volume-title”：“《发展与学习与表观遗传机器人学国际会议论文集》（ICDL-EpiRob-2011），第E1\u2013E8页。德国法兰克福，2013年8月24日，2011年8月27日”，“年份”：“2011年”，“作者”：“G Baldassarre”，“key”：“11_CR4”，“非结构化”：“Baldassarre，G.：内在动机是什么？生物学观点。收录于：Cangelosi，A.、Triesch，J.、Fasel，I.、Rohlfing，K.、Nori，F.、Oudeyer，P.-Y.、Schlesinger，M、Nagai，Y.（编辑）《发展、学习和表观遗传机器人学国际会议论文集》（ICDL-EpiRob-2011），第E1\u2013E8页。德国法兰克福，2013年8月24日至2011年8月27日。IEEE，Piscataway（2011）“}，{“key”：“11_CR5”，“doi-asserted-by”：“crossref”，“unstructured”：“Baldassarre，G.，Mannella，F.，Fiore，V.G.，Redgrave，P.，Gurney，K.，Mirolli，M.：内在动机的行动结果学习和基于目标的行动回忆：系统级生物约束计算模型。神经网络（2012年出版）”，“doi”：“10.1016\/j.neunet.2012.09.015“}，{“key”：“11_CR6”，“unstructured”：“Baldassarre，G.，Mirolli，M.：理解自主累积学习技能的关键开放挑战是什么？the Newslett.Auton.Mental Dev.Techn.Comm.（IEEE CIS AMD Newslett）7（1），11（2010）”}，}，“key“：”11_CR7“，”unstructure“：”Barto，A.，Singh，S.，Chentanez，N.：内在动机学习的层次技能集合。摘自：发展性学习国际会议（ICDL2004）。加利福尼亚州La Jolla，2013年10月20日，2004年10月22日。IEEE，Piscataway（2004）“}，{”issue“：“4”，”key“：“11_CR8”，”doi-asserted-by“：”publisher“，”first page“：”341“，”doi“：”10.1023\/A:1025696116075“，”volume“：2003）“，”journal-title“：”离散。事件动态。系统。“｝，｛”issue“：”3“，”key“：”11_CR9“，”doi asserted by“：”publisher“，”first page“：”262“，”doi“：”10.1016\/j.cognition2008.08.011“，”volume“：”113“，”author“：”MM Botvinick“，”year“：”2008“，”nonstructured“：”Botvinick，M.M.，Niv，Y.，Barto，A.：层次组织行为及其神经基础：强化学习视角。认知113（3），262\u2013280（2008）“，“journal-title”：“Cognition”}，{“key”：“11_CR10”，“unstructured”：“Caligiore，D.，Mirolli，M.，Parisi，D.，Baldassarre，G.：一种生物激励的分层强化学习架构，用于对具有连续状态和动作的多种技能的学习建模。In:Kuipers，B.，Shultz，T.，Stoytchev，A.，Yu，C.（eds.）IEEE国际发展与学习会议（ICDL2010）。美国密歇根州安娜堡，2013年8月18日，2010年8月21日IEEE，Piscataway（2010）“}，{“问题”：“1”，“密钥”：“11_CR11”，”doi-asserted-by“：”publisher“，”first page“：”1“，”doi“：”10.3102\/00346543071001001“，”volume“：“71”，“作者”：“E Deci”，“年份”：“2001”，“非结构化”：“Deci，E.，Koestner，R.，Ryan，R.：教育中的外在奖励和内在动机：再次反思。Rev.教育。第71（1）号决议，201327（2001）“，“新闻标题”：《教育评论》。研究“}，{“问题”：“6”，“关键”：“11_CR12”，“doi-asserted-by”：“出版商”，“首页”：“1347”，“doi”：“10.1162\/089976602753712972”，“卷”：“14”，“作者”：“K Doya”，“年份”：“2002”，“非结构化”：“Doya，K.，Samejima，K.、Katagiri，K.-I，Kawato，M.：基于多模型的强化学习。神经计算。14（6），1347\u20131369（2002）“，”新闻标题“：”神经计算。“}，{”issue“：”2“，”key“：”11_CR13“，”doi-asserted-by“：”publisher“，”first-page“：”249“，”doi“：”10.1109\/TEVC.2006.890270“，”volume“：“11”，”author“：”S Elfwing“，”year“：”2007“，”unstructured“：”Elfwinng，S.，Uchibe，E.，Doya，K.，Christensen，H.：分层学习结构的进化发展。IEEE Trans.Evol.Compute.11（2），249\u2013.264（2007）“，”journal-title“：”IEEE Trans。进化。计算。“｝，｛”key“：”11_CR14“，”doi asserted by“：”publisher“，”first page“：”289“，”doi“：”10.1037\/h0058114“，”volume“：”43“，”author“：”HF Harlow“，”year“：”1950“，”unstructured“：”Harlow，H.F.：猴子在内在动机的复杂谜题表演中学习和满足反应。J.Comp.Physicol.Physicol.43289\u2013294（1950）“，”期刊标题“：”J。压缩机。生理学。精神病。“}，{”issue“：”1“，”key“：”11_CR15“，”doi-asserted-by“：”publisher“，”first-page“：”216“，”doi“：”10.1109\/TAMD.2010.2103311“，“volume”：“3”，“author”：“S Hart”，“year”：“2011”，“unstructured”：“Hart，S.，Grupen，R.：学习通用控制程序。IEEE Trans.Auton.Mental Dev.3（1），216\u2013231（2011）”，“日志标题”：“IEEE Trans.自动心理发展“}，{”key“：”11_CR16“，”doi-asserted-by“：”crossref“，”unstructured“：”Hart，S.，Grupen，R.：内在动机启示发现和建模。收录：Baldassarre，G.，Mirolli，M.（编辑）《自然和人工系统中的内在激励学习》。Springer，Berlin（2012，本卷）“，”DOI“：”10.1007\/978-3642-32375-1_12“}，{”key“：”11_CR17“，”first page“：“249”，”volume-title“：”Basal Ganglia的信息处理模型“，”author“：”JC Houk“，”year“：”1995“，”unstructured“：”Houk，J.C.，Adams，J.L.，Barto，A.G.：基底神经节如何生成和使用预测强化的神经信号的模型。摘自：Houk，J.C.，Davids，J.L.，Beiser，D.G.（编辑）《基底神经节的信息处理模型》，第249\u2013270页。麻省理工学院出版社，剑桥（1995）“}，{”issue“：”1“，”key“：”11_CR18“，”doi-asserted-by“：”publisher“，”first page“：“79”，“doi”：“10.1162\/neco.1991.3.1.79”，“volume”：“3”，“author”：“R Jacobs”，“year”：“1991”，“unstructured”：“Jacobs，R.，Jordan，M.，Nowlan，S.，Hinton，G.：本地专家的自适应混合。神经计算3（1），79\u201387（1991）”，“日志标题”：“神经计算。“}，{”issue“：”1“，”key“：”11_CR19“，”doi-asserted-by“：”publisher“，”first-page“：”16“，”doi“：”10.1177\/1059712310392389“，“volume”：”19“，”author“：”T Jung“，”year“：”2011“，”unstructured“：”Jung，T.，Polani，D.，Stone，P.：为连续代理环境系统赋权。Adap.Behav.19（1），16\u201339（2011）“，”journal-title“：”Adap.Behav.P.Behav.“}，{”问题“：”4\u20136“，”key“：”11_CR20“，”doi-asserted-by“：”publisher“，”first page“：“549”，”doi“：”10.1016\/S0893-6080（02）00048-5“，”volume“:”15“，”author“：”S Kakade“，”year“：”2002“，”unstructured“：”Kakade，S.，Dayan，P.：多巴胺：泛化和奖金。神经网络。15（4\u20136），549\u2013559（2002）“，“新闻标题”：“神经网络”。“}，{”key“：”11_CR21“，”doi-asserted-by“：”publisher“，”first page“：“225”，”doi“：”10.3389“/neuro.01.1.017.2007“，”volume“：1”，“author”：“F Kaplan”，“year”：“2007”，“unstructured”：“Kaplan，F.，Oudeyer，P.-Y.：In:搜索内在动机的神经回路。Front.\u00a0Neurosci.\u001225\u2013236（2007）”，“journal-title”：“”前面。神经科学。“}，{”key“：”11_CR22“，”unstructured“：”Klyubin，A.，Polani，D.，Nehaniv，C.：授权：一种通用的以代理为中心的控制措施。摘自：2005年IEEE进化计算大会，第1卷，第128\u2013135页。英国爱丁堡，20134年9月2日，（2005）“}，{“卷-时间”：“学习、行为和认知”，“年份”：“1993”，“作者”：“DA Lieberman”，“关键”：“11_CR23”，“非结构化”：“利伯曼，D.A.：学习、行为与认知。加利福尼亚州太平洋格罗夫：布鲁克斯/科尔（1993）”}，}“关键”:“11_CR2”，“无结构”：“Luciw，M.、Graziano，V.、Ring，M.和Schmidhuber，J.：计划自主感知和认知发展的人工好奇心。收录于：Cangelosi，A.、Triesch，J.、Fasel，I.、Rohlfing，K.、Nori，F.、Oudeyer，P.-Y.、Schlesinger，M.、Nagai，Y.（编辑）IEEE国际发展与学习会议（ICDL2011），第E1\u20138页。IEEE，德国法兰克福，2013年8月24日。Piscataway（2011）“}，{”key“：”11_CR25“，”first page“：“109”，”volume-title“：”The Psychology of Learning and Motivation“，”author“：”M McCloskey“，”year“：”1989“，”unstructured“：”McCloskie，M.，Cohen，N.：“连接主义网络中的灾难性干扰：顺序学习问题。in:Bower，G.H.（ed.）《学习与动机心理学》，第24卷，第109\u2013165页。学术出版社，圣地亚哥（1989）“}，{“key”：“11_CR26”，“unstructured”：“McGovern，A.，Barto，A.：使用不同密度自动发现强化学习中的子目标。马萨诸塞大学2013年阿默斯特分校计算机科学系（2001）教员出版物系列技术报告”}，}，“key“：”11_CR27“，”doi-asserted-by“：”publisher”，“首页”：“200”，“DOI”：“10.3389\/fnins.2010.00200”，“卷”：“4”，“作者”：“D Meunier”，“年份”：“2010”，“非结构化”：“Meunier，D.，Lambiotte，R.，Bullmore，E.T.：大脑网络的模块化和分层模块化组织。前面。神经科学。4200（2010）“，“新闻标题”：“正面。神经科学。}，{“key”：“11_CR28”，“doi-asserted-by”：“crossref”，“unstructured”：“Mirolli，M.，Baldassarre，G.：内在动机的功能和机制：知识与能力的区别。In：Baldassar，G.，Mirolli10.1007\/978-3642-32375-1“}，{“key”：“11_CR29”，“doi-asserted-by”：“crossref”，“unstructured”：“Mirolli，M.，Santucci，V.G.，Baldassarre，G.：相态多巴胺作为驱动动作获得和奖励最大化的内在和外在强化的预测误差：一项模拟机器人研究。神经网络（2012年提交）”，“doi”：“10.1016\/j.neunet.2012.12.012“}，{“key”：“11_CR30”，“doi-asserted-by”：“crossref”，“unstructured”：“Oudeyer，P.-Y.，Banares，A.，Fr\u00e9d\u00e9 ric，K.：具有发展约束的真实世界感觉运动技能的内在动机学习。摘自：Baldasserre，G.，Mirolli，M.（eds.）自然和人工系统中的内在激励学习。柏林施普林格（2012，this \u00a0volume）“，”DOI“：”10.1007\/978-3642-32375-1_13“}，{”key“：”11_CR31“，”DOI-asserted-by“：”publisher“，”first page“：“6”，“DOI”：“10.3389\/neuro.12.006.2007”，“volume”：“1”，“author”：“P.-Y.Oudeyer”，“year”：“2007”，“unstructured”：“Oudeyer，P.-Y.Kaplan，F.：什么是内在动机？计算方法的类型学。前面。神经机器人。1，6（2007）”，“期刊标题”：“前沿。神经机器人。“}，{”issue“：“2”，”key“：“11_CR32”，”doi-asserted-by“：”publisher“，”first page“：”265“，”doi“：”10.1109\/TEVC.2006.890271“，”volume“：：”11“，”author“：”P.-Y.Oudeyer“，“year”：“2007”，“unstructured”：“Oudeyer，P.-Y.Kaplan，F.，Hafner，V.V.：自主智力发展的内在激励系统。IEEE Trans.Evol.Compute.11（2），265\uuu2013286（2007）“，”期刊标题“：”IEEE Trans。进化。计算。}，{“volume-title”：《第十九届机器学习国际会议论文集》，第506\u2013513页。澳大利亚悉尼，2013年7月8日-2002年7月12日”，“年份”：“2002年”，“作者”：“M Pickett”，“key”：“11_CR33”，“非结构化”：“Pickett，M.，Barto，A.：Policyblocks:在强化学习中创建有用宏观操作的算法。摘自：Sammut，C.，Hoffmann，A.G.（编辑）《第十九届机器学习国际会议论文集》，第506\u2013513页。澳大利亚悉尼，201312年7月8日。Morgan Kaufmann，San Francisco（2002）“}，{”issue“：“12”，”key“：“11_CR34”，”doi-asserted-by“：”publisher“，”first page“：”967“，”doi“：”10.1038\/nrn2022“，”volume“：7”，”author“：”P Redgrave“，”year“：”2006“，”unstructured“：”Redgrave，P.，Gurney，K.：短潜伏期多巴胺信号：发现新动作的作用？Nat.Rev.Neurosci.7（12），967\u2013975（2006）“，“新闻标题”：“神经科学自然评论”。“}，{”key“：”11_CR35“，”doi-asserted-by“：”crossref“，”unstructured“：”Redgrave，P.，Gurney，K.，Stafford，T.，Thirquittle，M.，Lewis，J.：基底神经节在发现新动作中的作用。摘自：Baldasserre，G.，Mirolli，M.（eds.）《自然和人工系统中的内在激励学习》。柏林斯普林格出版社（2012，本卷）“doi”：“10.1007\/978-3-642-32375-1_6“}，{“key”：“11_CR36”，“doi-asserted-by”：“publisher”，“first page”：”54“，“doi”：“10.1006\/ceps.1999.1020”，”volume“：”25“，”author“：”R Ryan“，”year“：”2000“，”unstructured“：”Ryan，R.，Deci，E.：内在和外在动机：经典定义和新方向。Contemp.Educ.Psychol.25，54\u201367（2000）“，”journal-title“：”内容。教育。精神病。“｝，｛”key“：”11_CR37“，”非结构化“：”Santucci，V.G.，Baldassare，G.，Mirolli，M.：通过内在动机的生物累积学习：一项关于视觉引导伸手发展的模拟机器人研究。In：Johansson，\u00a0B.，Sahin，E.，Balkenius，C.（编辑）《第十届表观遗传机器人国际会议论文集》（EpiRob2010），第121\u2013128页。瑞典隆德。Lund：Lund University Cognitive Studies第149卷（2010）“}，{“key”：“11_CR38”，“unstructured”：“Schembri，M.、Mirolli，M.和Baldassarre，G.：内在动机强化学习机器人的进化和学习。收录：Almeida e Costa Fernando、Rocha，L.M.、Costa，e.、Harvey，I.和Coutinho，A.（编辑）人工生命的进展。第九届欧洲人工生命会议记录（ECAL2007），葡萄牙里斯本，2013年9月10日14日。《人工智能课堂讲稿》，第4648卷，第294\u2013333页。Springer，Berlin（2007a）“}，{“key”：“11_CR39”，“unstructured”：“Schembri，M.，Mirolli，M.和Baldassarre，G.：内在激励强化学习机器人中进化的童年长度和学习参数。in：Berthouze，L.，Dhristiofer，P.G.，Littman，M.、Kozima，H.和Balkenius，C.（编辑）第七届表观遗传机器人国际会议记录，第134卷，第141\u2013148页。瑞典隆德。Lund：Lund University Cognitive Studies vol.\u00a0149（2007b）“}，{“volume-title”：《第六届发展与学习国际会议论文集》，第E1\u20136页。英国伦敦，2013年11月13日，2007年7月13日”，“年份”：“2007年”，“作者”：“M Schembri”，“key”：“11_CR40”，“非结构化”：“Schembri.M.，Mirolli M.，Baldasserre，G.：为一个内在激励的强化学习机器人进化内部强化器。摘自：Demiris，Y.、Mareschal，D.、Scassella，B.、Weng，J.（编辑）《第六届国际发展与学习会议论文集》，pp.\u00a0E1\u20136。英国伦敦，2013年11月13日，2007年7月。IEEE，Piscataway（2007c）“}，{“key”：“11_CR41”，“unstructured”：“Schmidhuber，J.：好奇的建模控制系统。摘自：《神经网络国际联合会议论文集》，第2卷，第1458\u20131463页，新加坡，2013年11月18日《从动物到动画：第一届自适应行为模拟国际会议论文集》，法国巴黎，1990年12月，第222\u2013227页，“年份”：“1991年”，“作者”：“J Schmidhuber”，“关键”：“11_CR42”，“非结构化”：“Schmidhuber，J.：在建模神经控制器中实现好奇心和厌倦的可能性。收录人：Meyer，J.-A，Wilson，S.（编辑）《从动物到动画：模拟适应行为第一届国际会议论文集》，法国巴黎，1990年12月，第222\u2013227页，麻省理工学院，剑桥（1991b）“}，{“问题”：“3”，“关键”：“11_CR43”，“doi-asserted-by”：“出版商”，“首页”：“230”，“doi”：“10.1109\/TAMD.2010.2056368”，“卷”：“2”作者：“J Schmidhuber”，“年份”：“2010年”，“非结构化”：“Schmidhuber，J.：创造性、乐趣和内在动机的形式理论（1990\u20132010）：IEEE Trans。自动。精神发育2（3），230\u2013247（2010）“，“新闻标题”：“自动。心理发展。“}，{”key“：”11_CR44“，”doi-asserted-by“：”crossref“，”unstructured“：”Schmidhuber，J.：“通过创建主观复杂度易于降低的数据来最大化乐趣。摘自：Baldasserre，G.，Mirolli，M.（eds.）《自然和人工系统中的内在激励学习》，柏林斯普林格出版社（2012，本卷）“doi”：“10.1007\/978-3642-32375-1_5“}，{“问题”：“2”，“关键”：“11_CR45”，“doi-asserted-by”：“出版商”，“首页”：“241”，“doi”：“10.1016\/S0896-6273（02）00967-4”，“卷”：“36”，“作者”：“W Schultz”，“年份”：“2002”，“非结构化”：“Schultz，W.：多巴胺和奖励的正式使用。神经36（2），241\u2013263（2002）”，“journal-title“：”神经元“}，{”卷标“：”神经信息处理系统进展17：2004年会议记录。温哥华，不列颠哥伦比亚省，加拿大，2013年12月13日至2004年12月18日”，“年份”：“2005”，“作者”：“S Singh”，“密钥”：“11_CR46”，“非结构化”：“Singh，S.，Barto，A.，Chentanez，N.：内在动机强化学习。单位：Saul，\u00a0L。K.，Weiss，Y.，Bottou，L.（编辑）。神经信息处理系统进展17：2004年会议记录。加拿大不列颠哥伦比亚省温哥华，2013年12月13日至2004年12月18日。MIT，Cambridge（2005）“}，{”issue“：”2“，”key“：”11_CR47“，”doi-asserted-by“：”publisher“，”first-page“：”70“，”doi“：”10.1109\/TAMD.2010.2051031“，”volume“：“2”，”author“：”S Singh“，”year“：”2010“，”unstructured“：”Singh，S.、Lewis，R.、Barto，A.、Sorg，J.：内在动机强化学习：进化观点。IEEE传输。自动。精神发育2（2），70\u201382（2010）“，“期刊标题”：“IEEE Trans。自动。心理发展。“}，{”volume-title“：“IEEE国际发展与学习会议（ICDL2010）。美国密歇根州安娜堡，2010年8月18日，201321日”，“年份”：“2010年”，“作者”：“A Stout”，“关键”：“11_CR48”，“非结构化”：“Stout，A.，Barto，A.G.：能力进步内在动机。In:Kuipers，B.，Shultz，T.，Stoytchev，A.，Yu，C.（eds.）IEEE国际发展与学习会议（ICDL2010）。美国密歇根州安娜堡，2013年8月18日，2010年8月21日。IEEE，Piscataway（2010）“}，{”key“：”11_CR49“，”doi-asserted-by“：”publisher“，”first page“：“181”，“doi”：“10.1016\/S0004-3702（99）00052-1”，“volume”：“112”，“author”：“R Sutton”，“year”：“1999”，“unstructured”：“Sutton，R.、Precup，D.、Singh，S.：在MDP和半MDP之间：强化学习中时间抽象的框架。Artif公司。智力。112，181\u2013211（1999）“，“新闻标题”：“文章。智力。“}，{“volume-title”：“强化学习：简介”，“year”：“1998”，“author”：“RS Sutton”，“key”：“11_CR50”，“unstructured”：“Sutton，R.S.，Barto，A.G.：强化学习：导论。麻省理工学院，剑桥（1998）”}，}“key“：”11_CR51Taylor，M.，Stone，P.：强化学习领域的迁移学习：一项调查。J.马赫。学习。第10号决议，1633\u20131685（2009）“，“期刊标题”：“J.Mach。学习。Res.“}，{”key“：”11_CR52“，”first page“：“385”，”volume-title“：”Advances in Neural Information Processing Systems 7（NIPS1994），Denver，Colorado，USA“，”author“：”S Thrun“，”year“：”1995“，”unstructured“：”Thrun，S.，Schwartz，A.：在强化学习中发现结构。in:Tesauro，G.，Touretzky，D，Leen，T.（eds.）神经信息处理系统进展7（NIPS1994），美国科罗拉多州丹佛，第385\u2013392页。麻省理工学院，剑桥（1995）“}，{”问题“：”2“，”关键“：”11_CR53“，”doi-asserted-by“：”出版商“，”首页“：”132“，”doi“：”10.1109\/TAMD.2010.2050205“，“卷”：“2”，“作者”：“C维戈里托”，“年份”：“2010”，“非结构化”：“维戈里多，C.，Barto，A.：结构化环境中内在动机的分层技能学习。IEEE Trans.Auton.Mental Dev.2（2），132\u2013143（2010）“，”期刊标题“：”IEEE Trans。自动。Mental Dev.“｝，｛“issue”：“1”，“key”：“11_CR54”，“doi asserted by”：“publisher”，“first page”：“54”，“doi”：“10.1111\/j.1467-7687.2007.00564.x”，“volume”：“10”，“author”：“C von Hofsten”，“year”：“2007”，“nonstructured”：“von Hofsten，C.:Action in development.Dev.Sci.10（1），54\u201360（2007）”，“journal title”：“Dev.Sci.”｝，｛“volume title”：“社会中的心灵：高等心理过程的发展”，“年份”：“1978年”，“作者”：“LS Vygotsky”，“关键”：“11_CR55”，“非结构化”：“Vygottsky，L.S.：社会中的心理：高等心理进程的发展。马萨诸塞州坎布里奇：哈佛大学出版社（1978）“}，{”key“：”11_CR56“，”doi-asserted-by“：”publisher“，”first page“：“297”，”doi“：”10.1037\/h0040934“，”volume”：“66”，“author”：“RW White”，“year”：“1959”，“unstructured”：“White，R.W.：动机重新考虑：能力的概念。心理学评论66，297\u2013333（1959）”，“期刊标题”：“心理学评论”}，}“密钥”：“11_CR57“，“首页”：“1423”，“卷”：“87”，“作者”：“X姚”，“年份”：“1999”，“非结构化”：“姚，X：进化人工神经网络。参见：IEEE会议记录，第87卷，第1423\u20131447页。（1999）“，”journal-title“：”In:Proceedings of the IEEE“}]，”container-title”：[“自然和人工系统中的内在动机学习”]，”original-title:[]，”language“：”en“，”link“：[{”URL“：”http://\/link.springer.com/content\/pdf\/10007\/978-3642-32375-1_11“，”content-type“：”unspecified“，”content-version“：”vor“，”intended-application“：”相似性检查“}”，“存放”：{“日期-部分”：[[2020,8,25]]，“日期-时间”：“2020-08-25T06:12:47Z”，“时间戳”：1598335967000}，“分数”：1，“资源”：{“主要”:{“URL”：“http://\link.springer.com\/10.1007\/978-3642-32375-1_11”}，}，“ISBN”：[“9783642323744”，“978364 2323751”]，“references-count“：57，”URL“：”http://\/dx.doi.org\/10.1007\/978-3642-32375-1_11“，”关系“：{}，”主题“：[]，”发布“：{”日期部分“：[[2012,11,10]]}，“断言”：[{“值”：“2012年11月10日”，“订单”：1，“名称”：“first_online”，“标签”：“首次联机”，“组”：{“name”：“ChapterHistory”，“label”：“章节历史”}}]}}