文件Zbl 1527.68188-zbMATH Open

桑米特·纳维卡尔；彭，贝；利奥内蒂，马特奥；希纳波夫、基夫科；马修·泰勒（Matthew E.Taylor）。；彼得·斯通

强化学习领域的课程学习：框架和调查。（英语） Zbl 1527.68188号

J.马赫。学习。物件。 21，第181号论文，50页（2020年）.

摘要：强化学习（RL）是一种流行的解决顺序决策任务的范式，在这种任务中，agent只有有限的环境反馈。尽管在过去三十年中取得了许多进步，但许多领域的学习仍然需要与环境进行大量交互，在现实场景中，这可能会非常昂贵。为了解决这个问题，转移学习被应用于强化学习，这样在开始学习下一个更难的任务时，可以利用在一个任务中获得的经验。最近，几项研究探索了如何将任务或数据样本本身排序到课程中，以便学习一个可能很难从头开始学习的问题。在本文中，我们提出了强化学习中的课程学习（CL）框架，并用它来调查和分类现有的CL方法的假设、能力和目标。最后，我们使用我们的框架来发现开放的问题，并为未来的RL课程学习研究提出方向。

引用于6文件

MSC公司：

68T05型

人工智能中的学习和自适应系统

关键词：

课程学习；强化学习；迁移学习

软件：

BaRC公司；禁忌搜索；TAMER公司

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	海瑟姆·鲍·阿马尔（Haitham Bou Ammar）、埃里克·伊顿（Eric Eaton）、保罗·鲁沃洛（Paul Ruvolo）和马修·泰勒（Matthew E Taylor）。策略梯度方法的在线多任务学习。2014年国际机器学习会议（ICML），第1206-1214页。
[2]	海瑟姆·鲍·阿马尔（Haitham Bou Ammar）、埃里克·伊顿（Eric Eaton）、乔斯·马西奥·卢纳（Josée Marcio Luna）和保罗·鲁沃洛（Paul Ruvolo）。终身政策梯度强化学习中的自主跨领域知识转移。国际人工智能联合会议（IJCAI），第3345-3351页，2015年。
[3]	马金·安德里霍维奇、菲利普·沃尔斯基、亚历克斯·雷、乔纳斯·施奈德、雷切尔·方、彼得·韦林德、鲍勃·麦克格鲁、乔什·托宾、彼得·阿比尔和沃伊西奇·扎伦巴。后视体验重播。《神经信息处理系统进展》（NIPS），第5048-5058页，2017年。
[4]	Minoru Asada、Shoichi Noda、Sukoya Tawaratsumida和Koh Hosoda。通过基于视觉的强化学习对真实机器人进行有目的的行为获取。机器学习，23（2-3）：279-3031996。
[5]	Bowen Baker、Ingmar Kanitscheider、Todor Markov、Yi Wu、Glenn Powell、Bob McGrew和Igor Mordatch。来自多代理自动课程的紧急工具使用。2020年国际学习代表大会。
[6]	梅尔文·巴莱拉（Melvin Ballera）、伊斯梅尔·阿泰亚·卢坎杜（Ismail Ateya Lukandu）和阿卜杜拉·拉德万（Abdalla Radwan）。使用反向轮盘赌选择算法个性化电子学习课程。国际教育技术和计算机会议（ICETC），第91-97页。IEEE，2014年。
[7]	Trapit Bansal、Jakub Pachocki、Szymon Sidor、Ilya Sutskever和Igor Mordatch。通过多智能体竞争产生的突发复杂性。2018年国际学习代表大会（ICLR）。
[8]	阿德里安·巴拉恩斯（Adrien Baranes）和皮埃尔·伊夫·奥德耶（Pierre-Yves Oudeyer）。机器人中具有内在动机的目标探索逆模型的主动学习。机器人与自治系统，61（1）：49-732013。
[9]	安德烈亚·巴西奇（Andrea Bassich）、弗朗西斯科·福利诺（Francesco Foglino）、马特奥·列奥内蒂（Matteo Leonetti）和丹尼尔·库登科（Daniel Kudenko）。具有渐进功能的课程学习。https://arxiv.org/abs-2008.00511, 2020.
[10]	Marc G Bellemare、Yavar Naddaf、Joel Veness和Michael Bowling。街机学习环境：通用代理的评估平台。《人工智能研究杂志》，47:253-2792013年。
[11]	约舒亚·本吉奥（Yoshua Bengio）、杰尔·欧米·卢拉杜尔（J’erˆome Louradour）、罗南·科洛伯特（Ronan Collobert）和杰森·韦斯顿（Jason Weston）。课程学习。国际机器学习会议（ICML），第41-48页，2009年。
[12]	Emma Brunskill和Stuart Russell。智能教学系统中问题选择的部分可观察顺序决策。教育数据挖掘国际会议（EDM）海报。Citeser，2011年。
[13]	里奇·卡鲁阿纳。多任务学习。机器学习，28（1）：41-751997。42
[14]	Alexander Clegg、Wenhao Yu、Zackory Erickson、Jie Tan、C Karen Liu和Greg Turk。学习使用触觉导航布料。智能机器人和系统国际会议（IROS），第2799-2805页，2017年。
[15]	菲利佩·莱诺·达·席尔瓦和安娜·雷亚·科斯塔。面向对象的强化学习课程生成。2018年国际自治代理和多代理系统会议（AAMAS）·Zbl 1489.68221号
[16]	马可·多里戈（Marco Dorigo）、维托里奥·马尼佐（Vittorio Maniezzo）和阿尔贝托·科尔尼（Alberto Colorni）。蚂蚁系统：一个自动催化优化过程。技术报告，1991年·Zbl 0912.90240号
[17]	Shayan Doroudi、Kenneth Holstein、Vincent Aleven和Emma Brunskill。顺序很重要，但到底有多重要？从数据中评估活动序列的方法。受让人提交，2016年。
[18]	杰弗里·埃尔曼。神经网络的学习和发展：从小处做起的重要性。认知，48（1）：71-991993。
[19]	Anestis Fachantidis、Ioannis Partalas、Grigorios Tsoumakas和Ioannis Vlahavas。在强化学习代理中转移任务模型。神经计算，107:23-322013年。
[20]	杨凡、费田、陶琴、李向阳和刘铁燕。学习教学。在2018年国际学习代表大会（ICLR）上。
[21]	孟芳、周天一、杜亚丽、韩磊、张正友。课程指导的事后经验回放。《神经信息处理系统进展》（NIPS），第12602-126132019页。
[22]	Fernando Fern´andez、Javier Garc´ıa和Manuela Veloso。用于任务间迁移学习的概率策略重用。机器人与自主系统，58（7）：866-8712000。
[23]	Chelsea Finn、Pieter Abbeel和Sergey Levine。用于快速适应深层网络的模型认知元学习。在国际机器学习会议（ICML）上，第1126-1135页。JMLR公司。org，2017年。
[24]	卡洛斯·弗洛伦萨（Carlos Florensa）、大卫·赫尔德（David Held）、马库斯·伍尔斐尔（Markus Wulfmeier）、迈克尔·张（Michael Zhang）和彼得·阿比尔（Pieter Abbeel）。逆向课程生成用于强化学习。机器人学习会议（CoRL），2017年。
[25]	卡洛斯·弗洛伦萨（Carlos Florensa）、大卫·赫尔德（David Held）、信阳耿（Xinyang Geng）和彼得·阿贝尔（Pieter Abbeel）。强化学习代理的自动目标生成。2018年国际机器学习会议（ICML），第1514-1523页。
[26]	弗朗西斯科·福利诺（Francesco Foglino）、克里斯蒂亚诺·科尔托·克里斯塔库（Christiano Coletto Christakou）和马特奥·列奥内蒂（Matteo Leonetti）。课程学习中任务排序的优化框架。2019a国际发展学习会议（ICDL-EPIROB）。
[27]	弗朗西斯科·福利诺（Francesco Foglino）、克里斯蒂亚诺·科尔托·克里斯塔库（Christiano Coletto Christakou）、里卡多·卢纳·古铁雷斯（Ricardo Luna Gutierrez）和马特奥·列奥内蒂（Matteo Leonetti）。累积回报最大化的课程学习。国际人工智能联合会议（IJCAI），2019b。
[28]	弗朗西斯科·福利诺（Francesco Foglino）、马特奥·列奥内蒂（Matteo Leonetti）、西蒙·萨格拉特拉（Simone Sagratella）和鲁杰罗·塞西娅（Ruggiero Seccia）。课程学习的灰盒方法。全球优化大会，2019c。
[29]	Teruo Fujii、Yoshikazu Arai、Hajime Asama和Isao Endo。用于复杂避碰问题的多层强化学习。国际机器人与自动化会议（ICRA），第3卷，第2186-2191页。IEEE，1998年。
[30]	弗雷德·格洛弗和曼纽尔·拉古纳。禁忌搜索。在《组合优化手册》中，第2093-2229页。斯普林格，1998年。
[31]	David E Goldberg，《搜索、优化和机器学习中的遗传算法》。Addison-Wesley Longman Publishing Co.，Inc.，美国马萨诸塞州波士顿，第1版，1989年·Zbl 0721.68056号
[32]	伊恩·古德费罗（Ian Goodfellow）、让·普格特·巴迪（Jean Pouget-Abadie）、梅迪·米尔扎（Mehdi Mirza）、徐冰（Bing Xu）、大卫·沃德·法利（David Warde-Farley）、谢吉尔·奥扎尔（Sherjil Ozair）、亚伦·库维尔（Aaron Courville）和约舒亚·本吉奥（Yoshua Ben。生成性对抗网络。《神经信息处理系统进展》（NIPS），第2672-2680页，2014年。
[33]	Alex Graves、Marc G Bellemare、Jacob Menick、Remi Munos和Koray Kavukcuoglu。神经网络的自动课程学习。2017年国际机器学习会议（ICML）。
[34]	德里克·T·格林（Derek T Green）、托马斯·J·沃尔什（Thomas J Walsh）、保罗·R·科恩（Paul R Cohen）和张育翰（Yu-Han Chang）。使用动态贝叶斯网学习技能教学课程。人工智能创新应用（IAAI），2011年。
[35]	Michael Cerny Green、Benjamin Sergent、Pushyami Shandilya和Vibhor Kumar。为深度强化学习代理精心策划的课程学习。在AAAI强化学习游戏工作坊，2019。
[36]	谢恩·格里菲斯（Shane Griffith）、考希克·苏布拉曼尼亚（Kaushik Subramanian）、乔纳森·舒尔茨（Jonathan Scholz）、查尔斯·伊斯贝尔（Charles Isbell）和安德里亚·托马斯（Andrea L Thomaz）。政策制定：将人的反馈与强化学习相结合。《神经信息处理系统进展》（NIPS），第2625-2633页，2013年。
[37]	乔西亚·汉纳（Josiah Hanna）、菲利普·托马斯（Philip Thomas）、彼得·斯通（Peter Stone）和斯科特·尼库姆（Scott Niekum）。通过行为策略搜索进行数据高效策略评估。国际机器学习会议（ICML），2017年8月。
[38]	Ionel-Alexandru Hosu和Traian Rebedea。通过深度强化学习和人工检查点重放来玩Atari游戏。2016年，在通用人工智能评估研讨会上。
[39]	安娜·伊格莱西亚斯（Ana Iglesias）、帕洛玛·马特·尼兹（Paloma Mart´ón nez）和费尔南多·费尔南德斯（Fernando Fern´andez）。在基于网络的自适应智能教育系统中应用强化学习的经验。教育信息学，2:223-2402003。
[40]	安娜·伊格莱西亚斯（Ana Iglesias）、帕洛玛·马特·尼兹（Paloma Mart´ónfo nez）、里卡多·阿勒（Ricardo Aler）和费尔南多·费尔南德斯（Fernando Fern´andez）。通过强化学习在适应性和智能教育系统中学习教学策略。应用情报，31（1）：89-1062009。
[41]	鲍里斯·伊万诺维奇（Boris Ivanovic）、詹姆斯·哈里森（James Harrison）、阿波瓦·夏尔马（Apoorva Sharma）、莫·陈（Mo Chen）和马可·帕沃内（Marco Pavone）。Barc：机器人强化学习的向后可达性课程。国际机器人与自动化会议（ICRA），第15-21页。IEEE，2019年。
[42]	Max Jaderberg、Volodymyr Mnih、Wojciech Marian Czarnecki、Tom Schaul、Joel Z Leibo、David Silver和Koray Kavukcuoglu。使用无监督辅助任务进行强化学习。2017年国际学习代表大会（ICLR）。
[43]	维卡斯·贾恩（Vikas Jain）和塞娅·图拉班杜拉（Theja Tulabandhula）。使用主动模拟器加快强化学习。2017年，InNIPS机器、机器人和人类教学研讨会。
[44]	吕江、孟德玉、赵倩、单石光和亚历山大·豪普特曼。自主课程学习。人工智能发展协会（AAAI），2015年。
[45]	Andrej Karpathy和Michiel Van De Panne。运动技能课程学习。加拿大人工智能会议，第325-330页。施普林格，2012年。
[46]	费萨尔·汗（Faisal Khan）、比尔赫·穆特鲁（Bilge Mutlu）和朱晓金（Xiaojin Zhu）。人类如何教学：关于课程学习和教学维度。神经信息处理系统进展，第1449-1457页，2011年。
[47]	Tae-Hoon Kim和Jonghyun Choi。Screennet:学习深度神经网络的自定进度课程。arXiv预印本arXiv:1801.009042018。
[48]	W Bradley Knox和Peter Stone。通过人的强化来交互塑造代理：TAMER框架。国际知识获取会议，2009年。
[49]	布拉德利·诺克斯和彼得·斯通。从人类和MDP同时奖励中强化学习。2012年，在国际自治代理和多代理系统会议（AAMAS）上，第475-482页。
[50]	亚历山德罗·拉扎里奇。强化学习中的迁移：框架和调查。在强化学习中，第143-173页。施普林格，2012年。
[51]	亚历山德罗·拉扎里奇（Alessandro Lazaric）和马塞洛·雷斯特利（Marcello Restelli）。从多个MDP转移。神经信息处理系统（NIPS）进展，2011年。
[52]	亚历山德罗·拉扎里奇（Alessandro Lazaric）、马塞洛·雷斯特利（Marcello Restelli）和安德烈亚·博纳里尼（Andrea Bonarini）。批量强化学习中的样本转移。国际机器学习会议（ICML），第544-551页，2008年。
[53]	Su Young Lee、Choi Sungik和Sae-Young Chung。基于情节反向更新的高效样本深度强化学习。《神经信息处理系统进展》（NeurIPS），第2110-21192019页。
[54]	罗伯特·洛芬、贝鹏、詹姆斯·麦克拉桑、迈克尔·利特曼、马修·泰勒、杰夫·黄和大卫·罗伯茨。通过人传递离散反馈的学习行为：建模内隐反馈策略以加快学习。自治代理和多代理系统，30（1）：30-592016。
[55]	Patrick MacAlpine和Peter Stone。重叠分层学习。人工智能，254:21-432018·Zbl 1423.68384号
[56]	詹姆斯·麦克拉珊（James MacGlashan）、马克·K·何（Mark K Ho）、罗伯特·洛芬（Robert Loftin）、贝鹏（Bei Peng）、王冠（Guan Wang）、大卫·罗伯茨（David L Roberts）、马修·泰勒（Matthew E Taylor。从政策相关的人的反馈中进行交互式学习。2017年国际机器学习会议（ICML）。
[57]	Tambet Matiisen、Avital Oliver、Taco Cohen和John Schulman。教师-学生课程学习。IEEE神经网络和学习系统汇刊，2017年。
[58]	Volodymyr Mnih、Koray Kavukcuoglu、David Silver、Andrei A Rusu、Joel Veness、Marc G Bellemare、Alex Graves、Martin Riedmiller、Andreas K Fidjeland、Georg Ostrovski等，通过深度强化学习实现人本控制。《自然》，518（7540）：5292015。
[59]	Sanmit Narvekar和Peter Stone。强化学习的学习课程政策。2019年5月，在国际自治代理和多代理系统会议（AAMAS）上。
[60]	Sanmit Narvekar和Peter Stone。推广强化学习课程。ICML终身学习研讨会，2020年。
[61]	Sanmit Narvekar、Jivko Sinapov、Matteo Leonetti和Peter Stone。为课程学习创建源任务。2016年，新加坡，国际自主智能体和多智能体系统会议。
[62]	Sanmit Narvekar、Jivko Sinapov和Peter Stone。强化学习中定制课程设计的自主任务排序。国际人工智能联合会议（IJCAI），第147卷，第149页，2017年。
[63]	彭思欧和托马斯·莫顿。调度中的过滤波束搜索。《国际生产研究杂志》，26（1）：35-621988年。
[64]	Bei Peng、James MacGlashan、Robert Loftin、Michael L Littman、David L Roberts和Matthew E Taylor。顺序决策任务中机器学习者的课程设计。IEEE计算智能新兴主题汇刊，2（4）：268-2772018年。
[65]	盖尔·彼得森。一天的伟大启示：B.F.斯金纳发现了塑形。行为实验分析杂志，82（3）：317-3282004。
[66]	勒勒·平托（Lerre Pinto）、詹姆斯·戴维森（James Davidson）、拉胡尔·苏克坦卡尔（Rahul Sukthankar）和阿比纳夫·古普塔（Abhinav Gupta）。强大的对手强化学习。国际机器学习会议（ICML），第2817-2826页，2017年。
[67]	塞巴斯蒂安·拉卡尼埃、安德鲁·兰皮宁、亚当·桑托罗、大卫·莱切特、弗拉德·费罗尤和蒂莫西·利利克拉普。通过设置-解决交互自动生成课程。2019年国际学习代表大会（ICLR）。
[68]	安娜·拉弗蒂（Anna N Rafferty）、艾玛·布伦斯基（Emma Brunskill）、托马斯·格里菲斯（Thomas L Griffiths）和帕特里克·沙夫托（Patrick Shafto）。通过pomdp规划加快教学。认知科学，40（6）：1290-13322016。
[69]	阿迪蒂·拉马钱德兰（Aditi Ramachandran）和布莱恩·斯卡塞利拉（Brian Scassellia）。适应个性化机器人儿童辅导互动的难度水平。2014年AAAI人工智能会议研讨会。
[70]	任志鹏、董道义、李华雄和陈春林。在深度强化学习中，自定进度优先课程学习和覆盖惩罚。IEEE神经网络和学习系统汇刊，29（6）：2216-22262018。
[71]	马丁·里德米勒（Martin Riedmiller）、罗兰·哈夫纳（Roland Hafner）、托马斯·兰普（Thomas Lampe）、迈克尔·诺伊内特（Michael Neunert）、乔纳斯·德拉夫（Jonas Degrave）、汤姆·范德维勒（Tom van de Wiele）、弗拉德·姆尼（Vlad Mnih）、尼古拉斯·海斯（Nicolas Heess）和约斯特·托。2018年国际机器学习会议（ICML），第4344-4353页。
[72]	Mark B Ring：孩子：迈向持续学习的第一步。机器学习，28（1）：77-1041997·Zbl 0881.68092号
[73]	道格拉斯·LT·罗德（Douglas LT Rohde）和大卫·C·普劳特（David C Plaut）。缺乏明确否定证据的语言习得：从小处做起有多重要？认知，72（1）：67-1091999。
[74]	Christopher D Rosin和Richard K Belew。竞争协同进化的新方法。进化计算，5（1）：1-291997。
[75]	Andrei A Rusu、Neil C Rabinowitz、Guillaume Desjardins、Hubert Soyer、James Kirkpatrick、Koray Kavukcuoglu、Razvan Pascanu和Raia Hadsell。渐进式神经网络。arXiv预印arXiv:1606.046712016。
[76]	保罗·鲁沃洛和埃里克·伊顿。ELLA：一种高效的终身学习算法。国际机器学习会议（ICML），2013年a。
[77]	保罗·鲁沃洛和埃里克·伊顿。终身机器学习的主动任务选择。人工智能发展协会（AAAI），2013年b。
[78]	特伦斯·D·桑格。使用神经网络学习控制机器人操作手的任务难度逐渐增加。IEEE机器人与自动化汇刊，10（3）：323-3331994。
[79]	斯特凡·沙尔。从演示中学习。神经信息处理系统进展，第1040-1046页，1997年。
[80]	Tom Schaul、Daniel Horgan、Karol Gregor和David Silver。通用值函数逼近器。2015年国际机器学习会议（ICML）。
[81]	Tom Schaul、John Quan、Ioannis Antonoglou和David Silver。优先体验重播。2016年国际学习代表大会（ICLR）。
[82]	J¨urgen Schmidhuber。Powerplay：通过不断搜索最简单但仍无法解决的问题，训练一个越来越通用的问题解决者。心理学前沿，4:3132013。
[83]	邵昆、朱元恒和赵东斌。星际争霸微观管理与强化学习和课程迁移学习。2018年IEEE计算智能新兴主题汇刊。
[84]	David Silver、Guy Lever、Nicolas Heess、Thomas Degres、Daan Wierstra和Martin Riedmiller。确定性策略梯度算法。2014年国际机器学习会议（ICML）。
[85]	David Silver、Aja Huang、Chris J Maddison、Arthur Guez、Laurent Sifre、George Van Den Driessche、Julian Schrittwieser、Ioannis Antonoglou、Veda Panneershelvam、Marc Lanctot等。通过深度神经网络和树搜索掌握围棋游戏。《自然》，529（7587）：4842016年。
[86]	Jivko Sinapov、Sanmit Narvekar、Matteo Leonetti和Peter Stone。在缺少目标任务样本的情况下学习任务间的可迁移性。2015年，在自治代理和多代理系统国际会议（AAMAS）上，第725-733页。
[87]	布尔胡斯·F·斯金纳。今日加固。美国心理学家，13（3）：941958。
[88]	维沙尔·索尼和萨廷德·辛格。使用同态在连续强化学习领域中传递选项。美国人工智能协会（AAAI），2006年。
[89]	Rupesh Kumar Srivastava、Bas R.Steunebrink和Jrgen Schmidhuber。首次尝试使用powerplay。神经网络，41:130-1362013。自主学习专题。
[90]	肯尼斯·奥斯坦利（Kenneth O Stanley）、鲍比·布莱恩特（Bobby D Bryant）和里斯托·米库莱宁（Risto Miikkulainen）。神经网络游戏中进化的神经网络代理。2005年，新泽西州皮斯卡塔韦，IEEE计算智能与游戏研讨会（CIG）。
[91]	彼得·斯通和曼努埃拉·维洛索。学习解决复杂的规划问题：寻找有用的辅助问题。InAAAI秋季规划与学习研讨会，第137-141页，1994年。
[92]	Halit Bener Suay和Sonia Chernova。人类引导和状态空间大小对交互强化学习的影响。2011年机器人与人类交互通信国际会议（RO-MAN），第1-6页。
[93]	考希克·苏布拉曼尼亚（Kaushik Subramanian）、查尔斯·伊斯贝尔（Charles L Isbell Jr）和安德烈亚·托马斯（Andrea L Thomaz）。交互式强化学习的示范探索。2016年，在国际自治代理和多代理系统会议（AAMAS）上，第447-456页。
[94]	赛因巴亚尔·苏赫巴托（Sainbayar Sukhbaatar）、泽明·李（Zeming Li）、伊利亚·科斯特里科夫（Ilya Kostrikov）、加布里埃尔·辛奈夫（Gabriel Synnaeve）、亚瑟·斯拉姆（Arthur Szlam）和罗伯·弗格斯（Rob Fergus）。通过不对称的自我游戏实现内在动机和自动课程。在2018年国际学习代表大会（ICLR）上。
[95]	理查德·萨顿和安德鲁·巴托。强化学习：简介。麻省理工学院出版社，1998年·Zbl 1407.68009号
[96]	麦克斯韦尔·斯维特利克（Maxwell Svetlik）、马泰奥·列奥内蒂（Matteo Leonetti）、吉夫科·辛纳波夫（Jivko Sinapov）、里希·沙阿（Rishi Shah）、尼克·沃克（Nick Walker）和彼得·斯通。强化学习代理的自动课程图生成。人工智能发展协会（AAAI），第2590-2596页，2017年。
[97]	马修·泰勒。协助支持传输的机器学习算法：利用人类知识进行课程设计。在2009年AAAI春季研讨会上，关于向人类教师学习的代理。
[98]	马修·泰勒和彼得·斯通。基于价值函数的强化学习的行为迁移。Frank Dignum、Virginia Dignom、Sven Koenig、Sarit Kraus、Munindar P.Singh和Michael Wooldridge，《自治代理和多代理系统国际联合会议》（AAMAS）编辑，第53-59页，纽约州纽约市，2005年。ACM出版社。
[99]	马修·泰勒和彼得·斯通。强化学习领域的迁移学习：一项调查。《机器学习研究杂志》，10（1）：1633-16852009·兹比尔1235.68196
[100]	Matthew E Taylor、Peter Stone和Yaxin Liu。通过任务间映射进行时间差分学习的转移学习。机器学习研究杂志，8（1）：2125-21672007·Zbl 1222.68317号
[101]	Matthew E Taylor、Gregory Kuhlmann和Peter Stone。强化学习的自主迁移。2008年国际自治代理和多代理系统联合会议（AAMAS）。
[102]	杰拉尔德·泰索罗（Gerald Tesauro）。时间差异学习和td-gammon。ACM通讯，38（3）：58-681995。
[103]	Chen Tessler、Shahar Givony、Tom Zahavy、Daniel J Mankowitz和Shie Mannor。在minecraft中终身学习的深度分层方法。人工智能发展协会（AAAI），第1553-1561页，2017年。
[104]	安德烈亚·洛克德·托马斯和辛西娅·布雷泽尔。与人类教师一起强化学习：反馈和指导的证据，对学习绩效有影响。人工智能发展协会（AAAI），第6卷，第1000-1005页，2006年。
[105]	塞巴斯蒂安·特隆。终身学习算法。塞巴斯蒂安·特伦（Sebastian Thrun）和洛里安·普拉特（Lorien Pratt），编辑，《学习》（Learning to Learn），第181-209页。Kluwer学术出版社，马萨诸塞州诺维尔，美国，1998年·Zbl 0891.68079号
[106]	Alexander Vezhnevets、Volodymyr Mnih、Simon Osindero、Alex Graves、Oriol Vinyals、John Agapiou等。学习宏观行动的战略关注作家。《神经信息处理系统进展》（NIPS），第3486-3494页，2016年。
[107]	Oriol Vinyals、Igor Babuschkin、Wojciech M Czarnecki、Micha¨el Mathieu、Andrew Dudzik、Junyoung Chung、David H Choi、Richard Powell、Timo Ewalds、Petko Georgiev等。使用多智能体强化学习的星际争霸二级大师级。《自然》，2019年第1-5页。
[108]	列夫·塞门诺维奇·维果茨基。社会中的思维：高等心理过程的发展。哈佛大学出版社，1978年。
[109]	王伟勋、杨天培、刘勇、郝建业、郝晓天、胡玉晶、陈英峰、范长杰和杨高。从少到多：大规模动态多主体课程学习。人工智能发展协会（AAAI），第7293-7300页，2020年。
[110]	Christopher JCH Watkins和Peter Dayan。Q学习。机器学习，8（3-4）：279-2921992·Zbl 0773.68062号
[111]	克里斯托弗·约翰·科尼什·赫拉比·沃特金斯（Christopher John Cornish Hellaby Watkins）。从延迟的奖励中学习。博士论文，剑桥大学国王学院，1989年。
[112]	Daphna Weinshall和Dan Amir。课程学习理论，具有凸损失函数。arXiv预印本arXiv:11812.034722018。
[113]	Daphna Weinshall、Gad Cohen和Dan Amir。通过转移学习进行课程学习：深层网络的理论与实验。2018年国际机器学习会议（ICML），第5235-5243页。
[114]	亚伦·威尔逊（Aaron Wilson）、艾伦·芬（Alan Fern）、索米亚·雷（Soumya Ray）和普拉萨德·塔德帕利（Prasad Tadepalli）。多任务强化学习：一种分层贝叶斯方法。在国际机器学习会议（ICML）上，第1015-1022页。ACM，2007年。
[115]	贝弗利·帕克·伍尔夫。构建智能互动导师：以学生为中心的变革电子学习策略。Morgan Kaufmann Publishers Inc.，美国加利福尼亚州旧金山，2007年。
[116]	吴宇欣和田远东。第一人称射击游戏的培训代理，提供演员评论课程学习。2017年国际学习代表大会（ICLR）。
[117]	Boo-Ho Yang和Haruhiko Asada。渐进学习及其在机器人阻抗学习中的应用。IEEE神经网络汇刊，7（4）：941-9521996。
[118]	杨嘉晨、纳哈伊、伊塞勒、藤村纪夫和查宏远。Cm3：合作多目标多阶段多智能体强化学习。2020年国际学习代表大会。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

强化学习领域的课程学习：框架和调查。（英语） Zbl 1527.68188号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

强化学习领域的课程学习：框架和调查。 （英语） Zbl 1527.68188号

MSC公司：

关键词：

软件：

参考文献：

强化学习领域的课程学习：框架和调查。（英语） Zbl 1527.68188号