×

强化学习领域的课程学习:框架和调查。 (英语) Zbl 1527.68188号

摘要:强化学习(RL)是一种流行的解决顺序决策任务的范式,在这种任务中,agent只有有限的环境反馈。尽管在过去三十年中取得了许多进步,但许多领域的学习仍然需要与环境进行大量交互,在现实场景中,这可能会非常昂贵。为了解决这个问题,转移学习被应用于强化学习,这样在开始学习下一个更难的任务时,可以利用在一个任务中获得的经验。最近,几项研究探索了如何将任务或数据样本本身排序到课程中,以便学习一个可能很难从头开始学习的问题。在本文中,我们提出了强化学习中的课程学习(CL)框架,并用它来调查和分类现有的CL方法的假设、能力和目标。最后,我们使用我们的框架来发现开放的问题,并为未来的RL课程学习研究提出方向。

MSC公司:

68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] 海瑟姆·鲍·阿马尔(Haitham Bou Ammar)、埃里克·伊顿(Eric Eaton)、保罗·鲁沃洛(Paul Ruvolo)和马修·泰勒(Matthew E Taylor)。策略梯度方法的在线多任务学习。2014年国际机器学习会议(ICML),第1206-1214页。
[2] 海瑟姆·鲍·阿马尔(Haitham Bou Ammar)、埃里克·伊顿(Eric Eaton)、乔斯·马西奥·卢纳(Josée Marcio Luna)和保罗·鲁沃洛(Paul Ruvolo)。终身政策梯度强化学习中的自主跨领域知识转移。国际人工智能联合会议(IJCAI),第3345-3351页,2015年。
[3] 马金·安德里霍维奇、菲利普·沃尔斯基、亚历克斯·雷、乔纳斯·施奈德、雷切尔·方、彼得·韦林德、鲍勃·麦克格鲁、乔什·托宾、彼得·阿比尔和沃伊西奇·扎伦巴。后视体验重播。《神经信息处理系统进展》(NIPS),第5048-5058页,2017年。
[4] Minoru Asada、Shoichi Noda、Sukoya Tawaratsumida和Koh Hosoda。通过基于视觉的强化学习对真实机器人进行有目的的行为获取。机器学习,23(2-3):279-3031996。
[5] Bowen Baker、Ingmar Kanitscheider、Todor Markov、Yi Wu、Glenn Powell、Bob McGrew和Igor Mordatch。来自多代理自动课程的紧急工具使用。2020年国际学习代表大会。
[6] 梅尔文·巴莱拉(Melvin Ballera)、伊斯梅尔·阿泰亚·卢坎杜(Ismail Ateya Lukandu)和阿卜杜拉·拉德万(Abdalla Radwan)。使用反向轮盘赌选择算法个性化电子学习课程。国际教育技术和计算机会议(ICETC),第91-97页。IEEE,2014年。
[7] Trapit Bansal、Jakub Pachocki、Szymon Sidor、Ilya Sutskever和Igor Mordatch。通过多智能体竞争产生的突发复杂性。2018年国际学习代表大会(ICLR)。
[8] 阿德里安·巴拉恩斯(Adrien Baranes)和皮埃尔·伊夫·奥德耶(Pierre-Yves Oudeyer)。机器人中具有内在动机的目标探索逆模型的主动学习。机器人与自治系统,61(1):49-732013。
[9] 安德烈亚·巴西奇(Andrea Bassich)、弗朗西斯科·福利诺(Francesco Foglino)、马特奥·列奥内蒂(Matteo Leonetti)和丹尼尔·库登科(Daniel Kudenko)。具有渐进功能的课程学习。https://arxiv.org/abs-2008.00511, 2020.
[10] Marc G Bellemare、Yavar Naddaf、Joel Veness和Michael Bowling。街机学习环境:通用代理的评估平台。《人工智能研究杂志》,47:253-2792013年。
[11] 约舒亚·本吉奥(Yoshua Bengio)、杰尔·欧米·卢拉杜尔(J’erˆome Louradour)、罗南·科洛伯特(Ronan Collobert)和杰森·韦斯顿(Jason Weston)。课程学习。国际机器学习会议(ICML),第41-48页,2009年。
[12] Emma Brunskill和Stuart Russell。智能教学系统中问题选择的部分可观察顺序决策。教育数据挖掘国际会议(EDM)海报。Citeser,2011年。
[13] 里奇·卡鲁阿纳。多任务学习。机器学习,28(1):41-751997。42
[14] Alexander Clegg、Wenhao Yu、Zackory Erickson、Jie Tan、C Karen Liu和Greg Turk。学习使用触觉导航布料。智能机器人和系统国际会议(IROS),第2799-2805页,2017年。
[15] 菲利佩·莱诺·达·席尔瓦和安娜·雷亚·科斯塔。面向对象的强化学习课程生成。2018年国际自治代理和多代理系统会议(AAMAS)·Zbl 1489.68221号
[16] 马可·多里戈(Marco Dorigo)、维托里奥·马尼佐(Vittorio Maniezzo)和阿尔贝托·科尔尼(Alberto Colorni)。蚂蚁系统:一个自动催化优化过程。技术报告,1991年·Zbl 0912.90240号
[17] Shayan Doroudi、Kenneth Holstein、Vincent Aleven和Emma Brunskill。顺序很重要,但到底有多重要?从数据中评估活动序列的方法。受让人提交,2016年。
[18] 杰弗里·埃尔曼。神经网络的学习和发展:从小处做起的重要性。认知,48(1):71-991993。
[19] Anestis Fachantidis、Ioannis Partalas、Grigorios Tsoumakas和Ioannis Vlahavas。在强化学习代理中转移任务模型。神经计算,107:23-322013年。
[20] 杨凡、费田、陶琴、李向阳和刘铁燕。学习教学。在2018年国际学习代表大会(ICLR)上。
[21] 孟芳、周天一、杜亚丽、韩磊、张正友。课程指导的事后经验回放。《神经信息处理系统进展》(NIPS),第12602-126132019页。
[22] Fernando Fern´andez、Javier Garc´ıa和Manuela Veloso。用于任务间迁移学习的概率策略重用。机器人与自主系统,58(7):866-8712000。
[23] Chelsea Finn、Pieter Abbeel和Sergey Levine。用于快速适应深层网络的模型认知元学习。在国际机器学习会议(ICML)上,第1126-1135页。JMLR公司。org,2017年。
[24] 卡洛斯·弗洛伦萨(Carlos Florensa)、大卫·赫尔德(David Held)、马库斯·伍尔斐尔(Markus Wulfmeier)、迈克尔·张(Michael Zhang)和彼得·阿比尔(Pieter Abbeel)。逆向课程生成用于强化学习。机器人学习会议(CoRL),2017年。
[25] 卡洛斯·弗洛伦萨(Carlos Florensa)、大卫·赫尔德(David Held)、信阳耿(Xinyang Geng)和彼得·阿贝尔(Pieter Abbeel)。强化学习代理的自动目标生成。2018年国际机器学习会议(ICML),第1514-1523页。
[26] 弗朗西斯科·福利诺(Francesco Foglino)、克里斯蒂亚诺·科尔托·克里斯塔库(Christiano Coletto Christakou)和马特奥·列奥内蒂(Matteo Leonetti)。课程学习中任务排序的优化框架。2019a国际发展学习会议(ICDL-EPIROB)。
[27] 弗朗西斯科·福利诺(Francesco Foglino)、克里斯蒂亚诺·科尔托·克里斯塔库(Christiano Coletto Christakou)、里卡多·卢纳·古铁雷斯(Ricardo Luna Gutierrez)和马特奥·列奥内蒂(Matteo Leonetti)。累积回报最大化的课程学习。国际人工智能联合会议(IJCAI),2019b。
[28] 弗朗西斯科·福利诺(Francesco Foglino)、马特奥·列奥内蒂(Matteo Leonetti)、西蒙·萨格拉特拉(Simone Sagratella)和鲁杰罗·塞西娅(Ruggiero Seccia)。课程学习的灰盒方法。全球优化大会,2019c。
[29] Teruo Fujii、Yoshikazu Arai、Hajime Asama和Isao Endo。用于复杂避碰问题的多层强化学习。国际机器人与自动化会议(ICRA),第3卷,第2186-2191页。IEEE,1998年。
[30] 弗雷德·格洛弗和曼纽尔·拉古纳。禁忌搜索。在《组合优化手册》中,第2093-2229页。斯普林格,1998年。
[31] David E Goldberg,《搜索、优化和机器学习中的遗传算法》。Addison-Wesley Longman Publishing Co.,Inc.,美国马萨诸塞州波士顿,第1版,1989年·Zbl 0721.68056号
[32] 伊恩·古德费罗(Ian Goodfellow)、让·普格特·巴迪(Jean Pouget-Abadie)、梅迪·米尔扎(Mehdi Mirza)、徐冰(Bing Xu)、大卫·沃德·法利(David Warde-Farley)、谢吉尔·奥扎尔(Sherjil Ozair)、亚伦·库维尔(Aaron Courville)和约舒亚·本吉奥(Yoshua Ben。生成性对抗网络。《神经信息处理系统进展》(NIPS),第2672-2680页,2014年。
[33] Alex Graves、Marc G Bellemare、Jacob Menick、Remi Munos和Koray Kavukcuoglu。神经网络的自动课程学习。2017年国际机器学习会议(ICML)。
[34] 德里克·T·格林(Derek T Green)、托马斯·J·沃尔什(Thomas J Walsh)、保罗·R·科恩(Paul R Cohen)和张育翰(Yu-Han Chang)。使用动态贝叶斯网学习技能教学课程。人工智能创新应用(IAAI),2011年。
[35] Michael Cerny Green、Benjamin Sergent、Pushyami Shandilya和Vibhor Kumar。为深度强化学习代理精心策划的课程学习。在AAAI强化学习游戏工作坊,2019。
[36] 谢恩·格里菲斯(Shane Griffith)、考希克·苏布拉曼尼亚(Kaushik Subramanian)、乔纳森·舒尔茨(Jonathan Scholz)、查尔斯·伊斯贝尔(Charles Isbell)和安德里亚·托马斯(Andrea L Thomaz)。政策制定:将人的反馈与强化学习相结合。《神经信息处理系统进展》(NIPS),第2625-2633页,2013年。
[37] 乔西亚·汉纳(Josiah Hanna)、菲利普·托马斯(Philip Thomas)、彼得·斯通(Peter Stone)和斯科特·尼库姆(Scott Niekum)。通过行为策略搜索进行数据高效策略评估。国际机器学习会议(ICML),2017年8月。
[38] Ionel-Alexandru Hosu和Traian Rebedea。通过深度强化学习和人工检查点重放来玩Atari游戏。2016年,在通用人工智能评估研讨会上。
[39] 安娜·伊格莱西亚斯(Ana Iglesias)、帕洛玛·马特·尼兹(Paloma Mart´ón nez)和费尔南多·费尔南德斯(Fernando Fern´andez)。在基于网络的自适应智能教育系统中应用强化学习的经验。教育信息学,2:223-2402003。
[40] 安娜·伊格莱西亚斯(Ana Iglesias)、帕洛玛·马特·尼兹(Paloma Mart´ónfo nez)、里卡多·阿勒(Ricardo Aler)和费尔南多·费尔南德斯(Fernando Fern´andez)。通过强化学习在适应性和智能教育系统中学习教学策略。应用情报,31(1):89-1062009。
[41] 鲍里斯·伊万诺维奇(Boris Ivanovic)、詹姆斯·哈里森(James Harrison)、阿波瓦·夏尔马(Apoorva Sharma)、莫·陈(Mo Chen)和马可·帕沃内(Marco Pavone)。Barc:机器人强化学习的向后可达性课程。国际机器人与自动化会议(ICRA),第15-21页。IEEE,2019年。
[42] Max Jaderberg、Volodymyr Mnih、Wojciech Marian Czarnecki、Tom Schaul、Joel Z Leibo、David Silver和Koray Kavukcuoglu。使用无监督辅助任务进行强化学习。2017年国际学习代表大会(ICLR)。
[43] 维卡斯·贾恩(Vikas Jain)和塞娅·图拉班杜拉(Theja Tulabandhula)。使用主动模拟器加快强化学习。2017年,InNIPS机器、机器人和人类教学研讨会。
[44] 吕江、孟德玉、赵倩、单石光和亚历山大·豪普特曼。自主课程学习。人工智能发展协会(AAAI),2015年。
[45] Andrej Karpathy和Michiel Van De Panne。运动技能课程学习。加拿大人工智能会议,第325-330页。施普林格,2012年。
[46] 费萨尔·汗(Faisal Khan)、比尔赫·穆特鲁(Bilge Mutlu)和朱晓金(Xiaojin Zhu)。人类如何教学:关于课程学习和教学维度。神经信息处理系统进展,第1449-1457页,2011年。
[47] Tae-Hoon Kim和Jonghyun Choi。Screennet:学习深度神经网络的自定进度课程。arXiv预印本arXiv:1801.009042018。
[48] W Bradley Knox和Peter Stone。通过人的强化来交互塑造代理:TAMER框架。国际知识获取会议,2009年。
[49] 布拉德利·诺克斯和彼得·斯通。从人类和MDP同时奖励中强化学习。2012年,在国际自治代理和多代理系统会议(AAMAS)上,第475-482页。
[50] 亚历山德罗·拉扎里奇。强化学习中的迁移:框架和调查。在强化学习中,第143-173页。施普林格,2012年。
[51] 亚历山德罗·拉扎里奇(Alessandro Lazaric)和马塞洛·雷斯特利(Marcello Restelli)。从多个MDP转移。神经信息处理系统(NIPS)进展,2011年。
[52] 亚历山德罗·拉扎里奇(Alessandro Lazaric)、马塞洛·雷斯特利(Marcello Restelli)和安德烈亚·博纳里尼(Andrea Bonarini)。批量强化学习中的样本转移。国际机器学习会议(ICML),第544-551页,2008年。
[53] Su Young Lee、Choi Sungik和Sae-Young Chung。基于情节反向更新的高效样本深度强化学习。《神经信息处理系统进展》(NeurIPS),第2110-21192019页。
[54] 罗伯特·洛芬、贝鹏、詹姆斯·麦克拉桑、迈克尔·利特曼、马修·泰勒、杰夫·黄和大卫·罗伯茨。通过人传递离散反馈的学习行为:建模内隐反馈策略以加快学习。自治代理和多代理系统,30(1):30-592016。
[55] Patrick MacAlpine和Peter Stone。重叠分层学习。人工智能,254:21-432018·Zbl 1423.68384号
[56] 詹姆斯·麦克拉珊(James MacGlashan)、马克·K·何(Mark K Ho)、罗伯特·洛芬(Robert Loftin)、贝鹏(Bei Peng)、王冠(Guan Wang)、大卫·罗伯茨(David L Roberts)、马修·泰勒(Matthew E Taylor。从政策相关的人的反馈中进行交互式学习。2017年国际机器学习会议(ICML)。
[57] Tambet Matiisen、Avital Oliver、Taco Cohen和John Schulman。教师-学生课程学习。IEEE神经网络和学习系统汇刊,2017年。
[58] Volodymyr Mnih、Koray Kavukcuoglu、David Silver、Andrei A Rusu、Joel Veness、Marc G Bellemare、Alex Graves、Martin Riedmiller、Andreas K Fidjeland、Georg Ostrovski等,通过深度强化学习实现人本控制。《自然》,518(7540):5292015。
[59] Sanmit Narvekar和Peter Stone。强化学习的学习课程政策。2019年5月,在国际自治代理和多代理系统会议(AAMAS)上。
[60] Sanmit Narvekar和Peter Stone。推广强化学习课程。ICML终身学习研讨会,2020年。
[61] Sanmit Narvekar、Jivko Sinapov、Matteo Leonetti和Peter Stone。为课程学习创建源任务。2016年,新加坡,国际自主智能体和多智能体系统会议。
[62] Sanmit Narvekar、Jivko Sinapov和Peter Stone。强化学习中定制课程设计的自主任务排序。国际人工智能联合会议(IJCAI),第147卷,第149页,2017年。
[63] 彭思欧和托马斯·莫顿。调度中的过滤波束搜索。《国际生产研究杂志》,26(1):35-621988年。
[64] Bei Peng、James MacGlashan、Robert Loftin、Michael L Littman、David L Roberts和Matthew E Taylor。顺序决策任务中机器学习者的课程设计。IEEE计算智能新兴主题汇刊,2(4):268-2772018年。
[65] 盖尔·彼得森。一天的伟大启示:B.F.斯金纳发现了塑形。行为实验分析杂志,82(3):317-3282004。
[66] 勒勒·平托(Lerre Pinto)、詹姆斯·戴维森(James Davidson)、拉胡尔·苏克坦卡尔(Rahul Sukthankar)和阿比纳夫·古普塔(Abhinav Gupta)。强大的对手强化学习。国际机器学习会议(ICML),第2817-2826页,2017年。
[67] 塞巴斯蒂安·拉卡尼埃、安德鲁·兰皮宁、亚当·桑托罗、大卫·莱切特、弗拉德·费罗尤和蒂莫西·利利克拉普。通过设置-解决交互自动生成课程。2019年国际学习代表大会(ICLR)。
[68] 安娜·拉弗蒂(Anna N Rafferty)、艾玛·布伦斯基(Emma Brunskill)、托马斯·格里菲斯(Thomas L Griffiths)和帕特里克·沙夫托(Patrick Shafto)。通过pomdp规划加快教学。认知科学,40(6):1290-13322016。
[69] 阿迪蒂·拉马钱德兰(Aditi Ramachandran)和布莱恩·斯卡塞利拉(Brian Scassellia)。适应个性化机器人儿童辅导互动的难度水平。2014年AAAI人工智能会议研讨会。
[70] 任志鹏、董道义、李华雄和陈春林。在深度强化学习中,自定进度优先课程学习和覆盖惩罚。IEEE神经网络和学习系统汇刊,29(6):2216-22262018。
[71] 马丁·里德米勒(Martin Riedmiller)、罗兰·哈夫纳(Roland Hafner)、托马斯·兰普(Thomas Lampe)、迈克尔·诺伊内特(Michael Neunert)、乔纳斯·德拉夫(Jonas Degrave)、汤姆·范德维勒(Tom van de Wiele)、弗拉德·姆尼(Vlad Mnih)、尼古拉斯·海斯(Nicolas Heess)和约斯特·托。2018年国际机器学习会议(ICML),第4344-4353页。
[72] Mark B Ring:孩子:迈向持续学习的第一步。机器学习,28(1):77-1041997·Zbl 0881.68092号
[73] 道格拉斯·LT·罗德(Douglas LT Rohde)和大卫·C·普劳特(David C Plaut)。缺乏明确否定证据的语言习得:从小处做起有多重要?认知,72(1):67-1091999。
[74] Christopher D Rosin和Richard K Belew。竞争协同进化的新方法。进化计算,5(1):1-291997。
[75] Andrei A Rusu、Neil C Rabinowitz、Guillaume Desjardins、Hubert Soyer、James Kirkpatrick、Koray Kavukcuoglu、Razvan Pascanu和Raia Hadsell。渐进式神经网络。arXiv预印arXiv:1606.046712016。
[76] 保罗·鲁沃洛和埃里克·伊顿。ELLA:一种高效的终身学习算法。国际机器学习会议(ICML),2013年a。
[77] 保罗·鲁沃洛和埃里克·伊顿。终身机器学习的主动任务选择。人工智能发展协会(AAAI),2013年b。
[78] 特伦斯·D·桑格。使用神经网络学习控制机器人操作手的任务难度逐渐增加。IEEE机器人与自动化汇刊,10(3):323-3331994。
[79] 斯特凡·沙尔。从演示中学习。神经信息处理系统进展,第1040-1046页,1997年。
[80] Tom Schaul、Daniel Horgan、Karol Gregor和David Silver。通用值函数逼近器。2015年国际机器学习会议(ICML)。
[81] Tom Schaul、John Quan、Ioannis Antonoglou和David Silver。优先体验重播。2016年国际学习代表大会(ICLR)。
[82] J¨urgen Schmidhuber。Powerplay:通过不断搜索最简单但仍无法解决的问题,训练一个越来越通用的问题解决者。心理学前沿,4:3132013。
[83] 邵昆、朱元恒和赵东斌。星际争霸微观管理与强化学习和课程迁移学习。2018年IEEE计算智能新兴主题汇刊。
[84] David Silver、Guy Lever、Nicolas Heess、Thomas Degres、Daan Wierstra和Martin Riedmiller。确定性策略梯度算法。2014年国际机器学习会议(ICML)。
[85] David Silver、Aja Huang、Chris J Maddison、Arthur Guez、Laurent Sifre、George Van Den Driessche、Julian Schrittwieser、Ioannis Antonoglou、Veda Panneershelvam、Marc Lanctot等。通过深度神经网络和树搜索掌握围棋游戏。《自然》,529(7587):4842016年。
[86] Jivko Sinapov、Sanmit Narvekar、Matteo Leonetti和Peter Stone。在缺少目标任务样本的情况下学习任务间的可迁移性。2015年,在自治代理和多代理系统国际会议(AAMAS)上,第725-733页。
[87] 布尔胡斯·F·斯金纳。今日加固。美国心理学家,13(3):941958。
[88] 维沙尔·索尼和萨廷德·辛格。使用同态在连续强化学习领域中传递选项。美国人工智能协会(AAAI),2006年。
[89] Rupesh Kumar Srivastava、Bas R.Steunebrink和Jrgen Schmidhuber。首次尝试使用powerplay。神经网络,41:130-1362013。自主学习专题。
[90] 肯尼斯·奥斯坦利(Kenneth O Stanley)、鲍比·布莱恩特(Bobby D Bryant)和里斯托·米库莱宁(Risto Miikkulainen)。神经网络游戏中进化的神经网络代理。2005年,新泽西州皮斯卡塔韦,IEEE计算智能与游戏研讨会(CIG)。
[91] 彼得·斯通和曼努埃拉·维洛索。学习解决复杂的规划问题:寻找有用的辅助问题。InAAAI秋季规划与学习研讨会,第137-141页,1994年。
[92] Halit Bener Suay和Sonia Chernova。人类引导和状态空间大小对交互强化学习的影响。2011年机器人与人类交互通信国际会议(RO-MAN),第1-6页。
[93] 考希克·苏布拉曼尼亚(Kaushik Subramanian)、查尔斯·伊斯贝尔(Charles L Isbell Jr)和安德烈亚·托马斯(Andrea L Thomaz)。交互式强化学习的示范探索。2016年,在国际自治代理和多代理系统会议(AAMAS)上,第447-456页。
[94] 赛因巴亚尔·苏赫巴托(Sainbayar Sukhbaatar)、泽明·李(Zeming Li)、伊利亚·科斯特里科夫(Ilya Kostrikov)、加布里埃尔·辛奈夫(Gabriel Synnaeve)、亚瑟·斯拉姆(Arthur Szlam)和罗伯·弗格斯(Rob Fergus)。通过不对称的自我游戏实现内在动机和自动课程。在2018年国际学习代表大会(ICLR)上。
[95] 理查德·萨顿和安德鲁·巴托。强化学习:简介。麻省理工学院出版社,1998年·Zbl 1407.68009号
[96] 麦克斯韦尔·斯维特利克(Maxwell Svetlik)、马泰奥·列奥内蒂(Matteo Leonetti)、吉夫科·辛纳波夫(Jivko Sinapov)、里希·沙阿(Rishi Shah)、尼克·沃克(Nick Walker)和彼得·斯通。强化学习代理的自动课程图生成。人工智能发展协会(AAAI),第2590-2596页,2017年。
[97] 马修·泰勒。协助支持传输的机器学习算法:利用人类知识进行课程设计。在2009年AAAI春季研讨会上,关于向人类教师学习的代理。
[98] 马修·泰勒和彼得·斯通。基于价值函数的强化学习的行为迁移。Frank Dignum、Virginia Dignom、Sven Koenig、Sarit Kraus、Munindar P.Singh和Michael Wooldridge,《自治代理和多代理系统国际联合会议》(AAMAS)编辑,第53-59页,纽约州纽约市,2005年。ACM出版社。
[99] 马修·泰勒和彼得·斯通。强化学习领域的迁移学习:一项调查。《机器学习研究杂志》,10(1):1633-16852009·兹比尔1235.68196
[100] Matthew E Taylor、Peter Stone和Yaxin Liu。通过任务间映射进行时间差分学习的转移学习。机器学习研究杂志,8(1):2125-21672007·Zbl 1222.68317号
[101] Matthew E Taylor、Gregory Kuhlmann和Peter Stone。强化学习的自主迁移。2008年国际自治代理和多代理系统联合会议(AAMAS)。
[102] 杰拉尔德·泰索罗(Gerald Tesauro)。时间差异学习和td-gammon。ACM通讯,38(3):58-681995。
[103] Chen Tessler、Shahar Givony、Tom Zahavy、Daniel J Mankowitz和Shie Mannor。在minecraft中终身学习的深度分层方法。人工智能发展协会(AAAI),第1553-1561页,2017年。
[104] 安德烈亚·洛克德·托马斯和辛西娅·布雷泽尔。与人类教师一起强化学习:反馈和指导的证据,对学习绩效有影响。人工智能发展协会(AAAI),第6卷,第1000-1005页,2006年。
[105] 塞巴斯蒂安·特隆。终身学习算法。塞巴斯蒂安·特伦(Sebastian Thrun)和洛里安·普拉特(Lorien Pratt),编辑,《学习》(Learning to Learn),第181-209页。Kluwer学术出版社,马萨诸塞州诺维尔,美国,1998年·Zbl 0891.68079号
[106] Alexander Vezhnevets、Volodymyr Mnih、Simon Osindero、Alex Graves、Oriol Vinyals、John Agapiou等。学习宏观行动的战略关注作家。《神经信息处理系统进展》(NIPS),第3486-3494页,2016年。
[107] Oriol Vinyals、Igor Babuschkin、Wojciech M Czarnecki、Micha¨el Mathieu、Andrew Dudzik、Junyoung Chung、David H Choi、Richard Powell、Timo Ewalds、Petko Georgiev等。使用多智能体强化学习的星际争霸二级大师级。《自然》,2019年第1-5页。
[108] 列夫·塞门诺维奇·维果茨基。社会中的思维:高等心理过程的发展。哈佛大学出版社,1978年。
[109] 王伟勋、杨天培、刘勇、郝建业、郝晓天、胡玉晶、陈英峰、范长杰和杨高。从少到多:大规模动态多主体课程学习。人工智能发展协会(AAAI),第7293-7300页,2020年。
[110] Christopher JCH Watkins和Peter Dayan。Q学习。机器学习,8(3-4):279-2921992·Zbl 0773.68062号
[111] 克里斯托弗·约翰·科尼什·赫拉比·沃特金斯(Christopher John Cornish Hellaby Watkins)。从延迟的奖励中学习。博士论文,剑桥大学国王学院,1989年。
[112] Daphna Weinshall和Dan Amir。课程学习理论,具有凸损失函数。arXiv预印本arXiv:11812.034722018。
[113] Daphna Weinshall、Gad Cohen和Dan Amir。通过转移学习进行课程学习:深层网络的理论与实验。2018年国际机器学习会议(ICML),第5235-5243页。
[114] 亚伦·威尔逊(Aaron Wilson)、艾伦·芬(Alan Fern)、索米亚·雷(Soumya Ray)和普拉萨德·塔德帕利(Prasad Tadepalli)。多任务强化学习:一种分层贝叶斯方法。在国际机器学习会议(ICML)上,第1015-1022页。ACM,2007年。
[115] 贝弗利·帕克·伍尔夫。构建智能互动导师:以学生为中心的变革电子学习策略。Morgan Kaufmann Publishers Inc.,美国加利福尼亚州旧金山,2007年。
[116] 吴宇欣和田远东。第一人称射击游戏的培训代理,提供演员评论课程学习。2017年国际学习代表大会(ICLR)。
[117] Boo-Ho Yang和Haruhiko Asada。渐进学习及其在机器人阻抗学习中的应用。IEEE神经网络汇刊,7(4):941-9521996。
[118] 杨嘉晨、纳哈伊、伊塞勒、藤村纪夫和查宏远。Cm3:合作多目标多阶段多智能体强化学习。2020年国际学习代表大会。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。