文件Zbl 1519.68207-zbMATH Open

反向强化学习综述：挑战、方法和进展。（英语） Zbl 1519.68207号

Artif公司。智力。 297，文章ID 103500，28 p.（2021）.

总结：反向强化学习(红外线)是在给定代理的策略或观察到的行为的情况下推断其奖励函数的问题。类似于RL公司,红外线被视为一个问题和一类方法。通过对现存文献的分类调查红外线，本文为机器学习的研究人员和实践者以及新接触机器学习的人提供了全面的参考，以了解红外线并选择最适合当前问题的方法。调查正式介绍了红外线问题及其核心挑战，例如执行精确推理的困难及其可泛化性，对先验知识的敏感性，以及解决方案复杂性与问题规模的不成比例增长。本文调查了大量按目标共性分组的基本方法，并阐述了这些方法如何缓解挑战。我们进一步讨论对传统红外线处理不完全感知、不完全模型、学习多重奖励函数和非线性奖励函数的方法。本文在总结调查的同时，讨论了该研究领域的一些广泛进展和当前开放的研究问题。

引用于7文件

MSC公司：

68T05型

人工智能中的学习和自适应系统

关键词：

强化学习；奖励函数；从示范中学习；一般化；学习准确性；调查

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Russell，S.，《不确定环境下的学习代理》（扩展摘要），（第十一届计算学习理论年会论文集。第十一届计算机学习理论年会刊，COLT’98（1998），ACM:美国纽约州纽约市ACM），101-103
[2]	Ng，A。；Russell，S.，《反向强化学习算法》（第十七届机器学习国际会议论文集（2000）），663-670
[3]	下一代仿真（NGSIM）
[4]	Puterman，M.L.，《马尔可夫决策过程：离散随机动态规划》（Markov Decision Processes:Discrete Stochastic Dynamic Programming，1994），John Wiley&Sons，Inc.：John Willey&Sons公司，美国纽约州纽约市·兹伯利0829.90134
[5]	科茨，A。；Abbeel，P。；Ng，A.Y.，直升机控制学徒制学习，Commun。ACM，52，7，97-105（2009）
[6]	阿格尔，B.D。；切尔诺瓦，S。；维洛索，M。；Browning，B.，《机器人从演示中学习的调查》，robot。自动。系统。，57, 5, 469-483 (2009)
[7]	博伊德，S.P。；El Ghaoui，L。；Feron，E。；Balakrishnan，V.，系统和控制理论中的线性矩阵不等式，SIAM Rev.，37，3，479-481（1995）
[8]	贝克，C.L。；萨克斯，R。；Tenenbaum，J.B.，《作为逆向规划的行动理解》，《认知》，113，3，329-349（2009），强化学习和高等认知
[9]	乌尔曼，T.D。；贝克，C.L。；奥兰多·马金多。；O.埃文斯。；新墨西哥州古德曼。；Tenenbaum，J.B.，《帮助还是阻碍：社会目标推断的贝叶斯模型》，（第22届神经信息处理系统国际会议（2009）），1874-1882年
[10]	Abbeel，P。；科茨，A。；M.奎格利。；Ng，A.Y.，《强化学习在特技直升机飞行中的应用》，（《第19届神经信息处理系统国际会议论文集》，第19届国际神经信息处理会议论文集，NIPS’06（2006），麻省理工学院出版社：麻省理学学院出版社，美国马萨诸塞州剑桥），1-8
[11]	Kretzschmar，H。；间谍，M。；斯普伦克，C。；Burgard，W.，《通过反向强化学习实现符合社会要求的移动机器人导航》，国际机器人杂志。决议，35，11，1289-1307（2016）
[12]	Kim，B。；Pineau，J.，《使用反向强化学习在人类环境中进行社会自适应路径规划》，《国际社会机器人》。，8, 1, 51-66 (2016)
[13]	Neu，G。；Szepesvári，C.，《使用反向强化学习和梯度方法的学徒制学习》（第二十三届人工智能不确定性会议（2007）），295-302
[14]	库德勒，M。；Gulati，S。；Burgard，W.，《从演示中学习自动驾驶汽车的驾驶风格》，（IEEE机器人与自动化国际会议。IEEE机器人和自动化国际会议，ICRA（2015）），2641-2646
[15]	塔克，A。；Gleave，A。；Russell，S.，视频游戏的反向强化学习（2018）
[16]	齐巴特，B.D。；Maas，A。；Bagnell，J.A。；Dey，A.K.，《最大熵反向强化学习》（第23届全国人工智能会议论文集，第3卷）。第23届全国人工智能大会论文集-第3卷，AAAI’08（2008），AAAI出版社，1433-1438
[17]	齐巴特，B.D。；Maas，A.L。；Dey，A.K。；Bagnell，J.A.，《像出租车司机一样导航：从观察到的上下文软件行为中进行概率推理》，（第十届泛在计算国际会议论文集。第十届泛素计算国际会议文献集，UbiComp’08（2008），ACM：美国纽约州纽约市ACM），322-331
[18]	拉特利夫，N.D。；西尔弗·D。；Bagnell，J.A.，《学习搜索：模仿学习的函数梯度技术》，Auton。机器人，27，1，25-53（2009）
[19]	齐巴特，B.D。；拉特利夫，N。；加拉赫，G。；默茨，C。；彼得森，K。；Bagnell，J.A。；Hebert先生。；Dey，A.K。；Srinivasa，S.，基于规划的行人预测，（2009年IEEE/RSJ智能机器人和系统国际会议论文集。2009年IEEE/RSJ智能机器人与系统国际会议文献集，IROS’09（2009），IEEE出版社：美国新泽西州皮斯卡塔韦IEEE出版社），3931-3936
[20]	沃格尔，A。；拉马钱德兰，D。；古普塔，R。；Raux，A.，《使用反向强化学习提高混合动力汽车燃料效率》（AAAI人工智能会议（2012））
[21]	Bogert，K。；Doshi，P.，带状态转移估计的遮挡下多机器人逆强化学习，（2015年自治代理和多代理系统国际会议论文集。2015年自治代理人和多代理体系国际会议论文集中，AAMAS’15（2015），国际自治代理和多代理系统基金会：国际自治代理与多代理系统（南卡罗来纳州里奇兰），1837-1838
[22]	侯赛因，A。；Gaber，M.M。；Elyan，E。；Jayne，C.，《模仿学习：学习方法调查》，ACM Compute。调查。，50, 2, 21-35 (2017)
[23]	Azar，N.Ab；Shahmansoorian，A。；Davoudi，M.，从逆最优控制到逆强化学习：历史回顾，Annu。版本控制，50，119-138（2020）
[24]	Kaelbling，L.P。；利特曼，M.L。；Moore，A.W.，《强化学习：调查》，J.Artif。智力。研究，4，1，237-285（1996）
[25]	罗素，S。；Norvig，P.，《人工智能：现代方法》（2003），普伦蒂斯·霍尔
[26]	Choi，J。；Kim，K.-E.，部分可观测环境中的反向强化学习，J.Mach。学习。第12691-730号决议（2011年）·Zbl 1280.68159号
[27]	Neu，G。；Szepesvári，C.，通过反向强化学习训练解析器，马赫。学习。，77, 2-3, 303-337 (2009) ·Zbl 1470.68150号
[28]	拉特利夫，N.D。；Bagnell，J.A。；Zinkevich，M.A.，《最大利润规划》，（第23届国际机器学习会议论文集。第23届机器学习国际会议论文集，ICML’06（2006），ACM：美国纽约州纽约市ACM），729-736
[29]	西尔弗，A.S.大卫；Bagnell，James，使用模仿学习从头顶数据进行高性能户外导航，（机器人学：科学与系统IV。机器人学：科学与系统IV，瑞士苏黎世（2008））
[30]	Abbeel，P。；Ng，A.Y.，《通过反向强化学习进行学徒制学习》，（《第二十届机器学习国际会议论文集》，第二十届国际机器学习会议论文集，ICML'04（2004），ACM:美国纽约州纽约市ACM），1-8
[31]	Syed，美国。；Schapire，R.E.，《学徒制学习的游戏理论方法》，（《第20届神经信息处理系统国际会议论文集》，第20届国际神经信息处理会议论文集，NIPS’07（2007），Curran Associates Inc.：Curran associatess Inc.USA），1449-1456
[32]	Jaynes，E.T.，信息理论和统计力学，物理学。修订版，106，620-630（1957）·Zbl 0084.43701号
[33]	齐巴特，B。；Bagnell，J。；Dey，A.，通过最大因果熵原理建模交互，（机器学习国际会议，国际机器学习会议，ICML（2010）），1255-1262
[34]	Lee，K。；Choi，S。；Oh，S.，最大因果Tsallis熵模拟学习，（神经信息处理系统进展（2018），Curran Associates，Inc.），4403-4413
[35]	M.Wulfmeier，I.Posner，最大熵深度逆强化学习，arXiv预印本。
[36]	Aghasadeghi，N。；Bretl，T.，带路径积分的连续状态空间中的最大熵逆强化学习，（2011 IEEE/RSJ智能机器人和系统国际会议（2011）），1561-1566
[37]	西奥多鲁，E。；Buchli，J。；Schaal，S.，强化学习的广义路径积分控制方法，J.Mach。学习。第113137-3181号决议（2010年）·Zbl 1242.68254号
[38]	Boularias，A。；克罗默，O。；Peters，J.，结构化学徒制学习，（Flach，P.A.；De Bie，T.；Cristianini，N.，《数据库中的机器学习和知识发现：欧洲会议》。数据库中的计算机学习和知识探索：欧洲会议，ECML PKDD 2012，英国布里斯托尔，2012年9月24日至28日，《会议录》，第二部分（2012），施普林格：施普林格柏林，海德堡），227-242
[39]	S.Kullback，《信息理论与统计》，1968年·Zbl 0897.62003号
[40]	Boularias，A。；Kober，J。；Peters，J.，相对熵逆强化学习，（第十四届国际人工智能与统计会议论文集。第十四届国际人工智能与统计会议论文集，AISTATS 2011，美国劳德代尔堡，2011年4月11日至13日（2011）），182-189
[41]	拉马钱德兰，D。；Amir，E.，Bayesian逆强化学习，（《第20届人工智能国际联合会议论文集》，第20届国际人工智能联合会议论文，IJCAI'07（2007），摩根考夫曼出版公司：摩根考夫文出版公司，美国加利福尼亚州旧金山），2586-2591
[42]	Choi，J。；eung Kim，K.，贝叶斯逆强化学习的地图推理，（神经信息处理系统进展，第24卷（2011）），1989-1997
[43]	Lopes，M。；梅洛，F。；Montesano，L.，反向强化学习中奖励估计的主动学习，（《欧洲数据库机器学习和知识发现会议论文集：第二部分：欧洲数据库机器教学和知识发现大会论文集第二部分，ECML PKDD’09（2009），斯普林格·弗拉格：柏林斯普林格尔·弗拉格，海德堡），31-46
[44]	莱文，S。；波波维奇，Z。；Koltun，V.，《高斯过程的非线性逆强化学习》，（《第24届神经信息处理系统国际会议论文集》，第24届国际神经信息处理会议论文集，NIPS’11（2011），Curran Associates Inc.：Curran associatess Inc.USA），19-27
[45]	Babes-Vroman，M。；Marivate，V。；Subramanian，K。；Littman，M.，《关于多重意图的学徒学习》（第28届机器学习国际会议，第28届国际机器学习会议，ICML 2011（2011）），897-904
[46]	克莱因，E。；盖斯特，M。；皮奥，B。；Pietquin，O.，《通过结构化分类进行反向强化学习》，（《第25届神经信息处理系统国际会议论文集》，第25届国际神经信息处理会议论文集，NIPS’12（2012），Curran Associates Inc.：Curran associatess Inc.USA），1007-1015
[47]	Taskar，B。；查塔尔巴舍夫，V。；科勒，D。；Guestrin，C.，《学习结构预测模型：大幅度方法》（第22届机器学习国际会议（2005）），896-903
[48]	克莱因，E。；皮奥，B。；盖斯特，M。；Pietquin，O.，反向强化学习的级联监督学习方法，（《欧洲数据库中机器学习和知识发现会议论文集》，欧洲数据库中的机器学习与知识发现会议文献集，ECML PKDD 2013。欧洲数据库机器学习和知识发现会议论文集。《欧洲数据库机器学习和知识发现会议记录》，ECML PKDD 2013，LNAI，第8188卷（2013），Springer-Verlag纽约公司：Springer-Verlag纽约，公司，美国纽约州纽约市），1-16
[49]	D.布朗。；顾，W。；Nagarajan，P。；Niekum，S.，通过从观察中的反向强化学习超越次优演示的外推，（第36届机器学习国际会议论文集。第36届国际机器学习会议论文集，机器学习研究论文集，第97卷（2019）），783-792
[50]	莱文，S。；波波维奇，Z。；Koltun，V.，逆向强化学习的特征构建，（《第23届神经信息处理系统国际会议论文集》，第23届国际神经信息处理会议论文集，NIPS’10（2010），Curran Associates Inc.：Curran associatess Inc.USA），1342-1350
[51]	Todorov，E.，线性可解马尔可夫决策问题，（神经信息处理系统进展（2007）），1369-1376
[52]	Uchibe，E.，通过逻辑回归进行无模型反向强化学习，神经过程。莱特。，47, 891-905 (2018)
[53]	Fu，J。；罗，K。；Levine，S.，《利用逆序反向强化学习学习稳健回报》（学习表现国际会议（2018年））
[54]	Ghasemipour，S.K.S。；泽梅尔，R。；Gu，S.，《模仿学习方法的发散最小化观点》，（机器人学习会议（2020）），1259-1277
[55]	Ho，J。；Ermon，S.，《生成性对抗性模仿学习》，（神经信息处理系统进展，神经信息处理体系进展，NIPS，第29卷（2016）），4565-4573
[56]	齐巴特，B.D。；巴格内尔，J.A。；Dey，A.K.，通过最大因果熵原理建模交互，（Fürnkranz，J.；Joachims，T.，《第27届国际机器学习会议论文集》，第27届机器学习国际会议论文集，ICML-10（2010），Omnipress），1255-1262
[57]	科茨，A。；Abbeel，P。；Ng，A.Y.，从多重演示中学习控制，（第25届机器学习国际会议论文集。第25届国际机器学习会议论文集，ICML’08（2008），ACM：美国纽约州纽约市ACM），144-151
[58]	梅洛，F.S。；Lopes，M。；Ferreira，R.，《带扰动演示的反向强化学习分析》，（2010年ECAI会议记录：第19届欧洲人工智能会议（2010），IOS出版社：荷兰阿姆斯特丹IOS出版社），349-354·Zbl 1211.90275号
[59]	Shiarlis，K。；梅西亚斯，J。；Whiteson，S.，从失败中学习反向强化，（《2016年自治代理和多代理系统国际会议论文集》，2016年自治代理人和多代理体系国际会议论文，AAMAS’16（2016），国际自治代理和多代理系统基金会：国际自治代理与多代理系统（南卡罗来纳州里奇兰），1060-1068
[60]	Grünwald，P.D。；Dawid，A.P.，博弈论，最大熵，最小差异和稳健贝叶斯决策理论，《统计年鉴》，32，1，1367-1433（2004）·Zbl 1048.62008号
[61]	迪米特拉卡基斯，C。；Rothkopf，C.A.，Bayesian多任务反向强化学习，（第九届强化学习最新进展欧洲会议论文集。第九届欧洲强化学习最新进展论文集，EWRL’11（2012），Springer-Verlag:Springer-Verlag Berlin，Heidelberg），273-284
[62]	U.Syed，R.E.Schapire，《学徒制学习供应的游戏理论方法》，2007年。
[63]	Vroman，M.C.，最大似然逆强化学习（2014），罗格斯大学，新泽西州立大学，博士论文
[64]	Lee，S.J。；Popović，Z.，《反向强化学习的学习行为风格》，ACM Trans。图表。，29, 4, 122:1-122:7 (2010)
[65]	Brown，D.S。；Niekum，S.，《反向强化学习的有效概率性能界限》（第三十二届AAAI人工智能会议（2018））
[66]	科曼杜鲁，A。；Honorio，J.，《关于反向强化学习的正确性和样本复杂性》，（神经信息处理系统进展，第32卷（2019年）），7112-7121
[67]	芬恩，C。；莱文，S。；Abbeel，P.，《引导成本学习：通过策略优化实现深度逆最优控制》，预印本
[68]	梅洛，F.S。；Lopes，M.，使用mdp诱导的指标从演示中学习，（2010年欧洲机器学习和数据库中的知识发现会议记录：第二部分。2010年欧洲机器学习和数据库中的知识发现会议记录：第二部分，ECML PKDD’10（2010），斯普林格·弗拉格：斯普林格尔·弗拉格柏林，海德堡），385-401
[69]	Munzer，T。；皮奥，B。；盖斯特，M。；O.皮埃琴。；Lopes，M.，关系域中的反向强化学习，（《第24届国际人工智能会议论文集》，第24届人工智能国际会议论文集，IJCAI’15（2015），AAAI出版社），3735-3741
[70]	Fletcher，R.，《实用优化方法》（1987），Wiley-Interscience出版：Wiley-Interscience出版物Wiley·Zbl 0905.65002号
[71]	Malouf，R.，《最大熵参数估计算法的比较》，（第六届自然语言学习会议论文集，第20卷）。第六届自然语言学习会议记录第20卷，COLING-02（2002），计算语言学协会：计算语言学协会，美国宾夕法尼亚州斯特劳德斯堡），1-7
[72]	Vernaza等人。；Bagnell，J.A.，通过对称配分函数进行高效高维最大熵建模，（《第25届神经信息处理系统国际会议论文集》，第25届国际神经信息处理会议论文集，NIPS’12（2012），Curran Associates Inc.：Curran associatess Inc。美国），575-583
[73]	Kolter，J.Z。；Abbeel，P。；Ng，A.Y.，《分级学徒制学习及其在四足动物运动中的应用》，（第20届神经信息处理系统国际会议论文集。第20届国际神经信息处理会议论文集，NIPS’07（2007），Curran Associates Inc.：美国Curran associatess Inc.）， 769-776
[74]	Rothkopf，C.A。；巴拉德，D.H.，《视觉运动行为的模块化反向强化学习》，生物。赛博。，107, 4, 477-490 (2013) ·Zbl 1294.68137号
[75]	Syed，美国。；保龄球，M。；Schapire，R.E.，《使用线性规划进行学徒学习》，（第25届机器学习国际会议论文集。第25届国际机器学习会议论文集，ICML’08（2008），ACM:美国纽约州纽约市ACM），1032-1039
[76]	王，S。；罗森菲尔德，R。；Zhao，Y。；Schuurmans，D.，潜在最大熵原理，（IEEE信息理论国际研讨会（2002）），131
[77]	王，S。；舒尔曼斯，D。；赵云新，潜在最大熵原理，ACM Trans。知识。发现。数据，6，8（2012）
[78]	Bogert，K。；Lin，J.F.-S。；Doshi，P。；Kulic，D.，《利用隐藏数据进行反向强化学习的期望最大化》，（《2016年自主代理和多代理系统国际会议论文集》，《2016年自治代理和多智能体系统国际会议文献集》，AAMAS’16（2016），国际自治代理和多代理系统基金会），1034-1042
[79]	Kitani，K.M。；齐巴特，B.D。；Bagnell，J.A。；Hebert，M.，《活动预测》，（《第十二届欧洲计算机视觉会议论文集——第四卷》，第十二届欧盟计算机视觉会议文献集——第IV卷，ECCV’12（2012），斯普林格-弗拉格：柏林斯普林格，海德堡），201-214
[80]	Kaelbling，L.P。；利特曼，M.L。；Cassandra，A.R.，《部分可观测随机域中的规划和行动》，Artif。智力。，101, 1-2, 99-134 (1998) ·Zbl 0908.68165号
[81]	Choi，J。；Kim，K.-E.，多奖励函数的非参数贝叶斯逆强化学习，（第25届神经信息处理系统国际会议论文集。第25届国际神经信息处理会议论文集，NIPS’12（2012），Curran Associates Inc.：Curran associatess Inc.USA），305至313
[82]	Reddy，T.S。；戈皮克里希纳，V。；扎鲁巴，G。；Huber，M.，分散非合作多智能体系统的反向强化学习，（2012 IEEE系统、人和控制论国际会议，2012 IEEE国际系统、人与控制论会议，SMC（2012）），1930-1935
[83]	林，X。；贝林，P.A。；Cogill，R.，零和博弈的多智能体反向强化学习，CoRR
[84]	Bogert，K。；Doshi，P.，Toward estimating others’transition models under occlusion for multi-robot irl，（《第24届国际人工智能会议论文集》，第24届人工智能国际会议论文集，IJCAI’15（2015），AAAI出版社），1867-1873
[85]	莱文，S。；Abbeel，P.，《在未知动力学下通过引导性政策搜索学习神经网络政策》，（第27届神经信息处理系统国际会议论文集。第27届国际神经信息处理会议论文集，NIPS’14（2014），麻省理工学院出版社：麻省理学院出版社，马萨诸塞州剑桥），1071-1079
[86]	Jain，V.公司。；Doshi，P。；Banerjee，B.，使用最大似然估计的无模型irl，（AAAI人工智能会议，第19卷（2019）），3951-3958
[87]	拉特利夫，N。；Bradley，D。；Bagnell，J.A。；Chestnutt，J.，《促进模拟学习的结构化预测》（《第19届神经信息处理系统国际会议论文集》，第19届国际神经信息处理会议论文集，NIPS’06（2006），麻省理工学院出版社：麻省理学学院出版社，美国马萨诸塞州剑桥），1153-1160
[88]	Ng，A.Y.，《特征选择，l1与l2正则化，以及旋转不变性》，（第二十届第一次机器学习国际会议论文集。第二十届机器学习国际大会论文集，ICML’04（2004），ACM:ACM纽约，美国纽约州），78
[89]	Choi，J。；Kim，K.-E.，用于反向强化学习的贝叶斯非参数特征构建，（《第二十届国际人工智能联合会议论文集》，第二十届人工智能国际联合会议论文，IJCAI’13（2013），AAAI出版社），1287-1293
[90]	Yang，X.-S。；Deb，S.，《通过Lévy航班进行布谷鸟搜索》，（2009年世界自然与生物启发计算大会，2009年世界大自然与生物启发计算机大会，NaBIC（2009），IEEE），210-214
[91]	Yang，X.-S。；Deb，S.，通过布谷鸟搜索进行工程优化，预打印·Zbl 1279.90204号
[92]	埃伯哈特，R。；Kennedy，J.，粒子群优化，（IEEE神经网络国际会议论文集，第4卷（1995）），1942-1948
[93]	Yang，X.S.，Firefly算法，随机测试函数和设计优化，预打印
[94]	Littman，M.L.，马尔可夫博弈作为多智能体强化学习的框架，（第十一届机器学习国际会议论文集，第157卷（1994）），157-163
[95]	Boutilier，C.，多智能体系统中的序列最优和协调，（第16届人工智能国际联合会议论文集-第1卷。《第16届人工智能国际联合会议论文集——第1卷，IJCAI'99（1999）》，摩根·考夫曼出版社：摩根·考夫曼出版社，美国加利福尼亚州旧金山），478-485
[96]	斯潘，M.T.J。；Melo，F.S.，《不确定性下分散多智能体规划的交互驱动马尔可夫博弈》，（第七届自治智能体和多智能体系统国际联合会议论文集——第1卷）。第七届自主代理和多代理系统国际联合会议记录——第1卷，AAMAS’08（2008），国际自主代理和多重代理系统基金会：国际自主代理与多代理系统基金，南卡罗来纳州里奇兰，525-532
[97]	佩希金，L。；Kim，K.-E。；北卡罗来纳州穆勒奥。；Kaelbling，L.P.，《通过政策搜索学习合作》，（《第十六届人工智能不确定性会议论文集》，第十六届人造智能不确定性大会论文集，UAI’00（2000），Morgan Kaufmann Publishers Inc.：Morgan Koufmann-Publishers Inc.San Francisco，CA，USA），489-496
[98]	皮纳塔斯，D.V。；Tambe，M.，《沟通型多智能体团队决策问题：团队理论和模型分析》，J.Artif。智力。第16号、第1号、第389-423号决议（2002年）·兹比尔1056.68137
[99]	伯恩斯坦，D.S。；Givan，R。；Immerman，N。；Zilberstein，S.，马尔可夫决策过程分散控制的复杂性，数学。操作。决议，27，4，819-840（2002）·Zbl 1082.90593号
[100]	Gmytrasiewicz，P.J。；Doshi，P.，《多智能体环境中的顺序规划框架》，J.Artif。智力。研究，24，1，49-79（2005）·兹比尔1080.68664
[101]	Waugh，K。；齐巴特，B.D。；Bagnell，J.A.，《计算合理化：逆平衡问题》，CoRR
[102]	卡拉克里什南语，M。；Pastor，P。；Righetti，L。；Schaal，S.，《操纵的学习目标函数》，（IEEE机器人与自动化国际会议。IEEE机器人和自动化国际会议，ICRA，2013（2013）），1331-1336

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

反向强化学习综述：挑战、方法和进展。（英语） Zbl 1519.68207号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

反向强化学习综述：挑战、方法和进展。 （英语） Zbl 1519.68207号

MSC公司：

关键词：

参考文献：

反向强化学习综述：挑战、方法和进展。（英语） Zbl 1519.68207号