文件Zbl 07370547-zbMATH打开

机器人操作学习综述：挑战、表征和算法。（英语） Zbl 07370547号

J.马赫。学习。物件。 22，第30号文件，第82页（2021）.

概述：智能机器人的一个关键挑战是创造能够与周围世界直接交互以实现其目标的机器人。在过去的十年里，对机器人操纵问题的研究大幅增长，其目的是利用越来越多的价格合理的机械臂和抓取器，创造能够与世界直接互动的机器人，以实现其目标。学习将是这种自主系统的核心，因为现实世界包含太多的变化，机器人无法预先获得环境、物体或操作它们所需的技能的准确模型。我们旨在调查该研究中使用机器学习进行操作的一个代表性子集。我们描述了机器人操作学习问题的形式化，该问题将现有研究综合成一个单一的连贯框架，并强调了许多剩余的研究机会和挑战。

引用于1文件

MSC公司：

68T05型

人工智能中的学习和自适应系统

关键词：

操纵;学习;回顾;机器人;MDP公司

软件：

AlexNet公司;RobOptim公司;SP网络;PILCO公司;DARLA公司;ImageNet公司

PDF格式 BibTeX公司 XML格式引用

全文： arXiv公司链接

参考文献：

[1]	Ben Abbatemateo、Stefanie Tellex和George Konidaris。学习将运动学模型推广到新对象。第三届机器人学习会议论文集，机器学习研究论文集，第1289-1299页，2019年。
[2]	Pieter Abbeel和Andrew Y Ng。通过反向强化学习进行学徒制学习。《第21届机器学习国际会议论文集》，第1-8页，2004年。
[3]	彼得·阿比尔（Pieter Abbeel）、亚当·科茨（Adam Coates）和安德鲁·吴彦祖（Andrew Y Ng）。通过学徒制学习实现无人直升机特技飞行。国际机器人研究杂志，29（13）：1608-16392010。
[4]	阿拉·阿布扎伊特（Alaa AbuZaiter）、马尔万·纳菲亚（Marwan Nafea）和穆罕默德·苏丹穆罕默德·阿里（Mohamed Sultan Mohamed Ali）。基于集成双晶片微执行器的形状记忆合金微操作器的研制。机电一体化，38:16-282016。ISSN 0957-4158。
[5]	纳维德·阿加萨德吉（Navid Aghasadeghi）和蒂莫西·布雷特（Timothy Bretl）。具有路径积分的连续状态空间中的最大熵逆强化学习。2011年IEEE/RSJ智能机器人和系统国际会议论文集，第1561-1566页，2011年。
[6]	Pulkit Agrawal、Ashvin V Nair、Pieter Abbeel、Jitendra Malik和Sergey Levine。通过戳来学习戳：直觉物理的经验学习。《神经信息处理系统进展》29，第5074-5082页，2016年。
[7]	Anurag Ajay、Jiajun Wu、Nima Fazeli、Maria Bauza、Leslie Pack Kaelbling、Joshua B.Tenenbaum和Alberto Rodriguez。用随机神经网络增强物理模拟器：平面推动和反弹的案例研究。2018年IEEE/RSJ智能机器人和系统国际会议论文集，第3066-3073页，2018年。
[8]	Baris Akgun、Maya Cakmak、Karl Jiang和Andrea L.Thomaz。基于关键帧的演示学习：方法和评估。国际社会机器人杂志，4（4）：343-3552012。
[9]	埃伦·埃尔达尔·阿克索伊（Eren Erdal Aksoy）、阿列克谢·阿布拉莫夫（Alexey Abramov）、约翰内斯·德诺尔（Johannes D¨orr）、科琼·宁（Kejun Ning）、巴贝特·德伦（Babette Dellen）和弗洛伦丁·W¨org。通过观察学习对象-动作关系的语义。国际机器人研究杂志，30（10）：1229-12492011。
[10]	Ferran Alet、Tomas Lozano Perez和Leslie P.Kaelbling。模块化元学习。《机器人学习第二届会议论文集》，机器学习研究进展第87卷，第856-868页，2018年。
[11]	B.Alexe、T.Deselaers和V.Ferrari。测量图像窗口的对象性。IEEE模式分析和机器智能汇刊，34（11）：2189-22022012。
[12]	Mohammed Alshiekh、Roderick Bloem、R¨udiger Ehlers、Bettina K¨onighover、Scott Niekum和Ufuk Topcu。通过屏蔽进行安全强化学习。2018年第32届AAAI人工智能会议论文集。
[13]	Barrett Ames、Allison Thackston和G.D.Konidaris。学习使用参数化技能进行规划的符号表示。2018年IEEE/RSJ智能机器人和系统国际会议论文集，第526-533页，2018年。
[14]	H.Ben Amor、O.Kroemer、U.Hillenbrand、G.Neumann和J.Peters。多指机器人手的人类抓取推广。2012年IEEE/RSJ智能机器人和系统国际会议论文集，第2043-2050页，2012年。
[15]	马金·安德里霍维奇（Marcin Andrychowicz）、菲利普·沃尔斯基（Filip Wolski）、亚历克斯·雷（Alex Ray）、乔纳斯·施奈德（Jonas Schneider）、雷切尔·方（Rachel Fong）、彼得·韦林德（Peter Welinder）、鲍勃·麦克格鲁（Bob McGrew）、乔什·托宾（Jo。后视体验重播。神经信息处理系统进展30，第5048-5058页，2017年。
[16]	马金·安德里霍维奇、鲍文·贝克、马西克·乔西耶、拉斐尔·奥泽福维奇、鲍勃·麦克格鲁、雅库布·帕切基、亚瑟·彼得龙、马蒂亚斯·普拉佩特、格伦·鲍威尔、亚历克斯·雷、乔纳斯·施奈德、西蒙·西多尔、乔什·托宾、彼得·威林德、莉莲·翁和沃伊西奇·扎伦巴。学习灵巧的手操作。国际机器人研究杂志，39（1）：3-2020。
[17]	Brenna D Argall、Sonia Chernova、Manuela Veloso和Brett Browning。机器人从演示中学习的调查。机器人与自主系统，57（5）：469-4832009。
[18]	克里斯托弗·阿特克森（Christopher G.Atkeson）、安德鲁·摩尔（Andrew W.Moore）和斯特凡·沙尔（Stefan Schaal）。局部加权学习。《人工智能评论》，11（1-5）：11-731997a。
[19]	克里斯托弗·阿特克森（Christopher G Atkeson）、安德鲁·摩尔（Andrew W Moore）和斯特凡·沙尔（Stefan Schaal）。局部加权学习用于控制。《人工智能评论》，11（1-5）：75-1131997b。
[20]	穆罕默德·巴巴耶扎德（Mohammad Babaeizadeh）、切尔西·芬兰人（Chelsea Finn）、杜米特鲁·埃尔汉（Dumitru Erhan）、罗伊·坎贝尔（Roy H.Campbell）和谢尔盖·莱文（Sergey Levine）。随机变分视频预测。2018年学习代表国际会议记录，2018年。
[21]	M.Babes、V.Marivate、K.Subramanian和M.L.Littman。学徒学习多重意图。《第28届机器学习国际会议论文集》，第897-904页，2011年。
[22]	JA Bagnell、Joel Chestnutt、David M Bradley和Nathan D Ratliff。促进模仿学习的结构化预测。《神经信息处理系统进展》第19期，第1153-1160页，2007年。
[23]	安德烈亚·贝塞罗（Andrea Baisero）、尤恩·莫拉德（Yoan Mollard）、曼努埃尔·洛佩斯（Manuel Lopes）、马克·图桑（Marc Toussant）和英戈·卢特克波尔（Ingo Lutkebohle）。顺序操作演示中成对交互阶段的时间分割。2015年IEEE/RSJ智能机器人和系统国际会议论文集，第478-484页，2015年。
[24]	达娜·巴拉德。机器人操作中的任务框架。《1984年AAAI人工智能会议论文集》。
[25]	P.R.Barrag´an、L.P.Kaelbling和T.Lozano-Perez。运动机构的交互式贝叶斯识别。2014年IEEE机器人与自动化国际会议论文集，2013-2020页，2014年。
[26]	曼努埃尔·鲍姆（Manuel Baum）、马修·伯恩斯坦（Matthew Bernstein）、罗伯特·马特·马特（Roberto Mart）、塞巴斯蒂安·霍弗（Sebastian H¨ofer）、约翰·库利克（Johannes Kulick）、马克·图桑（Marc Toussaint）、亚历克斯·卡塞尔尼克（Alex Kacelnik。通过物理探索打开锁箱。2017年IEEE-RAS类人机器人国际会议论文集，第461-467页，2017年。
[27]	M.Bauza和A.Rodriguez。平面推进的概率数据驱动模型。2017年IEEE机器人与自动化国际会议记录，第3008-3015页，2017年。
[28]	M.Beetz、L.M–osenlechner和M.Tenorth。CRAM：用于人类环境中日常操作的认知机器人抽象机器。2010年IEEE/RSJ智能机器人和系统国际会议论文集，第1012-1017页，2010年。
[29]	Y.Bekiroglu、D.Kragic和V.Kyrki。基于触觉数据和hmms学习抓握稳定性。第19届机器人与人类交互通信国际研讨会论文集，第132-137页，2010年。
[30]	亚塞米·贝基洛格鲁（Yasemin Bekiroglu）、丹松（Dan Song）、王璐（Lu Wang）和达尼卡·克拉吉奇（Danica Kragic）。面向任务的抓取稳定性评估的概率框架。《2013年IEEE国际机器人与自动化会议论文集》，第3040-30472013页。
[31]	马克·贝勒马尔（Marc Bellemare）、斯里拉姆·斯里尼瓦桑（Sriram Srinivasan）、乔治·奥斯特洛夫斯基（Georg Ostrovski）、汤姆·绍尔（Tom Schaul）、大卫·萨克斯顿（David Saxton）和雷米·穆诺斯。统一基于国家的探索和内在动机。《神经信息处理系统进展》29，第1471-1479页，2016年。
[32]	约舒亚·本吉奥（Yoshua Bengio）、杰尔·欧米·卢拉杜尔（J’erˆome Louradour）、罗南·科洛伯特（Ronan Collobert）和杰森·韦斯顿（Jason Weston）。课程学习。《第26届机器学习国际会议论文集》，第41-48页，2009年。
[33]	N.Bergstr–om、C.H.Ek、D.Kragic、Y.Yamakawa、T.Senoo和M.Ishikawa。柔性对象时间状态模型的在线学习。2012年IEEERAS类人机器人国际会议论文集，第712-718页，2012年。
[34]	Tapomayukh Bhattacharjee、Joshua Wade和Charles Kemp。根据不同的初始条件和短时接触，从热传递中识别材料。InRobotics:科学与系统XI，2015年。
[35]	B Bischoff、D Nguyen-Toung、H Van Hoof、A Mchutchon、C E Rasmussen、A Knoll、J Peters和M P Deisenroth。使用稀疏数据学习机器人控制的策略搜索。2014年IEEE国际机器人与自动化会议论文集，第3882-3887页。
[36]	M.Bj¨orkman、Y.Bekiroglu、V.H¨ogman和D.Kragic。通过触觉眼神增强对形状的视觉感知。2013年IEEE/RSJ智能机器人和系统国际会议论文集，第3180-3186页，2013年。
[37]	J.Bohg、A.Morales、T.Asfour和D.Kragic。数据驱动的抓取综合——一项调查。IEEE机器人学报，30（2）：289-3092014。
[38]	J.Bohg、K.Hausman、B.Sankaran、O.Brock、D.Kragic、S.Schaal和G.S.Sukhatme。互动感知：在感知中利用行动，在行动中利用感知。IEEE机器人学报，33（6）：1273-12912017。
[39]	珍妮特·波赫（Jeannette Bohg）和丹妮卡·克拉吉奇（Danica Kragic）。通过形状上下文学习抓取点。机器人与自治系统，58（4）：362-3772010。
[40]	珍妮特·波赫（Jeannette Bohg）、凯·韦尔克（Kai Welke）、比阿特丽斯·勒昂（Beatriz Le´on）、马丁·多（Martin Do）、丹·松（Dan Song）、沃尔特·沃尔金格（Walter Wohlkinger）、玛丽安娜·马德里（Marianna Madry）、艾托尔·奥尔多马（Aitor Ald´oma）、马库斯·普尔兹比尔斯基（Markus Przybelsk。基于任务的仿人机器人抓取自适应。2012年第十届IFAC机器人控制研讨会论文集，第779-786页。
[41]	拜伦·布茨（Byron Boots）、亚瑟·格雷顿（Arthur Gretton）和杰弗里·戈登（Geoffrey J Gordon）。预测状态表示的希尔伯特空间嵌入。《第29届人工智能不确定性国际会议论文集》，第92-101页，2013年。
[42]	Abdeslam Boularias、Oliver Kroemer和Jan Peters。结构化学徒学习。Peter A.Flach、Tijl De Bie和Nello Cristianini，《数据库中的机器学习和知识发现》编辑，第227-242页。施普林格-柏林-海德堡，2012年。
[43]	Konstantinos Bousmalis、Alex Irpan、Paul Wohlhart、Yunfei Bai、Matthew Kelcey、Mrinal Kalakrishnan、Laura Downs、Julian Ibarz、Peter Pastor、Kurt Konolige等人。使用模拟和领域自适应来提高机器人深度抓取的效率。2018年IEEE机器人与自动化国际会议记录，2018年。
[44]	S.Brandl、O.Kroemer和J.Peters。使用扭曲参数泛化对象之间的浇注动作。2014年IEEE-RAS类人机器人国际会议论文集，第616-621页，2014年。
[45]	O.Brock、A.Fagg、R.Grupen、R.Platt、M.Rosenstein和J.Sweeney。智能仿人机器人的学习和控制框架。国际类人机器人杂志，2（3）：301-3362005。
[46]	P.Brook、M.Ciocarie和K.Xiao。具有多个对象表示的协作抓取规划。2011年IEEE机器人与自动化国际会议论文集，第2851-2858页，2011年。
[47]	乔纳森·布鲁克郡和塞斯·特勒。使用切线空间近似进行关节姿势估计。国际机器人研究杂志，35（1-3）：5-292016。
[48]	Daniel Brown、Wonjoon Goo、Prabhat Nagarajan和Scott Niekum。通过从观察中进行反向强化学习，在次优演示之外进行外推。第36届国际机器学习会议记录，第783-7922019a页。
[49]	丹尼尔·布朗和斯科特·尼库姆。反向强化学习的有效概率性能边界。2018年第32届AAAI人工智能会议论文集。
[50]	丹尼尔·布朗和斯科特·尼库姆。逆强化学习的机器教学：算法和应用。2019年第33届AAAI人工智能会议论文集。
[51]	Daniel S Brown、Yuchen Cui和Scott Niekum。风险感知主动反向强化学习。2018年第二届机器人学习会议记录，第362-372页。
[52]	Daniel S Brown、Wonjoon Goo和Scott Niekum。通过自动排序的演示进行更好的演示模仿学习。第三届机器人学习会议论文集，机器学习研究论文集，第330-359页，2019b。
[53]	丹尼尔·布朗（Daniel S Brown）、拉塞尔·科尔曼（Russell Coleman）、拉维·斯里尼瓦桑（Ravi Srinivasan）和斯科特·尼库姆（Scott Niekum）。通过偏好的快速贝叶斯奖赏推理实现安全模仿学习。第37届机器学习国际会议论文集，2020年。
[54]	Jonas Buchli、Freek Stulp、Evangelos Theodorou和Stefan Schaal。学习可变阻抗控制。国际机器人研究杂志，30（7）：820-8332011。
[55]	卡莱莎·布拉德（Kalesha Bullard）、索尼娅·切尔诺瓦（Sonia Chernova）和安德烈亚·洛克德·托马斯（Andrea Lockerd Thomaz）。机器人代理学习演示分类任务的人工驱动特征选择。2018年IEEE机器人与自动化国际会议论文集，第6923-6930页，2018年。
[56]	Benjamin Burchfel和George Konidaris。贝叶斯本征对象：3D机器人感知的统一框架。InRobotics:科学与系统XIII2017。
[57]	Benjamin Burchfiel和George Konidaris。混合贝叶斯特征对象：组合线性子空间和深度网络方法用于3D机器人视觉。2018年IEEE/RSJ智能机器人和系统国际会议论文集，第6843-6850页，2018年。
[58]	尤里·伯达、哈里森·爱德华兹、阿莫斯·斯托基和奥列格·克里莫夫。通过随机网络蒸馏进行探索。2018年学习代表国际会议记录，2018年。
[59]	Arunkumar Byravan和Dieter Fox。SE3-网络：使用深层神经网络学习刚体运动。2016年IEEE机器人与自动化国际会议论文集，第173-180页，2016年。
[60]	罗伯特·卡兰德拉（Roberto Calandra）、安德鲁·欧文斯（Andrew Owens）、迪内什·贾亚拉曼（Dinesh Jayaraman）、贾斯汀·林（Justin Lin）、袁文珍（Wenzhen Yuan）、吉坦德拉·马利克（Jitendra Malik）、爱德华·阿德尔森。不仅仅是一种感觉：学会用视觉和触觉去抓和再抓。IEEE Robotics and Automation Letters，3（4）：3300-33072018年。
[61]	西尔万·卡利农。使用任务参数生成模型的机器人学习。Antonio Bicchi和Wolfram Burgard编辑，《2018国际机器人研究研讨会论文集》，第111-1262018页。
[62]	西尔万·卡利农（Sylvain Calinon）、弗洛伦特·根特（Florent Guenter）和奥德·比拉德（Aude Billard）。关于在人形机器人中学习、表示和概括任务。IEEE系统、人与控制论汇刊，B部分（控制论），37（2）：286-2982007。
[63]	托马斯·塞德堡（Thomas Cederborg）、李明（Ming Li）、阿德里安·巴拉恩斯（Adrien Baranes）和皮埃尔·伊夫斯·乌德耶（Pierre-Yves Oudeyer）。用于多任务模拟学习的增量局部在线高斯混合回归。2010年IEEE/RSJ智能机器人和系统国际会议论文集，第267-274页，2010年。
[64]	叶夫根·切博塔（Yevgen Chebotar）、卡罗尔·豪斯曼（Karol Hausman）、马文·张（Marvin Zhang）、高拉夫·苏克哈特姆（Gaurav Sukhatme）、斯特凡·沙尔（Stefan Schaal）和谢尔盖·莱文。结合基于模型和无模型的更新，实现以轨迹为中心的强化学习。《第34届机器学习国际会议论文集》，第703-711页，2017年。
[65]	Taolue Chen、Marta Kwiatkowska、Aistis Simaitis和Clemens Wiltsche。多目标随机博弈综合：在城市自主驾驶中的应用。《2013年系统定量评估国际会议论文集》，第322-337页，2013年·Zbl 1400.91040号
[66]	Nuttapong Chentanez、Andrew G.Barto和Satinder P.Singh。内在激励强化学习。神经信息处理系统进展17，第1281-1288页，2005年。
[67]	索尼娅·切尔诺娃（Sonia Chernova）和曼努埃拉·维洛索（Manuela Veloso）。通过基于信任的自治进行交互式政策学习。《人工智能研究杂志》，34:1-252009年·Zbl 1182.68161号
[68]	S.Chiappa和J.Peters。通过检测动态开关和重复来提取运动。《神经信息处理系统进展》23，第388-3962010页。
[69]	Sandeep Chinchali、Scott C Livingston、Ufuk Topcu、Joel W Burdick和Richard M Murray。面向灵巧机器人操作反应控制器的形式化综合。2012年IEEE机器人与自动化国际会议论文集，第5183-5189页，2012年。
[70]	S.Chitta、M.Piccoli和J.Sturm。用于移动操作的触觉对象类和内部状态识别。2010年IEEE机器人与自动化国际会议论文集，第2342-2348页，2010年。
[71]	Sachin Chitta、J¨urgen Sturm、Matthew Piccoli和Wolfram Burgard。用于移动操作的触觉传感。IEEE机器人学报，27（3）：558-5682011。
[72]	C.Choi、W.Schwarting、J.DelPreto和D.Rus。学习机器人软手的物体抓取。IEEE Robotics and Automation Letters，3（3）：2370-23772018年。
[73]	J.Choi和K.-E.Kim。多奖励函数的非参数贝叶斯逆强化学习。《神经信息处理系统进展》第25期，第305-313页，2012年。
[74]	Shushman Choudhury、Yifan Hou、Gilwoo Lee和Siddhartha S.Srinivasa。杂波中的混合DDP（CHDDP）：杂波环境中混合动力系统的轨迹优化。CoRR，abs/1710.052312017年。统一资源定位地址http://arxiv.org/abs/1710.05231。
[75]	周殷兰、阿维夫·塔马尔、谢·曼诺和马可·帕沃内。风险敏感和稳健决策：cvar优化方法。《神经信息处理系统进展》28，第1522-1530页，2015年。
[76]	Caleb Chuck、Supawit Chockchowwat和Scott Niekum。分层深度强化学习的假设驱动技能发现。2020年IEEE/RSJ智能机器人和系统国际会议论文集，2020年。
[77]	M.Ciocarie、C.Goldfeder和P.Allen。手依赖灵巧机器人抓取的降维。2007年IEEE/RSJ智能机器人和系统国际会议论文集，第3270-3275页，2007年。
[78]	Matei Ciocarlie、Kaijen Xiao、Edward Gil Jones、Sachin Chitta、Radu Bogdan Rusu和Ioan A.S.ucan。在家庭环境中实现可靠的抓取和操作。在Oussama Khatib、Vijay Kumar和Gaurav Sukhatme，编辑，《2014年实验机器人国际研讨会论文集》，第241-252页，2014年。
[79]	L.C.Cobo、K.Subramanian、C.L.Isbell、A.D.Lanterman和A.L.Thomaz。从演示中抽象出高维域中有效的强化学习。人工智能，216:103-1282014·Zbl 1405.68283号
[80]	西尔维娅·科拉德斯基（Silvia Coradeschi）、艾米·劳特菲（Amy Loutfi）和布里塔·雷德（Britta Wrede）。机器人和智能系统中符号接地的简要回顾。K¨unstliche情报，27（2）：129-1362013。
[81]	科琳娜·科尔特斯和弗拉基米尔·瓦普尼克。支持向量网络。机器学习，20（3）：273-2971995·Zbl 0831.68098号
[82]	崔宇晨和斯科特·尼库姆。积极奖励从批评中学习。2018年IEEE机器人与自动化国际会议论文集，第6907-6914页，2018年。
[83]	布鲁诺·卡斯特罗·达席尔瓦（Bruno Castro Da Silva）、吉安卢卡·巴尔达萨雷（Gianluca Baldassarre）、乔治·科尼达利斯（George D Konidaris）和安德鲁·巴托（Andrew G Barto）。在仿人机器人上学习参数化运动技能。2014年IEEE机器人与自动化国际会议论文集，第5239-5244页，2014年。
[84]	H.Dang和P.K.Allen。机器人通过人体演示学习日常物体操作。2010年IEEE/RSJ智能机器人和系统国际会议论文集，第1284-1289页，2010年。
[85]	H.Dang和P.K.Allen。学习掌握稳定性。《2012年IEEE国际机器人与自动化会议论文集》，第2392-2397页，2012年。
[86]	H.Dang和P.K.Allen。语义抓取：规划机器人抓取功能，适合对象操作任务。2012年IEEE/RSJ智能机器人和系统国际会议论文集，2012年。
[87]	H.Dang和P.K.Allen。利用类似局部几何学的触觉经验，掌握对新对象的调整。2013年IEEE/RSJ智能机器人和系统国际会议论文集，第4007-4012页，2013年。
[88]	克里斯蒂安·丹尼尔（Christian Daniel）、格哈德·诺依曼（Gerhard Neumann）、奥利弗·克罗默（Oliver Kroemer）和扬·彼得斯（Jan Peters）。学习顺序运动任务。2013年IEEE机器人与自动化国际会议论文集，第2626-2632页，2013年。
[89]	克里斯蒂安·丹尼尔（Christian Daniel）、格哈德·诺依曼（Gerhard Neumann）、奥利弗·克罗默（Oliver Kroemer）和扬·彼得斯（Jan Peters）。层次相对熵策略搜索。机器学习研究杂志，17（1）：3190-32392016a·Zbl 1367.68318号
[90]	克里斯蒂安·丹尼尔（Christian Daniel）、赫尔克·范·霍夫（Herke Van Hoof）、扬·彼得斯（Jan Peters）和格哈德·诺伊曼（Gerhard Neumann）。用于确定强化学习中选项的概率推理。机器学习，104（2-3）：337-3572016b·Zbl 1386.68127号
[91]	劳伦斯·戴维斯。遗传算法手册。查普曼和霍尔，1991年。
[92]	彼得·特克·德波尔（Pieter-Turk De Boer）、德克·克劳斯（Dirk P Kroese）、谢·曼诺（Shie Mannor）和鲁文·鲁宾斯坦（Reuven Y Rubinstein）。关于交叉熵方法的教程。运筹学年鉴，134（1）：19-672005·Zbl 1075.90066号
[93]	托马斯·德彪斯（Thomas J.Debus）、皮埃尔·杜邦（Pierre E.Dupont）和罗伯特·D·豪（Robert D.Howe）。使用多模型估计和隐马尔可夫模型进行接触状态估计。国际机器人研究杂志，23（4-5）：399-4132004。
[94]	马克·德伊森罗特（Marc Deisenroth）和卡尔·E·拉斯穆森（Carl E Rasmussen）。PILCO：基于模型和数据效率的政策搜索方法。第28届机器学习国际会议论文集，第465-472页，2011年。
[95]	马克·彼得·德伊森罗斯（Marc Peter Deisenroth）、迪特尔·福克斯（Dieter Fox）和卡尔·爱德华·拉斯穆森（Carl Edward Rasmussen）。机器人和控制中数据高效学习的高斯过程。IEEE模式分析和机器智能汇刊，37（2）：408-4232015。
[96]	Karthik Desingh、Shiyang Lu、Anthony Opipari和Odest Chadwicke Jenkins。使用有效的非参数置信传播的关节对象的因子姿态估计。2018年IEEE机器人与自动化国际会议论文集，2018年。
[97]	R.Detry、D.Kraft、O.Kroemer、L.Bodenhagen、J.Peters、N.Kr¨uger和J.Piater。学习掌握启示密度。Paladyn，2（1），2011年。
[98]	雷诺德·德特里（Renaud Detry）、卡尔·亨利克·埃克（Carl Henrik Ek）、玛丽安娜·马德里（Marianna Madry）和丹尼卡·克拉吉奇（Danica Kragic）。根据抓取经验学习典型抓握部位词典。2013年IEEE机器人与自动化国际会议论文集，第601-608页，2013年。
[99]	雷诺德·德特里（Renaud Detry）、杰里米·帕彭（Jeremie Papon）和拉里·马蒂斯（Larry Matthies）。任务导向抓取，具有语义和几何场景理解。2017年IEEE/RSJ智能机器人和系统国际会议论文集，第3266-3273页，2017年。
[100]	科林·德文（Coline Devin）、彼得·阿比尔（Pieter Abbeel）、特雷弗·达雷尔（Trevor Darrell）和谢尔盖·莱文（Sergey Levine）。用于通用机器人学习的深度对象中心表示。2018年IEEE机器人与自动化国际会议论文集，第7111-7118页，2018年。
[101]	C.Diuk、L.Li和B.R.Leffler。自适应气象学家问题及其在强化学习中的结构学习和特征选择中的应用。《第26届机器学习国际会议论文集》，第249-256页，2009年。
[102]	卡洛斯·迪克（Carlos Diuk）、安德烈·科恩（Andre Cohen）和迈克尔·利特曼（Michael L Littman）。有效强化学习的面向对象表示。《第25届机器学习国际会议论文集》，第240-247页，2008年。
[103]	M.Do、J.Schill、J.Ernesti和T.Asfour。学会擦拭：一个从感觉运动经验中进行结构自举的案例研究。2014年IEEE机器人与自动化国际会议论文集，第1858-1864页，2014年。
[104]	安德烈亚斯·多尔（Andreas Doerr）、内森·德拉特利夫（Nathan D Ratliff）、珍妮特·波赫（Jeannette Bohg）、马克·图桑（Marc Toussaint）和斯特凡·沙尔（Stefan Schaal）。直接损失最小化逆最优控制。InRobotics:科学与系统XI，2015年。
[105]	M.R.Dogar、M.Cakmak、E.Ugur和E.Sahin。从原始行为到使用启示的目标导向行为。2007年IEEE/RSJ智能机器人和系统国际会议论文集，第729-734页，2007年。
[106]	Stanimir Dragiev、Marc Toussant和Michael Gienger。感知不确定性的抓取和触觉探索。2013年IEEE机器人与自动化国际会议论文集，第113-119页，2013年。
[107]	Yan Duan、Marcin Andrychowicz、Bradly Stadie、OpenAI Jonathan Ho、Jonas Schneider、Ilya Sutskever、Pieter Abbeel和Wojciech Zaremba。一拍模仿学习。《神经信息处理系统进展》30，第1087-1098页，2017年。
[108]	克里希纳穆西·德维约塔姆（Krishnamurthy Dvijotham）和伊曼纽尔·托多罗夫（Emanuel Todorov）。具有线性可解MDP的逆最优控制。第27届机器学习国际会议论文集，第335-342页，2010年。
[109]	Adrien Ecoffet、Joost Huizinga、Joel Lehman、Kenneth O Stanley和Jeff Clune。Goexplore：硬勘探问题的新方法。arXiv预印本arXiv：1901.109952019。
[110]	亚伦·埃德辛格和查尔斯·坎普。任务相关特征的自主检测和控制。2006年IEEE国际发展与学习会议记录，2006年。
[111]	雅科夫·恩格尔（Yaakov Engel）、彼得·萨博（Peter Szabo）和德米特里·沃尔金森（Dmitry Volkinshtein）。学习使用高斯过程时间差分方法控制章鱼手臂。神经信息处理系统进展19，第347-354页，2006年。
[112]	P.Englert和M.Toussant。通过一次演示学习操作技能。国际机器人研究杂志，37（1）：137-1542018a。
[113]	P.Englert和M.Toussant。用于操作技能转移的运动变形网络。2018 IEEE/RSJ智能机器人和系统国际会议论文集，2517-2523页，2018b。
[114]	P.Englert、N.A.Vien和M.Toussant。反向KKT：从演示中学习操纵任务的成本函数。国际机器人研究杂志，36（13-14）：1474-14882017。
[115]	彼得·恩格尔和马克·图桑。操作技能的优化和强化学习相结合。InRobotics:科学与系统XII，2016年。
[116]	Andrew H Fagg和Michael A Arbib。灵长类动物抓握控制中的牙列-前运动相互作用建模。神经网络，11（7）：1277-13031998。
[117]	乔治奥斯·费内科斯（Georgios E Fainekos）、安托万·吉拉德（Antoine Girard）、哈达斯·克雷斯·加济特（Hadas Kress-Gazit）和乔治·帕帕斯（George J Pappas）。动态机器人的时序逻辑运动规划。Automatica，45（2）：343-3522009年·Zbl 1158.93369号
[118]	周芳（Zhou Fang）、乔治·巴特尔斯（Georg Bartels）和迈克尔·贝茨（Michael Beetz）。基于交互式物理仿真的基于约束的运动参数化学习模型。2016年IEEE/RSJ智能机器人和系统国际会议论文集，第4005-4012页，2016年。
[119]	弗拉基米尔·范伯格、阿尔文·万、伊恩·斯托伊卡、迈克尔·乔丹、约瑟夫·冈萨雷斯和谢尔盖·莱文。基于模型的价值扩展，实现高效的无模型强化学习。arXiv预印本arXiv:1803.001012018。
[120]	S.Fichtl、A.McManus、W.Mustafa、D.Kraft、N.Kr¨uger和F.Guerin。使用直方图从3D视觉中学习空间关系。2014年IEEE机器人与自动化国际会议论文集，第501-508页，2014年。
[121]	Chelsea Finn和Sergey Levine。用于规划机器人运动的深度视觉预见。2017年IEEE机器人与自动化国际会议记录，第2786-2793页，2017年。
[122]	Chelsea Finn、Sergey Levine和Pieter Abbeel。引导成本学习：通过策略优化实现深度逆最优控制。《第33届国际机器学习大会论文集》，第49-58页，2016年·Zbl 1360.68687号
[123]	Chelsea Finn、Pieter Abbeel和Sergey Levine。用于快速适应深层网络的模型认知元学习。《第34届机器学习国际会议论文集》，第1126-1135页，2017年。
[124]	保罗·菲茨帕特里克（Paul Fitzpatrick）、阿图尔·阿塞尼奥（Artur Arsenio）和爱德华多·托雷斯-贾拉（Eduardo R.Torres-Jara）。通过重复和冗余以及重复和冗余来增强机器人对多模态事件的感知。交互作用研究，7（2）：171-1962006。
[125]	彼得·佛罗伦萨（Peter R.Florence）、卢卡斯·马努埃利（Lucas Manuelli）和罗斯·特德雷克（Russ Tedrake）。密集对象网：通过机器人操作学习密集视觉对象描述符。2018年第二届机器人学习会议记录，第373-385页。
[126]	卡洛斯·弗洛伦萨（Carlos Florensa）、大卫·赫尔德（David Held）、马库斯·伍尔斐尔（Markus Wulfmeier）、迈克尔·张（Michael Zhang）和彼得·阿比尔（Pieter Abbeel）。逆向课程生成用于强化学习。《机器人学习第一届会议论文集》，机器学习研究进展第78卷，第482-495页。PMLR，2017年。
[127]	Jie Fu和Ufuk Topcu。可能具有时间逻辑约束的近似正确MDP学习和控制。arXiv预打印arXiv:1404.70732014。
[128]	贾斯汀·傅（Justin Fu）、谢尔盖·莱文（Sergey Levine）和彼得·阿比尔（Pieter Abbeel）。利用在线动力学自适应和神经网络先验知识一次性学习操纵技能。2016年IEEE/RSJ智能机器人和系统国际会议论文集，第4019-4026页，2016年。
[129]	贾斯汀·傅（Justin Fu）、凯蒂·罗（Katie Luo）和谢尔盖·莱文（Sergey Levine）。通过对抗性反向强化学习来学习强大的奖励。2017年学习代表国际会议记录，2017年。
[130]	杨高（Yang Gao）、丽莎·安妮·亨德里克斯（Lisa Anne Hendricks）、凯瑟琳·库琴贝克（Katherine J.Kuchenbecker）和特雷弗·达雷尔（Trevor Darrell）。从视觉和触觉数据中深入学习触觉理解。2016年IEEE机器人与自动化国际会议论文集，第536-543页，2016年。
[131]	Cristina Garcia Cifuentes、Jan Issac、Manuel W–uthrich、Stefan Schaal和Jeannette Bohg。机器人操作的概率铰接实时跟踪。IEEE Robotics and Automation Letters，2（2）：577-5842017年。
[132]	凯兰·里德·加勒特（Caelan Reed Garrett）、托马斯·洛扎诺·佩雷斯（Tomas Lozano Perez）和莱斯利·帕克·凯尔布林（Leslie Pack Kaelbling）。FFRob：利用符号规划进行有效的任务和动作规划。国际机器人研究杂志，37（1）：104-1362018。
[133]	Mohammad Ghavamzadeh、Marek Petrik和Yinlam Chow。通过最大限度地减少强烈的基线遗憾来改进安全政策。《神经信息处理系统进展》29，第2298-2306页，2016年。
[134]	詹姆斯·吉布森。视觉感知的生态学方法。心理学出版社，2014年。
[135]	Aditya Goil、Matthew Derry和Brenna D Argall。使用机器学习混合人类和机器人控制以辅助轮椅导航。2013年IEEE康复机器人国际会议论文集，第1-6页，2013年。
[136]	C.Goldfeder、M.Ciocarie、J.Peretzman、H.Dang和P.K.Allen。数据驱动抓取部分传感器数据。2009年IEEE/RSJ智能机器人和系统国际会议论文集，第1278-1283页，2009年。
[137]	Wonjoon Goo和Scott Niekum。通过观察学习多步骤机器人任务。2019年IEEE机器人与自动化国际会议论文集，2019a。
[138]	Wonjoon Goo和Scott Niekum。通过辅助视频中的活动定位从观察中一次性学习多步骤任务。2019年IEEE机器人与自动化国际会议论文集，2019b。
[139]	谢恩·格里菲斯（Shane Griffith）、弗拉基米尔·苏霍伊（Vladimir Sukhoy）、托德·维格特（Todd Wegter）和亚历山大·斯托伊切夫（Alexander Stoytchev）。水槽中的对象分类：学习基于行为的水对象分类。InICRA 2012年语义感知、映射和探索研讨会，2012年。
[140]	D.H.Grollman和O.C.Jenkins。通过未分段的演示逐步学习子任务。2010年IEEE/RSJ智能机器人和系统国际会议论文集，第261-266页，2010年。
[141]	顾世祥（Shixiang Gu）、蒂莫西·利利克拉普（Timothy Lillicrap）、伊利亚·萨茨克弗（Ilya Sutskever）和谢尔盖·莱文（Sergey Levine）。通过基于模型的加速实现持续深入的Qlearning。第33届机器学习国际会议论文集，第2829-2838页，2016年。
[142]	M.Gualtieri和R.Platt。利用注意力集中学习六自由度抓取和拾取。2018年第二届机器人学习会议记录，第477-486页。
[143]	马库斯·瓜蒂埃里（Marcus Gualtieri）和罗伯特·普拉特（Robert Platt）。抓取检测的视点选择。2017年IEEE/RSJ智能机器人和系统国际会议论文集，第258-264页，2017年。
[144]	Charlie Guan、William Vega-Brown和Nicholas Roy。利用环境接触进行近最佳合规操作的高效规划。2018年IEEE机器人与自动化国际会议论文集，第215-222页，2018年。
[145]	Puren Guler、Yasemin Bekiroglu、Xavi Gratal、Karl Pauwels和Danica Kragic。集装箱里有什么？根据视觉和触觉对物体内容进行分类。2014年IEEE/RSJ智能机器人和系统国际会议论文集，第3961-3968页，2014年。
[146]	V.Gullapalli、J.A.Franklin和H.Benbrahim。通过强化学习获得机器人技能。IEEE控制系统杂志，14（1）:13-241994。
[147]	阿比谢克·古普塔（Abhishek Gupta）、克莱门斯·埃普纳（Clemens Eppner）、谢尔盖·莱文（Sergey Levine）和彼得·阿贝尔（Pieter Abbeel）。从人类演示中学习柔软机械手的灵巧操作。2016年IEEE/RSJ智能机器人和系统国际会议论文集，第3786-3793页，2016年。
[148]	阿比谢克·古普塔（Abhishek Gupta）、科林·德文（Coline Devin）、刘宇轩（YuXuan Liu）、彼得·阿比埃尔（Pieter Abbeel）和谢尔盖·莱文（Sergey Levine）。学习不变特征空间，通过强化学习传递技能。2017年学习代表国际会议记录，2017年。
[149]	阿比谢克·古普塔（Abhishek Gupta）、罗素·门多卡（Russell Mendonca）、刘宇轩（YuXuan Liu）、彼得·阿比埃尔（Pieter Abbeel）和谢尔盖·莱文（Sergey Levine）。结构化探索策略的元强化学习。神经信息处理系统进展31，第5302-5311页，2018年。
[150]	Megha Gupta、J¨org M¨uller和Gaurav S.Sukhatme。在杂乱的环境中使用操作原语进行对象排序。IEEE自动化科学与工程学报，12（2）：608-6142015。
[151]	Tuomas Haarnoja、Aurick Zhou、Pieter Abbeel和Sergey Levine。软actor-critic：使用随机actor的非政策最大熵深度强化学习。《第35届机器学习国际会议论文集》，第1861-1870页，2018年。
[152]	迪伦·哈德菲尔德-梅内尔（Dylan Hadfield-Menell）、斯图亚特·罗素（Stuart J Russell）、彼得·阿比尔（Pieter Abbeel）和安卡·德拉根（Anca Dragan）。合作反向强化学习。《神经信息处理系统进展》29，第3909-3917页，2016年。
[153]	约西亚·P·汉纳和彼得·斯通。模拟中机器人学习的接地动作转换。《第21届AAAI人工智能会议论文集》，第3834-3840页，2017年。
[154]	约西亚·P·汉纳（Josiah P Hanna）、彼得·斯通（Peter Stone）和斯科特·尼库姆（Scott Niekum）。模型引导：非策略评估的置信区间。《第16届自主代理和多代理系统国际会议论文集》，第538-546页，2017年。
[155]	尼古拉·汉森和安德烈亚斯·奥斯特梅尔。进化策略中完全失范的自我适应。进化计算，9（2）：159-1952001。
[156]	圣哈特。内在动机的层级操纵。《2008年IEEE机器人与自动化国际会议论文集》，第3814-3819页，2008年。
[157]	斯蒂芬·哈特。启示探索的内在回报。2009年IEEE国际发展与学习会议记录，第1-6页，2009年。
[158]	克里斯·豪泽。腿部和类人机器人的运动规划。斯坦福大学博士论文，2018年。
[159]	K Hausman、S Niekum、S Osentoski和G S Sukhatme。通过交互感知进行主动表达模型估计。2015年IEEE机器人与自动化国际会议论文集，第3305-3312页，2015年。
[160]	卡罗尔·豪斯曼（Karol Hausman）、克里斯蒂安·贝尔施（Christian Bersch）、德扬·潘格西奇（Dejan Pangeric）、莎拉·奥森托斯基（Sarah Osentoski）、佐尔坦·塞萨巴·马顿（Zoltan Csaba Marton）和迈克尔·比茨（Michael Beetz）。通过交互感知对杂乱场景进行分割。InICRA 2012年支持知识的服务机器人语义感知和映射研讨会，2012年。
[161]	卡罗尔·豪斯曼（Karol Hausman）、叶夫根·切博塔尔（Yevgen Chebotar）、斯特凡·沙尔（Stefan Schaal）、高拉夫·苏克哈特姆（Gaurav Sukhatme）和约瑟夫·利姆（Joseph J Lim）。使用生成性对抗网络从非结构化演示中进行多模式模拟学习。神经信息处理系统进展30，第1235-1245页，2017年。
[162]	卡罗尔·豪斯曼（Karol Hausman）、约斯特·托比亚斯·斯普林伯格（Jost Tobias Springenberg）、王子玉（Ziyu Wang）、尼古拉斯·海斯（Nicolas Heess）和马丁·里德米勒（Martin Riedmiller）。学习可转移机器人技能的嵌入空间。2018年学习代表国际会议记录，2018年。
[163]	布拉德利·海耶斯和布莱恩·斯卡塞利。自主构建用于规划和人机协作的分层任务网络。2016年IEEE机器人与自动化国际会议论文集，第5469-5476页，2016年。
[164]	Gillian M Hayes和John Demiris。一个使用模仿学习的机器人控制器。爱丁堡大学人工智能系，1994年。
[165]	何开明（Kaiming He）、乔治亚·吉奥萨里（Georgia Gkioxari）、彼得·多尔（Piotr Doll´ar）和罗斯·吉希克（Ross Girshick）。屏蔽R-CNN。2017年IEEE计算机视觉国际会议论文集，第2961-2969页，2017年。
[166]	T.Hermans、J.M.Rehg和A.Bobick。引导推动物体分离。2012年IEEE/RSJ智能机器人和系统国际会议论文集，第4783-4790页，2012年。
[167]	亚历山大·赫尔佐格（Alexander Herzog）、彼得·帕斯特（Peter Pastor）、姆里纳尔·卡拉克里什南（Mrinal Kalakrishnan）、卢多维克·里格蒂（Ludovic Righetti）、珍妮特·波赫（Jeannette Bohg）、塔米姆·阿斯福（Tamim Asfour）。学习基于形状模板的抓取选择。自主机器人，36（1-2）：51-652014。
[168]	伊琳娜·希金斯（Irina Higgins）、阿卡·帕尔（Arka Pal）、安德烈·阿鲁苏（Andrei A Rusu）、洛伊克·马特（Loic Matthey）、克里斯托弗·伯吉斯（Christopher P Burgess）、亚历山大·普里策（Alexander Pritzel）、马修·博特维克（Matthe。DARLA：改进强化学习中的零速转移。《第34届机器学习国际会议论文集》，第1480-1490页，2017年。
[169]	U.Hillenbrand和M.A.Roa。通过接触翘曲和局部重新规划传递功能抓取。《2012年IEEE/RSJ智能机器人与系统国际会议论文集》，第2963-29702012页。
[170]	马丁·赫杰姆（Martin Hjelm）、雷诺德·德特里（Renaud Detry）、卡尔·亨利克·埃克（Carl Henrik Ek）和丹尼尔卡·克拉吉奇（Danica Kragic）。跨任务、跨对象抓取转移的表示。2014年IEEE机器人与自动化国际会议论文集，第5699-5704页，2014年。
[171]	Jonathan Ho和Stefano Ermon。生成性对抗性模仿学习。《神经信息处理系统进展》29，第4565-4573页，2016年。
[172]	V.H¨ogman、M.Bj¨orkman、A.Maki和D.Kragic。用于对象分类的感觉运动学习框架。IEEE认知与发展系统汇刊，8（1）：15-252016。
[173]	Jarrett Holtz、Arjun Guha和Joydeep Biswas。使用SMT进行交互式机器人过渡修复。《第28届国际人工智能联合会议记录》，第4905-4911页，2018年。
[174]	Rein Houthooft、Yuhua Chen、Phillip Isola、Bradly Stadie、Filip Wolski、OpenAI Jonathan Ho和Pieter Abbeel。演变的政策梯度。神经信息处理系统进展31，第5400-5409页，2018年。
[175]	Geir E.Hovland和Brenan J.McCarragher。隐马尔可夫模型作为机器人装配中的过程监控。国际机器人研究杂志，17（2）：153-1681998。
[176]	K.Xiao、L.P.Kaelbling和T.Lozano-Perez。掌握POMDP。2007年IEEE机器人与自动化国际会议论文集，第4685-46922007页。
[177]	萧凯珍、莱斯利·帕克·凯尔布林和托马斯·洛扎诺·佩雷斯。任务驱动的触觉探索。InRobotics:科学与系统VI，2010年。
[178]	De-An Huang、Suraj Nair、Danfei Xu、Yuke Zhu、Animesh Garg、Li Fei-Fei、Silvio Savarese和Juan Carlos Niebles。神经任务图：从单个视频演示中概括出看不见的任务。2019年IEEE计算机视觉和模式识别会议记录，2019年。
[179]	黄汉邦和梁朝超。使用实时自组织模糊决策树对足球机器人系统进行基于策略的决策。模糊集与系统，127（1）：49-642002·兹比尔1029.68619
[180]	小黄和翁约翰。开发机器人价值体系中的新颖性和强化学习。2002年第二届表观遗传机器人国际研讨会论文集，第47-55页。
[181]	菲利普·伊索拉（Phillip Isola）、约瑟夫·利姆（Joseph J.Lim）和爱德华·阿德尔森（Edward H.Adelson）。发现图像集合中的状态和转换。2015年IEEE计算机视觉和模式识别会议记录，第1383-1391页，2015年。
[182]	扬·伊斯萨克（Jan Issac）、曼努埃尔·沃思里奇（Manuel W–uthrich）、克里斯蒂娜·加西亚·西富恩特斯（Cristina Garcia Cifuentes）、珍妮特·波赫（Jeannette Bohg）、塞巴斯蒂安·特里普（Sebastian Trimpe）和。使用鲁棒高斯滤波器的基于深度的目标跟踪。2016年IEEE机器人与自动化国际会议论文集，第608-615页，2016年。
[183]	阿德瓦伊特·贾恩和查尔斯·坎普。使用数据驱动的以对象为中心的日常力模型改进机器人操作。自主机器人，35（2-3）：143-1592013。
[184]	Ajinkya Jain和Scott Niekum。不确定性和混合动力学下的高效分层机器人运动规划。《第二届机器人学习大会论文集》，第757-7662018页。
[185]	Ajinkya Jain和Scott Niekum。学习混合对象运动学，实现不确定性下的高效分层规划。2020年IEEE/RSJ智能机器人和系统国际会议论文集，2020年。
[186]	L.Jamone、E.Ugur、A.Cangelosi、L.Fadiga、A.Bernardino、J.Piater和J.Santos-Victor。心理学、神经科学和机器人学的负担：一项调查。IEEE认知与发展系统汇刊，10（1）：4-252018。
[187]	Eric Jang、Sudheendra Vijayanarasimhan、Peter Pastor、Julian Ibarz和Sergey Levine。语义掌握的端到端学习。《机器人学习第一届会议论文集》，机器学习研究论文集，第119-132页，2017年。
[188]	Eric Jang、Coline Devin、Vincent Vanhoucke和Sergey Levine。抓取：从自我监督抓取中学习物体表征。《机器人学习第二届会议论文集》，机器学习研究进展第87卷，第99-112页，2018年。
[189]	Michael Janner、Sergey Levine、William T.Freeman、Joshua B.Tenenbaum、Chelsea Finn和Jiajun Wu。推理与面向对象的预测和规划的物理交互。2019年国际学习代表大会论文集，2019年。
[190]	谢文·贾夫达尼、马修·克林根史密斯、J.安德鲁（德鲁）·巴涅尔、南希·波拉德和悉达塔·斯里尼瓦萨。通过子模块实现高效的基于触摸的定位。《2013年IEEE机器人与自动化国际会议论文集》，第1828-1835页，2013年。
[191]	O.C.Jenkins和M.Matari’C。表演衍生行为词汇：从动作中获得技能的数据驱动。国际类人机器人杂志，1（2）：237-2882004。
[192]	N.Jetchev、T.Lang和M.Toussant。从连续数据中学习扎根的关系符号，用于抽象推理。InICRA 2013年自主学习研讨会，2013年。
[193]	N.Jiang、A.Kulesza和S.Singh。基于模型的强化学习中的抽象选择。《第32届机器学习国际会议论文集》，第179-188页，2015年。
[194]	江楠和李丽红。用于强化学习的双稳健非政策价值评估。第33届机器学习国际会议论文集，第652-661页，2016年。
[195]	Yun Jiang、Marcus Lim、Chanxi Zheng和Ashutosh Saxena。学习在场景中放置新对象。国际机器人研究杂志，31（9）：1021-10432012。
[196]	Jonathan Juett和Benjamin Kuipers。通过扩展peri-personal空间图学习掌握。2018年IEEE/RSJ智能机器人和系统国际会议论文集，第8695-8700页，2018年。
[197]	菲利普·朱德（Philipp Jund）、安德烈亚斯·艾特尔（Andreas Eitel）、尼古拉·阿布多（Nichola Abdo）和沃尔夫拉姆·伯加德（Wolfram Burgard）。超越卷积的优化：利用端到端度量学习概括空间关系。2018年IEEE机器人与自动化国际会议论文集，第1-7页，2018。
[198]	莱斯利·帕克·凯尔布林（Leslie Pack Kaelbling）、迈克尔·利特曼（Michael L Littman）和安东尼·卡桑德拉（Anthony R Cassandra）。在部分可观测的随机域中进行规划和行动。人工智能，101（1-2）：99-1341998·Zbl 0908.68165号
[199]	G.Kahn、P.Sujan、S.Patil、S.Bopardikar、J.Ryde、K.Goldberg和P.Abbeel。使用轨迹优化主动探索机器人在存在遮挡的情况下抓取。2015年IEEE机器人与自动化国际会议论文集，第4783-4790页，2015年。
[200]	德米特里·卡拉什尼科夫（Dmitry Kalashnikov）、亚历克斯·伊尔潘（Alex Irpan）、彼得·帕斯特（Peter Pastor）、朱利安·伊巴兹（Julian Ibarz）、亚历山大·赫尔佐格（Alexander Herzog）、埃里克·张（Eric Jang）、迪尔德雷·奎伦（Deirdre Quillen）、伊桑·霍利（Ethan。基于视觉的机器人操作的可扩展深度强化学习。《机器人学习第二届会议论文集》，机器学习研究进展第87卷，第651-673页，2018年。
[201]	Parameswaran Kamalaruban、Rati Devidze、Volkan Cevher和Adish Singla。反向强化学习的交互式教学算法。arXiv预印本arXiv:1905.118672019。
[202]	Ken Kansky、Tom Silver、David A M´ley、Mohamed Eldawy、Miguel L´azaro-Gredilla、Xinghua Lou、Nimrod Dorfman、Szymon Sidor、Scott Phoenix和Dileep George。模式网络：零射传输与直觉物理的生成因果模型。《第34届机器学习国际会议论文集》，第1809-1818页，2017年。
[203]	Daniel Kappler、Peter Pastor、Mrinal Kalakrishnan、Manuel W–uthrich和Stefan Schaal。用于自主操作的数据驱动在线决策。InRobotics:科学与系统XI，2015年。
[204]	Dov Katz和Oliver Brock。非结构化环境中操作的因子分解方法。C´edric Pradalier、Roland Siegwart和Gerhard Hirzinger，编辑，《2011年机器人研究国际研讨会论文集》，第285-300页，2011年。
[205]	Dov Katz、Andreas Orthey和Oliver Brock。铰接对象的交互感知。《2010年实验机器人国际研讨会论文集》，第1-15页，2010年。
[206]	卢卡斯·考尔（Lukas Kaul）、西蒙·奥滕豪斯（Simon Ottenhaus）、帕斯卡·韦纳（Pascal Weiner）和塔米姆·阿斯福（Tamim Asfour）。表面方向感-一种用于仿人机器人的新型传感器。2016年IEEE-RAS类人机器人国际会议论文集，第820-825页，2016年。
[207]	杰奎琳·肯尼、托马斯·巴克利和奥利弗·布洛克。非结构化环境中用于操作的交互式分段。2009年IEEE机器人与自动化国际会议论文集，第1343-1348页，2009年。
[208]	Kiho Kim、Hohee Lee、Jangjin Park和Myungseung Yang。机器人污染清洁系统。2002年IEEE/RSJ智能机器人和系统国际会议论文集，第2卷，第1874-1879页，2002年。
[209]	马修·克林根史密斯（Matthew Klingensmith）、马丁·赫尔曼（Martin Hermann）和悉达塔·斯里尼瓦萨（Siddhartha Srinivasa）。通过体素深度雕刻从稀疏、噪声数据中进行对象建模和识别。《2014年实验机器人国际研讨会论文集》，2014年6月。
[210]	罗斯·A·克内珀（Ross A Knepper）、斯蒂芬妮·特莱克斯（Stefanie Tellex）、阿德里安·李（Adrian Li）、尼古拉斯·罗伊（Nicholas Roy）和丹妮拉·罗斯（Daniela Rus）。通过寻求帮助从失败中恢复过来。自主机器人，39（3）：347-3622015。
[211]	W Bradley Knox、Peter Stone和Cynthia Breazeal。通过人类反馈训练机器人：一个案例研究。《2013年社交机器人国际会议论文集》，第460-470页，2013年。
[212]	Jens Kober和Jan R Peters。机器人中电机原语的策略搜索。《神经信息处理系统进展》22，第849-856页，2009年·Zbl 1237.68229号
[213]	Jens Kober、Erhan Oztop和Jan Peters。强化学习，根据新情况调整机器人动作。《第22届国际人工智能联合会议论文集》，第2650-2655页，2011年。
[214]	G.D.Konidaris。使用技能符号循环构建抽象层次结构。《第25届国际人工智能联合会议记录》，第1648-1654页，2016年。
[215]	G.D.Konidaris和A.G.Barto。使用抽象选择进行有效的技能学习。《第21届国际人工智能联合会议论文集》，第1107-1112页，2009年7月a。
[216]	G.D.Konidaris、S.R.Kuindersma、R.A.Grupen和A.G.Barto。移动机械手的自主技能获取。《第二十五届人工智能会议论文集》，第1468-1473页，2011年a。
[217]	G.D.Konidaris、S.R.Kuindersma、R.A.Grupen和A.G.Barto。机器人通过构建技能树从演示中学习。国际机器人研究杂志，31（3）：360-3752012。
[218]	G.D.Konidaris、L.P.Kaelbling和T.Lozano-Perez。用于概率高级规划的符号获取。《第24届国际人工智能联合会议记录》，第3619-3627页，2015年。
[219]	乔治·科尼达利斯（George Konidaris）和安德鲁·巴托（Andrew G Barto）。构建便携式选项：强化学习中的技能转移。《第20届国际人工智能联合会议论文集》，第895-900页，2007年。
[220]	乔治·科尼达利斯（George Konidaris）和安德鲁·巴托（Andrew G Barto）。使用技能链在持续强化学习领域中发现技能。神经信息处理系统进展22，第1015-1023页，2009b。
[221]	乔治·科尼达利斯（George Konidaris）、莎拉·奥森托斯基（Sarah Osentoski）和菲利普·托马斯（Philip S Thomas）。使用傅里叶基的强化学习中的值函数近似。《第25届AAAI人工智能会议论文集》，第380-385页，2011年b。
[222]	乔治·科尼达利斯（George Konidaris）、莱斯利·帕克·凯尔布林（Leslie Pack Kaelbling）和托马斯·洛扎诺·佩雷斯（Tomas Lozano Perez）。从技能到符号：学习抽象高级规划的符号表示。《人工智能研究杂志》，61:215-2892018·Zbl 1426.68254号
[223]	Marek Kopicki、Renaud Detry、Maxime Adjigble、Rustam Stolkin、Ales Leonardis和Jeremy L Wyatt。一次性学习和生成新对象的灵巧抓取。《国际机器人研究杂志》，35（8）：959-9762016。
[224]	马雷克·科皮基、塞巴斯蒂安·苏雷克、鲁斯塔姆·斯托尔金、托马斯·莫尔瓦尔德和杰里米·怀亚特。学习推操作物体运动的模块化和可转换正向模型。自动机器人，41（5）：1061-10822017。
[225]	Petar Kormushev、Sylvain Calinon和Darwin G Caldwell。通过动觉教学和触觉输入演示位置和力量技能的模拟学习。高级机器人，25（5）：581-6032011。
[226]	Michael C.Koval、Matthew Klingensmith、Siddhartha S.Srinivasa、Nancy Pollard和Michael Kaess。用于高维隐式流形上状态估计的流形粒子滤波器。2017年IEEE机器人与自动化国际会议论文集，第4673-4680页，2017年。
[227]	德克·卡夫（Dirk Kraft）、尼古拉斯·普格尔（Nicolas Pugeault）、埃姆雷·巴斯基（Emre Baseski）、米拉·波波维奇（Mila Popovic）、达尼卡·克拉吉奇（Danica Kragic）、西南·卡尔坎（Sinan Kalkan）、佛罗伦萨丁·W¨org¨otter。物体的诞生：通过物体-动作复合物检测物体并提取物体形状。国际类人机器人杂志，5（2）：247-2652008。
[228]	Sanjay Krishnan、Animesh Garg、Richard Liaw、Brijen Thananjeyan、Lauren Miller、Florian T Pokorny和Ken Goldberg。SWIRL：具有延迟奖励的机器人任务的顺序窗口反向强化学习算法。国际机器人研究杂志，38（2-3）：126-1452019。
[229]	亚历克斯·克利舍夫斯基（Alex Krizhevsky）、伊利亚·萨茨克弗（Ilya Sutskever）和杰弗里·欣顿（Geoffrey E Hinton）。基于深度卷积神经网络的Imagenet分类。神经信息处理系统进展25，第1097-1105页，2012年。
[230]	O.Kroemer和G.S.Sukhatme。使用随机森林学习操纵技能的空间前提条件。2016年IEEE-RAS类人机器人国际会议论文集，第676-683页，2016年。
[231]	O.Kroemer、E.Ugur、E.Oztop和J.Peters。基于内核的直接动作感知方法。2012年IEEE机器人与自动化国际会议论文集，第2605-2610页，2012年。
[232]	O.Kroemer、H.van Hoof、G.Neumann和J.Peters。学习将操作任务的阶段预测为隐藏状态。2014年IEEE机器人与自动化国际会议论文集，第4009-4014页，2014年。
[233]	O.Kroemer、C.Daniel、G.Neumann、H.van Hoof和J.Peters。学习多阶段操作任务的分层技能。2015年IEEE机器人与自动化国际会议论文集，第1503-1510页，2015年。
[234]	O.Kroemer、S.Leischnig、S.Luettgen和J.Peters。一种基于内核的机器人操作任务接触分布学习方法。自动机器人，42（3）：581-6002018。
[235]	O.B.Kroemer、R.Detry、J.Piater和J.Peters。结合主动学习和反应控制实现机器人抓取。机器人与自治系统，59（9）：1105-11162010。doi:10.1016/j.robot.2010.6.001。
[236]	奥利弗·克罗默和简·彼得斯。根据接触分布预测物体的相互作用。2014年IEEE/RSJ智能机器人和系统国际会议论文集，第3361-3367页，2014年。
[237]	奥利弗·克罗默（Oliver Kroemer）和高拉夫·苏克哈特姆（Gaurav Sukhatme）。元级优先级，用于学习具有稀疏特征的操作技能。在Dana Kuli´c、Yoshihiko Nakamura、Oussama Khatib和Gentiane Venture，编辑，2017年实验机器人国际研讨会论文集，第211-222页，2017年。
[238]	诺伯特·克鲁格（Norbert Kr¨uger）、克里斯托弗·盖布（Christopher Geib）、朱斯塔斯·皮亚特（Justus Piater）、罗纳德·彼得里克（Ronald Petrick）、马克·斯蒂德曼（Mark Steedman）、弗洛伦丁·W¨org¨otter）、阿莱·乌德（Ale′s Ude）、塔米姆·阿斯福（Tamim Asfour）、德克·卡夫（Dirk Kraft）。物体-动作复合物：感觉运动过程的基础抽象。机器人与自治系统，59（10）：740-7572011。ISSN 0921-8890。
[239]	J.Kulick、M.Toussant、T.Lang和M.Lopes。主动学习，教授基于关系符号的机器人。《第23届国际人工智能联合会议论文集》，第1451-1457页，2013年。
[240]	约翰·库利克（Johannes Kulick）、斯特凡·奥特（Stefan Otte）和马克·图桑（Marc Toussant）。积极探索联合依赖结构。2015年IEEE机器人与自动化国际会议论文集，第2598-2604页，2015年。
[241]	V.Kumar、E.Todorov和S.Levine。学习局部模型的最优控制：在灵巧操作中的应用。2016年IEEE机器人与自动化国际会议论文集，第378-383页，2016年。
[242]	VCV Kumar、S.Ha和C.K.Liu。使用中继网络扩展运动技能。2018年第二届机器人学习会议记录，第744-756页。
[243]	Andras Gabor Kupcsik、Marc Peter Deisenroth、Jan Peters、Gerhard Neumann等人。基于上下文策略搜索的机器人技能的数据高效泛化。《第27届AAAI人工智能会议论文集》，第1401-1407页，2013年。
[244]	Thanard Kurutach、Aviv Tamar、Ge Yang、Stuart J Russell和Pieter Abbeel。使用因果InfoGAN学习可规划的表示。神经信息处理系统进展31，第8733-8744页，2018年。
[245]	托比亚斯·朗（Tobias Lang）、马克·图桑（Marc Toussant）和克里斯蒂安·科斯汀（Kristian Kersting）。基于模型的强化学习的关系域探索。机器学习研究杂志，13（1）：3725-37682012·Zbl 1433.68360号
[246]	Gilwoo Lee、Zita Marinho、Aaron M Johnson、Geoffrey J Gordon、Siddhartha S Srinivasa和Matthew T Mason。非线性分段光滑混合系统的无监督学习。arXiv预印本arXiv:1710.004402017。
[247]	Michelle A Lee、Yuke Zhu、Krishnan Srinivasan、Parth Shah、Silvio Savarese、Li Fei-Fei、Animesh Garg和Jeannette Bohg。理解视觉和触觉：在接触丰富的任务中，自我监督学习多模态表征。2019年IEEE机器人与自动化国际会议论文集，2019年。
[248]	Enrico Di Lello、Markus Klotzb¨ucher、Tinne De Laet和Herman Bruyninckx。用于工业机器人任务中连续故障检测和识别的贝叶斯时间序列模型。2013年IEEE/RSJ智能机器人和系统国际会议论文集，第5827-5833页，2013年。
[249]	Ian Lenz、Ross A Knepper和Ashutosh Saxena。Deepmpc：学习模型预测控制的深层潜在特征。机器人学：科学与系统XI，2015a。
[250]	伊恩·伦茨（Ian Lenz）、洪拉克·李（Honglak Lee）和阿舒托什·萨克塞纳（Ashutosh Saxena）。检测机器人抓握的深度学习。国际机器人研究杂志，34（4-5）：705-7242015b。
[251]	谢尔盖·莱文和弗拉德伦·科尔顿。指导性策略搜索。《第30届机器学习国际会议论文集》，第1-9页，2013年。
[252]	谢尔盖·莱文、佐兰·波波维奇和弗拉德伦·科尔顿。高斯过程非线性逆强化学习。神经信息处理系统研究进展24，第19-27页，2011年。
[253]	谢尔盖·莱文（Sergey Levine）、诺兰·瓦格纳（Nolan Wagener）和彼得·阿比尔（Pieter Abbeel）。通过有指导的策略搜索学习接触丰富的操作技能。2015年IEEE机器人与自动化国际会议论文集，第156-163页，2015年。
[254]	谢尔盖·莱文（Sergey Levine）、切尔西·芬恩（Chelsea Finn）、特雷弗·达雷尔（Trevor Darrell）和彼得·阿贝尔（Pieter Abbeel）。深度视觉政策的端到端培训。机器学习研究杂志，17（1）：1334-13732016·Zbl 1360.68687号
[255]	A.Levy、G.D.Konidaris、R.Platt和K.Saenko。事后诸葛亮学习多层次结构。2019年国际学习代表大会论文集，2019。
[256]	Y.Li、C.Chen和P.K.Allen。可变形物体类别和姿势的识别。2014年IEEE机器人与自动化国际会议论文集，第5558-5564页，2014年。
[257]	Y.Li、Y.Yue、D.Xu、E.Grinspun和P.K.Allen。使用预测模拟和轨迹优化折叠可变形对象。2015年IEEE/RSJ智能机器人和系统国际会议论文集，第6000-6006页，2015年。
[258]	Y.Li、Y.Wang、Y.Yue、D.Xu、M.Case、S.Chang、E.Grinspun和P.K.Allen。可变形物体操纵的模型驱动前馈预测。IEEE自动化科学与工程学报，15（4）：1621-16382018。
[259]	李银晓、胡秀涵、徐丹飞、岳永浩、艾坦·格林斯彭和彼得·艾伦。机器人熨烫的多传感器表面分析。2016年IEEE机器人与自动化国际会议论文集，第5670-5676页，2016年。
[260]	李云珠（Yunzhu Li）、吴家军（Jiajun Wu）、特德雷克（Russ Tedrake）、特内鲍姆（Joshua B Tenenbaum）和安东尼奥·托拉尔巴（Antonio Torralba）。学习用于操纵刚体、可变形对象和流体的粒子动力学。在2018年国际学习代表大会论文集，2018。
[261]	蒂莫西·利利克拉普（Timothy P Lillicrap）、乔纳森·亨特（Jonathan J Hunt）、亚历山大·普里泽尔（Alexander Pritzel）、尼古拉·赫斯（Nicolas Heess）、汤姆·埃雷斯（Tom Erez）、尤瓦尔·塔萨（Yuval Tassa）、。通过深度强化学习进行持续控制。arXiv预印本arXiv:15090.2971015。
[262]	鲁道夫·利奥提科夫（Rudolf Lioutikov）、格哈德·诺依曼（Gerhard Neumann）、吉尔赫梅·马伊达（Guilherme Maeda）和扬·彼得斯（Jan Peters）。应用于装配任务的概率分段。2015年IEEE-RAS类人机器人国际会议论文集，第533-540页，2015年。
[263]	鲁道夫·利奥提科夫（Rudolf Lioutikov）、吉尔赫梅·马伊达（Guilherme Maeda）、菲利佩·维加（Filipe Veiga）、克里斯蒂安·克斯汀（Kristian Kersting）和扬·彼得斯（Jan Peters）。为运动原语的排序引入概率上下文无关文法。2018年IEEE机器人与自动化国际会议论文集，第1-8页，2018年。
[264]	迈克尔·利特曼（Michael L.Littman）和理查德·萨顿（Richard S Sutton）。状态的预测表示。神经信息处理系统进展14，第1555-15612002页。
[265]	Michael L Littman、Ufuk Topcu、Jie Fu、Charles Isbell、Min Wen和James MacGlashan。通过GLTL.arXiv预打印arXiv:1704.043412017的环境相关任务规范。
[266]	刘宇轩（YuXuan Liu）、阿比谢克·古普塔（Abhishek Gupta）、彼得·阿比埃尔（Pieter Abbeel）和谢尔盖·莱文（Sergey Levine）。模仿观察：通过上下文翻译学习模仿原始视频中的行为。2018年IEEE机器人与自动化国际会议论文集，第1118-1125页。IEEE，2018年。
[267]	曼纽尔·洛佩斯（Manuel Lopes）、弗朗西斯科·梅洛（Francisco Melo）和路易斯·蒙特萨诺（Luis Montesano）。反向强化学习中奖赏估计的主动学习。2009年欧洲机器学习和数据库知识发现联合会议论文集，第31-46页，2009年。
[268]	陆庆凯和塔克·赫尔曼斯。建模抓取类型改进了基于学习的抓取规划。IEEE机器人与自动化快报，4（2）：784-7912019。
[269]	科里·林奇、莫希·坎萨里、特德·肖、维卡什·库马尔、乔纳森·汤普森、谢尔盖·莱文和皮埃尔·塞尔马内特。从游戏中学习潜在计划。第三届机器人学习会议记录，第1113-1132页，2019年。
[270]	玛丽安娜·马德里（Marianna Madry）、猎凤·波（Liefeng Bo）、丹妮卡·克拉吉奇（Danica Kragic）和迪特尔·福克斯（Dieter Fox）。ST-HMP：触觉数据的无监督时空特征学习。2014年IEEE机器人与自动化国际会议论文集，第2262-2269页，2014年。
[271]	Jeffrey Mahler、Florian T Pokorny、Brian Hou、Melrose Roderick、Michael Laskey、Mathieu Aubry、Kai Kohlhoff、Torsten Kr¨oger、James Kuffner和Ken Goldberg。Dex-Net 1.0：基于云的3D对象网络，使用具有相关奖励的多臂强盗模型进行稳健抓取规划。2016年IEEE机器人与自动化国际会议论文集，1957-1964页，2016年。
[272]	Jeffrey Mahler、Jacky Liang、Sherdil Niyaz、Michael Laskey、Richard Doan、Xinyu Liu、Juan Aparicio Ojea和Ken Goldberg。Dex-net 2.0：深入学习使用合成点云和分析抓取指标规划稳健抓取。InRobotics:科学与系统XIII2017。
[273]	谢·曼诺（Shie Mannor）、鲁文·鲁宾斯坦（Reuven Y Rubinstein）和尤海·盖特（Yohai Gat）。快速策略搜索的交叉熵方法。《第20届机器学习国际会议论文集》，第512-519页，2003年。
[274]	罗伯特·马特、塞巴斯蒂安·霍弗和奥利弗·布洛克。一种对铰接物体进行视觉感知的综合方法。2016年IEEE机器人与自动化国际会议论文集，第5091-5097页，2016年。
[275]	Ruben Martinez Cantin、Nando de Freitas、Arnaud Doucet和Jos´e A Castellanos。不确定性下机器人规划和探索的主动策略学习。《机器人学：科学与系统III》，第321-328页，2007年·Zbl 1331.68227号
[276]	M.T.梅森。计算机控制机械手的柔顺性和力控制。IEEE系统、人与控制论汇刊，11（6）：418-4321981。
[277]	F.Meier、E.Theodorou、F.Stulp和S.Schaal。使用基元库进行运动分割。2011年IEEE/RSJ智能机器人和系统国际会议论文集，第3407-3412页，2011年。
[278]	B.Michini和J.P.How。贝叶斯非参数逆强化学习。数据库中的机器内学习和知识发现，第148-163页，2012年。
[279]	H.Min、C.Yi、R.Luo、J.Zhu和S.Bi。开发机器人的负担研究：一项调查。IEEE认知和发展系统汇刊，8（4）：237-2552016。
[280]	Dipendra K Misra、Jaeyong Sung、Kevin Lee和Ashutosh Saxena。告诉我戴夫：自然语言对移动操作指令的上下文敏感基础。InRobotics:科学与系统X，2014年。
[281]	Volodymyr Mnih、Koray Kavukcuoglu、David Silver、Andrei A Rusu、Joel Veness、Marc G Bellemare、Alex Graves、Martin Riedmiller、Andreas K Fidjeland、Georg Ostrovski等，通过深度强化学习实现人本控制。《自然》，518（7540）：529-5332015。
[282]	沃洛德米尔·姆尼、阿德里亚·普格多梅内奇·巴迪亚、梅迪·米尔扎、亚历克斯·格雷夫斯、蒂莫西·利利克拉普、蒂姆·哈雷、大卫·西尔弗和科雷·卡武科格鲁。深度强化学习的异步方法。第33届机器学习国际会议论文集，1928-1937页，2016年。
[283]	Shakir Mohamed和Danilo Jimenez Rezende。本质激励强化学习的变量信息最大化。《神经信息处理系统进展》28，第2125-21332015页。
[284]	路易斯·蒙特萨诺和曼努埃尔·洛佩斯。使用非参数平滑贝塔分布主动学习用于抓取的视觉描述符。机器人与自治系统，60（3）：452-4622012。
[285]	路易斯·蒙特萨诺（Luis Montesano）、曼努埃尔·洛佩斯（Manuel Lopes）、亚历山大·贝纳迪诺（Alexandre Bernardino）和乔斯·桑托斯·维克托（Josée Santos-Victor）。学习对象启示：从感觉-运动协调到模仿。IEEE机器人学报，24（1）：15-262008。
[286]	P.Moylan和B.Anderson。非线性调节器理论和逆最优控制问题。IEEE自动控制汇刊，18（5）：460-4651973·Zbl 0283.49007号
[287]	卡尔·米勒、杰夫·维尼克斯和布拉德利·海耶斯。使用概念约束从演示和技能修复中进行鲁棒机器人学习。2018年IEEE/RSJ智能机器人与系统国际会议论文集，第6029-60362018页。
[288]	J.Mugan和B.Kuipers。在连续环境中自主学习高级状态和动作。IEEE《自主心理发展汇刊》，4（1）：70-862012年。
[289]	A.Myers、C.L.Teo、C.Ferm¨uller和Y.Aloimonos。从几何特征中检测工具零件的经济性。2015年IEEE机器人与自动化国际会议论文集，第1374-1381页，2015年。
[290]	O.Nachum、S.Gu、H.Lee和S.Levine。数据高效的分层强化学习。神经信息处理系统进展31，第3303-331312018页。
[291]	Sanmit Narvekar、Jivko Sinapov、Matteo Leonetti和Peter Stone。为课程学习创建源任务。《第十五届自主代理和多代理系统国际会议论文集》，第566-574页，2016年·Zbl 1527.68188号
[292]	Andrew Y Ng、Daishi Harada和Stuart Russell。报酬转换下的政策不变性：报酬形成的理论与应用。《第16届机器学习国际会议论文集》，第278-287页，1999年。
[293]	Andrew Y Ng、Stuart J Russell等。反向强化学习算法。《第17届机器学习国际会议论文集》，第663-670页，2000年。
[294]	海阮和查尔斯·坎普。自主学习视觉检测操作成功的位置。自主机器人，36（1-2）：137-1522014。
[295]	Duy Nguyen-Toung和Jan Peters。实时机器人控制中模型学习的增量在线稀疏化。神经计算，74（11）：1859-18672011年。ISSN 0925-2312。
[296]	亚历克斯·尼科尔（Alex Nichol）、约书亚·阿基姆（Joshua Achiam）和约翰·舒尔曼（John Schulman）。关于一阶元学习算法。arXiv预印arXiv:1803.029992018。
[297]	S Niekum、S Osentoski、C G Atkeson和A G Barto。铰接运动模型的在线贝叶斯变化点检测。2015年IEEE机器人与自动化国际会议论文集，第1468-1475页，2015a。
[298]	斯科特·尼库姆和安德鲁·巴托。通过Dirichlet过程混合模型进行聚类，以发现可移植的技能。《神经信息处理系统进展》24，第1818-1826页，2011年。
[299]	Scott Niekum、Andrew G Barto和Lee Spector。用于奖励函数搜索的遗传编程。IEEE《自主心理发展汇刊》，2（2）：83-902010年。
[300]	Scott Niekum、Sarah Osentoski、George Konidaris、Sachin Chitta、Bhaskara Marthi和Andrew G Barto。从非结构化演示中学习基于有限状态的表示。国际机器人研究杂志，34（2）：131-1572015b。
[301]	S.Otte、J.Kulick、M.Toussant和O.Brock。基于熵的环境自由度物理探索策略。2014年IEEE/RSJ智能机器人和系统国际会议论文集，第615-622页，2014年。
[302]	皮埃尔·伊夫·奥德耶和弗雷德里克·卡普兰。什么是内在动机？计算方法的类型学。神经机器人学前沿，1（6）：1-14，2009。
[303]	Erhan Oztop、Nina S.Bradley和Michael A.Arbib，《婴儿抓握学习：计算模型》。实验脑研究，158（4）：480-5032004年10月。
[304]	Sindhu Padakandla，Shalabh Bhatnagar等人，《非平稳环境中的强化学习》，arXiv预印本arXiv:1905.039702019年。
[305]	Alexandros Paraschos、Christian Daniel、Jan R Peters和Gerhard Neumann。概率运动基元。神经信息处理系统进展26，第2616-2624页，2013年。
[306]	Daehyung Park、Zackory Erickson、Tapomayukh Bhattacharjee和Charles C.Kemp。机器人操作期间异常检测的多模式执行监控。2016年IEEE机器人与自动化国际会议记录，第407-414页，2016年。
[307]	彼得·帕斯特（Peter Pastor）、海科·霍夫曼（Heiko Hoffmann）、塔米姆·阿斯福（Tamim Asfour）和斯特凡·沙尔（Stefan Schaal）。通过示范学习和推广运动技能。《2009年IEEE国际机器人与自动化会议论文集》，第763-7682009页。
[308]	彼得·帕斯特（Peter Pastor）、姆里纳尔·卡拉克里什南（Mrinal Kalakrishnan）、萨钦·奇塔（Sachin Chitta）、埃文格洛斯·西奥多罗（Evangelos Theodorou）和斯特凡·沙尔（Stefan Schaal）。操作技能学习和任务结果预测。2011年IEEE机器人与自动化国际会议论文集，第3828-3834页，2011a。
[309]	彼得·帕斯特（Peter Pastor）、卢多维克·里格蒂（Ludovic Righetti）、姆里纳尔·卡拉克里什南（Mrinal Kalakrishnan）和斯特凡·沙尔（Stefan Schaal）。基于先前传感器经验的在线运动自适应。2011年IEEE/RSJ智能机器人和系统国际会议论文集，第365-371页，2011年b。
[310]	彼得·帕斯特（Peter Pastor）、姆里纳尔·卡拉克里什南（Mrinal Kalakrishnan）、卢多维克·里格蒂（Ludovic Righetti）和斯特凡·沙尔（Stefan Schaal）。朝向联想技能记忆。2012年IEEE-RAS类人机器人国际会议论文集，第309-315页，2012年。
[311]	Deepak Pathak、Yide Shentu、Dian Chen、Pulkit Agrawal、Trevor Darrell、Sergey Levine和Jitendra Malik。通过交互学习实例分割。2018年InCVPR机器人视觉深度学习基准研讨会。
[312]	迪帕克·帕塔克、迪拉杰·甘地和阿比纳夫·古普塔。通过分歧进行自我监督的探索。第36届机器学习国际会议论文集，2019。
[313]	薛斌鹏（Xue Bin Peng）、马金·安德里科维奇（Marcin Andrychowicz）、沃伊切·扎伦巴（Wojciech Zaremba）和彼得·阿比尔（Pieter Abbeel）。具有动力学随机化的机器人控制的模拟到真实转移。2018年IEEE机器人与自动化国际会议论文集，2018年。
[314]	简·彼得斯和斯特凡·沙尔。自然因素至关重要。神经计算，71（7-9）：1180-11902008。
[315]	简·彼得斯（Jan Peters）、凯萨琳娜·穆林（Katharina M¨ulling）和亚塞米·阿尔顿（Yasemin Altun）。相对熵策略搜索。《第24届AAAI人工智能会议论文集》，第1607-1612页，2010年。
[316]	A.Petrovskaya和O.Khatib。通过触摸对物体进行全局定位。IEEE机器人学报，27（3）：569-5852011。
[317]	佩德罗·皮亚琴察（Pedro Piacenza）、党卫鹏（Weipeng Dang）、艾米丽·汉尼根（Emily Hannigan）、杰里米·埃斯皮纳尔（Jeremy Espinal）、伊克拉姆·侯赛因（Ikram Hussain）、伊奥尼斯·基米西斯（Ioannis。精确接触定位和压痕深度
[318]	Sudeep Pillai、Matthew R.Walter和Seth Teller。从视觉演示中学习关节运动。InRobotics:Science and Systems X，加州伯克利，2014年。
[319]	Lerre Pinto和Abhinav Gupta。超大规模的自我监控：从5万次尝试和700个机器人小时中学习抓取。2016年IEEE机器人与自动化国际会议论文集，第3406-3413页，2016年。
[320]	勒勒·平托、迪拉吉·甘地、韩元丰、永乐公园和阿比纳夫·古普塔。好奇的机器人：通过物理交互学习视觉表现。《2016年欧洲计算机视觉会议记录》，第3-18页。斯普林格，2016年。
[321]	R.Platt、C.Kohler和M.Gualtieri。指示图像映射：学习姿势不变操作策略的抽象。2019年第33届AAAI人工智能会议论文集。
[322]	Robert Platt、Russ Tedrake、Leslie Kaelbling和Tomas Lozano-Perez。假设最大似然观测的信念空间规划。InRobotics:科学与系统VI，2010年。
[323]	Robert Platt、Leslie Kaelbling、Tomas Lozano Perez和Russ Tedrake。非高斯信念空间的有效规划及其在机器人抓取中的应用。2011年机器人研究国际研讨会论文集，第253-269页，2011年。
[324]	Vitchyr Pong、Shixiang Gu、Murtaza Dalal和Sergey Levine。时间差异模型：用于基于模型的控制的无模型深层RL。2018年学习代表国际会议记录，2018年。
[325]	J.罗斯·昆兰（J.Ross Quinlan）。决策树的归纳。机器学习，1（1）：81-1061986。
[326]	Deepak Ramachandran和Eyal Amir。贝叶斯反向强化学习。Urbana，51（61801）：2007年1月1日至4日。
[327]	穆罕默德·阿西夫·拉纳（Muhammad Asif Rana）、穆斯塔法·穆卡丹（Mustafa Mukadam）、斯雷扎·艾哈迈德扎德（S Reza Ahmadzadeh）、索尼娅·切尔诺瓦（Sonia Chernova）和拜伦·布茨（Byron Boo。通过基于推断的计划进行技能概括。2017年InRSS数学模型、算法和人机交互研讨会，2017年。
[328]	P.Ranchod、B.Rosman和G.D.Konidaris。使用反向强化学习进行技能发现的非参数贝叶斯奖励分段。2015年IEEE/RSJ智能机器人和系统国际会议论文集，第471-477页，2015年。
[329]	卡尔·爱德华·拉斯穆森。机器学习中的高斯过程。在机器学习高级讲座中，第63-71页。斯普林格，2004年·Zbl 1120.68436号
[330]	Nathan D.Ratliff、Jan Issac、Daniel Kappler、Stan Birchfield和Dieter Fox。黎曼运动政策。CoRR，abs/1801.028542018年。
[331]	任天宇、董云飞、吴丹和陈肯。基于学习的机器人装配变量柔顺控制。机械与机器人杂志，10（6），2018年9月。
[332]	L.Riano和T.M.McGinnity。通过演化有限状态自动机自动组合和参数化技巧。机器人与自治系统，60（4）：639-6502012。
[333]	马丁·里德米勒（Martin Riedmiller）、罗兰·哈夫纳（Roland Hafner）、托马斯·兰普（Thomas Lampe）、迈克尔·诺伊内特（Michael Neunert）、乔纳斯·德拉夫（Jonas Degrave）、汤姆·范·德维勒（Tom Van de Wiele）、沃洛德米尔·姆尼（Volodymyr Mnih）、尼古拉·海斯（。《第35届国际机器学习大会论文集》，第4344-4353页，2018年。
[334]	A.Rodriguez、D.Bourne、M.Mason、G.F.Rossano和J.Wang。程序集中的故障检测：强制签名分析。2010年IEEE自动化科学与工程国际会议论文集，第210-215页，2010年。
[335]	D.Rodriguez和S.Behnke。通过潜在空间非刚性配准传递基于类别的功能性抓取技能。IEEE Robotics and Automation Letters，3（3）：2662-26692018年。
[336]	本杰明·罗斯曼（Benjamin Rosman）和苏布拉曼尼亚·拉马莫西（Subramanian Ramamoorthy）。学习对象之间的空间关系。国际机器人研究杂志，30（11）：1328-13422011。
[337]	圣伊凡·罗斯、杰弗里·戈登和德鲁·巴涅尔。将模仿学习和结构化预测减少为无更新的在线学习。《第14届国际人工智能与统计会议论文集》，第627-635页，2011年。
[338]	斯图亚特·罗素（Stuart J.Russell）和彼得·诺维格（Peter Norvig）。人工智能：现代方法。培生教育，2003年第2版·Zbl 0835.68093号
[339]	Andrei A Rusu、Neil C Rabinowitz、Guillaume Desjardins、Hubert Soyer、James Kirkpatrick、Koray Kavukcuoglu、Razvan Pascanu和Raia Hadsell。渐进式神经网络。arXiv预印arXiv:1606.046712016。
[340]	多尔萨·萨迪格（Dorsa Sadigh）、埃里克·S·金（Eric S Kim）、塞缪尔·库根（Samuel Coogan）、桑卡·萨斯特里（S Shankar Sastry）和桑吉特·塞西娅（Sanjit A Seshia）。一种基于学习的方法，用于控制线性时序逻辑规范的马尔可夫决策过程的综合。《第53届决策与控制年度会议记录》，第1091-1096页，2014年。
[341]	埃罗尔·萨欣（Erol Sahin）、玛亚·卡克马克（Maya Cakmak）、穆罕默德·多加（Mehmet R.Dogar）、埃姆雷·乌古尔（Emre Ugur）和戈克图克·乌科鲁克（Gokturk Ucoluk）。负担得起或不负担得起：基于负担的机器人控制的负担的新形式化。适应性行为，15（4）：447-4722007。
[342]	阿尔瓦罗·桑切斯·冈萨雷斯（Alvaro Sanchez-Gonzalez）、尼古拉·海斯（Nicolas Heess）、约斯特·托比亚斯·斯普林伯格（Jost Tobias Springenberg）、乔什·梅雷尔（Josh Merel）、马丁·里德米勒（Martin Riedmiller）、雷亚·哈德塞尔（。图形网络作为推理和控制的可学习物理引擎。第35届机器学习国际会议论文集，第4470-4479页，2018年。
[343]	特伦斯·D·桑格。使用神经网络学习控制机器人操作手的任务难度逐渐增加。IEEE机器人与自动化汇刊，10（3）：323-3331994。
[344]	Akanksha Saran、Branka Lakic、Srinjoy Majumdar、Juergen Hess和Scott Niekum。视觉故障检测的视点选择。2017年IEEE/RSJ智能机器人和系统国际会议论文集，第5437-5444页，2017年。
[345]	Ashutosh Saxena、Justin Driemeyer、Justin-Kearns、Chioma Osondu和Andrew Y.Ng。学习利用视觉抓住新颖物体。编辑Oussama Khatib、Vijay Kumar和Daniela Rus，《2008年实验机器人国际研讨会论文集》，第33-42页，2008年。
[346]	斯特凡·沙尔。模仿学习是实现人形机器人的途径吗？认知科学趋势，3（6）：233-2421999。
[347]	斯特凡·沙尔。动态运动原语——用于人类和仿人机器人运动控制的框架。动物和机器的自适应运动，第261-280页。斯普林格，2006年。
[348]	Stefan Schaal、Jan Peters、Jun Nakanishi和Auke Ijspeert。学习动作原语。2005年机器人研究国际研讨会论文集，第561-572页。斯普林格，2005年。
[349]	Tom Schaul、Daniel Horgan、Karol Gregor和David Silver。通用值函数逼近器。《第32届机器学习国际会议论文集》，第1312-1320页，2015年。
[350]	C.Schenck、J.Sinapov和A.Stoytchev。接下来是哪个物体？由人形机器人完成接地订单。控制论与信息技术，12（3）：5-162012。
[351]	康纳·申克和迪特尔·福克斯。使用完全卷积网络感知和推理液体。国际机器人研究杂志，37（4-5）：452-4712018a。
[352]	康纳·申克和迪特尔·福克斯。SPNets：深层神经网络的可微流体动力学。《机器人学习第二届会议论文集》，机器学习研究进展第87卷，第317-3352018b页。
[353]	康纳·申克和亚历山大·斯托伊切夫。对象配对和匹配任务：走向机器人的蒙台梭利测试。2012年InHumanoids机器人发展研讨会，2012年。
[354]	康纳·申克（Connor Schenck）、吉夫科·西纳波夫（Jivko Sinapov）、大卫·约翰斯顿（David Johnston）和亚历山大·斯托伊切夫（Alexander Stoytchev）。哪个物体最适合？用仿人机器人解决矩阵完成任务。IEEE《自主心理发展汇刊》，6（3）：226-2402014年。
[355]	康纳·申克（Connor Schenck）、乔纳森·汤普森（Jonathan Tompson）、谢尔盖·莱文（Sergey Levine）和迪特尔·福克斯（Dieter Fox）。学习颗粒介质的机器人操作。《机器人学习第一届会议记录》，第239-248页，2017年。
[356]	C.Schlagenhauf、D.Bauer、K.Chang、J.P.King、D.Moro、S.Coros和N.Pollard。控制肌腱驱动的软泡沫机器人手。2018年IEEE-RAS类人机器人国际会议论文集，第1-7页，2018年。
[357]	Tanner Schmidt、Richard A.Newcombe和Dieter Fox。DART：使用消费者深度摄像头进行密集的实时跟踪。自主机器人，39（3）：239-2582015。
[358]	乔纳森·舒尔茨和迈克·斯蒂尔曼。结合运动规划和优化，实现柔性机器人操作。《2010年IEEE-RAS仿人机器人国际会议论文集》，第80-85页，2010年。
[359]	乔纳森·舒尔茨（Jonathan Scholz）、马丁·莱文（Martin Levihn）、查尔斯·伊斯贝尔（Charles Isbell）和大卫·温盖特（David Wingate）。面向对象MDP之前的基于物理的模型。《第31届机器学习国际会议论文集》，第1089-1097页，2014年。
[360]	约翰·舒尔曼（John Schulman）、乔纳森·何（Jonathan Ho）、卡梅隆·李（Cameron Lee）和彼得·阿比尔（Pieter Abbeel）。通过使用非刚性注册从演示中学习。2013年机器人研究国际研讨会论文集，第339-354页。施普林格，2013年。
[361]	约翰·舒尔曼（John Schulman）、谢尔盖·莱文（Sergey Levine）、彼得·阿比尔（Pieter Abbeel）、迈克尔·乔丹（Michael Jordan）和菲利普·莫里茨（Philipp Moritz）。信托区域政策优化。《第32届机器学习国际会议论文集》，第1889-1897页，2015年。
[362]	约翰·舒尔曼（John Schulman）、菲利普·沃尔斯基（Filip Wolski）、普拉福拉·达里瓦尔（Prafulla Dhariwal）、亚历克·拉德福德（Alec Radford）和奥列格·克里莫夫（Oleg Klimov）。近端策略优化算法。arXiv预印本arXiv:11707.063472017。
[363]	Max Schwarz、Anton Milan、Arul Selvam Periyasamy和Sven Behnke。用于杂波中自主操作的RGB-D对象检测和语义分割。国际机器人研究杂志，37（4-5）：437-4512018。
[364]	Daniel Seita、Nawid Jamali、Michael Laskey、Ron Berenstein、Ajay Kumar Tanwani、Prakash Baskaran、Soshi Iba、John Canny和Ken Goldberg。机器人床制作：使用变形织物深度传感进行深度转移学习。rXiv预印本arXiv:1809.098102018。
[365]	Pierre Sermanet、Corey Lynch、Yevgen Chebotar、Jasmine Hsu、Eric Jang、Stefan Schaal、Sergey Levine和Google Brain。时间对比网络：从视频中进行自我监督学习。2018年IEEE机器人与自动化国际会议论文集，第1134-1141页，2018年。
[366]	斯图亚特·C·夏皮罗和海瑟姆·O·伊斯梅尔。通过集成推理锚定在扎根的分层体系结构中。机器人与自治系统，43（2）：97-1082003。
[367]	蒂埃里·西蒙（Thierry Sim´eon）、让·保尔·劳蒙德（Jean-Paul Laumond）、胡安·科尔特斯（Juan Cort´es）和安妮斯·萨巴尼（Anis Sahbani）。使用概率路线图进行操纵规划。国际机器人研究杂志，23（7-8）：729-7462004。
[368]	J.Sinapov、V.Sukhoy、R.Sahai和A.Stoytchev。仿人机器人的表面振动触觉识别和分类。IEEE机器人学报，27（3）：488-4972011a。
[369]	吉夫科·西纳波夫（Jivko Sinapov）、泰勒·伯奎斯特（Taylor Bergquist）、康纳·申克（Connor Schenck）、乌戈纳·奥希里（Ugonna Ohiri）、谢恩·格里菲斯（Shane Griffith）和亚历山大·斯托伊切夫（Alexander。使用本体感受和听觉反馈的交互式物体识别。国际机器人研究杂志，30（10）：1250-12622011b。
[370]	吉夫科·西纳波夫（Jivko Sinapov）、康诺·申克（Connor Schenck）、克里克·斯特利（Kerrick Staley）、弗拉基米尔·苏霍伊（Vladimir Sukhoy）和亚历山大·斯托伊切夫（Alexander Stoytchev）。行为交互中的基本语义类别：用100个对象进行实验。机器人与自治系统，62（5）：632-6452014。
[371]	萨廷德·辛格、迈克尔·R·詹姆斯和马修·R·鲁达里。预测状态表示：动力学系统建模的新理论。《第20届国际人工智能不确定性会议论文集》，第512-519页，2004年。
[372]	D.Song、C.H.Ek、K.Huebner和D.Kragic。机器人抓取中贝叶斯网络结构学习的多元离散化。2011年IEEE机器人与自动化国际会议论文集，第1944-1950页，2011年。
[373]	乔纳森·索格（Jonathan Sorg）、理查德·刘易斯（Richard L Lewis）和萨汀德·辛格（Satinder P Singh）。通过在线梯度提升奖励设计。神经信息处理系统进展23，第2190-2198页，2010a。
[374]	乔纳森·索格（Jonathan Sorg）、萨汀德·辛格（Satinder P Singh）和理查德·刘易斯（Richard L Lewis）。内部奖励缓解了代理人的局限性。第27届国际机器学习会议论文集，第1007-1014页，2010b。
[375]	Mark W.Spong、Seth Andrew Hutchinson和M.Vidyasagar。机器人建模和控制。威利，2005年。
[376]	Aravind Srinivas、Allan Jabri、Pieter Abbeel、Sergey Levine和Chelsea Finn。通用规划网络：学习视觉运动控制的通用表示法。《第35届国际机器学习大会论文集》，第4732-4741页，2018年。
[377]	布拉德利·C·斯塔迪（Bradly C Stadie）、彼得·阿比尔（Pieter Abbeel）和伊利亚·萨茨克弗（Ilya Sutskever）。第三人称模仿学习。2017年学习代表国际会议记录，2017年。
[378]	Kenneth O Stanley、David B D’Ambrosio和Jason Gauci。用于进化大规模神经网络的超立方体编码。人工生命，15（2）：185-2122009。
[379]	Mike Stilman、Koichi Nishiwaki和Satoshi Kagami。学习全身操纵的对象模型。2008年IEEE-RAS类人机器人国际会议论文集，第174-179页，2008年。
[380]	Johannes A.Stork、Carl Henrik Ek、Yasemin Bekiroglu和Danica Kragic。学习手持式操作的预测状态表示。2015年IEEE机器人与自动化国际会议论文集，第3207-3214页，2015年。
[381]	亚历山大·斯托伊切夫（Alexander Stoytchev）。工具供应的行为全面表示。2005年IEEE机器人与自动化国际会议论文集，第3060-3065页，2005年。
[382]	F.Stramandinoli、V.Tikhanoff、U.Pattacini和F.Nori。异方差回归和主动学习，用于建模类人启示。IEEE认知与发展系统汇刊，10（2）：455-4682018。
[383]	Alexander L Strehl、Lihong Li、Eric Wiewiora、John Langford和Michael L Littman。PAC无模型强化学习。第23届国际机器学习会议记录，第881-8882006页。
[384]	J.St¨uckler和S.Behnke。拟人服务机器人的自适应工具使用策略。2014年IEEE-RAS类人机器人国际会议论文集，第755-760页，2014年。
[385]	J–urgen Sturm、Advait Jain、Cyrill Stachniss、Charles C Kemp和Wolfram Burgard。根据经验操作铰接对象。2010年IEEE/RSJ智能机器人和系统国际会议论文集，第2739-2744页，2010年。
[386]	J¨urgen Sturm、Cyrill Stachniss和Wolfram Burgard。用于学习铰接对象运动模型的概率框架。《人工智能研究杂志》，41（2）：477-5262011·Zbl 1234.68383号
[387]	Zhe Su、Karol Hausman、Yevgen Chebotar、Artem Molchanov、Gerald E Loeb、Gaurav S Sukhatme和Stefan Schaal。使用仿生触觉传感器进行握力控制的力估计和打滑检测/分类。2015年IEEE-RAS类人机器人国际会议论文集，第297-303页，2015年。
[388]	Zhe Su、Oliver Kroemer、Gerald E.Loeb、Gaurav S.Sukhatme和Stefan Schaal。学习使用多模式触觉信号在感觉运动原语之间切换。InFrom Animals to Animats，第170-182页，2016。
[389]	弗拉基米尔·苏霍伊（Vladimir Sukhoy）、维塞林·乔治耶夫（Veselin Georgiev）、托德·威格特（Todd Wegter）、拉米·斯威登（Ramy Sweidan）和亚历山大·斯托伊切夫（Alexander Stoytchev）。学习在读卡器中滑动磁卡。2012年IEEE机器人与自动化国际会议论文集，第2398-2404页，2012年。
[390]	巴拉库马尔·桑达拉林加姆（Balakumar Sundalingam）、亚历山大·兰伯特（Alexander Lambert）、安库尔·汉达（Ankur Handa）、拜伦·布茨（Byron Boots）、塔克·赫尔曼斯（Tucker Hermans）、斯坦·比奇菲尔德（Stan Birchfield）、内森·拉特利夫（。通过机器人交互实现触觉力估计的鲁棒学习。2019年IEEE机器人与自动化国际会议论文集，2019年。
[391]	宋杰英、金世贤和萨克塞纳。Robobarista：基于对象部件的3D点云中众包操作轨迹的传输。2015年机器人研究国际研讨会论文集，2015年。
[392]	宋杰英（Jaeyong Sung）、伊恩·伦茨（Ian Lenz）和阿舒托什·萨克塞纳（Ashutosh Saxena）。深度多模式嵌入：使用点云、语言和轨迹操纵新对象。2017年IEEE机器人与自动化国际会议论文集，第2794-2801页，2017a。
[393]	Jaeyong Sung、J.Kenneth Salisbury和Ashutosh Saxena。学习为部分可观察的任务呈现触觉反馈。2017年IEEE机器人与自动化国际会议论文集，第2802-28092017b页。
[394]	Richard S Sutton和Andrew G Barto。强化学习：简介。麻省理工学院出版社，1998年·Zbl 1407.68009号
[395]	理查德·萨顿（Richard S Sutton）、大卫·A·麦卡利斯特（David A McAllester）、萨丁德·辛格（Satinder P Singh）和伊莎·曼苏尔（Yishay Mansour）。函数逼近强化学习的策略梯度方法。神经信息处理系统进展13，第1057-1063页，2000年。
[396]	R.S.Sutton、D.Precup和S.P.Singh。MDP和半MDP之间：强化学习中的时间抽象框架。人工智能，112（1-2）：181-211999·Zbl 0996.68151号
[397]	麦克斯韦尔·斯维特利克（Maxwell Svetlik）、马泰奥·列奥内蒂（Matteo Leonetti）、吉夫科·辛纳波夫（Jivko Sinapov）、里希·沙阿（Rishi Shah）、尼克·沃克（Nick Walker）和彼得·斯通（Peter Stone）。用于强化学习代理的自动课程图生成。《第31届AAAI人工智能会议记录》，第2590-2596页，2017年。
[398]	Aviv Tamar、Yi Wu、Garrett Thomas、Sergey Levine和Pieter Abbeel。价值迭代网络。《神经信息处理系统进展》29，第2154-2162页，2016年。
[399]	尤瓦尔·塔萨（Yuval Tassa）、尼古拉·曼萨德（Nicolas Mansard）和埃莫·托多罗夫（Emo Todorov）。控制限制差分动态编程。2014年IEEE机器人与自动化国际会议论文集，第1168-1175页，2014年。
[400]	马修·泰勒、彼得·斯通和刘亚欣。通过任务间映射进行时间差分学习的转移学习。机器学习研究杂志，8（1）：2125-21672007·兹比尔1222.68317
[401]	Matthew E Taylor、Halit Bener Suay和Sonia Chernova。将强化学习与人类不同能力的展示相结合。《第十届自主代理和多代理系统国际会议论文集》，第617-624页，2011年。
[402]	Russ Tedrake、Ian R Manchester、Mark Tobenkin和John W Roberts。LQR-树：通过平方和验证反馈运动规划。《国际机器人研究杂志》，29（8）：1038-10522010。
[403]	斯蒂芬妮·特列克斯、托马斯·科勒、史蒂文·迪克森、马修·沃尔特、阿希斯·戈帕尔·班纳吉、赛斯·特勒和尼古拉斯·罗伊。了解机器人导航和移动操作的自然语言命令。《第25届AAAI人工智能会议论文集》，第1507-1514页，2011年。
[404]	安德烈亚斯·丹·帕斯（Andreas ten Pas）、马库斯·瓜蒂埃里（Marcus Gualtieri）、凯特·萨恩科（Kate Saenko）和罗伯特·普拉特（Robert Platt）。掌握点云中的姿势检测。国际机器人研究杂志，36（13-14）：1455-14732017。
[405]	莫里茨·特诺思（Moritz Tenorth）、斯特凡·普罗凡特（Stefan Profanter）、费伦斯·巴林特·本泽迪（Ferenc Balint-Benczedi）和迈克尔·贝茨（Michael Beetz）。分解日常使用对象的CAD模型并推理其功能部分。2013年IEEE/RSJ智能机器人和系统国际会议论文集，第5943-5949页，2013年。
[406]	Brijen Thananjeyan、Ashwin Balakrishna、Ugo Rosolia、Felix Li、Rowan McAllister、Joseph E Gonzalez、Sergey Levine、Francesco Borrelli和Ken Goldberg。通过验证的安全增广值估计扩展深度模型预测控制。arXiv预印本arXiv:1905.13402019。
[407]	埃文格洛斯·西奥多罗（Evangelos Theodorou）、乔纳斯·布赫利（Jonas Buchli）和斯特凡·沙尔（Stefan Schaal）。强化学习的广义路径积分控制方法。机器学习研究杂志，11（1）：3137-31812010·Zbl 1242.68254号
[408]	菲利普·托马斯和艾玛·布伦斯基。用于强化学习的数据高效的非政策政策评估。《第33届国际机器学习大会论文集》，第2139-21482016页。
[409]	菲利普·托马斯（Philip Thomas）、乔治·塞奥查卢斯（Georgios Theocharous）和穆罕默德·加瓦姆扎德（Mohammad Ghavamzadeh）。高信心政策改善。第32届机器学习国际会议论文集，第2380-2388页，2015a。
[410]	菲利普·托马斯（Philip S Thomas）、乔治·塞奥查卢斯（Georgios Theocharous）和穆罕默德·加瓦姆扎德（Mohammad Ghavamzadeh）。高度自信的非政策评估。第29届AAAI人工智能会议记录，3000-30062015b页。
[411]	Jesse Thomason、Jivko Sinapov、Maxwell Svetlik、Peter Stone和Raymond J Mooney。通过玩“I Spy”学习基于多模态的语言语义。《第25届国际人工智能联合会议记录》，第3477-3483页，2016年。
[412]	乔什·托宾（Josh Tobin）、雷切尔·方（Rachel Fong）、亚历克斯·雷（Alex Ray）、乔纳斯·施奈德（Jonas Schneider）、沃伊西奇·扎伦巴（Wojciech Zaremba）和彼得·阿比尔（Pieter Abbeel）。将深度神经网络从模拟传输到现实世界的域随机化。2017年IEEE/RSJ智能机器人和系统国际会议论文集，2017年第23-30页。
[413]	Faraz Torabi、Garrett Warnell和Peter Stone。观察到的行为克隆。《第28届国际人工智能联合会议论文集》，第4950-49572018页。
[414]	马克·图桑（Marc Toussaint）、凯西·艾伦（Kelsey Allen）、凯文·史密斯（Kevin A.Smith）和约书亚·特南鲍姆（Joshua B.Tenenbaum）。用于工具使用和操作计划的不同物理和稳定模式。InRobotics:科学与系统XIV，2018年。
[415]	Jonathan Tremblay、Thang To、Balakumar Sundalingam、Yu Xiang、Dieter Fox和Stanley T.Birchfield。用于家用物体语义机器人抓取的深度物体姿态估计。2018年第二届机器人学习会议记录，第306-316页。
[416]	君士坦丁·齐科斯（Constantine J.Tsikos）和鲁泽娜·巴伊西（Ruzena Bajcsy）。通过操纵进行分割。IEEE机器人与自动化汇刊，7（3）：306-3191991年。
[417]	E.Ugur和J.Piater。对象类别、动作效果和逻辑规则的自下而上学习：从持续的操作探索到符号规划。2015年IEEE机器人与自动化国际会议论文集，第2627-2633页，2015年。
[418]	E.Ugur和J.Piater。使用多步骤交互体验优化发现的符号。2015年IEEE-RAS类人机器人国际会议论文集，第1007-1012页，2015年。
[419]	Emre Ugur、Erol Sahin和Erhan–Oztop。使用学习的启示预测未来对象状态。第24届计算机与信息科学国际研讨会论文集，第415-419页，2009年。
[420]	埃姆雷·乌古尔（Emre Ugur）、埃尔汉·奥斯托普（Erhan¨Oztop）和埃罗尔·萨欣（Erol Sahin）。超越对启示的感知：学习如何通过行为参数实现启示。2011年IEEE机器人与自动化国际会议论文集，第4768-4773页，2011年。
[421]	Jur Van Den Berg、Stephen Miller、Daniel Duckworth、Hu Hu、Andrew Wan、XiaoYu Fu、Ken Goldberg和Pieter Abbeel。机器人通过从人类引导的演示中进行迭代学习来完成手术任务的超人表现。2010年IEEE机器人与自动化国际会议论文集，第2074-2081页，2010年。
[422]	Herke van Hoof、Oliver Kroemer和Jan Peters。杂乱环境中对象的概率分割和目标探索。IEEE机器人学报，30（5）：1198-12092014。
[423]	H.van Seijen、S.Whiteson和L.J.H.M Kester。强化学习中的有效抽象选择。计算智能，30（4）：657-6992013·Zbl 1425.68355号
[424]	雅各布·瓦利（Jacob Varley）、大卫·沃金斯·沃尔斯（David Watkins-Volls）和彼得·艾伦（Peter K.Allen）。用于抓取和操作的多模式几何学习。2019年IEEE机器人与自动化国际会议论文集，2019年。
[425]	F.Veiga、J.Peters和T.Hermans。利用滑移预测实现新型物体的抓握稳定性。IEEE触觉学报，11（4）：531-5422018。
[426]	F.F.Veiga、H.van Hoof、J.Peters和T.Hermans。通过学习预测触觉滑动来稳定新物体。《2015年IEEE/RSJ智能机器人与系统国际会议论文集》，第5065-50722015页。
[427]	A.Vezhnevets、S.Osindero、T.Schaul、N.Heess、M.Jaderberg、D.Silver和K.Kavukcuoglu。用于分层强化学习的FeUdal网络。第34届机器学习国际会议论文集，第3540-3549页，2017年。
[428]	N.A.Vien和M.Toussant。通过顺序子模块优化实现基于触摸的POMDP操作。2015年IEEE-RAS类人机器人国际会议论文集，第407-413页，2015a。
[429]	N.A.Vien和M.Toussant。通过轨迹优化操作POMDP。2015 IEEE/RSJ智能机器人和系统国际会议论文集，第242-249页，2015b。
[430]	Sethu Vijayakumar和Stefan Schaal。局部加权投影回归：用于高维空间增量实时学习的AnO（n）算法。《第17届机器学习国际会议论文集》，第288-293页，2000年。
[431]	弗朗西斯科·维耶纳、亚塞米·贝基洛格鲁、克里斯蒂安·史密斯、伊安妮斯·卡拉伊安尼迪斯和达尼卡·克拉吉奇。通过高斯过程回归预测滑移和学习操纵启示。2013年IEEE-RAS类人机器人国际会议论文集，第462-468页，2013年。
[432]	奥斯汀·S·王和奥利弗·克罗默。使用多模式状态转换模型和恢复启发式学习鲁棒操作策略。2019年IEEE机器人与自动化国际会议论文集，2019年。
[433]	何旺（He Wang）、斯林塔·斯里达尔（Srinath Sridhar）、黄敬伟（Jingwei Huang）、朱利安·瓦伦丁（Julien Valentin）、宋舒然（Shuran Song）和列奥尼达斯·吉巴斯。归一化对象坐标空间，用于类别级6d对象姿势和大小估计。2019年计算机视觉与模式识别大会论文集，2019。
[434]	Zi Wang、Caelan Reed Garrett、Leslie Pack Kaelbling和Tomas Lozano Perez。任务和动作规划的主动模型学习和多样动作采样。2018年IEEE/RSJ智能机器人和系统国际会议论文集，第4107-4114页，2018年。
[435]	王子育、维克托·巴普斯特、尼古拉斯·海斯、沃洛德米尔·姆尼、雷米·穆诺斯、科雷·卡武科格鲁和南多·德弗里塔斯。示例高效的演员评论与经验重播。2017年学习代表国际会议记录，2017年。
[436]	Christopher JCH Watkins和Peter Dayan。Q学习。机器学习，8（3-4）：279-2921992·Zbl 0773.68062号
[437]	J.Weng、J.McClelland、A.Pentland、O.Sporns、I.Stockman、M.Sur和E.Thelen。机器人和动物的自主智力发展。科学，291（5504）：599-6002001。
[438]	罗纳德·威廉姆斯。用于连接主义强化学习的简单统计梯度跟随算法。机器学习，8（3-4）：229-2561992·Zbl 0772.68076号
[439]	Florentin W¨orgotter、Eren Erdal Aksoy、Norbert Kruger、Justus Piater、Ales Ude和Minija Tamosiunaite。基于手-物关系的简单操作行为本体。IEEE《自主精神发育学报》，5（2）：117-1342013年。ISSN 1943-0604。
[440]	吴嘉君、伊尔德里姆、林俊杰、弗里曼和特南鲍姆。伽利略：通过将物理引擎与深度学习相结合来感知物理对象的属性。《神经信息处理系统进展》28，第127-135页，2015年。
[441]	吴嘉君、林俊杰、张宏毅、特南鲍姆和弗里曼。物理101：从未标记的视频中学习物理对象属性。2016年英国机器视觉会议论文集，2016年。
[442]	吴玉华，埃尔曼·曼西莫夫，罗杰·B·格罗斯，廖顺，巴吉米。使用克罗内克因子近似的深度强化学习的可伸缩信赖域方法。神经信息处理系统进展30，第5279-5288页，2017年。
[443]	马库斯·沃尔夫迈耶（Markus Wulfmeier）、彼得·昂德鲁斯卡（Peter Ondruska）和英格马尔·波斯纳（Ingmar Posner）。最大熵深度逆强化学习。arXiv预印本arXiv:1507.048882015。
[444]	M.W–uthrich、J.Bohg、D.Kappler、C.Pfreundt和S.Schaal。坐标粒子滤波器——一种用于高维系统的新型粒子滤波器。2015年IEEE机器人与自动化国际会议论文集，第2454-2461页，2015年。
[445]	谢安妮（Annie Xie）、阿维·辛格（Avi Singh）、谢尔盖·莱文（Sergey Levine）和切尔西·芬恩（Chelsea Finn）。视觉运动学习和规划的目标推理很少。《机器人学习第二届会议论文集》，机器学习研究进展第87卷，第40-52页，2018年。
[446]	徐丹飞、苏拉杰·奈尔、朱宇科、高朱利安、阿尼梅斯·加格、李菲菲和西尔维奥·萨瓦雷斯。神经任务编程：学习跨层次任务的泛化。2018年IEEE机器人与自动化国际会议论文集，第1-8页，2018a。
[447]	徐天兵、刘强、赵亮、徐伟和彭健。通过元策略梯度学习探索。第35届机器学习国际会议论文集，第5463-54722018b页。
[448]	A.Yamaguchi和C.G.Atkeson。机器人浇注的液体和颗粒流立体视觉。2016年IEEE-RAS类人机器人国际会议论文集，第1173-1180页，2016a。
[449]	A.Yamaguchi和C.G.Atkeson。结合手指视觉和光学触觉传感：减少和处理切割蔬菜时的错误。2016年IEEERAS类人机器人国际会议论文集，第1045-1051页，2016b。
[450]	A.Yamaguchi和C.G.Atkeson。使用手指视觉实现触觉行为。2017年IEEE-RAS类人机器人国际会议论文集，第241-248页，2017年。
[451]	山口明彦（Akihiko Yamaguchi）和克里斯托弗·阿特克森（Christopher G Atkeson）。具有时间分解动力学的微分动态规划。《2015年IEEE-RAS仿人机器人国际会议论文集》，第696-7032015页。
[452]	严新晨、徐嘉敏、穆罕默德·坎萨里、白云飞、阿卡纳塔·巴沙克、阿比纳夫·古普塔、詹姆斯·戴维森和洪拉克·李。通过深度几何感知三维表示学习6自由度抓取交互。2018年IEEE机器人与自动化国际会议论文集，第1-9页，2018年。
[453]	杨叶洲、李毅、科妮莉亚·费姆勒和伊安妮斯·阿洛伊蒙诺。机器人通过“观看”来自万维网的无约束视频来学习操纵动作计划。《第29届AAAI人工智能会议记录》，第3686-3692页，2015年。
[454]	田晔、王小龙、詹姆斯·戴维森和阿比纳夫·古普塔。可解释的直观物理模型。2018年欧洲计算机视觉会议记录，第89-105页，2018年。
[455]	于宽婷（Kuan Ting Yu）、玛丽亚·鲍泽（Maria Bauz´a）、尼玛·法泽利（Nima Fazeli）和阿尔贝托·罗德里格斯（Alberto Rodriguez）。有一百多万种方式需要推动。平面推动的高保真实验数据集。2016年IEEE/RSJ智能机器人和系统国际会议论文集，第30-37页，2016年。
[456]	余天河（Tianhe Yu）、彼得·阿比尔（Pieter Abbeel）、谢尔盖·莱文（Sergey Levine）和切尔西·芬恩（Chelsea Finn）。复合视觉运动任务的一拍分层模仿学习。arXiv预印本arXiv:1810.110432018。
[457]	曾震、周哲明、隋志强和詹金斯。语义机器人编程，用于在杂乱场景中进行目标定向操作。2018年IEEE机器人与自动化国际会议论文集，第7462-7469页，2018年。
[458]	张方义，J¨urgen Leitner，Michael Milford，Ben Upcroft和Peter Corke。机器人运动控制的基于视觉的深度强化学习。rXiv预印本arXiv:1511.037912015。
[459]	张天豪、佐伊·麦卡锡、欧文·乔尔、丹尼斯·李、陈曦、肯·戈德伯格和彼得·阿比尔。虚拟现实遥操作中复杂操作任务的深度模拟学习。2018年IEEE机器人与自动化国际会议论文集，第1-8页，2018年。
[460]	周克敏、约翰·康斯托克·道尔和基思·格洛弗。鲁棒最优控制。普伦蒂斯·霍尔，1996年·Zbl 0999.49500
[461]	周益伦、本杰明·伯奇菲尔和乔治·科尼达利斯。表现、学习和控制复杂对象交互。自动机器人，42（7）：1355-13672018。
[462]	布莱恩·齐巴特（Brian D.Ziebart）。用最大因果熵原理建模有目的的适应性行为。卡内基梅隆大学博士论文，2010年。
[463]	Brian D Ziebart、Andrew L Maas、J Andrew Bagnell和Anind K Dey。最大熵反向强化学习。《第22届AAAI人工智能会议论文集》，第1433-1438页，2008年·Zbl 1364.62081号
[464]	朱利安·齐默（Julian Zimmer）、苔丝·海莱布雷克斯（Tess Hellebrekers）、塔米姆·阿斯福（Tamim Asfour）、卡梅尔·马吉迪（Carmel Majidi）和奥利弗·克罗默（Oliver Kroemer）。使用软感应皮肤和形状记忆驱动抓取器预测抓取成功。在2019年IEEE/RSJ智能机器人与系统国际会议论文集，第7120-7127页，2019年11月。

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
输出	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑不
美国广播公司*	右通配符
”ab c公司”	短语
(ab c公司)	圆括号

示例

字段

操作员

机器人操作学习综述：挑战、表征和算法。（英语） Zbl 07370547号

MSC公司：

关键词：

软件：

参考文献：

示例

字段

操作员

机器人操作学习综述：挑战、表征和算法。 （英语） Zbl 07370547号

MSC公司：

关键词：

软件：

参考文献：

机器人操作学习综述：挑战、表征和算法。（英语） Zbl 07370547号