{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{-“日期-部件”：[[2024,9,12]，“日期-时间”：“2024-09-12T22:12:50Z”，“时间戳”：1726179170448}，“引用-计数”：68，“发布者”：“爱思唯尔BV”，“许可证”：[{“开始”：{“日期-零件”：[[2019,2,1]]，“日期时间”：”2019-02-01T00:00:00Z“，”timestamp“：1548979200000}，”content-version“：“tdm”，“delay-in-days”：0，“URL”：“https:\\/www.elsevier.com/tdm\/userlicense\/1.0\/”}，{“start”：{“date-parts”：[[2018,11,21]]，“date-time”：“2018-11-21T00:00:00Z”，“timestamp”：1542758400000}，“content-version”：“vor”，“delay-in-days”：“0，”URL“http://creativecommons.org\/license\/by\/4.0\/“}]，”出资人“：[{”名称“：“新能源和工业技术发展组织（NEDO），日本新能源和产业技术发展组织，日本”}]，“内容域”：{“域”：[“elsevier.com”，“sciencedirect.com”]，“交叉标记限制”：true}，“short-container-title”：[”机器人和自治系统“]，“published-print”：{“date-parts”用法：[[2019,2]]}，“DOI”：“10.1016\/j.robot.2018.11.004”，“type”：“journal-article”，“created”：{“date-parts”：[[2018,11,19]]，“date-time”：“2018-11-19T12:03:26Z”，“timestamp”：154262900000}，”page“：”72-83“，”update-policy“http://dx.DOI.org\/10.10016\/elsevier_cm_policy”，”source“Crossref”“，”is-referenced-by-count“：126，”special_numbering“：”C“，”title“：[“深度强化学习与平滑策略更新：机器人布料操作的应用”]，“前缀”：“10.1016”，“卷”：“112”，“作者”：[{“给定”：“吉祥”，“家族”：“Tsurumine”，“sequence”：“first”，“affiliation”：[]}，{“ORCID”：“http://\/ORCID.org\/00000-0001-5539-4260”，“authenticated-ORCID”：false，“给定的”：“Yunduan”，“家庭”：“Cui”，“序列”：“additional”，“affiliation”：[]}，{“given”：“Eiji”，“family”：“Uchibe”，“sequence”：“additive”，“abfiliation“：[]{”given“：”Takamitsu“，”family“：”Matsubara“，”sequence“：”additional“，”affiliance“：[]}]，“member”：“78”，“reference”：[{“key”：”10.1016\/j.robot.2018.11.004_b1“，”series-title“：”强化学习：简介“，”作者“：“Sutton”，“年份”：“1998”}，{“key”：“10.1016\/j.robot.2018.11.004_b2”，“series-title”：“实验机器人国际研讨会（ISER）”，“首页”：“363”，“文章标题”：“通过强化学习实现自主倒飞”，“作者”：“Ng”，“年份”：“2006”}，{：“IEEE机器人与自动化国际会议（ICRA）”，“首页”：“85”，“article-title”：“RTMBA：机器人控制的基于实时模型的强化学习体系结构”，“author”：“Hester”，“year”：“2012”}，{“key”：“10.1016\/j.robot.2018.11.004_b4”，“series-title”：，“首页”：“2397”，“文章标题”：“高维度运动技能的强化学习：路径积分方法”，“作者”：“Theodorou”，“年份”：“2010”}，{“问题”：“2”，“关键”：“10.1016\/j.robot2018.11.004_b5”，“doi asserted by”：“crossref”，“首页”：“213”，“doi”：“10.1177\/02733644907084980”，“文章标题”：“使用策略梯度方法学习基于CPG的两足动物运动：应用于仿人机器人”，“卷”：“27”，“作者”：“Endo”，“年份”：“2008”，“日志标题”：“Int.J.robot.Res.”}，{“key”：“10.1016\/J.robot.2018.11.004_b6”，“series-title”：“IEEE\/RSJ智能机器人和系统国际会议（IROS）”，“首页”：“3219”，“article-title”：“使用降维挖掘强化学习中的约束”，“author”：“Bitzer”，“year”：“2010”}，{“key”：“10.1016\/j.robot.2018.11.004_b7”，“series-title”：《机器人：科学与系统（RSS）》，“first page”：《57》，“artice-title》：“学习使用高效数据强化学习控制低成本机械手”，“author”：“Durrant-Whyte”，“year”：“2012”}，{“issue”：“8”，“key”：“10.1016\/j.robot.2018.11.004_b8”，”doi-asserted-by“：”crossref“，”first page“：”2429“，”doi“：”10.1109\/JPROC.2012.2200563“，”article-title“：”面向老龄化社会的家庭机器人“，”volume“：“100”，”author“：”Yamazaki“，”year“：”2012“，”journal-title“：”Proc.IEEE“}，{”key“：“10.1016\/j.robot.2018.11.004_b9”，“series-title”：“深度学习”，“author”：“Goodfellow”，“year”：“2016”}，{“key”：“10.116\/jr.robot.2018.11.004_b10”，“series-title”：《神经信息处理系统进展》，“首页”：“1097”，“article-title“：用深度卷积神经网络进行图像分类”，“author”:“Krizhevsky”，“年份”：“2012”}，{“key”：“10.1016\/j.robot.2018.11.004_b11”，“series-title”：“航空图像标注的机器学习”，“author”：“Mnih”，“year”：“2013”}：“Szegedy”，“year”：“2015”}，{“issue”：“1”，“key”：“10.1016\/j.robot.2018.11.004_b13”，“doi-asserted-by”：“crossref”，“first-page”：“30”，“doi”：“101109\/TASL.2011.2134090”，“article-title”：“上下文相关的大容量语音识别预训练深度神经网络”，“volume”：”20“，”author“：”Dahl“，”year“：”2012“，”journal al标题“：“IEEE Trans.Audio Speech Lang.Process.”}，{“key”：“10.1016\/j.robot.2018.11.004_b14”，“series-title”：《IEEE声学、语音和信号处理国际会议》（ICASSP），“首页”：“6645”，“article-title”：“深度递归神经网络的语音识别”，“author”：“Graves”，“year”：“2013”}、{“issue”：“7540”，“key“：“10.1016\/j.robot2018.11.004_b15”，“doi断言者”：“crossref”，“首页”：“529”，“doi”：“10.1038\/nature14236”，“文章标题”：“通过深度强化学习进行人类水平控制”，“卷”：“518”，“作者”：“Mnih”，“年份”：“2015”，“期刊标题”：“Nature”}，{“key”：“10.1016\/j.robot2018.11.004_b16”，“系列标题”：“机器学习国际会议（ICML），第37卷”，“首页”：“1889”，“文章标题”：“信任区域政策优化”，“作者”：“舒尔曼”，“年份”：“2015”}，{“关键”：“10.1016\/j.robot.2018.11.004_b17”，“系列标题”：《人工智能发展协会（AAAI）》，“首版”：“1607”，“论文标题”：“相对熵策略搜索”，“作者”：“Peters”，“年份”：“2010”}，{“key”：“10.1016\/j.robot.2018.11.004_b18”，“series-title”：“IEEE机器人与自动化会议（ICRA）”，“文章标题”：“通过引导策略搜索学习接触丰富的操作技能”，“author”：“Levine”，“year”：“2015”}，“首页”：“3207”，“article-title”：“动态策略编程”，“卷”：“13”，“作者”：“Azar”，“年份”：“2012”，“日记标题”：“J.Mach.Learn.Res.”}，{“key”：“10.1016\/J.robot.2018.11.004_b20”，“doi-asserted-by”：“crossref”，“第一页”：”13“，“doi”：“101016\/J.neunet.2017.06.007”：“内核动态策略编程：适用于高维状态机器人系统的强化学习”，“卷”：“94”，“作者”：“崔”，“年份”：“2017”，“期刊标题”：“神经网络”}，{“键”：“10.1016\/j.robot.2018.11.004_b21”，“系列标题”：《国际机器学习会议》，“首页”：“1995”，“文章标题”：“深度强化学习的决斗网络架构”，“作者”：“王”，“年份”：“2016”}，{“问题”：“3”，“关键”：“10.1016\/j.robot.2018.11.004_b22”，“doi-asserted-by”：“crossref”，“首页”：“1771”，“doi”：“101109\/LRA.2018.2800122”，“年份”：“2018年”，“新闻标题”：“IEEE Robot.Autom.Lett.”}，{“问题”：“2”，“关键”：“10.1016\/j.Robot.2018.11.004_b23”，“doi-asserted-by”：“crossref”，“首页”：“397”，“doi”：“101109\/LRA.2016.263383”，“文章标题”：”类人机器人工人使用深度学习的可重复折叠任务“，”卷“：”2“，“作者”：“杨”，“年度”：“2017年”“，”日志标题“：“IEEE Robot.Autom.Lett.”}，{“key”：“10.1016\/j.Robot.2018.11.004_b24”，“series-title”：“IEEE\/RSJ智能机器人与系统国际会议（IROS）”，“首页”：“1545”，“article-title”：《使用原始图像进行机器人控制的深度动态策略编程》，“author”：“Tsurumine”，“year”：“2017”}、{“key”：”10.1016//j.robat.2018.1.004_b25“，“series-title”：“人工智能发展协会（AAAI）”，“首页”：“2094”，“article-title”：“双q学习的深度强化学习”，“author”：“Van\u00a0Hasselt”，“year”：“2016”}，{“key”：”10.1016\/j.robot.2018.11.004_b26“，“series-title“：”IEEE机器人与自动化国际会议（ICRA）“，“article-title”：“异步非策略更新机器人操作的深度强化学习”，“author”：“Gu”，“year”：“2017”}，{“key”：“10.1016\/j.robot.2018.11.004_b27”，“series-title”：《机器人学习会议（CoRL）》，“首页”：“262”，“year”：“2017”}，{“key”：“10.1016\/j.robot.2018.11.004_b28”，“unstructured”：“M.Vecerik，T.Hester，j.Scholz，F.Wang，O.Pietquin，B.Piot，N.Heess，T.Roth\u00f6rl，T.Lampe，M.A.Riedmiller，利用演示对机器人问题进行深度强化学习，奖励稀疏，计算研究库（CoRR）abs\/1707.08817.”}，{“issue”：“1”，“key”：“10.1016\/j.robot.2018.11.004_b29”，“首页”：“2472”，“article-title”：“信息损失有限的非参数政策搜索”，“volume”：”18“，“author”：“Van\u00a0Hoof”，“year”：“2017”，“journal-title“j.Mach.Learn.Res.”}：“机器学习国际会议（ICML）”，“首页”：“1”，“文章标题”：“指导性政策搜索”，“作者”：“Levine”，“年份”：“2013”}，{“key”：“10.1016\/j.robot.2018.11.004_b31”，“series-title”：“人工智能与统计国际会议（AISTATS）”，《首页》：“273”，“论文标题”：“层次相对熵政策搜索”，“作者”：“丹尼尔”，“年份”：“2012”}，{“问题”：“1”，“关键”：“10.1016\/j.robot.2018.11.004_b32”，“首页”：“1334”，“文章标题”：“深度视觉运动政策的端到端培训”，“卷”：“17”，“作家”：“莱文”，“年”：“2016”，“新闻标题”：《j.Mach.Learn.Res.》}机器人2018.11.004_b33“，“系列标题”：“IEEE\/RSJ国际智能机器人与系统会议（IROS）”，“首页”：“3123”，“文章标题”：“基于关系形状描述的褶皱服装的抓点选择”，“作者”：“Yamazaki”，“年份”：“2014”}，{“key”：“10.1016\/j.robot.2011.11.004_b34”，“系列标题”：“IEEE机器人与自动化国际会议（ICRA）”，“首页”：“185”，“文章标题”：“使用主动立体机器人头部进行准确的服装表面分析，并应用于双臂压平”，“作者”：“太阳”，“年份”：“2015”}，{“问题”：“10”，“关键”：“10.1016\/j.robot.2018.11.004_b35”，“doi-asserted-by”：“crossref”，《首页》：“544”，“doi”：“10.1080\/01691864.2017.1285722”，“article-title”：“双臂机器人使用一种用于管理识别错误和不确定性的机制从未排列的起始形状展开矩形布”，“volume”：“31”，“author”：“Yuba”，“year”：“2017”，“journal-title“：“Adv.robot.”}，{“issue”：“2”，“key”：”10.1016\/j.robot.2018.11.004_b36“，”doi-asserted-by“：“crossref”，“first page”：“249”，“DOI”：“10.1177\/0278364911430417”，“article-title”：“机器人衣物折叠的几何方法”，“volume”：”31“，“author”：“Miller”，“year”：“2012”，“journal-title“：”Int.J.Robot.Res.“}，{“key”：：“10.1016\/J.Robot.2018.11.004_b37”，“series-title”：”IEEE\/RSJ智能机器人和系统国际会议（IROS）“，“first page”：“824”，“article-title”：“Finddd:一个快速的三维描述符，用于描述机器人操作纺织品的特征”，“author”：“Ramisa”，“year”：“2013”}，{“key”：”10.1016\/j.robot.2018.11.004_b38“，”series-title“：”IEEE国际机器人与自动化会议（ICRA）“，”first page:“987”，“article-tiple”：“使用随机决策森林和概率规划对衣服进行自主主动识别和展开”，“author”：“Doumanoglou”，“year”：“2014”}，{“key”：“10.1016\/j.robot.2018.11.004_b39”，“series-title”：“IEEE\/RSJ智能机器人和系统国际会议（IROS）”，“first page”：”61“article-title”：“使用双臂机器人进行服装感知和折叠”，“author”：“Stria”，“year”：“2014”}，{“key”：“10.1016\/j.robot.2018.11.004_b40”，“series-title”：“IEEE\/RSJ智能机器人和系统国际会议（IROS）”，“first page”：，“author”：“Li”，“year”：“2015”}，{“issue”：“4”，“key”：“10.1016\/j.robot.2018.11.004_b41”，“doi-asserted-by”：“crossref”，”first page“：”916“，”doi“：”10.1109\/TRO.2017.2691721“，”article-title“：”实时状态估计布料模型的贝叶斯非参数学习“，”volume“：“33”，”author“：”Koganti“，”year“：”2017“，”journal-title：“IEEE Trans.robot”}，{“issue”：“6”，“key”：“10.1016\/j.robot.2018.11.004_b42”，“doi-asserted-by”：“crossref”，“首页”：“1461”，“doi”：“101109\/TRO.2016.2602376”，“article-title”：“自动折叠衣服：完整管道”，“volume”：”32“，“author”：“Doumanoglou”，“year”：“2016”，“journal-title“：”IEEE Trans.robot.“}，{“问题”：“7”，“密钥“：”10.1016\/j.robot.2018.11.004_b43“，“doi-asserted-by”：“crossref”，“first page”：“513”，“doi”：“10.1080\/01691864.2013.777012”，“article-title”：“使用拓扑坐标强化学习穿T恤的运动技能”，“volume”：”27“，“author”：“Matsubara”，“year”：“2013”，“journal-title“：”Adv.Robot.“}，{”key“：”10.1016\/j.Robot.2018.11.004_b44“，”series-title“：“IEEE机器人与自动化国际会议（ICRA）”，“首页”：“5649”，“文章标题”：“非刚性环境中机器人任务强化学习的基于摩擦模型的框架”，“作者”：“Colom\u00e9”，“年份”：“2015”}，{“key”：“10.1016\/j.robot.2018.11.004_b45”，“series-title”：“IEEE机器人与自动化国际会议（ICRA）”，“首页”：“177”，“文章标题”：“从多次演示中学习基于力量的变形物体操作”，“作者”：“Lee”，“年份”：“2015”}，{“关键”：“10.1016\/j.robot.2018.11.004_b46”，“系列标题”：“关节运动和可变形物体国际会议（ICAMDO）”，“首页”：“16”，“article-title”：“使用深度信息和CNN的机器人辅助布料分类”，“author”：“Gabas”，“year”：“2016”}，{“issue”：“4”，“key”：“10.1016\/j.Robot.2018.11.004_b47”，“doi-asserted-by”：“crossref”，“first-pages”：“629”，“doi”：“10.1016\/j.patcog.2017.09.042”，“article-title”：“使用深度学习进行主动服装识别和目标抓取点检测”，“volume”：“74”，“author”：“Corona”，“year”：“2018”，“journal-title“：”Pattern Recogn.“}，{“issue”：“11”，“key”：”10.1016\/j.robot.2018.11.004_b48“，“doi-asserted-by”：“crossref”，“first-page”：“1238”，“doi”：“10.1177\/0278364913495721”，“article-title”：“机器人强化学习：调查”，“volume”：“32”，“author”：“Kober”，“year”：“2013”，“journal-title“：”Int.J.Robot.Res.“}，{”issue“：”3\u20134“，”key“：”10.1016\/J.Robot.2018.11.004_b49“，”doi-asserted-by“：”crossref“，”first-page:“279”，“doi”：“10.1007\/BF009”92698“，”article-title“：”Q-learning“，”volume“：“8”，“author”：“Watkins”，“year”：“1992”，“journal-title”：“Mach.Learn.”}，{“key”：“10.1016\/j.robot.2018.11.004_b50”，“first-page”：“1038”，”article-title“：“强化学习中的泛化：使用稀疏粗编码的成功示例”，“author”:“Sutton”，“年份”：“1996”，“日记标题”：“Adv.Neural Inf.Process.Syst.（NIPS）”}：“10.1016\/j.robot2018.11.004_b51”，“首页”：“1107”，“文章标题”：“最小二乘法政策迭代”，“卷”：“4”，“作者”：“Lagoudakis”，“年份”：“2003”，“期刊标题”：“j.Mach.Learn.Res.”}，｛“key”：“10.1016\/j.robot2018.11.004_b52”，“系列标题”：“国际人工智能与统计会议（AISTATS）”，“首页”：“119”，“article-title”：“函数近似下的动态政策规划”，“author”：“Azar”，“year”：“2011”}，{“key”：“10.1016\/j.robot.2018.11.004_b53”，“series-title”：《神经信息处理系统（NIPS）进展》，“first page”：《1369》，“artice-title》：“线性可解的马尔可夫决策问题”，“author”:“Todorov”，“year”：《2006》}：“10.1016\/j.robot.2018.11.004_b54”，“首页”：“1”，“文章标题”：“使用本地更新强化学习的气动人工肌肉驱动机器人控制”，“作者”：“崔”，“年份”：“2017年”，“日志标题”：《高级机器人》}，{“密钥”：“10.116\/jr.robot.2018.11.004_b55”，“非结构化”：“T.Hester，M.Vecerik，O.Pietquin，M.Lanctot，T.Schaul，B.Piot，A。Sendonaris，G.Dulac-Arnold，I.Osband，J.Agapiou，J.Z.Leibo，A.Gruslys，从演示中学习现实世界的强化学习，计算研究库（CoRR）abs\/1704.03732.“}，{“key”：“10.1016\/J.robot.2018.11.004_b56”，“非结构化”：“M.Abadi，A.Agarwal，P.Barham，E.Brevdo，Z.Chen，C.Citro，G.S.Corrado，A.Davis，J。Dean，M.Devin，et al.Tensorflow:异构分布式系统上的大规模机器学习，arXiv预打印arXiv:1603.04467.“}，{”key“：”10.1016\/j.robot.2018.11.004_b57“，”unstructured“：”F.Chollet，et al.Keras，2017。https:\/\/github.com/keras-team\/keras。“}，{”key“：”10.1016\/j.robot.2018.11.004_b58“，”series-title“：”ICRA开源软件研讨会“，”首页“：”5“，”article-title“：“ROS：一个开源机器人操作系统”，”author“：”Quigley“，”year“：”2009“}”，{article-title“：“Grad-cam：通过基于梯度的本地化从深层网络中进行可视化解释”，“author”：“Selvaraju”，“year”：“2018”}，{“key”：“10.1016\/j.robot.2018.11.004_b60”，“series-title”：“2007 IEEE近似动态规划和强化学习国际研讨会”，“首页”：“338”，“article-title”：”内核化lspe（\u03bb）“，”author“：”Jung“，”year“：”2007“｝，｛”key“：”10.1016\/j.robot.2018.111.0004_b61“，”doi asserted by“：”crossref“，”首页“：”43“，”doi“：”10.3389\/fncom.2013.00043“，”文章标题“：”神经科学和机器人学中的肌肉协同作用：从输入空间到任务空间的视角“，”卷“：”7“，”author“：”Alessandro“，”年份“：”2013“，”期刊标题“：”前面。计算。神经科学。“}，{”key“：”10.1016\/j.robot.2018.11.004_b62“，”series-title“：”IEEE国际机器人与自动化会议（ICRA）“，”first page“：“1285”，”article-title“：“使用重铺的带织物包裹任务的规划方法”，“author”：“Hayashi”，“year”：“2017”}，“issue”：“6”，“key”：“10.1016\/j.ropot.2018.1104_b63”，“doi-asserted-by”：“cross”参考“，”首页“：”26“，”DOI“：”10.1109\/MSP.2017.2743240“，”文章标题“：”深度强化学习：简要调查“，”卷“：”34“，”作者“：”Arulkumaran“，”年份“：”2017“，”期刊标题“：“IEEE信号处理”。Mag.“}，{“key”：“10.1016\/j.robot.2018.11.004_b64”，“series-title”：“IEEE康复机器人国际会议（ICORR）”，“首页”：“1”，“文章-标题”：“通过动作关键强化学习对肌电假体控制器进行在线人体训练”，“author”：“Pilarski”，“year”：“2011”}，}“key:”10.1016\/j.ropot.2018.1104_b65“，”series-title“：”神经信息处理系统（NIPS）“，”首页“：”4299“，”article-title“：”从人类偏好中进行深度强化学习“，”author“：”Christiano“，”year“：”2017“}，{“key”：“10.1016\/j.robot.2018.11.004_b66”，“series-title”：“Robotics:Science and Systems（RSS）”，“article-title”：”主动奖励学习“，“author”：“”Daniel”，“年份”：“2014”}，{“key”：“10.1016\/j.robot.2018.11.004_b67”，“首页”：“1”，“article-title”：“通过逻辑回归进行无模型深层逆强化学习”，“author”：“Uchibe”，“year”：“2017”，“journal-title“：“Neural Process.Lett.”}国际学习表征会议（ICLR）”，“文章标题”：“不留痕迹：学习重置以实现安全和自主强化学习”，“作者”：“Eysenbach”，“年份”：“2018”}]，“容器标题”：[“机器人和自主系统”]，“原始标题”：[]，“语言”：“en”，“链接”：[{“URL”：“https:\/\/api.elsevier.com/content\/article\/PII:S0921889018303245？httpAccept=text\/xml“，”content-type“：”text\/.xml“，”content-version“：”vor“，”intended-application“：”text-mining“}，{“URL”：“https:\/\/api.elsevier.com/content\/article\/PII:S0921889018303245？httpAccept=text\/plain“，”内容类型“：”文本\/plaine“，”content-version”：“vor”，“intended-application”：“text-mining”}]，“存放”：{“日期段”：[[2019,1,15]]，“date-time“：”2019-01-15T17:26:28Z“，”timestamp“：1547573188000}，”score“：1，”resource“：{主要”：{“URL”：“https:\/\/linkinghub.elsevier.com/retrieve\/pii\/S0921889018303245”}}，“subtitle”：[]，“shorttitle”：[]，“issued”：{“date-parts”：[[2019,2]}，‘references-count’：68，‘alternative-id’：[”S092188918303245 3245“]，”URL“：”http://\/dx.doi.org\/10.1016\/j.robot.2018.11.004“，”关系“：{}，”ISSN“：[”0921-8890“]，”ISSN-type“：[{”value“：”09218890“，”type“:”print“}]，”主题“：[]，”published“：{”date-parts“：[2019,2]}，“assertion”：[{“value”：“Elsevier”，“name”：“publisher”，“label”：“此文章由”}维护，{“值”：“深度强化学习，顺利更新政策：机器人布料操作应用”，“name”：“articletitle”，“label”：“Article Title”}，{“value”：“Robotics and Autonomous Systems”，“name:”journaltitle“，”label“：”Journal Title“}，”value“：”https:\\/doi.org\/101016\/j.robot.2018.11.004“，”name“：”articlelink“，“lable”：“”CrossRef DOI链接到出版商维护的版本“}”，{“value”：“article”，“name”：“content_type”，“label”：“content-type”}，{”value“：”\u00a9 2018 The Authors.Published by Elsevier B.V.“，”name“：”copyright“，”label“：”copyright”}]}