研究论文 在上共享 国际公司::机器人的交叉常识推理和概率规划作者:石岐 张,皮尤什 坎德瓦尔、和彼得 石头作者信息和声明体积174,问题C类https://doi.org/10.1016/j.robot.2023.104613出版:2024年6月25日 出版历史 获取引文提醒新增引文提醒!此警报已成功添加,将发送到:只要您选择的记录被引用,您就会收到通知。新引文提醒!拜托登录到您的帐户 目录体积174,问题C类以前的文章手外骨骼适应职业增强上一个下一篇文章模块化软机器人的建模下一步摘要集锦工具书类信息和贡献者文献计量学和引文视图选项工具书类媒体桌子分享摘要机器人在现实世界中的顺序决策是一个挑战,因为它要求机器人同时对当前世界状态和动力学进行推理,同时规划行动以完成复杂任务。一方面,声明语言和推理算法支持用常识知识进行表示和推理。但这些算法并不擅长规划行动,以在一个长期的、未指定的范围内最大化累积回报。另一方面,概率规划框架,如马尔可夫决策过程(MDP)和部分可观测MDP(POMDP),支持规划在不确定性下实现长期目标。但他们不具备表达或推理与行动无关的知识的能力。在本文中,我们提出了一种称为iCORPP的算法,用于同时估计当前世界状态、世界动力学原因,并构造面向任务的控制器。在此过程中,机器人决策问题被分解为两个相互依赖(较小)的子问题,分别侧重于推理以“了解世界”和规划以“实现目标”。所开发的算法已经在仿真和使用日常服务任务(如室内导航和对话管理)的真实机器人上实现和评估。结果表明,与包括手工制定的行动政策在内的竞争基线相比,在可扩展性、效率和适应性方面有了显著改进。集锦•本文正式介绍了机器人的集成推理与规划(IRP)问题。IRP问题有一个由一组内生和外生变量指定的因子化状态空间。•本文介绍了一种顺序决策算法,称为交错常识推理和概率规划(iCORPP),用于解决IRP问题。•本文使用移动机器人导航和语音对话系统这两个任务,对iCORP进行了系统评估,并在一个真实的机器人上进行了演示。•本文基于我们之前在两篇会议论文中的研究(Zhang and Stone,2015;Zhang et al.,2017)。本文统一了他们的术语、问题陈述和算法。•与我们之前的工作相比,本文在第4.1节中引入了一个新的问题陈述,其中涵盖了两份会议文件中提到的问题。•为了解决IRP问题,我们将iCORPP算法(第4.2节)重新定义为一种新的形式,包括“逻辑推理”、“世界状态概率推理”和“世界动力学概率推理”三个关键步骤工具书类[1]Halpern J.Y。,关于不确定性的推理麻省理工学院出版社,2017年。数字图书馆谷歌学者[2]Richardson M.,Domingos P.,马尔可夫逻辑网络,机器。学习。62 (1) (2006) 107–136.数字图书馆谷歌学者[3]J.Lee,Y.Wang,《稳定模型语义下的加权规则》,收录于:KR,2016年,第145-154页。谷歌学者[4]Balai E.,Gelfond M.,Zhang Y.,P-log:精化和一个新的相干条件,安。数学。Artif公司。智力。86 (1) (2019) 149–192.谷歌学者[5]Khandelwal P.、Zhang S.、Sinapov J.、Leonetti M.、Thomason J.、Yang F.、Gori I.、Svetlik M.、Khante P.、Lifschitz V.、Aggarwal J.K.、Mooney R.、Stone P.、BWIBots:一个缩小人工智能与人机交互研究差距的平台,国际J机器人。物件。36 (5–7) (2017) 635–659.谷歌学者[6]Hawes N.、Burbridge C.、Jovan F.等人,《绞线项目:日常环境中的长期自主性》,IEEE机器人。自动。美格。24 (3) (2017) 146–156.谷歌学者[7]Veloso M.M.,《人类-机器人-人工智能交互日益吸引人的机会:CoBot移动服务机器人》,ACM事务处理。嗯,机器人互动。(三次)7 (1) (2018) 5.谷歌学者[8]Chen Y.,Wu F.,Shuai W.,Chen X.,机器人在公共场所为人类服务——KeJia机器人作为购物助理,Int.J.高级机器人。系统。(IJARS)14 (3) (2017) 1–20.谷歌学者[9]Kurniawati H.,Du Y.,Hsu D.,Lee W.S.,长时间视野机器人任务的不确定性运动规划,国际J机器人。物件。30 (3) (2011) 308–323.谷歌学者[10]Baral C.,Gelfond M.,Rushton N.,答案集概率推理,理论与实践。日志。程序。9 (1) (2009) 57–144.数字图书馆谷歌学者[11]E.Balai,M.Gelfond,精炼和概括P-log——初步报告,摘自:2017年第十届答案集编程和其他计算范式研讨会论文集。谷歌学者[12]普特曼M.L。,马尔可夫决策过程:离散随机动态规划,John Wiley&Sons,2014年。谷歌学者[13]Kaelbling L.、Littman M.、Cassandra A.,在部分可观测随机域中的规划和行动,人工智能101 (1998) 99–134.谷歌学者[14]S.Zhang,P.Stone,CORP:Commonsense Reasoning and Probabilistic Planning,as Applied to Dialog with a Mobile Robot,收录于:第二十届美国人工智能协会人工智能会议,2015年,第1394-1400页。谷歌学者[15]S.Zhang,P.Khandelwal,P.Stone,《自适应机器人规划的动态构建(PO)MDP》,载《第三十届AAAI人工智能会议论文集》,2017年,第3855-3863页。谷歌学者[16]Davis E.,Marcus G.,人工智能中的常识推理和常识知识,Commun公司。ACM公司58 (9) (2015) 92–103.谷歌学者[17]Gelfond M.、Kahl Y.、。,知识表示、推理和智能代理的设计:答案集编程方法,剑桥大学出版社,2014年。数字图书馆谷歌学者[18]Lifschitz V.公司。,什么是答案集编程?,第23届全国人工智能会议记录,第3卷,AAAI出版社,2008年,第1594–1597页。谷歌学者[19]朱伟。,PLOG算法及其应用,(博士论文)美国德克萨斯理工大学,2012年。谷歌学者[20]巴莱E。,调查和扩展P-log,(博士论文)德克萨斯理工大学,2017年。谷歌学者[21]B.Milch,B.Marthi,S.Russell,D.Sontag,D.L.Ong,A.Kolobov,BLOG:未知对象的概率模型,摘自:《第19届国际人工智能联合会议论文集》,2005年,第1352-1359页。谷歌学者[22]L.De Raedt,A.Kimmig,H.Toivonen,《ProbLog:概率序言及其在链接发现中的应用》,载《第20届国际人工智能联合会议论文集》,2007年,第2468–2473页。谷歌学者[23]A.Kimmig,S.Bach,M.Broecheler,B.Huang,L.Getoor,《概率软逻辑简介》,载于《NIPS概率编程研讨会论文集:基础与应用》,2012年,第1-4页。谷歌学者[24]T.Eiter,T.Lukasiewicz,非单调因果理论中关于行为的概率推理,收录于:《第十九届人工智能不确定性会议论文集》,2002年,第192-199页。谷歌学者[25]Lee J.、Wang Y。,动作语言bc的概率扩展+2018年arXiv预印本arXiv公司:1805.00634.谷歌学者[26]王毅,张S.,李J.,通过概率动作语言桥接常识推理和概率规划,理论与实践。日志。程序。19 (5–6) (2019) 1090–1106.谷歌学者[27]拉瓦莱有限公司。,规划算法剑桥大学出版社,2006年。数字图书馆谷歌学者[28]Garrett C.R.、Chitnis R.、Holladay R.、Kim B.、Silver T.、Kaelbling L.P.、Lozano-Pérez T.,综合任务和动作规划,每年。反向控制机器人。自动命名。系统。(2021).谷歌学者[29]Hoffmann J.,Nebel B.,《FF计划系统:通过启发式搜索快速生成计划》,J.阿蒂夫。智力。物件。14 (2001) 253–302.谷歌学者[30]Helmert M.,快速下行规划系统,J.阿蒂夫。智力。物件。26 (2006) 191–246.谷歌学者[31]Fikes R.E.,Nilsson N.J.,STRIPS:定理证明应用于问题求解的新方法,Artif公司。智力。2 (3–4) (1971) 189–208.谷歌学者[32]McDermott D.、Ghallab M.、Howe A.、Knoblock C.、Ram A.、Veloso M.、Weld D.、Wilkins D.、。,PDDL-规划领域定义语言, 1998.谷歌学者[33]Lee J.,Lifschitz V.,Yang F.,行动语言BC:初步报告,收录于:第二十三届国际人工智能联合会议记录,AAAI出版社,2013年,第983–989页。谷歌学者[34]Gelfond M.,Lifschitz V.,动作语言,计算。信息科学。3 (16) (1998).谷歌学者[35]Sutton R.S.、Barto A.G.、。,强化学习:简介麻省理工学院出版社,2018年。数字图书馆谷歌学者[36]Kocsis L.,Szepesvári C.,基于Bandit的蒙特卡罗规划,见:ECML,第6卷斯普林格出版社,2006年,第282-293页。谷歌学者[37]H.L.Younes,M.L.Littman,PPDDL1.0:PDDL的扩展,用于表达具有概率效应的规划域,技术报告CMU-CS-04-1622004。谷歌学者[38]桑纳S。,关系动态影响图语言(RDDL):语言描述2010年,第32页。澳大利亚国立大学未发表。谷歌学者[39]Zhang S.,Sridharan M.,不确定性下基于知识的顺序决策研究,人工智能杂志。43 (2) (2022) 249–266.谷歌学者[40]Zhang S.、Sridharan M.、Wyatt J.L.,不可靠世界中机器人的混合逻辑推理和概率规划,IEEE传输。机器人。31 (3) (2015) 699–713.谷歌学者[41]P.Lison,C.Kennington,《OpenDial:用概率规则开发口语对话系统的工具包》,载于:ACL 2016,2016。谷歌学者[42]Sridharan M.、Gelfond M.、Zhang S.、Wyatt J.、REBA:机器人知识表示和推理的基于细化的体系结构,J.人工智能研究。65 (2019) 87–180.谷歌学者[43]Hanheide M.、Göbelbecker M.、Horn G.、Pronobis A.、SjöK.、Aydimer A.、Jensfelt P.、Gretton C.、Dearden R.、Janicek M.,Zender H.、Kruijff G.、Hawes N.、Wyatt J.《开放和不确定世界中的机器人任务规划和解释》,人工智能247 (2017) 119–150.谷歌学者[44]R.Chitnis,L.P.Kaelbling,T.Lozano-Perez,使用动态因子分解将人类提供的信息集成到信仰状态表示中,收录于:智能机器人和系统国际会议论文集,IROS,2018年。谷歌学者[45]Leonetti M.、Iocchi L.、Stone P.,自动化规划和强化学习的综合,以实现高效、稳健的决策,人工智能241 (2016) 103–130.谷歌学者[46]M.Sridharan、B.Meadows、R.Gomez,我能做什么?走向一种用于推理和学习负担的架构,见:自动化计划和调度国际会议,ICAPS,2017年。谷歌学者[47]Ferreira L.A.,Bianchi R.A.,Santos P.E.,de Mantaras R.L.,非平稳Markov决策过程的答案集编程,申请。智力。47 (4) (2017) 993–1007.谷歌学者[48]F.Yang,D.Lyu,B.Liu,S.Gustafson,《PEORL:将符号规划和分层强化学习结合起来以实现稳健决策》,载《第二十七届国际人工智能联合会议论文集》,IJCAI,2018年,第4860-4866页。谷歌学者[49]姜瑜、杨凤、张S.、斯通P.,针对适应性移动服务机器人的强化学习任务移动规划,收录于:2019 IEEE/RSJ智能机器人和系统国际会议,IROS,IEEE,2019年,第7529–7534页。谷歌学者[50]R.T.Icarte,T.Klassen,R.Valenzano,S.McIlraith,《在强化学习中使用奖励机器进行高级任务规范和分解》,收录于:2018年国际机器学习会议,第2107-2116页。谷歌学者[51]Icarte R.T.、Klassen T.Q.、Valenzano R.、McIlraith S.A.、。,奖励机器:在强化学习中开发奖励功能结构,2020,arXiv预印本arXiv公司:2010.03950.谷歌学者[52]Lu K.,Zhang S.,Stone P.,Chen X.,机器人对话和导航任务的学习和推理,收录于:话语和对话特别利益小组第21届年会会议记录SIGDIAL,计算语言学协会,2020年,第107–117页。谷歌学者[53]Bazerman M.H.、Moore D.A.、。,管理决策中的判断Wiley,2008年。谷歌学者[54]Triantaphyllou E.,多标准决策方法,收录于:多准则决策方法的比较研究《施普林格美国》,马萨诸塞州波士顿,2000年,第5–21页。谷歌学者[55]巴拉尔·C·。,知识表示、推理与陈述性问题解决剑桥大学出版社,2003年。谷歌学者[56]M.Gelfond,V.Lifschitz,逻辑编程的稳定模型语义,载于:国际逻辑编程会议,1988年,第1070–1080页。谷歌学者[57]Erdem E.,Gelfond M.,Leone N.,答案集编程的应用,人工智能杂志。37 (3) (2016) 53–68.谷歌学者[58]Erdem E.,Patoglu V.,ASP在机器人中的应用,KI-Künstliche Intelligenz公司(2018) 1–7.谷歌学者[59]珀尔·J。,智能系统中的概率推理:可信推理网络爱思唯尔出版社,2014年。数字图书馆谷歌学者[60]Boutiler C.、Dean T.、Hanks S.,《决策理论规划:结构假设和计算杠杆》,J.人工智能研究。11 (1999) 1–94.谷歌学者[61]Hoey J.、Poupart P.、Boutiler C.、Mihailidis A.,辅助技术的POMDP模型,见:辅助技术:概念、方法、工具和应用《IGI Global》,2014年,第120–140页。谷歌学者[62]Reiter R.,默认推理逻辑,Artif公司。智力。13 (1–2) (1980) 81–132.谷歌学者[63]H.Kurniawati,D.Hsu,W.S.Lee,SARSOP:通过近似最佳可达信念空间实现基于点的POMDP规划,收录于:机器人:科学与系统会议,2008年。谷歌学者[64]Walker W.、Lamere P.、Kwok P.、Raj B.、Singh R.、Gouvea E.、Wolf P.、Woelfel J.、。,Sphinx-4:一个灵活的语音识别开源框架,Sun Microsystems,Inc.,2004年。谷歌学者[65]Quigley M.、Conley K.、Gerkey B.、Faust J.、Foote T.、Leibs J.、Wheeler R.、Ng A.Y.、ROS:开源机器人操作系统,收录于:ICRA开源软件研讨会,第3卷,第3.2期,日本神户,2009年,第5页。谷歌学者[66]Zhang S.,Yang F.,Khandelwal P.,Stone P.,移动机器人规划,使用具有抽象层次结构的动作语言BC,in:逻辑程序设计和非单调推理国际会议斯普林格出版社,2015年,第502-516页。谷歌学者[67]Koenig N.,Howard A.,开源多机器人模拟器gazebo的设计和使用范例,收录于:2004 IEEE/RSJ智能机器人和系统国际会议论文集,第3卷,IROS,IEEE,2004年,第2149–2154页。谷歌学者[68]格雷夫斯A.、穆罕默德A.-r.、辛顿G.、。,基于深度递归神经网络的语音识别,声学、语音和信号处理(Icassp),2013年Ieee国际会议,IEEE,2013,第6645–6649页。谷歌学者[69]Young S.、Gasic M.、Thomson B.、Williams J.D.,基于POMDP的统计口语对话系统:综述,程序。美国电气工程师协会101 (5) (2013) 1160–1179.谷歌学者[70]S.Amiri、M.S.Shirazi、S.Zhang,《不确定性下机器人顺序决策的学习和推理》,载于:《AAAI人工智能会议论文集》,2020年。谷歌学者[71]Han J.、Kamber M.、Pei J.、。,数据挖掘:概念和技术第三版,摩根·考夫曼,波士顿,2012年。谷歌学者[72]Singh P.、Lin T.、Mueller E.T.、Lim G.、Perkins T.、Zhu W.L.,《开放思维常识:从公众获取知识》,摘自:OTM联盟关于转向有意义互联网系统的国际会议斯普林格出版社,2002年,第1223-1237页。谷歌学者[73]R.Speer,J.Chin,C.Havasi,《ConceptNet 5.5:一个开放的通用知识多语言图表》,载于:《第三十届美国人工智能学会会议论文集》,2017年,第4444-4451页。谷歌学者[74]S.Amiri,S.Wei,S.Zhang,J.Sinapov,J.Thomason,P.Stone,使用动态学习机器人控制器进行多模态谓词识别,收录于:第27届国际人工智能联合会议论文集,IJCAI-18,瑞典斯德哥尔摩,2018年。谷歌学者[75]Ouyang L.,Wu J.,Jiang X.,Almeida D.,Wainwright C.,Mishkin P.,Zhang C.,Agarwal S.,Slama K.,Ray A.等人,通过人工反馈训练语言模型以遵循指令,高级神经信息处理。系统。35 (2022) 27730–27744.谷歌学者[76]OpenAI L.公司。,查特普特,2023,网址https://openai.com/blog/chatgpt/(访问时间:2023年2月8日)。谷歌学者[77]Touvron H.、Lavril T.、Izacard G.、Martinet X.、Lachaux M.-A.、Lacroix T.、Rozière B.、Goyal N.、Hambro E.、Azhar F.等人。,Llama:开放高效的基础语言模型,2023,arXiv预印本arXiv公司:2302.13971.谷歌学者[78]Liu B.、Jiang Y.、Zhang X.、Liu Q.、Zhang S.、Biswas J.、Stone P.、。,Llm+p:赋予大型语言模型最佳规划能力,2023,arXiv预印本arXiv:2304.11477.谷歌学者[79]丁勇、张欣、阿米里·S·、曹·N、杨·H、卡明斯基·A、埃塞林克·C、张·S,《在开放世界中整合行动知识和LLM以进行任务规划和情境处理》,自动。机器人(2023).谷歌学者[80]Y.Ding,X.Zhang,C.Paxton,S.Zhang《使用大型语言模型进行对象重排的任务和运动规划》,载《智能机器人和系统国际会议论文集》,IROS,2023年。谷歌学者[81]Huang W.,Abbeel P.,Pathak D.,Mordatch I.,作为零快照规划者的语言模型:为具体化代理人提取可操作的知识,见:机器学习国际会议PMLR,2022年,第9118–9147页。谷歌学者[82]Driess D.、Xia F.、Sajjadi M.S.、Lynch C.、Chowdhery A.、Ichter B.、Wahid A.、Tompson J.、Vong Q.、Yu T.等。,Palm-e:一种体现的多模态语言模型,2023,arXiv预印本arXiv公司:2303.03378.谷歌学者[83]Valmeekam K.、Marquez M.、Sreedharan S.、Kambhampati S.、。,关于大型语言模型的规划能力——一项批判性调查,2023,arXiv预印本arXiv公司:2305.15771.谷歌学者[84]Wei J.、Wang X.、Schuurmans D.、Bosma M.、Xia F.、Chi E.、Le Q.V.、Zhou D.等人,《思维链提示引发大型语言模型中的推理》,高级神经信息处理。系统。35 (2022) 24824–24837.谷歌学者 建议 多目标随机路径规划的向量值马尔可夫决策过程 在最短路径并不总是最佳路径的随机环境中的路径规划问题是许多实际应用(如自动车辆、机器人、物流等)所需要的一个具有挑战性的问题。。。阅读更多信息有界参数马尔可夫决策过程阅读更多信息未知环境下不确定性移动机械手规划 我们提出了一种基于采样的移动机械手规划器,该规划器考虑了基本姿态的不确定性以及这种不确定性对机械手运动的影响。总体规划师有三个鲜明而新颖的特点:一是使用层次结构和。。。阅读更多信息 评论 Please enable JavaScript to view thecomments powered by Disqus. 信息和贡献者问询处发布于 机器人与自治系统 第174卷C期2024年4月273页国际标准编号:0921-8890期刊目录 版权所有©2024。出版商北韩出版公司。荷兰出版历史出版:2024年6月25日作者标记集成推理和规划常识推理不确定性下的规划自动机器人马尔可夫决策过程POMDP公司限定符研究文章贡献者 其他指标查看文章指标文献计量学和引文文献计量学 文章指标 0引文总数0总下载次数下载次数(过去12个月)0下载次数(最近6周)0 其他指标查看作者指标引文视图选项视图选项获取访问权限 登录选项检查您是否可以通过登录凭据或您的机构访问本文。登录完全访问权限获取此出版物 媒体数字其他桌子分享分享共享此出版物链接复制链接已复制!复制失败。在社交媒体上分享Linkedin公司重新编辑电子邮件附属公司Shiqi公司 张位于宾汉姆顿的纽约州立大学,美国纽约州宾汉姆顿市维斯塔尔公园东路4400号,13902查看个人资料皮尤什 坎德瓦尔Sony AI,Sony Corporation of America,25 Madison Avenue,New York,10010,NY,USA美国纽约州麦迪逊大道25号查看个人资料彼得 石头德克萨斯大学奥斯汀分校,2317 Speedway,Stop D9500,Austin,78712,TX,USASony AI,Sony Corporation of America,25 Madison Avenue,New York,10010,NY,USA美国纽约州麦迪逊大道25号查看个人资料