跳到主要内容
研究论文

国际公司::机器人的交叉常识推理和概率规划

出版:2024年6月25日 出版历史
  • 获取引文提醒
  • 摘要

    机器人在现实世界中的顺序决策是一个挑战,因为它要求机器人同时对当前世界状态和动力学进行推理,同时规划行动以完成复杂任务。一方面,声明语言和推理算法支持用常识知识进行表示和推理。但这些算法并不擅长规划行动,以在一个长期的、未指定的范围内最大化累积回报。另一方面,概率规划框架,如马尔可夫决策过程(MDP)和部分可观测MDP(POMDP),支持规划在不确定性下实现长期目标。但他们不具备表达或推理与行动无关的知识的能力。在本文中,我们提出了一种称为iCORPP的算法,用于同时估计当前世界状态、世界动力学原因,并构造面向任务的控制器。在此过程中,机器人决策问题被分解为两个相互依赖(较小)的子问题,分别侧重于推理以“了解世界”和规划以“实现目标”。所开发的算法已经在仿真和使用日常服务任务(如室内导航和对话管理)的真实机器人上实现和评估。结果表明,与包括手工制定的行动政策在内的竞争基线相比,在可扩展性、效率和适应性方面有了显著改进。

    集锦

    本文正式介绍了机器人的集成推理与规划(IRP)问题。IRP问题有一个由一组内生和外生变量指定的因子化状态空间。
    本文介绍了一种顺序决策算法,称为交错常识推理和概率规划(iCORPP),用于解决IRP问题。
    本文使用移动机器人导航和语音对话系统这两个任务,对iCORP进行了系统评估,并在一个真实的机器人上进行了演示。
    本文基于我们之前在两篇会议论文中的研究(Zhang and Stone,2015;Zhang et al.,2017)。本文统一了他们的术语、问题陈述和算法。
    与我们之前的工作相比,本文在第4.1节中引入了一个新的问题陈述,其中涵盖了两份会议文件中提到的问题。
    为了解决IRP问题,我们将iCORPP算法(第4.2节)重新定义为一种新的形式,包括“逻辑推理”、“世界状态概率推理”和“世界动力学概率推理”三个关键步骤

    工具书类

    [1]
    Halpern J.Y。,关于不确定性的推理麻省理工学院出版社,2017年。
    [2]
    Richardson M.,Domingos P.,马尔可夫逻辑网络,机器。学习。62 (1) (2006) 107–136.
    [3]
    J.Lee,Y.Wang,《稳定模型语义下的加权规则》,收录于:KR,2016年,第145-154页。
    [4]
    Balai E.,Gelfond M.,Zhang Y.,P-log:精化和一个新的相干条件,安。数学。Artif公司。智力。86 (1) (2019) 149–192.
    [5]
    Khandelwal P.、Zhang S.、Sinapov J.、Leonetti M.、Thomason J.、Yang F.、Gori I.、Svetlik M.、Khante P.、Lifschitz V.、Aggarwal J.K.、Mooney R.、Stone P.、BWIBots:一个缩小人工智能与人机交互研究差距的平台,国际J机器人。物件。36 (5–7) (2017) 635–659.
    [6]
    Hawes N.、Burbridge C.、Jovan F.等人,《绞线项目:日常环境中的长期自主性》,IEEE机器人。自动。美格。24 (3) (2017) 146–156.
    [7]
    Veloso M.M.,《人类-机器人-人工智能交互日益吸引人的机会:CoBot移动服务机器人》,ACM事务处理。嗯,机器人互动。(三次)7 (1) (2018) 5.
    [8]
    Chen Y.,Wu F.,Shuai W.,Chen X.,机器人在公共场所为人类服务——KeJia机器人作为购物助理,Int.J.高级机器人。系统。(IJARS)14 (3) (2017) 1–20.
    [9]
    Kurniawati H.,Du Y.,Hsu D.,Lee W.S.,长时间视野机器人任务的不确定性运动规划,国际J机器人。物件。30 (3) (2011) 308–323.
    [10]
    Baral C.,Gelfond M.,Rushton N.,答案集概率推理,理论与实践。日志。程序。9 (1) (2009) 57–144.
    [11]
    E.Balai,M.Gelfond,精炼和概括P-log——初步报告,摘自:2017年第十届答案集编程和其他计算范式研讨会论文集。
    [12]
    普特曼M.L。,马尔可夫决策过程:离散随机动态规划,John Wiley&Sons,2014年。
    [13]
    Kaelbling L.、Littman M.、Cassandra A.,在部分可观测随机域中的规划和行动,人工智能101 (1998) 99–134.
    [14]
    S.Zhang,P.Stone,CORP:Commonsense Reasoning and Probabilistic Planning,as Applied to Dialog with a Mobile Robot,收录于:第二十届美国人工智能协会人工智能会议,2015年,第1394-1400页。
    [15]
    S.Zhang,P.Khandelwal,P.Stone,《自适应机器人规划的动态构建(PO)MDP》,载《第三十届AAAI人工智能会议论文集》,2017年,第3855-3863页。
    [16]
    Davis E.,Marcus G.,人工智能中的常识推理和常识知识,Commun公司。ACM公司58 (9) (2015) 92–103.
    [17]
    Gelfond M.、Kahl Y.、。,知识表示、推理和智能代理的设计:答案集编程方法,剑桥大学出版社,2014年。
    [18]
    Lifschitz V.公司。,什么是答案集编程?,第23届全国人工智能会议记录,第3卷,AAAI出版社,2008年,第1594–1597页。
    [19]
    朱伟。,PLOG算法及其应用,(博士论文)美国德克萨斯理工大学,2012年。
    [20]
    巴莱E。,调查和扩展P-log,(博士论文)德克萨斯理工大学,2017年。
    [21]
    B.Milch,B.Marthi,S.Russell,D.Sontag,D.L.Ong,A.Kolobov,BLOG:未知对象的概率模型,摘自:《第19届国际人工智能联合会议论文集》,2005年,第1352-1359页。
    [22]
    L.De Raedt,A.Kimmig,H.Toivonen,《ProbLog:概率序言及其在链接发现中的应用》,载《第20届国际人工智能联合会议论文集》,2007年,第2468–2473页。
    [23]
    A.Kimmig,S.Bach,M.Broecheler,B.Huang,L.Getoor,《概率软逻辑简介》,载于《NIPS概率编程研讨会论文集:基础与应用》,2012年,第1-4页。
    [24]
    T.Eiter,T.Lukasiewicz,非单调因果理论中关于行为的概率推理,收录于:《第十九届人工智能不确定性会议论文集》,2002年,第192-199页。
    [25]
    Lee J.、Wang Y。,动作语言bc的概率扩展+2018年arXiv预印本arXiv公司:1805.00634.
    [26]
    王毅,张S.,李J.,通过概率动作语言桥接常识推理和概率规划,理论与实践。日志。程序。19 (5–6) (2019) 1090–1106.
    [27]
    拉瓦莱有限公司。,规划算法剑桥大学出版社,2006年。
    [28]
    Garrett C.R.、Chitnis R.、Holladay R.、Kim B.、Silver T.、Kaelbling L.P.、Lozano-Pérez T.,综合任务和动作规划,每年。反向控制机器人。自动命名。系统。(2021).
    [29]
    Hoffmann J.,Nebel B.,《FF计划系统:通过启发式搜索快速生成计划》,J.阿蒂夫。智力。物件。14 (2001) 253–302.
    [30]
    Helmert M.,快速下行规划系统,J.阿蒂夫。智力。物件。26 (2006) 191–246.
    [31]
    Fikes R.E.,Nilsson N.J.,STRIPS:定理证明应用于问题求解的新方法,Artif公司。智力。2 (3–4) (1971) 189–208.
    [32]
    McDermott D.、Ghallab M.、Howe A.、Knoblock C.、Ram A.、Veloso M.、Weld D.、Wilkins D.、。,PDDL-规划领域定义语言, 1998.
    [33]
    Lee J.,Lifschitz V.,Yang F.,行动语言BC:初步报告,收录于:第二十三届国际人工智能联合会议记录,AAAI出版社,2013年,第983–989页。
    [34]
    Gelfond M.,Lifschitz V.,动作语言,计算。信息科学。3 (16) (1998).
    [35]
    Sutton R.S.、Barto A.G.、。,强化学习:简介麻省理工学院出版社,2018年。
    [36]
    Kocsis L.,Szepesvári C.,基于Bandit的蒙特卡罗规划,见:ECML,第6卷斯普林格出版社,2006年,第282-293页。
    [37]
    H.L.Younes,M.L.Littman,PPDDL1.0:PDDL的扩展,用于表达具有概率效应的规划域,技术报告CMU-CS-04-1622004。
    [38]
    桑纳S。,关系动态影响图语言(RDDL):语言描述2010年,第32页。澳大利亚国立大学未发表。
    [39]
    Zhang S.,Sridharan M.,不确定性下基于知识的顺序决策研究,人工智能杂志。43 (2) (2022) 249–266.
    [40]
    Zhang S.、Sridharan M.、Wyatt J.L.,不可靠世界中机器人的混合逻辑推理和概率规划,IEEE传输。机器人。31 (3) (2015) 699–713.
    [41]
    P.Lison,C.Kennington,《OpenDial:用概率规则开发口语对话系统的工具包》,载于:ACL 2016,2016。
    [42]
    Sridharan M.、Gelfond M.、Zhang S.、Wyatt J.、REBA:机器人知识表示和推理的基于细化的体系结构,J.人工智能研究。65 (2019) 87–180.
    [43]
    Hanheide M.、Göbelbecker M.、Horn G.、Pronobis A.、SjöK.、Aydimer A.、Jensfelt P.、Gretton C.、Dearden R.、Janicek M.,Zender H.、Kruijff G.、Hawes N.、Wyatt J.《开放和不确定世界中的机器人任务规划和解释》,人工智能247 (2017) 119–150.
    [44]
    R.Chitnis,L.P.Kaelbling,T.Lozano-Perez,使用动态因子分解将人类提供的信息集成到信仰状态表示中,收录于:智能机器人和系统国际会议论文集,IROS,2018年。
    [45]
    Leonetti M.、Iocchi L.、Stone P.,自动化规划和强化学习的综合,以实现高效、稳健的决策,人工智能241 (2016) 103–130.
    [46]
    M.Sridharan、B.Meadows、R.Gomez,我能做什么?走向一种用于推理和学习负担的架构,见:自动化计划和调度国际会议,ICAPS,2017年。
    [47]
    Ferreira L.A.,Bianchi R.A.,Santos P.E.,de Mantaras R.L.,非平稳Markov决策过程的答案集编程,申请。智力。47 (4) (2017) 993–1007.
    [48]
    F.Yang,D.Lyu,B.Liu,S.Gustafson,《PEORL:将符号规划和分层强化学习结合起来以实现稳健决策》,载《第二十七届国际人工智能联合会议论文集》,IJCAI,2018年,第4860-4866页。
    [49]
    姜瑜、杨凤、张S.、斯通P.,针对适应性移动服务机器人的强化学习任务移动规划,收录于:2019 IEEE/RSJ智能机器人和系统国际会议,IROS,IEEE,2019年,第7529–7534页。
    [50]
    R.T.Icarte,T.Klassen,R.Valenzano,S.McIlraith,《在强化学习中使用奖励机器进行高级任务规范和分解》,收录于:2018年国际机器学习会议,第2107-2116页。
    [51]
    Icarte R.T.、Klassen T.Q.、Valenzano R.、McIlraith S.A.、。,奖励机器:在强化学习中开发奖励功能结构,2020,arXiv预印本arXiv公司:2010.03950.
    [52]
    Lu K.,Zhang S.,Stone P.,Chen X.,机器人对话和导航任务的学习和推理,收录于:话语和对话特别利益小组第21届年会会议记录SIGDIAL,计算语言学协会,2020年,第107–117页。
    [53]
    Bazerman M.H.、Moore D.A.、。,管理决策中的判断Wiley,2008年。
    [54]
    Triantaphyllou E.,多标准决策方法,收录于:多准则决策方法的比较研究《施普林格美国》,马萨诸塞州波士顿,2000年,第5–21页。
    [55]
    巴拉尔·C·。,知识表示、推理与陈述性问题解决剑桥大学出版社,2003年。
    [56]
    M.Gelfond,V.Lifschitz,逻辑编程的稳定模型语义,载于:国际逻辑编程会议,1988年,第1070–1080页。
    [57]
    Erdem E.,Gelfond M.,Leone N.,答案集编程的应用,人工智能杂志。37 (3) (2016) 53–68.
    [58]
    Erdem E.,Patoglu V.,ASP在机器人中的应用,KI-Künstliche Intelligenz公司(2018) 1–7.
    [59]
    珀尔·J。,智能系统中的概率推理:可信推理网络爱思唯尔出版社,2014年。
    [60]
    Boutiler C.、Dean T.、Hanks S.,《决策理论规划:结构假设和计算杠杆》,J.人工智能研究。11 (1999) 1–94.
    [61]
    Hoey J.、Poupart P.、Boutiler C.、Mihailidis A.,辅助技术的POMDP模型,见:辅助技术:概念、方法、工具和应用《IGI Global》,2014年,第120–140页。
    [62]
    Reiter R.,默认推理逻辑,Artif公司。智力。13 (1–2) (1980) 81–132.
    [63]
    H.Kurniawati,D.Hsu,W.S.Lee,SARSOP:通过近似最佳可达信念空间实现基于点的POMDP规划,收录于:机器人:科学与系统会议,2008年。
    [64]
    Walker W.、Lamere P.、Kwok P.、Raj B.、Singh R.、Gouvea E.、Wolf P.、Woelfel J.、。,Sphinx-4:一个灵活的语音识别开源框架,Sun Microsystems,Inc.,2004年。
    [65]
    Quigley M.、Conley K.、Gerkey B.、Faust J.、Foote T.、Leibs J.、Wheeler R.、Ng A.Y.、ROS:开源机器人操作系统,收录于:ICRA开源软件研讨会,第3卷,第3.2期,日本神户,2009年,第5页。
    [66]
    Zhang S.,Yang F.,Khandelwal P.,Stone P.,移动机器人规划,使用具有抽象层次结构的动作语言BC,in:逻辑程序设计和非单调推理国际会议斯普林格出版社,2015年,第502-516页。
    [67]
    Koenig N.,Howard A.,开源多机器人模拟器gazebo的设计和使用范例,收录于:2004 IEEE/RSJ智能机器人和系统国际会议论文集,第3卷,IROS,IEEE,2004年,第2149–2154页。
    [68]
    格雷夫斯A.、穆罕默德A.-r.、辛顿G.、。,基于深度递归神经网络的语音识别,声学、语音和信号处理(Icassp),2013年Ieee国际会议,IEEE,2013,第6645–6649页。
    [69]
    Young S.、Gasic M.、Thomson B.、Williams J.D.,基于POMDP的统计口语对话系统:综述,程序。美国电气工程师协会101 (5) (2013) 1160–1179.
    [70]
    S.Amiri、M.S.Shirazi、S.Zhang,《不确定性下机器人顺序决策的学习和推理》,载于:《AAAI人工智能会议论文集》,2020年。
    [71]
    Han J.、Kamber M.、Pei J.、。,数据挖掘:概念和技术第三版,摩根·考夫曼,波士顿,2012年。
    [72]
    Singh P.、Lin T.、Mueller E.T.、Lim G.、Perkins T.、Zhu W.L.,《开放思维常识:从公众获取知识》,摘自:OTM联盟关于转向有意义互联网系统的国际会议斯普林格出版社,2002年,第1223-1237页。
    [73]
    R.Speer,J.Chin,C.Havasi,《ConceptNet 5.5:一个开放的通用知识多语言图表》,载于:《第三十届美国人工智能学会会议论文集》,2017年,第4444-4451页。
    [74]
    S.Amiri,S.Wei,S.Zhang,J.Sinapov,J.Thomason,P.Stone,使用动态学习机器人控制器进行多模态谓词识别,收录于:第27届国际人工智能联合会议论文集,IJCAI-18,瑞典斯德哥尔摩,2018年。
    [75]
    Ouyang L.,Wu J.,Jiang X.,Almeida D.,Wainwright C.,Mishkin P.,Zhang C.,Agarwal S.,Slama K.,Ray A.等人,通过人工反馈训练语言模型以遵循指令,高级神经信息处理。系统。35 (2022) 27730–27744.
    [76]
    OpenAI L.公司。,查特普特,2023,网址https://openai.com/blog/chatgpt/(访问时间:2023年2月8日)。
    [77]
    Touvron H.、Lavril T.、Izacard G.、Martinet X.、Lachaux M.-A.、Lacroix T.、Rozière B.、Goyal N.、Hambro E.、Azhar F.等人。,Llama:开放高效的基础语言模型,2023,arXiv预印本arXiv公司:2302.13971.
    [78]
    Liu B.、Jiang Y.、Zhang X.、Liu Q.、Zhang S.、Biswas J.、Stone P.、。,Llm+p:赋予大型语言模型最佳规划能力,2023,arXiv预印本arXiv:2304.11477.
    [79]
    丁勇、张欣、阿米里·S·、曹·N、杨·H、卡明斯基·A、埃塞林克·C、张·S,《在开放世界中整合行动知识和LLM以进行任务规划和情境处理》,自动。机器人(2023).
    [80]
    Y.Ding,X.Zhang,C.Paxton,S.Zhang《使用大型语言模型进行对象重排的任务和运动规划》,载《智能机器人和系统国际会议论文集》,IROS,2023年。
    [81]
    Huang W.,Abbeel P.,Pathak D.,Mordatch I.,作为零快照规划者的语言模型:为具体化代理人提取可操作的知识,见:机器学习国际会议PMLR,2022年,第9118–9147页。
    [82]
    Driess D.、Xia F.、Sajjadi M.S.、Lynch C.、Chowdhery A.、Ichter B.、Wahid A.、Tompson J.、Vong Q.、Yu T.等。,Palm-e:一种体现的多模态语言模型,2023,arXiv预印本arXiv公司:2303.03378.
    [83]
    Valmeekam K.、Marquez M.、Sreedharan S.、Kambhampati S.、。,关于大型语言模型的规划能力——一项批判性调查,2023,arXiv预印本arXiv公司:2305.15771.
    [84]
    Wei J.、Wang X.、Schuurmans D.、Bosma M.、Xia F.、Chi E.、Le Q.V.、Zhou D.等人,《思维链提示引发大型语言模型中的推理》,高级神经信息处理。系统。35 (2022) 24824–24837.

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图像机器人和自治系统
    机器人与自治系统 第174卷C期
    2024年4月
    273页
    国际标准编号:0921-8890
    期刊目录

    出版商

    北韩出版公司。

    荷兰

    出版历史

    出版:2024年6月25日

    作者标记

    1. 集成推理和规划
    2. 常识推理
    3. 不确定性下的规划
    4. 自动机器人
    5. 马尔可夫决策过程
    6. POMDP公司

    限定符

    • 研究文章

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 0
      引文总数
    • 0
      总下载次数
    • 下载次数(过去12个月)0
    • 下载次数(最近6周)0

    其他指标

    引文

    视图选项

    视图选项

    获取访问权限

    登录选项

    完全访问权限

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享