研究论文

国际公司：：机器人的交叉常识推理和概率规划

作者:

皮尤什坎德瓦尔、和

彼得石头作者信息和声明

体积174,问题C类

https://doi.org/10.1016/j.robot.2023.104613

出版:2024年6月25日出版历史

摘要

机器人在现实世界中的顺序决策是一个挑战，因为它要求机器人同时对当前世界状态和动力学进行推理，同时规划行动以完成复杂任务。一方面，声明语言和推理算法支持用常识知识进行表示和推理。但这些算法并不擅长规划行动，以在一个长期的、未指定的范围内最大化累积回报。另一方面，概率规划框架，如马尔可夫决策过程（MDP）和部分可观测MDP（POMDP），支持规划在不确定性下实现长期目标。但他们不具备表达或推理与行动无关的知识的能力。在本文中，我们提出了一种称为iCORPP的算法，用于同时估计当前世界状态、世界动力学原因，并构造面向任务的控制器。在此过程中，机器人决策问题被分解为两个相互依赖（较小）的子问题，分别侧重于推理以“了解世界”和规划以“实现目标”。所开发的算法已经在仿真和使用日常服务任务（如室内导航和对话管理）的真实机器人上实现和评估。结果表明，与包括手工制定的行动政策在内的竞争基线相比，在可扩展性、效率和适应性方面有了显著改进。

集锦

•

本文正式介绍了机器人的集成推理与规划（IRP）问题。IRP问题有一个由一组内生和外生变量指定的因子化状态空间。

•

本文介绍了一种顺序决策算法，称为交错常识推理和概率规划（iCORPP），用于解决IRP问题。

•

本文使用移动机器人导航和语音对话系统这两个任务，对iCORP进行了系统评估，并在一个真实的机器人上进行了演示。

•

本文基于我们之前在两篇会议论文中的研究（Zhang and Stone，2015；Zhang et al.，2017）。本文统一了他们的术语、问题陈述和算法。

•

与我们之前的工作相比，本文在第4.1节中引入了一个新的问题陈述，其中涵盖了两份会议文件中提到的问题。

•

为了解决IRP问题，我们将iCORPP算法（第4.2节）重新定义为一种新的形式，包括“逻辑推理”、“世界状态概率推理”和“世界动力学概率推理”三个关键步骤

工具书类

[1]

Halpern J.Y。，关于不确定性的推理麻省理工学院出版社，2017年。

数字图书馆

[2]

Richardson M.，Domingos P.，马尔可夫逻辑网络，机器。学习。62 (1) (2006) 107–136.

数字图书馆

[3]

J.Lee，Y.Wang，《稳定模型语义下的加权规则》，收录于：KR，2016年，第145-154页。

[4]

Balai E.，Gelfond M.，Zhang Y.，P-log：精化和一个新的相干条件，安。数学。Artif公司。智力。86 (1) (2019) 149–192.

[5]

Khandelwal P.、Zhang S.、Sinapov J.、Leonetti M.、Thomason J.、Yang F.、Gori I.、Svetlik M.、Khante P.、Lifschitz V.、Aggarwal J.K.、Mooney R.、Stone P.、BWIBots：一个缩小人工智能与人机交互研究差距的平台，国际J机器人。物件。36 (5–7) (2017) 635–659.

[6]

Hawes N.、Burbridge C.、Jovan F.等人，《绞线项目：日常环境中的长期自主性》，IEEE机器人。自动。美格。24 (3) (2017) 146–156.

[7]

Veloso M.M.，《人类-机器人-人工智能交互日益吸引人的机会：CoBot移动服务机器人》，ACM事务处理。嗯，机器人互动。（三次）7 (1) (2018) 5.

[8]

Chen Y.，Wu F.，Shuai W.，Chen X.，机器人在公共场所为人类服务——KeJia机器人作为购物助理，Int.J.高级机器人。系统。（IJARS）14 (3) (2017) 1–20.

[9]

Kurniawati H.，Du Y.，Hsu D.，Lee W.S.，长时间视野机器人任务的不确定性运动规划，国际J机器人。物件。30 (3) (2011) 308–323.

[10]

Baral C.，Gelfond M.，Rushton N.，答案集概率推理，理论与实践。日志。程序。9 (1) (2009) 57–144.

数字图书馆

[11]

E.Balai，M.Gelfond，精炼和概括P-log——初步报告，摘自：2017年第十届答案集编程和其他计算范式研讨会论文集。

[12]

普特曼M.L。，马尔可夫决策过程：离散随机动态规划，John Wiley&Sons，2014年。

[13]

Kaelbling L.、Littman M.、Cassandra A.，在部分可观测随机域中的规划和行动，人工智能101 (1998) 99–134.

[14]

S.Zhang，P.Stone，CORP:Commonsense Reasoning and Probabilistic Planning，as Applied to Dialog with a Mobile Robot，收录于：第二十届美国人工智能协会人工智能会议，2015年，第1394-1400页。

[15]

S.Zhang，P.Khandelwal，P.Stone，《自适应机器人规划的动态构建（PO）MDP》，载《第三十届AAAI人工智能会议论文集》，2017年，第3855-3863页。

[16]

Davis E.，Marcus G.，人工智能中的常识推理和常识知识，Commun公司。ACM公司58 (9) (2015) 92–103.

[17]

Gelfond M.、Kahl Y.、。，知识表示、推理和智能代理的设计：答案集编程方法，剑桥大学出版社，2014年。

数字图书馆

[18]

Lifschitz V.公司。，什么是答案集编程？,第23届全国人工智能会议记录，第3卷，AAAI出版社，2008年，第1594–1597页。

[19]

朱伟。，PLOG算法及其应用，（博士论文）美国德克萨斯理工大学，2012年。

[20]

巴莱E。，调查和扩展P-log，（博士论文）德克萨斯理工大学，2017年。

[21]

B.Milch，B.Marthi，S.Russell，D.Sontag，D.L.Ong，A.Kolobov，BLOG:未知对象的概率模型，摘自：《第19届国际人工智能联合会议论文集》，2005年，第1352-1359页。

[22]

L.De Raedt，A.Kimmig，H.Toivonen，《ProbLog:概率序言及其在链接发现中的应用》，载《第20届国际人工智能联合会议论文集》，2007年，第2468–2473页。

[23]

A.Kimmig，S.Bach，M.Broecheler，B.Huang，L.Getoor，《概率软逻辑简介》，载于《NIPS概率编程研讨会论文集：基础与应用》，2012年，第1-4页。

[24]

T.Eiter，T.Lukasiewicz，非单调因果理论中关于行为的概率推理，收录于：《第十九届人工智能不确定性会议论文集》，2002年，第192-199页。

[25]

Lee J.、Wang Y。，动作语言bc的概率扩展+2018年arXiv预印本arXiv公司：1805.00634.

[26]

王毅，张S.，李J.，通过概率动作语言桥接常识推理和概率规划，理论与实践。日志。程序。19 (5–6) (2019) 1090–1106.

[27]

拉瓦莱有限公司。，规划算法剑桥大学出版社，2006年。

数字图书馆

[28]

Garrett C.R.、Chitnis R.、Holladay R.、Kim B.、Silver T.、Kaelbling L.P.、Lozano-Pérez T.，综合任务和动作规划，每年。反向控制机器人。自动命名。系统。(2021).

[29]

Hoffmann J.，Nebel B.，《FF计划系统：通过启发式搜索快速生成计划》，J.阿蒂夫。智力。物件。14 (2001) 253–302.

[30]

Helmert M.，快速下行规划系统，J.阿蒂夫。智力。物件。26 (2006) 191–246.

[31]

Fikes R.E.，Nilsson N.J.，STRIPS：定理证明应用于问题求解的新方法，Artif公司。智力。2 (3–4) (1971) 189–208.

[32]

McDermott D.、Ghallab M.、Howe A.、Knoblock C.、Ram A.、Veloso M.、Weld D.、Wilkins D.、。，PDDL-规划领域定义语言, 1998.

[33]

Lee J.，Lifschitz V.，Yang F.，行动语言BC：初步报告，收录于：第二十三届国际人工智能联合会议记录，AAAI出版社，2013年，第983–989页。

[34]

Gelfond M.，Lifschitz V.，动作语言，计算。信息科学。3 (16) (1998).

[35]

Sutton R.S.、Barto A.G.、。，强化学习：简介麻省理工学院出版社，2018年。

数字图书馆

[36]

Kocsis L.，Szepesvári C.，基于Bandit的蒙特卡罗规划，见：ECML，第6卷斯普林格出版社，2006年，第282-293页。

[37]

H.L.Younes，M.L.Littman，PPDDL1.0：PDDL的扩展，用于表达具有概率效应的规划域，技术报告CMU-CS-04-1622004。

[38]

桑纳S。，关系动态影响图语言（RDDL）：语言描述2010年，第32页。澳大利亚国立大学未发表。

[39]

Zhang S.，Sridharan M.，不确定性下基于知识的顺序决策研究，人工智能杂志。43 (2) (2022) 249–266.

[40]

Zhang S.、Sridharan M.、Wyatt J.L.，不可靠世界中机器人的混合逻辑推理和概率规划，IEEE传输。机器人。31 (3) (2015) 699–713.

[41]

P.Lison，C.Kennington，《OpenDial:用概率规则开发口语对话系统的工具包》，载于：ACL 2016，2016。

[42]

Sridharan M.、Gelfond M.、Zhang S.、Wyatt J.、REBA：机器人知识表示和推理的基于细化的体系结构，J.人工智能研究。65 (2019) 87–180.

[43]

Hanheide M.、Göbelbecker M.、Horn G.、Pronobis A.、SjöK.、Aydimer A.、Jensfelt P.、Gretton C.、Dearden R.、Janicek M.，Zender H.、Kruijff G.、Hawes N.、Wyatt J.《开放和不确定世界中的机器人任务规划和解释》，人工智能247 (2017) 119–150.

[44]

R.Chitnis，L.P.Kaelbling，T.Lozano-Perez，使用动态因子分解将人类提供的信息集成到信仰状态表示中，收录于：智能机器人和系统国际会议论文集，IROS，2018年。

[45]

Leonetti M.、Iocchi L.、Stone P.，自动化规划和强化学习的综合，以实现高效、稳健的决策，人工智能241 (2016) 103–130.

[46]

M.Sridharan、B.Meadows、R.Gomez，我能做什么？走向一种用于推理和学习负担的架构，见：自动化计划和调度国际会议，ICAPS，2017年。

[47]

Ferreira L.A.，Bianchi R.A.，Santos P.E.，de Mantaras R.L.，非平稳Markov决策过程的答案集编程，申请。智力。47 (4) (2017) 993–1007.

[48]

F.Yang，D.Lyu，B.Liu，S.Gustafson，《PEORL：将符号规划和分层强化学习结合起来以实现稳健决策》，载《第二十七届国际人工智能联合会议论文集》，IJCAI，2018年，第4860-4866页。

[49]

姜瑜、杨凤、张S.、斯通P.，针对适应性移动服务机器人的强化学习任务移动规划，收录于：2019 IEEE/RSJ智能机器人和系统国际会议，IROS，IEEE，2019年，第7529–7534页。

[50]

R.T.Icarte，T.Klassen，R.Valenzano，S.McIlraith，《在强化学习中使用奖励机器进行高级任务规范和分解》，收录于：2018年国际机器学习会议，第2107-2116页。

[51]

Icarte R.T.、Klassen T.Q.、Valenzano R.、McIlraith S.A.、。，奖励机器：在强化学习中开发奖励功能结构，2020，arXiv预印本arXiv公司：2010.03950.

[52]

Lu K.，Zhang S.，Stone P.，Chen X.，机器人对话和导航任务的学习和推理，收录于：话语和对话特别利益小组第21届年会会议记录SIGDIAL，计算语言学协会，2020年，第107–117页。

[53]

Bazerman M.H.、Moore D.A.、。，管理决策中的判断Wiley，2008年。

[54]

Triantaphyllou E.，多标准决策方法，收录于：多准则决策方法的比较研究《施普林格美国》，马萨诸塞州波士顿，2000年，第5–21页。

[55]

巴拉尔·C·。，知识表示、推理与陈述性问题解决剑桥大学出版社，2003年。

[56]

M.Gelfond，V.Lifschitz，逻辑编程的稳定模型语义，载于：国际逻辑编程会议，1988年，第1070–1080页。

[57]

Erdem E.，Gelfond M.，Leone N.，答案集编程的应用，人工智能杂志。37 (3) (2016) 53–68.

[58]

Erdem E.，Patoglu V.，ASP在机器人中的应用，KI-Künstliche Intelligenz公司(2018) 1–7.

[59]

珀尔·J。，智能系统中的概率推理：可信推理网络爱思唯尔出版社，2014年。

数字图书馆

[60]

Boutiler C.、Dean T.、Hanks S.，《决策理论规划：结构假设和计算杠杆》，J.人工智能研究。11 (1999) 1–94.

[61]

Hoey J.、Poupart P.、Boutiler C.、Mihailidis A.，辅助技术的POMDP模型，见：辅助技术：概念、方法、工具和应用《IGI Global》，2014年，第120–140页。

[62]

Reiter R.，默认推理逻辑，Artif公司。智力。13 (1–2) (1980) 81–132.

[63]

H.Kurniawati，D.Hsu，W.S.Lee，SARSOP：通过近似最佳可达信念空间实现基于点的POMDP规划，收录于：机器人：科学与系统会议，2008年。

[64]

Walker W.、Lamere P.、Kwok P.、Raj B.、Singh R.、Gouvea E.、Wolf P.、Woelfel J.、。，Sphinx-4：一个灵活的语音识别开源框架，Sun Microsystems，Inc.，2004年。

[65]

Quigley M.、Conley K.、Gerkey B.、Faust J.、Foote T.、Leibs J.、Wheeler R.、Ng A.Y.、ROS：开源机器人操作系统，收录于：ICRA开源软件研讨会，第3卷，第3.2期，日本神户，2009年，第5页。

[66]

Zhang S.，Yang F.，Khandelwal P.，Stone P.，移动机器人规划，使用具有抽象层次结构的动作语言BC，in：逻辑程序设计和非单调推理国际会议斯普林格出版社，2015年，第502-516页。

[67]

Koenig N.，Howard A.，开源多机器人模拟器gazebo的设计和使用范例，收录于：2004 IEEE/RSJ智能机器人和系统国际会议论文集，第3卷，IROS，IEEE，2004年，第2149–2154页。

[68]

格雷夫斯A.、穆罕默德A.-r.、辛顿G.、。，基于深度递归神经网络的语音识别,声学、语音和信号处理（Icassp），2013年Ieee国际会议，IEEE，2013，第6645–6649页。

[69]

Young S.、Gasic M.、Thomson B.、Williams J.D.，基于POMDP的统计口语对话系统：综述，程序。美国电气工程师协会101 (5) (2013) 1160–1179.

[70]

S.Amiri、M.S.Shirazi、S.Zhang，《不确定性下机器人顺序决策的学习和推理》，载于：《AAAI人工智能会议论文集》，2020年。

[71]

Han J.、Kamber M.、Pei J.、。，数据挖掘：概念和技术第三版，摩根·考夫曼，波士顿，2012年。

[72]

Singh P.、Lin T.、Mueller E.T.、Lim G.、Perkins T.、Zhu W.L.，《开放思维常识：从公众获取知识》，摘自：OTM联盟关于转向有意义互联网系统的国际会议斯普林格出版社，2002年，第1223-1237页。

[73]

R.Speer，J.Chin，C.Havasi，《ConceptNet 5.5:一个开放的通用知识多语言图表》，载于：《第三十届美国人工智能学会会议论文集》，2017年，第4444-4451页。

[74]

S.Amiri，S.Wei，S.Zhang，J.Sinapov，J.Thomason，P.Stone，使用动态学习机器人控制器进行多模态谓词识别，收录于：第27届国际人工智能联合会议论文集，IJCAI-18，瑞典斯德哥尔摩，2018年。

[75]

Ouyang L.，Wu J.，Jiang X.，Almeida D.，Wainwright C.，Mishkin P.，Zhang C.，Agarwal S.，Slama K.，Ray A.等人，通过人工反馈训练语言模型以遵循指令，高级神经信息处理。系统。35 (2022) 27730–27744.

[76]

OpenAI L.公司。，查特普特，2023，网址https://openai.com/blog/chatgpt/（访问时间：2023年2月8日）。

[77]

Touvron H.、Lavril T.、Izacard G.、Martinet X.、Lachaux M.-A.、Lacroix T.、Rozière B.、Goyal N.、Hambro E.、Azhar F.等人。，Llama：开放高效的基础语言模型，2023，arXiv预印本arXiv公司：2302.13971.

[78]

Liu B.、Jiang Y.、Zhang X.、Liu Q.、Zhang S.、Biswas J.、Stone P.、。，Llm+p：赋予大型语言模型最佳规划能力，2023，arXiv预印本arXiv:2304.11477.

[79]

丁勇、张欣、阿米里·S·、曹·N、杨·H、卡明斯基·A、埃塞林克·C、张·S，《在开放世界中整合行动知识和LLM以进行任务规划和情境处理》，自动。机器人(2023).

[80]

Y.Ding，X.Zhang，C.Paxton，S.Zhang《使用大型语言模型进行对象重排的任务和运动规划》，载《智能机器人和系统国际会议论文集》，IROS，2023年。

[81]

Huang W.，Abbeel P.，Pathak D.，Mordatch I.，作为零快照规划者的语言模型：为具体化代理人提取可操作的知识，见：机器学习国际会议PMLR，2022年，第9118–9147页。

[82]

Driess D.、Xia F.、Sajjadi M.S.、Lynch C.、Chowdhery A.、Ichter B.、Wahid A.、Tompson J.、Vong Q.、Yu T.等。，Palm-e：一种体现的多模态语言模型，2023，arXiv预印本arXiv公司：2303.03378.

[83]

Valmeekam K.、Marquez M.、Sreedharan S.、Kambhampati S.、。，关于大型语言模型的规划能力——一项批判性调查，2023，arXiv预印本arXiv公司：2305.15771.

[84]

Wei J.、Wang X.、Schuurmans D.、Bosma M.、Xia F.、Chi E.、Le Q.V.、Zhou D.等人，《思维链提示引发大型语言模型中的推理》，高级神经信息处理。系统。35 (2022) 24824–24837.

建议

多目标随机路径规划的向量值马尔可夫决策过程

在最短路径并不总是最佳路径的随机环境中的路径规划问题是许多实际应用（如自动车辆、机器人、物流等）所需要的一个具有挑战性的问题。。。
阅读更多信息
有界参数马尔可夫决策过程
阅读更多信息
未知环境下不确定性移动机械手规划

我们提出了一种基于采样的移动机械手规划器，该规划器考虑了基本姿态的不确定性以及这种不确定性对机械手运动的影响。总体规划师有三个鲜明而新颖的特点：一是使用层次结构和。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图像机器人和自治系统

机器人与自治系统第174卷C期

2024年4月

273页

国际标准编号：0921-8890

版权所有©2024。

出版商

北韩出版公司。

荷兰

出版历史

出版：2024年6月25日

作者标记

限定符

研究文章

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

0
引文总数
0
总下载次数

下载次数（过去12个月）0
下载次数（最近6周）0

其他指标

查看作者指标

引文

视图选项

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

媒体

数字

其他

桌子

查看问题目录