第条

POMDP的启发式搜索值迭代

作者:

特雷史密斯和

里德西蒙斯作者信息和声明

UAI'04：第20届人工智能不确定性会议记录

2004年7月

页520-527

出版:2004年7月7日出版历史

获取访问权限

摘要

我们提出了一种新的POMDP规划算法，称为启发式搜索值迭代（HSVI）。HSVI是一种随时随地返回策略及其相对于最优策略遗憾的可证明界的算法。HSVI通过结合两种众所周知的技术获得了它的威力：以注意力为中心的搜索启发式和值函数的分段线性凸表示。HSVI的稳健性和收敛性已被证明。在文献中的一些基准问题上，与其他最先进的POMDP值迭代算法相比，HSVI显示了大于100的加速比。我们还将HSVI应用于比文献中大多数POMDP问题大10倍的新月球车探测问题。

工具书类

[1]

{阿伯丁，2002}阿伯登，D.（2002）。求解部分可观测马尔可夫决策过程的近似方法综述。技术报告，澳大利亚国立大学信息科学与工程研究院。

[2]

{天文，1965}天文，K.J.（1965）。状态估计不完全的马尔可夫决策过程的最优控制。数学分析与应用杂志，10:174-205。

[3]

{Barto等人，1995年}Barto，A.、Bradtke，S.和Singh，S.（1995年）。学习使用实时动态编程进行操作。人工智能，72（1-2）：81-138。

[4]

{Boutiler等人，1998年}Boutiler，C.、Brafman，R.和Geib，C.（1998年）。马尔可夫决策过程的结构化可达性分析。程序中。UAI，第24-32页。

数字图书馆

[5]

{Brafman，1997}布拉夫曼，R.I.（1997）。POMDP的启发式可变网格求解方法。程序中。AAAI的。

数字图书馆

[6]

{Cassandra等人，1997年}Cassandra，A.、Littman，M.和Zhang。N.（1997）。增量修剪：一种简单、快速、精确的方法，用于部分可观测的马尔可夫决策过程。程序中。阿联酋。

数字图书馆

[7]

{迪尔登和布蒂利埃，1994年}迪尔丁，R.和布蒂利埃，C.（1994年）。在随机域中集成规划和执行。程序中。AAAI决策理论规划春季研讨会，第55-61页，加利福尼亚州斯坦福。

[8]

{Geffner and Bonet，1998年}Geffner，H.和Bonet，B.（1998）。通过实时动态规划求解大型POMDP。在秋季工作笔记中，AAAI POMDP研讨会。

[9]

{Hansen和Zilberstein，2001年}Hansen，E.和Zilkerstein，S.（2001年）。LAO*：一种启发式搜索算法，通过循环找到解决方案。人工智能，129:35--62。

数字图书馆

[10]

{Hauskrecht，1997}Hauskecht，M.（1997）。部分可观测马尔可夫决策过程中计算界的增量方法。程序中。第734-739页，普罗维登斯，RI。

数字图书馆

[11]

{Hauskrecht，2000}Hauskecht，M.（2000）。部分可观测马尔可夫决策过程的值函数近似。《人工智能研究杂志》，13:33--94。

数字图书馆

[12]

{Hoey等人，1999年}Hoey，J.、St-Aubin，R.、Hu，A.和Boutiler，C.（1999年）。SPUDD：使用决策图的随机规划。程序中。第279--288页。

数字图书馆

[13]

{凯尔布林，1993年}凯尔布林，L.P.（1993）。嵌入式系统学习。麻省理工学院出版社。

数字图书馆

[14]

{皮诺等人，2003年}皮诺，J.、戈登，G.和特伦，S.（2003年）。基于点的值迭代：POMDP的任意算法。程序中。IJCAI的。

数字图书馆

[15]

{Poon，2001}Poon，K.-M.（2001）。决策理论规划的快速启发式算法。香港科技大学硕士论文。

[16]

{Smith和Simmons，2004年}Smith，T.和Simmons，R.（2004）。POMDP的启发式搜索值迭代：详细的理论和结果。卡内基梅隆大学机器人研究所技术报告。（准备中）。

[17]

{Sondik，1971}Sondick，E.J.（1971）。部分可观测马尔可夫过程的最优控制。斯坦福大学博士论文。

[18]

{华盛顿，1997年}华盛顿特区（1997年）。BI-POMDP：有界、增量、部分可观测的Markov-model规划。程序中。欧洲规划会议（ECP），法国图卢兹。

数字图书馆

[19]

{张和张，2001}张，N.L.和张，W.（2001）。加快部分可观测马尔可夫决策过程中值迭代的收敛速度。《人工智能研究杂志》，14:29--51。

数字图书馆

引用人

你是的托马斯五世F列自助餐O埃文斯·R施皮策一世(2023)Monte-Carlo搜索Dec-POMDP中的平衡第三十九届人工智能不确定性会议论文集10.5555/3625834.3626062(2444-2453)在线发布日期：2023年7月31日
https://dl.acm.org/doi/10.5555/3625834.3626062
索科塔SD’Orazio R公司灵C吴德科尔特J棕色N克劳斯A布伦斯基E赵·K恩格哈特B萨巴托S斯佳丽J(2023)从两层零和博弈中提取不完全信息第40届机器学习国际会议论文集10.5555/3618408.3619741(32169-32193)在线发布日期：2023年7月23日
https://dl.acm.org/doi/10.5555/3618408.3619741
卡尔·S詹森N丛林STopcu U型威廉姆斯B陈毅内维尔·J(2023)部分可观测性下基于屏蔽的安全强化学习第三十七届AAAI人工智能会议、第三十五届人工智能创新应用会议和第十三届人工智能教育进展研讨会会议记录10.1609/aaai.v37i12.26723(14748-14756)在线发布日期：2023年2月7日
https://dl.acm.org/doi/10.1609/aaai.v37i12.26723
显示更多引用者

索引术语

POMDP的启发式搜索值迭代

索引项已通过自动分类分配给内容。

建议

分解POMDP的符号启发式搜索值迭代
AAAI'08：第23届全国人工智能会议记录-第2卷

我们提出了符号启发式搜索值迭代（Symbolic HSVI）算法，该算法扩展了启发式搜索价值迭代（HSVI）的算法，以处理分解的部分可观测马尔可夫决策过程（factored POMDP）。想法是。。。
阅读更多信息
有限时域POMDP的基于点的值迭代

部分可观测马尔可夫决策过程（POMDP）是部分可观测环境中序列决策的一种流行形式。由于求解POMDP到最优是一项困难的任务，基于点的值迭代方法被广泛。。。
阅读更多信息
POMDP的正向搜索值迭代
IJCAI'07：第20届人工智能国际联合会议记录

最近POMDP解算器向现实应用的扩展很大程度上是由于基于点的方法，这些方法可以快速收敛到中等大小问题的近似解。在使用基于试验的异步值迭代的HSVI系列中。。。
阅读更多信息

评论

信息和贡献者

问询处

发布于

封面图片ACM其他会议

UAI'04：第20届人工智能不确定性会议记录

2004年7月

657页

国际标准图书编号：0974903906

会议主席：
克里斯托弗·米克
微软研究院
,
课程主席：
Max Chickering公司
Microsoft重新搜索
,
约瑟夫·哈珀
康奈尔大学

赞助商

阿尔伯塔省机器学习创新中心
加拿大太阳微系统公司
惠普实验室
信息提取与传输
卓越研究信息圈
雅虎！研究实验室
IBMR：IBM研究
英特尔：英特尔
微软研究院：微软研究院
太平洋数学科学研究所
波音公司
阿尔伯塔大学
格鲁门公司

出版商

AUAI出版社

美国弗吉尼亚州阿灵顿

出版历史

出版：2004年7月7日

检查更新

限定符

第条

会议

2004年UAI

主办单位：

IBMR公司
英特尔
微软研究院
阿尔伯塔大学

UAI’04：人工智能中的不确定性

2004年7月7日至11日

加拿大班夫

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

83
引文总数
查看引文
922
总下载次数

下载次数（过去12个月）15
下载次数（最近6周）1

其他指标

查看作者指标

引文

引用人

你Y托马斯五世F列自助餐O埃文斯·R施皮策一世(2023)Monte-Carlo搜索Dec-POMDP中的平衡第三十九届人工智能不确定性会议论文集10.5555/3625834.3626062(2444-2453)在线发布日期：2023年7月31日
https://dl.acm.org/doi/10.5555/3625834.3626062
索科塔SD’Orazio R公司灵C吴德科尔特J棕色N克劳斯A布伦斯基E赵·K恩格尔哈特B萨巴托S斯佳丽J(2023)从两层零和博弈中提取不完全信息第40届机器学习国际会议论文集10.5555/3618408.3619741(32169-32193)在线发布日期：2023年7月23日
https://dl.acm.org/doi/10.5555/3618408.3619741
卡尔·S詹森N荣格斯STopcu U型威廉姆斯B陈毅内维尔·J(2023)部分可观测性下基于屏蔽的安全强化学习第三十七届AAAI人工智能会议、第三十五届人工智能创新应用会议和第十三届人工智能教育进展研讨会会议记录10.1609/aaai.v37i12.26723(14748-14756)在线发布日期：2023年2月7日
https://dl.acm.org/doi/10.1609/aaai.v37i12.26723
do卡莫·阿尔维斯M瓦尔马AElkhatib Y公司索里亚诺·马可利诺Pelachaud C公司泰勒·MFaliszewski P公司马斯卡迪V(2022)AdLeap-MAS：一个用于Ad-hoc推理的开源多代理模拟器第21届自主代理和多代理系统国际会议论文集10.5555/3535850.3536143(1893-1895)在线发布日期：2022年5月9日
https://dl.acm.org/doi/10.5555/3535850.3536143
卡尔·S詹森NTopcu U型(2022)部分可观测Markov决策过程中基于任务软件可验证RNN的策略人工智能研究杂志10.1613/jair.1.1296372(819-847)在线发布日期：2022年1月4日
https://dl.acm.org/doi/10.1613/jair.1.12963
祖科托M卡斯泰利尼A法利内利AHong J（香港）布雷斯·M公园JCerny T公司(2022)学习状态变量关系以提高POMCP性能第37届ACM/SIGAPP应用计算研讨会论文集10.1145/3477314.3507049(739-747)在线发布日期：2022年4月25日
https://dl.acm.org/doi/10.1145/3477314.3507049
蔡P罗伊徐丹（Hsu D）Lee W（李·W）(2021)HyP脱水器国际机器人研究杂志10.1177/027836492093707440:2-3(558-573)在线发布日期：2021年2月1日
https://dl.acm.org/doi/10.1177/0278364920937074
查特吉KDoyen L公司戈拉·D(2021)具有预期停止时间的随机过程第36届ACM/IEEE计算机科学逻辑年会论文集10.1109/LICS52264.2021.9470595(1-13)在线发布日期：2021年6月29日
https://dl.acm.org/doi/10.1109/LICS52264.2021.9470595
霍拉克k博桑斯基BKiekintveld C公司坎胡阿C(2019)部分可观测随机对策中值函数的紧表示第28届国际人工智能联合会议记录10.5555/3367032.3367083(350-356)在线发布日期：2019年8月10日
https://dl.acm.org/doi/10.5555/3367032.3367083
Phan T公司贝尔兹纳LKiermeier M公司弗里德里希·M施密德·K林霍夫·波皮恩C(2019)基于汤普森抽样的大型POMDP中的内存受限开环规划第三十三届AAAI人工智能大会暨第三十一届人工智能创新应用大会暨第九届AAAI-人工智能教育进展研讨会论文集10.1609/aaai.v33i01.33017941(7941-7948)在线发布日期：2019年1月27日
https://dl.acm.org/doi/10.1609/aaai.v33i01.33017941
显示更多引用者

视图选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

查看选项

PDF格式

以PDF文件查看或下载。

电子阅读器

使用联机查看电子阅读器.

电子阅读器

媒体

数字

其他

桌子