跳到主要内容
10.5555/1036843.1036906交流会议文章/章节视图摘要出版物页面无人机会议记录会议集合
第条

POMDP的启发式搜索值迭代

出版:2004年7月7日 出版历史
  • 获取引文提醒
  • 摘要

    我们提出了一种新的POMDP规划算法,称为启发式搜索值迭代(HSVI)。HSVI是一种随时随地返回策略及其相对于最优策略遗憾的可证明界的算法。HSVI通过结合两种众所周知的技术获得了它的威力:以注意力为中心的搜索启发式和值函数的分段线性凸表示。HSVI的稳健性和收敛性已被证明。在文献中的一些基准问题上,与其他最先进的POMDP值迭代算法相比,HSVI显示了大于100的加速比。我们还将HSVI应用于比文献中大多数POMDP问题大10倍的新月球车探测问题。

    工具书类

    [1]
    {阿伯丁,2002}阿伯登,D.(2002)。求解部分可观测马尔可夫决策过程的近似方法综述。技术报告,澳大利亚国立大学信息科学与工程研究院。
    [2]
    {天文,1965}天文,K.J.(1965)。状态估计不完全的马尔可夫决策过程的最优控制。数学分析与应用杂志,10:174-205。
    [3]
    {Barto等人,1995年}Barto,A.、Bradtke,S.和Singh,S.(1995年)。学习使用实时动态编程进行操作。人工智能,72(1-2):81-138。
    [4]
    {Boutiler等人,1998年}Boutiler,C.、Brafman,R.和Geib,C.(1998年)。马尔可夫决策过程的结构化可达性分析。程序中。UAI,第24-32页。
    [5]
    {Brafman,1997}布拉夫曼,R.I.(1997)。POMDP的启发式可变网格求解方法。程序中。AAAI的。
    [6]
    {Cassandra等人,1997年}Cassandra,A.、Littman,M.和Zhang。N.(1997)。增量修剪:一种简单、快速、精确的方法,用于部分可观测的马尔可夫决策过程。程序中。阿联酋。
    [7]
    {迪尔登和布蒂利埃,1994年}迪尔丁,R.和布蒂利埃,C.(1994年)。在随机域中集成规划和执行。程序中。AAAI决策理论规划春季研讨会,第55-61页,加利福尼亚州斯坦福。
    [8]
    {Geffner and Bonet,1998年}Geffner,H.和Bonet,B.(1998)。通过实时动态规划求解大型POMDP。在秋季工作笔记中,AAAI POMDP研讨会。
    [9]
    {Hansen和Zilberstein,2001年}Hansen,E.和Zilkerstein,S.(2001年)。LAO*:一种启发式搜索算法,通过循环找到解决方案。人工智能,129:35--62。
    [10]
    {Hauskrecht,1997}Hauskecht,M.(1997)。部分可观测马尔可夫决策过程中计算界的增量方法。程序中。第734-739页,普罗维登斯,RI。
    [11]
    {Hauskrecht,2000}Hauskecht,M.(2000)。部分可观测马尔可夫决策过程的值函数近似。《人工智能研究杂志》,13:33--94。
    [12]
    {Hoey等人,1999年}Hoey,J.、St-Aubin,R.、Hu,A.和Boutiler,C.(1999年)。SPUDD:使用决策图的随机规划。程序中。第279--288页。
    [13]
    {凯尔布林,1993年}凯尔布林,L.P.(1993)。嵌入式系统学习。麻省理工学院出版社。
    [14]
    {皮诺等人,2003年}皮诺,J.、戈登,G.和特伦,S.(2003年)。基于点的值迭代:POMDP的任意算法。程序中。IJCAI的。
    [15]
    {Poon,2001}Poon,K.-M.(2001)。决策理论规划的快速启发式算法。香港科技大学硕士论文。
    [16]
    {Smith和Simmons,2004年}Smith,T.和Simmons,R.(2004)。POMDP的启发式搜索值迭代:详细的理论和结果。卡内基梅隆大学机器人研究所技术报告。(准备中)。
    [17]
    {Sondik,1971}Sondick,E.J.(1971)。部分可观测马尔可夫过程的最优控制。斯坦福大学博士论文。
    [18]
    {华盛顿,1997年}华盛顿特区(1997年)。BI-POMDP:有界、增量、部分可观测的Markov-model规划。程序中。欧洲规划会议(ECP),法国图卢兹。
    [19]
    {张和张,2001}张,N.L.和张,W.(2001)。加快部分可观测马尔可夫决策过程中值迭代的收敛速度。《人工智能研究杂志》,14:29--51。

    引用人

    查看全部
    • (2023)Monte-Carlo搜索Dec-POMDP中的平衡第三十九届人工智能不确定性会议论文集10.5555/3625834.3626062(2444-2453)在线发布日期:2023年7月31日
    • (2023)从两层零和博弈中提取不完全信息第40届机器学习国际会议论文集10.5555/3618408.3619741(32169-32193)在线发布日期:2023年7月23日
    • (2023)部分可观测性下基于屏蔽的安全强化学习第三十七届AAAI人工智能会议、第三十五届人工智能创新应用会议和第十三届人工智能教育进展研讨会会议记录10.1609/aaai.v37i12.26723(14748-14756)在线发布日期:2023年2月7日
    • 显示更多引用者

    建议

    评论

    信息和贡献者

    问询处

    发布于

    封面图片ACM其他会议
    UAI'04:第20届人工智能不确定性会议记录
    2004年7月
    657页
    国际标准图书编号:0974903906

    赞助商

    • 阿尔伯塔省机器学习创新中心
    • 加拿大太阳微系统公司
    • 惠普实验室
    • 信息提取与传输
    • 卓越研究信息圈
    • 雅虎!研究实验室
    • IBMR:IBM研究
    • 英特尔:英特尔
    • 微软研究院:微软研究院
    • 太平洋数学科学研究所
    • 波音公司
    • 阿尔伯塔大学
    • 格鲁门公司

    出版商

    AUAI出版社

    美国弗吉尼亚州阿灵顿

    出版历史

    出版:2004年7月7日

    检查更新

    限定符

    • 第条

    会议

    2004年UAI
    主办单位:
    • IBMR公司
    • 英特尔
    • 微软研究院
    • 阿尔伯塔大学
    UAI’04:人工智能中的不确定性
    2004年7月7日至11日
    加拿大班夫

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载次数(过去12个月)15
    • 下载次数(最近6周)1

    其他指标

    引文

    引用人

    查看全部
    • (2023)Monte-Carlo搜索Dec-POMDP中的平衡第三十九届人工智能不确定性会议论文集10.5555/3625834.3626062(2444-2453)在线发布日期:2023年7月31日
    • (2023)从两层零和博弈中提取不完全信息第40届机器学习国际会议论文集10.5555/3618408.3619741(32169-32193)在线发布日期:2023年7月23日
    • (2023)部分可观测性下基于屏蔽的安全强化学习第三十七届AAAI人工智能会议、第三十五届人工智能创新应用会议和第十三届人工智能教育进展研讨会会议记录10.1609/aaai.v37i12.26723(14748-14756)在线发布日期:2023年2月7日
    • (2022)AdLeap-MAS:一个用于Ad-hoc推理的开源多代理模拟器第21届自主代理和多代理系统国际会议论文集10.5555/3535850.3536143(1893-1895)在线发布日期:2022年5月9日
    • (2022)部分可观测Markov决策过程中基于任务软件可验证RNN的策略人工智能研究杂志10.1613/jair.1.1296372(819-847)在线发布日期:2022年1月4日
    • (2022)学习状态变量关系以提高POMCP性能第37届ACM/SIGAPP应用计算研讨会论文集10.1145/3477314.3507049(739-747)在线发布日期:2022年4月25日
    • (2021)HyP脱水器国际机器人研究杂志10.1177/027836492093707440:2-3(558-573)在线发布日期:2021年2月1日
    • (2021)具有预期停止时间的随机过程第36届ACM/IEEE计算机科学逻辑年会论文集10.1109/LICS52264.2021.9470595(1-13)在线发布日期:2021年6月29日
    • (2019)部分可观测随机对策中值函数的紧表示第28届国际人工智能联合会议记录10.5555/3367032.3367083(350-356)在线发布日期:2019年8月10日
    • (2019)基于汤普森抽样的大型POMDP中的内存受限开环规划第三十三届AAAI人工智能大会暨第三十一届人工智能创新应用大会暨第九届AAAI-人工智能教育进展研讨会论文集10.1609/aaai.v33i01.33017941(7941-7948)在线发布日期:2019年1月27日
    • 显示更多引用者

    视图选项

    获取访问权限

    登录选项

    完全访问权限

    查看选项

    PDF格式

    以PDF文件查看或下载。

    PDF格式

    电子阅读器

    使用联机查看电子阅读器.

    电子阅读器

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享