POMDPS公司

POMDPS的在线规划算法。部分可观测马尔可夫决策过程(POMDPs)为随机域中不确定性下的序贯决策提供了一个丰富的框架。然而,由于问题的复杂性,解决这些问题往往是棘手的。在这里,我们关注于通过在执行过程中的每个决策步骤计算好的本地策略来减轻计算复杂性的在线方法。在线算法通常由前瞻性搜索组成,以找到在环境中每个时间步执行的最佳操作。我们的目标是调查现有的各种在线POMDP方法,分析它们的特性并讨论它们的优缺点;并在不同的环境下,在不同的度量标准下(返回、误差限减少、下界改进)全面评估这些在线方法。pomart-dp-Our启发式搜索方法可以有效地处理大型领域的实验结果


zbMATH中的参考文献(引用于,第1条标准)

显示第1到第20个结果,共34个。
按年份排序(引用)
  1. Pajarinen,Joni;Thai,Hong Linh;Akrour,Riad;Peters,Jan;Neumann,Gerhard:兼容自然梯度政策搜索(2019年)
  2. Powell,Warren B.:随机优化的统一框架(2019)
  3. Pajarinen,Joni;Kyrki,Ville:作为POMDP的多个对象的机器人操作(2017)
  4. 张宗章;傅启明;张晓芳;刘全:基于覆盖数的POMDP规划复杂性推理与预测(2016)
  5. 切利克,梅利赫;厄尔贡,厄兹勒姆;凯斯金诺克,Pınar:不完全信息下的灾后碎片清理问题(2015年)
  6. Lauri,Mikko;Ritala,Risto:在连续状态下规划多个测量通道POMDP(2013)
  7. Bai,Haoyu;Hsu,David;Lee,Wee-Sun;Ngo,Vien A.:连续状态POMDP的蒙特卡罗值迭代(2011)
  8. Golovin,D.;Krause,A.:自适应子模块化:主动学习和随机优化的理论和应用(2011)
  9. He,R.;Brunskill,E.;Roy,N.:宏观行动不确定性下的有效规划(2011)
  10. Veness,J.;Ng,K.S.;Hutter,M.;Uther,W.;Silver,D.:蒙特卡罗AIXI近似(2011)
  11. Wolf,Travis B.;Kochenderfer,Mykel J.:使用蒙特卡罗实时信念空间搜索避免飞机碰撞(2011年)ioport公司
  12. Aras,R.;Dutech,A.:有限水平分散POMDP的数学规划研究(2010)
  13. Brunskill,Emma;Kaelbling,Leslie Pack;Lozano-Pérez,Tomás;Roy,Nicholas:部分可观测交换模式连续域中的规划(2010)
  14. Krishnendu Chatterjee;Doyen,Laurent;Henzinger,Thomas A.:部分可观测马尔可夫决策过程的定性分析(2010)
  15. Goutzi,Goutzi,2010;固定策略;Goutz,G
  16. Goulonis,John E.;Stengos,D.J.;Tzavelas,G.:帕金森病医疗管理的不确定多智能体环境下的规划(2010)
  17. Daan Wierstra;Alexander Förster;Peters,Jan;Schmidhuber,Jürgen:经常性政策梯度(2010)
  18. Bernstein,D.S.;Amato,C.;Hansen,E.A.;Zilberstein,S.:Markov决策过程分散控制的策略迭代(2009)
  19. Chong,Edwin K.P.;Kreucher,Christopher M.;Hero,Alfred O.III:自适应感知的部分可观测马尔可夫决策过程近似(2009)
  20. Doshi,P.;Gmytrasiewicz,P.J.:用于近似交互式POMDP的蒙特卡罗抽样方法(2009)

更多出版物请访问:http://www.pomdp.org/pomdp/papers/index.shtml