pomdp解决方案

POMDP解算器软件

“pomdp-solve”程序(用C编写)解决的问题如下部分可观测马尔可夫决策过程,也称为POMDP。它使用所有算法的基本动态规划方法,求解一个一段时间内向后工作。它的视野有限有或没有折扣的问题。如果答案在无限地平线答案的可容忍范围内,并且有两种不同的停止条件(需要贴现系数小于1.0)。或者,您可以求解有限某一固定视界长度的视界问题。代码实际上实现了许多POMDP解决方案算法:

  • 枚举(71年Sondik,82年Monahan,91年White)
  • 二通(Sondik’71年)
  • 线性支架(Cheng’88年) †
  • 见证人(利特曼97年,卡桑德拉98年)
  • 增量修剪(Zhang和Lui’96,Cassandra,Littman和Zhang’97)
  • 有限网格-和基于点的值迭代(PBVI)实例(卡桑德拉'04)
    †需要商用CPLEX线性编程求解器软件。

版本注释

这个v5.5版本是2024年2月的新版本,有一些小的更新需要在更现代版本的GNU/Linux和Apple的OS-X上运行(大约2020年)。GCC编译器和autoconf变得更加挑剔,在针对较旧的v5.4代码运行时产生了一些错误和许多警告。这也将代码转换为更标准、更完整的Creative Common许可,而不是以前使用的定制许可术语。

下载

获取pomdp解决方案运行是下载C源代码并在自己的机器上编译它。使用下面的按钮下载源代码和下一节中的安装说明。或者,您可以克隆GitHub存储库这样就可以得到消息来源。

选择

从源安装

下载pomdp-solve v5.5代码,然后执行以下操作:

    --下载文件--焦油zxvf pomdp-solve-5.5.tar.gzcd pomdp-solve-5.5./配置制作

你会发现pomdp解决方案中的可执行文件型钢混凝土目录。我还没有测试如果你执行“进行安装'目标。这通常适用于Unix风格的系统(GNU/Linux和Apple的OS-X),因此您可能需要做额外的工作才能使其在Microsoft Windows系统上运行。

正在运行

您可以使用-pomdp公司带有定义POMDP模型的文件名的命令行选项。这个POMDP文件格式页面描述此输入文件的语法和POMDP模型示例页面中有这些文件的一些示例。使用执行-小时选项将显示所有命令行选项,这些选项在命令行选项页.

例子

如果您只想确保编译的代码正常工作和/或熟悉它,那么示例模型文件Tiger POMDP文件包含并执行如下:

./src/pomdp-solve-pomdp示例/pomdp-files/tiger.95.pomdp
您应该看到如下输出:
//****************\||pomdp解决方案||||v.5.5版||\****************//PID=21958- - - - - - - - - - - - - - - - - - - -time_limit=0mcgs_prune_freq=100verbose=上下文标准输出=inc_prune=正常历史长度=0..省略了许多参数设置行。。。vi_variation=正常地平线=0stat_summary=假最大溶液大小=0.000000witness_points=错误- - - - - - - - - - - - - - - - - - - -[初始化POMDP…完成。][初始策略有1个向量。]++++++++++++++++++++++++++++++++++++++++纪元:0.00秒内1…3个矢量。(总计0.00)(错误=inf)纪元:0.00秒内2…5个矢量。(总计0.00)(错误=inf)纪元:0.00秒内3…9个矢量。(总计0.00)(错误=inf)纪元:0.00秒内4…7个矢量。(总计0.00)(错误=inf)纪元:0.00秒内5…13个矢量。(总计0.00)(错误=inf)纪元:0.00秒内有6…15个矢量。(总计0.00)(错误=inf)纪元:7…19矢量,0.00秒。(总计0.00)(错误=inf)纪元:8…25矢量,0.01秒。(总计0.01)(err=inf)纪元:9…27矢量,0.01秒。(总计0.02)(误差=inf)纪元:10…27矢量,0.01秒。(总计0.03)(误差=inf)…省略了许多执行行。。。纪元:473…9矢量,0.00秒。(总计2.88)(误差=3.20e-11)纪元:474…9矢量,0.01秒。(总计2.89)(误差=3.04e-11)纪元:475…0.00秒内有9个矢量。(总计2.89)(误差=2.89e-11)纪元:476…9矢量,0.00秒。(总计2.89)(误差=2.75e-11)纪元:477…9矢量,0.00秒。(总计2.89)(误差=2.61e-11)++++++++++++++++++++++++++++++++++++++++找到解决方案。请参阅文件:老虎95-21957.alpha老虎95-21957.pg++++++++++++++++++++++++++++++++++++++++用户时间=0小时,0分钟,2.61秒。(=2.61秒)系统时间=0小时,0分钟,0.28秒。(=0.28秒)总执行时间=0小时,0分钟,2.89秒。(=2.89秒)**警告**lp_solve报告了2个数值不稳定的lp。
这表明了无穷视界解的收敛性。最佳值函数系数和生成的“策略图”将位于输出中指定的文件中.阿尔法.页扩展(老虎95-21957.alpha老虎95-21957.pg在上述示例中)。

这些输出文件的格式在值函数格式页面策略图形格式页面。您的解决方案应类似于这个最优值函数这个最优策略图.

相关页面