|
|
|
---|---|---|
将问题表示为MDP和POMDP . 编写求解器软件。 高效运行模拟。
Python可用于通过 快速跳水 包或直接通过表 比朱利亚 . POMDP工具提供 双向一体化 具有 CommonRL接口 因此,与 Julia强化学习包 . 这个 SymbolicMDP包 提供了一个使用PDDL模型的接口。
使用 包装; 包装 . 添加 ( " POMDP公司 " ); 包装 . 添加 ( " 质量管理计划 " )
使用 POMDP、QuickPOMDP,POMDP工具,QMDP 米 = 快速POMDP ( 状态 = [ " 左边 " , " 正确的 " ], 行动 = [ " 左边 " , " 正确的 " , " 听 " ], 观察 = [ " 左边 " , " 正确的 " ], 初始状态 = 制服 ([ " 左边 " , " 正确的 " ]), 折扣 = 0.95 , 过渡 = 功能 (s,a) 如果 一 == " 听 "
返回 决定性的 (s) # 老虎呆在同一扇门后面
其他的 # 一扇门被打开了
返回 制服 ([ " 左边 " , " 正确的 " ]) # 重置
结束
结束 , 观察 = 功能 (s,a,sp) 如果 一 == " 听 "
如果 服务提供商 == " 左边 "
返回 备用猫 ([ " 左边 " , " 正确的 " ], [ 0.85 , 0.15 ]) # 稀疏分类分布
其他的
返回 备用猫 ([ " 正确的 " , " 左边 " ], [ 0.85 , 0.15 ]) 结束
其他的
返回 制服 ([ " 左边 " , " 正确的 " ]) 结束
结束 , 奖励 = 功能 (s,a) 如果 一 == " 听 "
返回 - 1
埃尔塞夫 秒 == 一 # 老虎被发现了
返回 - 100
其他的 # 老虎逃跑了
返回 10
结束
结束 ) 解算器 = QMDPSolver软件 () 政策 = 解决 (解算器,m) 相对标准偏差 = 0
对于 (s、b、a、o、r) 在里面 逐步通过 (m,政策, " s、 b、a、o、r " ,最大步数 = 10 ) 打印ln ( " 秒: %s美元 ,b: $([秒 => pdf格式 (b,s) 对于 秒 在里面 状态 (m) ]) ,答: 美元 ,编号: 0美元 " ) 全球的 相对标准偏差 += 第页 结束
打印ln ( " 未折扣奖励为 $卢比 . " )
|
|
|
---|---|---|
|
|
|
---|---|---|
|
|
|||
---|---|---|---|---|
|
||||
|
||||
|
||||
|
|
|
|||
---|---|---|---|---|
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
||||
|
|
|
|||
---|---|---|---|---|
|
||||
|
★★★★★: 可靠地计算每个问题的解决方案。 ★★★★: 适用于大多数问题。 可能需要一些配置,或者不支持接口的每个边缘。 ★★★: 可能工作良好,但可能需要困难或重要的配置。 ★★: 最近未使用(未知条件)。 可能与接口不完全一致,或者可能存在包兼容性问题 ★: 未知运行
|
---|
@第{egorov2017pomdps条, author={Maxim Egorov和Zachary N.Sunberg以及Edward Balaban和Tim A.Wheeler以及Jayesh K.Gupta和Mykel J.Kochenderfer}, 标题={ {POMDP}s.jl公司 :不确定性下的序贯决策框架}, journal={机器学习研究杂志}, 年份={2017年}, 体积={18}, 数字={26}, 页数={1-5}, url={ http://jmlr.org/papers/v18/16-300.html } }