文件Zbl 0948.68171-zbMATH Open

有界参数马尔可夫决策过程。（英语） Zbl 0948.68171号

Artif公司。智力。 122，编号1-2，71-109（2000）.

摘要：我们引入了有界参数马尔可夫决策过程（BMDP）的概念，作为熟悉的精确MDP的推广。有界参数MDP是一组精确的MDP，通过给出转移概率和回报的上下限来指定（集合中的所有MDP共享相同的状态和动作空间）。BMDP是已知的具有不精确参数的MDP类（MDPIP）的一种有效可解的特例。在参数值没有先验概率的情况下，有界参数MDP可用于表示序列决策问题参数的变化或不确定性。有界参数MDP也可用于聚合方案中，以表示在同一聚合状态中聚合在一起的不同基态的转移概率的变化。我们引入区间值函数作为传统值函数的自然扩展。区间值函数为每个状态分配一个闭合的实区间，表示该状态的值在该区间内的断言。区间值函数可用于在与给定有界参数MDP关联的精确MDP集上绑定策略的性能。我们描述了一种称为区间策略评估的迭代动态规划算法，该算法计算给定BMDP和指定策略的区间值函数。对策略\（\pi\）的间隔策略求值计算最严格的可靠间隔值函数，即在有界参数MDP定义的集合中的每个精确MDP中为\（\π\）限定值函数。我们定义了最优性的乐观和悲观标准，并提供了一种值迭代的变体（Bellman，1957），我们称之为区间值迭代，它计算BMDP的策略，这些策略相对于这些标准是最优的。我们证明，在给定固定折扣因子的多项式迭代次数中，我们提出的每个算法都收敛到期望值。

引用于1审查

引用于48文件

MSC公司：

68立方英尺

知识表示

关键词：

决策论规划;不确定性下的规划;近似规划;马尔可夫决策过程

PDF格式 BibTeX公司 XML格式引用

全文：内政部

参考文献：

[1]	Bellman，R.，《动态编程》（1957），普林斯顿大学出版社：普林斯顿大学出版，新泽西州普林斯顿·Zbl 0077.13605号
[2]	Bertsekas，D.P.，《动态规划：确定性和随机模型》（1987），新泽西州普伦蒂斯·霍尔：普伦蒂塞·霍尔恩格尔伍德克利夫斯·Zbl 0649.93001号
[3]	Bertsekas博士。；Castañon，D.A.，无限期动态规划的自适应聚合，IEEE Trans。自动。《控制》，第34、6、589-598卷（1989年）·Zbl 0675.90089号
[4]	Bertsekas，D.P。；Tsitsiklis，J.N.，神经动力学编程（1996），雅典娜科学：雅典娜科技贝尔蒙特，马萨诸塞州·Zbl 0924.68163号
[5]	Boutiler，C。；迪安·T·L。；Hanks，S.，《决策理论规划：结构假设和计算杠杆》，《人工智能研究》第11卷，第1-94页（1999年）·Zbl 0918.68110号
[6]	Boutiler，C。；Dearden，R.，《将抽象用于有时间约束的决策理论规划》（Proc.AAAI-94，西雅图，WA（1994）），1016-1022
[7]	Boutiler，C。；院长，T。；Hanks，S.，《不确定性下的规划：结构假设和计算杠杆》（Proc.3rd European Workshop on Planning，Assisi，Italy（1995））·Zbl 0918.68110号
[8]	Boutiler，C。；迪尔登，R。；Goldszmidt，M.，《政策构建中的利用结构》（Proc.IJCAI-95，蒙特利尔，魁北克（1995）），1104-1111
[9]	院长，T。；Givan，R.，马尔可夫决策过程中的模型最小化，（Proc.AAAI-97，Providence，RI（1997））·Zbl 0948.68171号
[10]	院长，T。；Givan，R。；Leach，S.，计算马尔可夫决策过程近似最优解的模型简化技术，（第13届人工智能不确定性会议，普罗维登斯，RI（1997）），124-131
[11]	Howard，R.A.，《动态规划和马尔可夫过程》（1960年），麻省理工学院出版社：麻省理学院出版社剑桥·兹比尔0091.16001
[12]	利特曼，M.L。；迪安·T·L。；Kaelbling，L.P.，《关于解决马尔可夫决策问题的复杂性》，（第11届人工智能不确定性年会（UAI-95），魁北克省蒙特利尔（1995））
[13]	Lovejoy，W.S.，部分观测马尔可夫决策过程的计算可行界，Oper。研究，第39卷，第1卷，第162-175页（1991年）·Zbl 0743.90110号
[14]	Puterman，M.，Markov决策过程——离散随机动态规划（1994），Wiley:Wiley New York·Zbl 0829.90134号
[15]	Satia，J.K。；Lave，R.E.，转移概率不确定的马尔科夫决策过程，Oper。研究，第21卷，728-740（1978）·Zbl 0286.60038号
[16]	Shapley，L.S.，《随机游戏》，Proc。美国国家科学院，第39卷，1095-1100（1953）·Zbl 0051.35805号
[17]	怀特，C.C。；Eldeib，H.K.，有限状态下的参数不精确，有限动作动态程序，Oper。研究，第34卷，第120-129页（1986年）·Zbl 0605.90129号
[18]	白色，C.C。；Eldeib，香港，转移概率不精确的马尔可夫决策过程，Oper。研究，第43卷，739-749（1994）·Zbl 0837.90121号

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
ab公司	回顾，摘要
皮	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!ab公司	逻辑非
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

有界参数马尔可夫决策过程。（英语） Zbl 0948.68171号

MSC公司：

关键词：

参考文献：

示例

领域

操作员

有界参数马尔可夫决策过程。 （英语） Zbl 0948.68171号

MSC公司：

关键词：

参考文献：

有界参数马尔可夫决策过程。（英语） Zbl 0948.68171号