×

有界参数马尔可夫决策过程。 (英语) Zbl 0948.68171号

摘要:我们引入了有界参数马尔可夫决策过程(BMDP)的概念,作为熟悉的精确MDP的推广。有界参数MDP是一组精确的MDP,通过给出转移概率和回报的上下限来指定(集合中的所有MDP共享相同的状态和动作空间)。BMDP是已知的具有不精确参数的MDP类(MDPIP)的一种有效可解的特例。在参数值没有先验概率的情况下,有界参数MDP可用于表示序列决策问题参数的变化或不确定性。有界参数MDP也可用于聚合方案中,以表示在同一聚合状态中聚合在一起的不同基态的转移概率的变化。我们引入区间值函数作为传统值函数的自然扩展。区间值函数为每个状态分配一个闭合的实区间,表示该状态的值在该区间内的断言。区间值函数可用于在与给定有界参数MDP关联的精确MDP集上绑定策略的性能。我们描述了一种称为区间策略评估的迭代动态规划算法,该算法计算给定BMDP和指定策略的区间值函数。对策略\(\pi\)的间隔策略求值计算最严格的可靠间隔值函数,即在有界参数MDP定义的集合中的每个精确MDP中为\(\π\)限定值函数。我们定义了最优性的乐观和悲观标准,并提供了一种值迭代的变体(Bellman,1957),我们称之为区间值迭代,它计算BMDP的策略,这些策略相对于这些标准是最优的。我们证明,在给定固定折扣因子的多项式迭代次数中,我们提出的每个算法都收敛到期望值。

MSC公司:

68立方英尺 知识表示
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bellman,R.,《动态编程》(1957),普林斯顿大学出版社:普林斯顿大学出版,新泽西州普林斯顿·Zbl 0077.13605号
[2] Bertsekas,D.P.,《动态规划:确定性和随机模型》(1987),新泽西州普伦蒂斯·霍尔:普伦蒂塞·霍尔恩格尔伍德克利夫斯·Zbl 0649.93001号
[3] Bertsekas博士。;Castañon,D.A.,无限期动态规划的自适应聚合,IEEE Trans。自动。《控制》,第34、6、589-598卷(1989年)·Zbl 0675.90089号
[4] Bertsekas,D.P。;Tsitsiklis,J.N.,神经动力学编程(1996),雅典娜科学:雅典娜科技贝尔蒙特,马萨诸塞州·Zbl 0924.68163号
[5] Boutiler,C。;迪安·T·L。;Hanks,S.,《决策理论规划:结构假设和计算杠杆》,《人工智能研究》第11卷,第1-94页(1999年)·Zbl 0918.68110号
[6] Boutiler,C。;Dearden,R.,《将抽象用于有时间约束的决策理论规划》(Proc.AAAI-94,西雅图,WA(1994)),1016-1022
[7] Boutiler,C。;院长,T。;Hanks,S.,《不确定性下的规划:结构假设和计算杠杆》(Proc.3rd European Workshop on Planning,Assisi,Italy(1995))·Zbl 0918.68110号
[8] Boutiler,C。;迪尔登,R。;Goldszmidt,M.,《政策构建中的利用结构》(Proc.IJCAI-95,蒙特利尔,魁北克(1995)),1104-1111
[9] 院长,T。;Givan,R.,马尔可夫决策过程中的模型最小化,(Proc.AAAI-97,Providence,RI(1997))·Zbl 0948.68171号
[10] 院长,T。;Givan,R。;Leach,S.,计算马尔可夫决策过程近似最优解的模型简化技术,(第13届人工智能不确定性会议,普罗维登斯,RI(1997)),124-131
[11] Howard,R.A.,《动态规划和马尔可夫过程》(1960年),麻省理工学院出版社:麻省理学院出版社剑桥·兹比尔0091.16001
[12] 利特曼,M.L。;迪安·T·L。;Kaelbling,L.P.,《关于解决马尔可夫决策问题的复杂性》,(第11届人工智能不确定性年会(UAI-95),魁北克省蒙特利尔(1995))
[13] Lovejoy,W.S.,部分观测马尔可夫决策过程的计算可行界,Oper。研究,第39卷,第1卷,第162-175页(1991年)·Zbl 0743.90110号
[14] Puterman,M.,Markov决策过程——离散随机动态规划(1994),Wiley:Wiley New York·Zbl 0829.90134号
[15] Satia,J.K。;Lave,R.E.,转移概率不确定的马尔科夫决策过程,Oper。研究,第21卷,728-740(1978)·Zbl 0286.60038号
[16] Shapley,L.S.,《随机游戏》,Proc。美国国家科学院,第39卷,1095-1100(1953)·Zbl 0051.35805号
[17] 怀特,C.C。;Eldeib,H.K.,有限状态下的参数不精确,有限动作动态程序,Oper。研究,第34卷,第120-129页(1986年)·Zbl 0605.90129号
[18] 白色,C.C。;Eldeib,香港,转移概率不精确的马尔可夫决策过程,Oper。研究,第43卷,739-749(1994)·Zbl 0837.90121号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。