摘要
[1]. , “ 线性时序逻辑约束下马尔可夫决策过程的最优控制 ”, IEEE传输。 自动控制 ,卷。 59 ,第页。 1244 – 1257 , 2014 . 谷歌学者 交叉引用 [2]. , “ 概率满足保证的时序逻辑运动规划和控制 ”, IEEE传输。 机器人。 ,卷。 28 ,没有。 2 ,第页。 396 – 409 , 2012 . 谷歌学者 数字图书馆 [3]. , “ 基于马尔可夫决策过程的无人飞机避碰 ”,载于2010年AIAA制导、导航和控制会议。 谷歌学者 [4]. , “ 随机运动路线图:具有马尔可夫运动不确定性的规划抽样框架 ”。 在里面 RSS公司 ,卷。 三 , 2007 ,第页。 233 – 241 . 谷歌学者 [5]. , “ 风险意识决策和动态规划 ”,NIPS 2008年RL模型不确定性和风险研讨会,2008年。 谷歌学者 [6]. , “ 随机博弈的复杂性 ”, 信息与计算 ,卷。 96 ,没有。 2 ,第页。 203 – 224 , 1992 . 谷歌学者 数字图书馆 [7] 。 , “ 并发可达性游戏 “,在中 FOCS。 电气与电子工程师协会 , 1998 ,第页。 564 – 575 . 谷歌学者 [8]. , “ 并发欧米伽规则游戏 ”,在第15届IEEE计算机科学逻辑年度研讨会(LICS)上。 IEEE,2000年,pp。 141 – 154 . 谷歌学者 [9]. , “ 欧米伽规则博弈的定量求解 “,在中 STOC公司。 ACM公司 , 2001 ,第页。 675 – 683 . 谷歌学者 [10]. , “ 随机Rabin和Streett博弈的复杂性 “,在中 伊拉克石油公司 , 2005 ,第页。 878 – 890 . 谷歌学者 [11]. , “ 数量并发奇偶博弈的复杂性 ”,第17届ACM-SIAM离散算法(SODA)研讨会,2006年,pp。 678 – 687 . 谷歌学者 [12]. , “ 随机规则博弈综述 ”, 计算机与系统科学杂志 ,卷。 78 ,没有。 2 ,第页。 394 – 413 , 2012 . 谷歌学者 数字图书馆 [13]. , “ 定量随机奇偶博弈 “,在中 SODA公司 , 2004 ,第页。 121 – 130 . 谷歌学者 [14]. , “ 具有概率满足保证的不确定环境下的LTL控制 ”,2011年第18届国际会计师联合会世界大会。 谷歌学者 [15]. , “ 具有时序逻辑约束的MDP最优控制 ”,第52届IEEE决策与控制会议(CDC),2013年,pp。 3938 – 3943 . 谷歌学者 [16]. , 人工智能中的马尔可夫决策过程 . Wiley-IEEE出版社 2010 . 谷歌学者 数字图书馆 [17]. , “ 从非确定性Büchi和Streett自动机到确定性奇偶自动机 ”, 计算机科学中的逻辑方法 ,卷。 三 ,没有。 三 , 2007 . 谷歌学者
建议
离散时间有限状态Markov决策过程的简单风险敏感和极小极大控制 本文分析了离散时间有限状态马尔可夫决策过程(MDP)的风险敏感准则和极大极小准则之间的联系。 我们综合了关于这两个准则的最优策略,无论是在有限时间内还是在贴现。。。 样本路径约束的马尔可夫决策过程:通信案例 我们考虑时间平均马尔可夫决策过程MDP,它在每个决策阶段累积一个回报和成本。 如果时间平均成本低于概率为1的指定值,则策略满足样本路径约束。 优化。。。