研究论文

马尔可夫决策过程的风险规避控制-常规目标

作者：
鲁迪格·埃勒斯

不来梅大学和德国DFKI股份有限公司

不来梅大学和德国DFKI股份有限公司
查看个人资料

,
萨拉尔·莫拉里夫

宾夕法尼亚大学，费城，美国

宾夕法尼亚大学，费城，美国
查看个人资料

,
Ufuk Topcu公司

美国德克萨斯州奥斯汀大学

美国德克萨斯州奥斯汀大学
查看个人资料

作者信息和声明

2016年IEEE第55届决策与控制会议（CDC）2016年12月1日第426–433页https://doi.org/10.1109/CDC.2016.7798306

出版：2016年12月1日出版历史

2016年IEEE第55届决策与控制会议（CDC）

第426–433页

摘要

可以建模为马尔可夫决策过程（MDP）的环境中的许多控制问题都涉及无限时间范围规范。在这种情况下，经典的目标是计算一个最大化满足规范概率的控制策略。然而，在许多情况下，系统执行的每一步都有非零的失败概率。对于无限时间范围规范，这意味着无论选择什么策略，从长远来看，违反规范的概率都是1，这使得以前的策略计算方法在这些场景中无法使用。在本文中，我们为MDP策略引入了一个新的优化准则，该准则捕获了为满足某个无限时间范围&#x03C9-常规规范。新标准适用于长期无法避免违反规范的MDP。我们给出了一个算法来计算在此标准下最优的策略，并表明它在MDP控制中捕获了乐观和风险规避的思想：而计算出的策略是乐观的，因为MDP运行进入失败状态的时间相对较晚，他们总是最大限度地提高达到各自下一个目标状态的概率，从而规避风险。我们给出了两个机器人控制场景的结果，以验证风险规避MDP策略的可用性。

工具书类

[1].丁X。,史密斯S.L。,贝尔塔C。、和罗斯·D。, “线性时序逻辑约束下马尔可夫决策过程的最优控制”,IEEE传输。自动控制，卷。59，第页。1244–1257,2014.谷歌学者交叉引用
[2].拉希贾尼安·M·。,安德松S.B。、和贝尔塔C。, “概率满足保证的时序逻辑运动规划和控制”,IEEE传输。机器人。，卷。28，没有。2，第页。396–409,2012.谷歌学者数字图书馆
[3].特米泽S。,科钦德费尔M.J。,Kaelbling L.P.公司。,Lozano-Pérez T。、和库查尔J.K。, “基于马尔可夫决策过程的无人飞机避碰”，载于2010年AIAA制导、导航和控制会议。谷歌学者
[4].Alterovitz R。,西蒙·T。、和戈德伯格·K·Y。, “随机运动路线图：具有马尔可夫运动不确定性的规划抽样框架”。在里面RSS公司，卷。三,2007，第页。233–241.谷歌学者
[5].变形B。,恩斯特·D·。、和Wehenkel L。, “风险意识决策和动态规划”，NIPS 2008年RL模型不确定性和风险研讨会，2008年。谷歌学者
[6].康登A。, “随机博弈的复杂性”,信息与计算，卷。96，没有。2，第页。203–224,1992.谷歌学者数字图书馆
[7] 。德阿尔法罗。,亨廷格T.A。、和库普夫曼·O。, “并发可达性游戏“，在中FOCS。电气与电子工程师协会,1998，第页。564–575.谷歌学者
[8].De Alfaro L.公司。和亨廷格T.A。, “并发欧米伽规则游戏”，在第15届IEEE计算机科学逻辑年度研讨会（LICS）上。IEEE，2000年，pp。141–154.谷歌学者
[9].阿尔法罗·L·。和马朱姆达尔R。, “欧米伽规则博弈的定量求解“，在中STOC公司。ACM公司,2001，第页。675–683.谷歌学者
[10].查特吉K。,阿尔法罗·L·。、和亨廷格T.A。, “随机Rabin和Streett博弈的复杂性“，在中伊拉克石油公司,2005，第页。878–890.谷歌学者
[11].查特吉K。,德阿尔法罗。、和亨廷格T.A。, “数量并发奇偶博弈的复杂性”，第17届ACM-SIAM离散算法（SODA）研讨会，2006年，pp。678–687.谷歌学者
[12].查特吉K。和亨廷格T.A。, “随机规则博弈综述”,计算机与系统科学杂志，卷。78，没有。2，第页。394–413,2012.谷歌学者数字图书馆
[13].查特吉K。,尤金斯基M。和亨廷格T.A。, “定量随机奇偶博弈“，在中SODA公司,2004，第页。121–130.谷歌学者
[14].丁晓川。,史密斯有限公司。,贝尔塔C。、和罗斯·D。, “具有概率满足保证的不确定环境下的LTL控制”，2011年第18届国际会计师联合会世界大会。谷歌学者
[15].斯沃伦诺娃M。,塞尔纳一世。、和贝尔塔C。, “具有时序逻辑约束的MDP最优控制”，第52届IEEE决策与控制会议（CDC），2013年，pp。3938–3943.谷歌学者
[16].Sigaud O。和自助餐O。,人工智能中的马尔可夫决策过程.Wiley-IEEE出版社 2010.谷歌学者数字图书馆
[17].皮特曼N。, “从非确定性Büchi和Streett自动机到确定性奇偶自动机”,计算机科学中的逻辑方法，卷。三，没有。三,2007.谷歌学者

建议

离散时间有限状态Markov决策过程的简单风险敏感和极小极大控制

本文分析了离散时间有限状态马尔可夫决策过程（MDP）的风险敏感准则和极大极小准则之间的联系。我们综合了关于这两个准则的最优策略，无论是在有限时间内还是在贴现。。。
阅读更多信息
样本路径约束的马尔可夫决策过程：通信案例

我们考虑时间平均马尔可夫决策过程MDP，它在每个决策阶段累积一个回报和成本。如果时间平均成本低于概率为1的指定值，则策略满足样本路径约束。优化。。。
阅读更多信息
可变性敏感性马尔可夫决策过程

考虑具有有限状态和动作空间的时间平均马尔可夫决策过程MDP。引入了可变性的两个定义，即期望时间平均可变性和时间平均期望可变性。这两个标准是。。。
阅读更多信息

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此出版物

其他指标
查看文章指标

文章度量标准
- 0
  引文总数
  查看引文
- 0
  总下载次数
- 下载次数（过去12个月）0
- 下载次数（最近6周）0
其他指标
查看作者指标
引用人
本出版物尚未被引用

马尔可夫决策过程的风险规避控制-常规目标

2016年IEEE第55届决策与控制会议（CDC）

摘要

工具书类

引用人

建议

离散时间有限状态Markov决策过程的简单风险敏感和极小极大控制

样本路径约束的马尔可夫决策过程：通信案例

可变性敏感性马尔可夫决策过程

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

限定符

会议

资金来源

其他指标

文章度量标准

其他指标

引用人

数字版

标题

马尔可夫决策过程的风险规避控制-常规目标

2016年IEEE第55届决策与控制会议（CDC）

摘要

工具书类

引用人

建议

离散时间有限状态Markov决策过程的简单风险敏感和极小极大控制

样本路径约束的马尔可夫决策过程：通信案例

可变性敏感性马尔可夫决策过程

评论

登录选项

完全访问权限

发布于

赞助商

合作中

出版商

出版历史

限定符

会议

资金来源

文章度量标准

其他指标

数字版

共享此出版物链接

在社交媒体上分享