跳到主要内容
10.1109/CDC.2016.7798306指导程序文章/章节视图摘要出版物页面会议记录acm-pubtype公司
研究论文

马尔可夫决策过程的风险规避控制-常规目标

出版:2016年12月1日出版历史

摘要

可以建模为马尔可夫决策过程(MDP)的环境中的许多控制问题都涉及无限时间范围规范。在这种情况下,经典的目标是计算一个最大化满足规范概率的控制策略。然而,在许多情况下,系统执行的每一步都有非零的失败概率。对于无限时间范围规范,这意味着无论选择什么策略,从长远来看,违反规范的概率都是1,这使得以前的策略计算方法在这些场景中无法使用。在本文中,我们为MDP策略引入了一个新的优化准则,该准则捕获了为满足某个无限时间范围&#x03C9-常规规范。新标准适用于长期无法避免违反规范的MDP。我们给出了一个算法来计算在此标准下最优的策略,并表明它在MDP控制中捕获了乐观和风险规避的思想:而计算出的策略是乐观的,因为MDP运行进入失败状态的时间相对较晚,他们总是最大限度地提高达到各自下一个目标状态的概率,从而规避风险。我们给出了两个机器人控制场景的结果,以验证风险规避MDP策略的可用性。

工具书类

  1. [1].丁X。,史密斯S.L。,贝尔塔C。、和罗斯·D。, “线性时序逻辑约束下马尔可夫决策过程的最优控制”,IEEE传输。自动控制,卷。59,第页。12441257,2014.谷歌学者谷歌学者交叉引用交叉引用
  2. [2].拉希贾尼安·M·。,安德松S.B。、和贝尔塔C。, “概率满足保证的时序逻辑运动规划和控制”,IEEE传输。机器人。,卷。28,没有。2,第页。396409,2012.谷歌学者谷歌学者数字图书馆数字图书馆
  3. [3].特米泽S。,科钦德费尔M.J。,Kaelbling L.P.公司。,Lozano-Pérez T。、和库查尔J.K。, “基于马尔可夫决策过程的无人飞机避碰”,载于2010年AIAA制导、导航和控制会议。谷歌学者谷歌学者
  4. [4].Alterovitz R。,西蒙·T。、和戈德伯格·K·Y。, “随机运动路线图:具有马尔可夫运动不确定性的规划抽样框架”。在里面RSS公司,卷。,2007,第页。233241.谷歌学者谷歌学者
  5. [5].变形B。,恩斯特·D·。、和Wehenkel L。, “风险意识决策和动态规划”,NIPS 2008年RL模型不确定性和风险研讨会,2008年。谷歌学者谷歌学者
  6. [6].康登A。, “随机博弈的复杂性”,信息与计算,卷。96,没有。2,第页。203224,1992.谷歌学者谷歌学者数字图书馆数字图书馆
  7. [7] 。德阿尔法罗。,亨廷格T.A。、和库普夫曼·O。, “并发可达性游戏“,在中FOCS。电气与电子工程师协会,1998,第页。564575.谷歌学者谷歌学者
  8. [8].De Alfaro L.公司。亨廷格T.A。, “并发欧米伽规则游戏”,在第15届IEEE计算机科学逻辑年度研讨会(LICS)上。IEEE,2000年,pp。141154.谷歌学者谷歌学者
  9. [9].阿尔法罗·L·。马朱姆达尔R。, “欧米伽规则博弈的定量求解“,在中STOC公司。ACM公司,2001,第页。675683.谷歌学者谷歌学者
  10. [10].查特吉K。,阿尔法罗·L·。、和亨廷格T.A。, “随机Rabin和Streett博弈的复杂性“,在中伊拉克石油公司,2005,第页。878890.谷歌学者谷歌学者
  11. [11].查特吉K。,德阿尔法罗。、和亨廷格T.A。, “数量并发奇偶博弈的复杂性”,第17届ACM-SIAM离散算法(SODA)研讨会,2006年,pp。678687.谷歌学者谷歌学者
  12. [12].查特吉K。亨廷格T.A。, “随机规则博弈综述”,计算机与系统科学杂志,卷。78,没有。2,第页。394413,2012.谷歌学者谷歌学者数字图书馆数字图书馆
  13. [13].查特吉K。,尤金斯基M。亨廷格T.A。, “定量随机奇偶博弈“,在中SODA公司,2004,第页。121130.谷歌学者谷歌学者
  14. [14].丁晓川。,史密斯有限公司。,贝尔塔C。、和罗斯·D。, “具有概率满足保证的不确定环境下的LTL控制”,2011年第18届国际会计师联合会世界大会。谷歌学者谷歌学者
  15. [15].斯沃伦诺娃M。,塞尔纳一世。、和贝尔塔C。, “具有时序逻辑约束的MDP最优控制”,第52届IEEE决策与控制会议(CDC),2013年,pp。39383943.谷歌学者谷歌学者
  16. [16].Sigaud O。自助餐O。,人工智能中的马尔可夫决策过程.Wiley-IEEE出版社 2010.谷歌学者谷歌学者数字图书馆数字图书馆
  17. [17].皮特曼N。, “从非确定性Büchi和Streett自动机到确定性奇偶自动机”,计算机科学中的逻辑方法,卷。,没有。,2007.谷歌学者谷歌学者

建议

评论

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

登录

完全访问权限

  • 发布于

    封面图片指南会议记录
    2016年IEEE第55届决策与控制会议(CDC)
    7711页

    版权所有©2016

    出版商

    IEEE出版社

    出版历史

    • 出版:2016年12月1日

    限定符

    • 研究论文
  • 文章度量标准

    • 下载次数(过去12个月)0
    • 下载次数(最近6周)0

    其他指标