跳到主要内容
文章

风险敏感强化学习在约束控制中的应用

出版:2005年7月1日 出版历史

摘要

在本文中,我们考虑具有错误状态的马尔可夫决策过程(MDP)。错误状态是指进入的不受欢迎或危险的状态。我们将与保单相关的风险定义为执行保单时进入这种状态的概率。我们考虑寻找风险小于某个特定用户阈值的好策略的问题,并用两个标准将其形式化为一个约束MDP。第一个标准对应于最初给出的值函数。我们将证明,风险可以表示为基于累积回报的第二个标准函数,其定义独立于原始价值函数。我们提出了一种无模型的启发式强化学习算法,旨在寻找良好的确定性策略。它基于对原始价值函数和风险的加权。对权重参数进行调整,以找到对值函数具有良好性能的约束问题的可行解。该算法已成功应用于精馏塔上游具有随机流入的进料罐的控制。该控制任务最初被描述为一个具有机会约束的最优控制问题,并在模型的某些假设下进行求解以获得最优解。我们的学习算法的强大之处在于,即使放松了某些限制性假设,也可以使用它。

工具书类

[1]
Altman,E.(1999)。约束马尔可夫决策过程查普曼和霍尔/CRC。
[2]
Baird,L.(1995年)。残差算法:函数逼近强化学习。程序。第十二届机器学习国际会议第30-37页。摩根·考夫曼。
[3]
Bawas,V.S.(1975年)。排序不确定前景的最佳规则。金融杂志,2(1), 1975.
[4]
Bertsekas,D.P.(1995)。动态规划与最优控制马萨诸塞州贝尔蒙特市雅典娜科学公司。第1卷和第2卷。
[5]
Bertsekas,D.P.和Tsitsiklis,J.N.(1996年)。神经动力学编程雅典娜科技公司,马萨诸塞州贝尔蒙特。
[6]
毕晓普,C.M.(1995年)。用于模式识别的神经网络牛津大学出版社,牛津。
[7]
Blythe,J.(1999)。决策理论规划。AI杂志,20(2), 37-54.
[8]
Borkar,V.(2002年)。风险敏感控制的Q学习。运筹学数学,27(2), 294-311.
[9]
Coraluppi,S.和Marcus,S..(1999年)。离散时间有限状态马尔可夫决策过程的风险敏感和极小极大控制。自动化,35, 301-309.
[10]
Critis,R.H.和Barto,A.G.(1998年)。使用多个强化学习代理进行电梯组控制。机器学习,33(2/3), 235-262.
[11]
Dolgov,D.和Durfee,E.(2004)。为执行资源有限的代理近似最优策略。第十八届国际人工智能联合会议记录第1107-1112页。AAAI出版社。
[12]
Feinberg,E.和Shwartz,A.(1994年)。加权折扣准则的马尔可夫决策模型。数学。运筹学,19, 152-168.
[13]
Feinberg,E.和Shwartz,A.(1996年)。约束折扣动态规划。数学。运筹学,21, 922-945.
[14]
Feinberg,E.和Shwartz,A.(1999年)。具有两个折扣因子的约束动态规划:应用程序和算法。IEEE自动控制汇刊,44, 628-630.
[15]
Fishburn,P.C.(1977年)。与低于目标回报相关的风险的平均风险分析。《美国经济学评论》,67(2), 116-126.
[16]
Freund,R.(1956年)。在编程模型中引入风险。计量经济学,21, 253-263.
[17]
Fulkerson,M.S.、Littman,M.L.和Keim,G.A.(1998年)。安全加速:概率规划中的多准则优化。第十四届全国人工智能会议记录第831页。AAAI出版社/MIT出版社。
[18]
Gabor,Z.、Kalmar,Z.和Szepesvari,C.(1998)。多标准强化学习。程序。第十五届国际机器学习大会第197-205页。Morgan Kaufmann,加利福尼亚州旧金山。
[19]
Geibel,P.(2001)。风险有限的强化学习。在Brodley,E.和Danyluk,A.P.(编辑),机器学习-第十八届国际会议记录(ICML01)第162-169页。摩根考夫曼出版社。
[20]
Heger,M.(1994年)。考虑强化学习中的风险。程序。第十一届机器学习国际会议第105-111页。摩根·考夫曼。
[21]
Kall,P.和Wallace,S.W.(1994年)。随机规划纽约威利。
[22]
Koenig,S.和Simmons,R.G.(1994年)。基于概率决策图的风险敏感规划。在Doyle,J.、Sandewall,E.和Torasso,P.(编辑)中,KR’94:知识表示和推理原理第363-373页,加利福尼亚州旧金山。摩根·考夫曼。
[23]
Kushmerick,N.、Hanks,S.和Weld,D.S.(1994年)。概率最小承诺规划算法。AAAI公司第1073-1078页。
[24]
Li,P.,Wendt,M.,Arellano-Garcia,&Wozny,G.(2002)。在进料罐中累积的不确定流入量下精馏过程的优化操作。AIChe杂志,48, 1198-1211.
[25]
Liu,Y.、Goodwin,R.和Koenig,S.(2003a)。规避风险的拍卖代理。在Rosenschein,J.、Sandholm,T.和Wooldridge,M.Yokoo,M.(编辑),第二届自主代理和多代理系统国际联合会议记录(AAMAS-03)第353-360页。ACM出版社。
[26]
Liu,Y.、Goodwin,R.和Koenig,S.(2003b)。规避风险的拍卖代理。美国原子能机构第353-360页。
[27]
Markowitz,H.M.(1952年)。投资组合选择。《金融杂志》,7(1), 77-91.
[28]
Markowitz,H.M.(1959年)。投资组合选择约翰·威利父子公司,纽约。
[29]
Mihatsch,O.和Neuneier,R.(2002年)。风险敏感强化学习。机器学习,49(2-3), 267-290.
[30]
Neuneier,R.和Mihatsch,O.(1999)。风险敏感强化学习。迈克尔·卡恩斯(Michael S.Kearns)、萨拉·索拉(Sara A.Solla)、D.A.C.(Ed.),神经信息处理系统研究进展,第11卷。麻省理工学院出版社。
[31]
Ross,S.M.(2000)。概率模型简介纽约学术出版社。
[32]
Roy,A.D.(1952年)。安全第一,资产持有。计量经济学,20(3), 431-449.
[33]
Smart,W.D.和Kaelbling,L.P.(2002年)。移动机器人的有效强化学习。2002年IEEE机器人与自动化国际会议记录(ICRA 2002).
[34]
Stephan,V.,Debes,K.,Gross,H.-M.,Wintrich,F.,&Wintrick,H.(2001年)。基于神经网络的强化学习燃烧过程控制新方案。国际计算智能与应用杂志,1(2), 121-136.
[35]
Sutton,R.S.和Barto,A.G.(1998年)。强化学习-简介麻省理工学院出版社。
[36]
Tsitsiklis,J.N.(1994年)。异步随机逼近和Q学习。机器学习,16(3), 185-202.
[37]
Watkins,C.J.C.H.(1989)。从延迟的奖励中学习牛津大学国王学院博士论文。
[38]
Watkins,C.J.C.H.和Dayan,P.(1992年)。Q学习。机器学习,8(3/4). 强化学习专题。
[39]
Wendt,M.、Li,P.和Wozny,G.(2002年)。不确定性条件下的非线性机会约束过程优化。工业工程化学。决议,21, 3621-3629.

引用人

查看全部
  • (2022)平均马尔可夫决策过程(AMDP)环境下的长期资源分配公平性第21届自主智能体与多智能体系统国际会议论文集10.5555/3535850.3535910(525-533)在线发布日期:2022年5月9日
  • (2021)SAGIN中面向延迟的物联网任务调度的深度强化学习IEEE无线通信汇刊10.1109/TWC.2020.302914320:2(911-925)在线发布日期:2021年2月1日
  • (2021)通过受限预期回报进行风险敏感决策2016 IEEE声学、语音和信号处理国际会议(ICASSP)10.1109/ICASSP.2016.7472141(2569-2573)在线发布日期:2021年3月11日
  • 显示更多引用者

索引术语

  1. 风险敏感强化学习在约束控制中的应用
    索引项已通过自动分类分配给内容。

    建议

    评论

    信息和贡献者

    问询处

    发布于

    人工智能研究杂志封面图片
    人工智能研究杂志 第24卷第1期
    2005年7月
    892页
    国际标准编号:1076-9757
    期刊目录

    出版商

    AI Access基金会

    El Segundo,加利福尼亚州,美国

    出版历史

    出版:2005年7月1日
    收到:2004年12月1日
    在JAIR中发布体积24,问题1

    限定符

    • 第条

    贡献者

    其他指标

    文献计量学和引文

    文献计量学

    文章指标

    • 下载次数(过去12个月)0
    • 下载次数(最近6周)0
    反映截至2024年9月20日的下载量

    其他指标

    引文

    引用人

    查看全部
    • (2022)平均马尔可夫决策过程(AMDP)环境下的长期资源分配公平性第21届自主智能体与多智能体系统国际会议论文集10.5555/3535850.3535910(525-533)在线发布日期:2022年5月9日
    • (2021)SAGIN中面向延迟的物联网任务调度的深度强化学习IEEE无线通信汇刊10.1109吨/立方英尺.2020.302914320:2(911-925)在线发布日期:2021年2月1日
    • (2021)通过受限预期回报进行风险敏感决策2016年IEEE声学、语音和信号处理国际会议(ICASSP)10.1109/ICASSP.2016.7472141(2569-2573)在线发布日期:2021年3月11日
    • (2020)具有逻辑约束的谨慎强化学习第19届自治代理和多代理系统国际会议记录10.5555/3398761.3398821(483-491)在线发布日期:2020年5月5日
    • (2020)基于相似性风险映射的安全强化学习自适应行为-动物、动画、软件代理、机器人、自适应系统10.1177/105971231985965028:4(213-224)在线发布日期:2020年8月1日
    • (2020)风险敏感强化学习第一届ACM金融人工智能国际会议记录10.1145/3383455.3422519(1-9)在线发布日期:2020年10月15日
    • (2019)线性二次强化学习中的鲁棒性探索第33届神经信息处理系统国际会议记录10.5555/3454287.3455661(15336-15346)在线发布日期:2019年12月8日
    • (2019)基于风险边界函数的度量最大化自适应抽样第三十三届AAAI人工智能和第三十一届人工智能创新应用大会论文集和第九届AAAI人工智能教育进展研讨会论文集10.1609/aaai.v33i01.33017511(7511-7519)在线发布日期:2019年1月27日
    • (2019)具有强化学习控制的网络物理系统的安全验证嵌入式计算系统ACM事务10.1145/335823018:5秒(1-22)在线发布日期:2019年10月8日
    • (2019)基于模型的约束MDP在序列激励营销中的预算分配第28届ACM信息与知识管理国际会议记录10.1145/3357384.3358031(971-980)在线发布日期:2019年11月3日
    • 显示更多引用者

    视图选项

    查看选项

    获取访问权限

    登录选项

    完全访问权限

    媒体

    数字

    其他

    桌子

    分享

    分享

    共享此出版物链接

    在社交媒体上分享