文章

风险敏感强化学习在约束控制中的应用

作者:

彼得盖贝尔,

弗里茨维索茨基作者信息和声明

人工智能研究杂志,体积24,问题1

页81-108

出版:2005年7月1日出版历史

摘要

在本文中，我们考虑具有错误状态的马尔可夫决策过程（MDP）。错误状态是指进入的不受欢迎或危险的状态。我们将与保单相关的风险定义为执行保单时进入这种状态的概率。我们考虑寻找风险小于某个特定用户阈值的好策略的问题，并用两个标准将其形式化为一个约束MDP。第一个标准对应于最初给出的值函数。我们将证明，风险可以表示为基于累积回报的第二个标准函数，其定义独立于原始价值函数。我们提出了一种无模型的启发式强化学习算法，旨在寻找良好的确定性策略。它基于对原始价值函数和风险的加权。对权重参数进行调整，以找到对值函数具有良好性能的约束问题的可行解。该算法已成功应用于精馏塔上游具有随机流入的进料罐的控制。该控制任务最初被描述为一个具有机会约束的最优控制问题，并在模型的某些假设下进行求解以获得最优解。我们的学习算法的强大之处在于，即使放松了某些限制性假设，也可以使用它。

工具书类

[1]

Altman，E.（1999）。约束马尔可夫决策过程查普曼和霍尔/CRC。

[2]

Baird，L.（1995年）。残差算法：函数逼近强化学习。在程序。第十二届机器学习国际会议第30-37页。摩根·考夫曼。

[3]

Bawas，V.S.（1975年）。排序不确定前景的最佳规则。金融杂志，2(1), 1975.

[4]

Bertsekas，D.P.（1995）。动态规划与最优控制马萨诸塞州贝尔蒙特市雅典娜科学公司。第1卷和第2卷。

数字图书馆

[5]

Bertsekas，D.P.和Tsitsiklis，J.N.（1996年）。神经动力学编程雅典娜科技公司，马萨诸塞州贝尔蒙特。

数字图书馆

[6]

毕晓普，C.M.（1995年）。用于模式识别的神经网络牛津大学出版社，牛津。

数字图书馆

[7]

Blythe，J.（1999）。决策理论规划。AI杂志，20(2), 37-54.

[8]

Borkar，V.（2002年）。风险敏感控制的Q学习。运筹学数学，27(2), 294-311.

数字图书馆

[9]

Coraluppi，S.和Marcus，S..（1999年）。离散时间有限状态马尔可夫决策过程的风险敏感和极小极大控制。自动化，35, 301-309.

数字图书馆

[10]

Critis，R.H.和Barto，A.G.（1998年）。使用多个强化学习代理进行电梯组控制。机器学习，33(2/3), 235-262.

数字图书馆

[11]

Dolgov，D.和Durfee，E.（2004）。为执行资源有限的代理近似最优策略。在第十八届国际人工智能联合会议记录第1107-1112页。AAAI出版社。

数字图书馆

[12]

Feinberg，E.和Shwartz，A.（1994年）。加权折扣准则的马尔可夫决策模型。数学。运筹学，19, 152-168.

数字图书馆

[13]

Feinberg，E.和Shwartz，A.（1996年）。约束折扣动态规划。数学。运筹学，21, 922-945.

数字图书馆

[14]

Feinberg，E.和Shwartz，A.（1999年）。具有两个折扣因子的约束动态规划：应用程序和算法。IEEE自动控制汇刊，44, 628-630.

[15]

Fishburn，P.C.（1977年）。与低于目标回报相关的风险的平均风险分析。《美国经济学评论》，67(2), 116-126.

[16]

Freund，R.（1956年）。在编程模型中引入风险。计量经济学，21, 253-263.

[17]

Fulkerson，M.S.、Littman，M.L.和Keim，G.A.（1998年）。安全加速：概率规划中的多准则优化。在第十四届全国人工智能会议记录第831页。AAAI出版社/MIT出版社。

数字图书馆

[18]

Gabor，Z.、Kalmar，Z.和Szepesvari，C.（1998）。多标准强化学习。在程序。第十五届国际机器学习大会第197-205页。Morgan Kaufmann，加利福尼亚州旧金山。

数字图书馆

[19]

Geibel，P.（2001）。风险有限的强化学习。在Brodley，E.和Danyluk，A.P.（编辑），机器学习-第十八届国际会议记录（ICML01）第162-169页。摩根考夫曼出版社。

数字图书馆

[20]

Heger，M.（1994年）。考虑强化学习中的风险。在程序。第十一届机器学习国际会议第105-111页。摩根·考夫曼。

[21]

Kall，P.和Wallace，S.W.（1994年）。随机规划纽约威利。

[22]

Koenig，S.和Simmons，R.G.（1994年）。基于概率决策图的风险敏感规划。在Doyle，J.、Sandewall，E.和Torasso，P.（编辑）中，KR’94：知识表示和推理原理第363-373页，加利福尼亚州旧金山。摩根·考夫曼。

[23]

Kushmerick，N.、Hanks，S.和Weld，D.S.（1994年）。概率最小承诺规划算法。在AAAI公司第1073-1078页。

数字图书馆

[24]

Li，P.，Wendt，M.，Arellano-Garcia，&Wozny，G.（2002）。在进料罐中累积的不确定流入量下精馏过程的优化操作。AIChe杂志，48, 1198-1211.

[25]

Liu，Y.、Goodwin，R.和Koenig，S.（2003a）。规避风险的拍卖代理。在Rosenschein，J.、Sandholm，T.和Wooldridge，M.Yokoo，M.（编辑），第二届自主代理和多代理系统国际联合会议记录（AAMAS-03）第353-360页。ACM出版社。

数字图书馆

[26]

Liu，Y.、Goodwin，R.和Koenig，S.（2003b）。规避风险的拍卖代理。在美国原子能机构第353-360页。

数字图书馆

[27]

Markowitz，H.M.（1952年）。投资组合选择。《金融杂志》，7(1), 77-91.

[28]

Markowitz，H.M.（1959年）。投资组合选择约翰·威利父子公司，纽约。

[29]

Mihatsch，O.和Neuneier，R.（2002年）。风险敏感强化学习。机器学习，49(2-3), 267-290.

数字图书馆

[30]

Neuneier，R.和Mihatsch，O.（1999）。风险敏感强化学习。迈克尔·卡恩斯（Michael S.Kearns）、萨拉·索拉（Sara A.Solla）、D.A.C.（Ed.），神经信息处理系统研究进展，第11卷。麻省理工学院出版社。

数字图书馆

[31]

Ross，S.M.（2000）。概率模型简介纽约学术出版社。

数字图书馆

[32]

Roy，A.D.（1952年）。安全第一，资产持有。计量经济学，20(3), 431-449.

[33]

Smart，W.D.和Kaelbling，L.P.（2002年）。移动机器人的有效强化学习。在2002年IEEE机器人与自动化国际会议记录（ICRA 2002）.

[34]

Stephan，V.，Debes，K.，Gross，H.-M.，Wintrich，F.，&Wintrick，H.（2001年）。基于神经网络的强化学习燃烧过程控制新方案。国际计算智能与应用杂志，1(2), 121-136.

[35]

Sutton，R.S.和Barto，A.G.（1998年）。强化学习-简介麻省理工学院出版社。

数字图书馆

[36]

Tsitsiklis，J.N.（1994年）。异步随机逼近和Q学习。机器学习，16(3), 185-202.

数字图书馆

[37]

Watkins，C.J.C.H.（1989）。从延迟的奖励中学习牛津大学国王学院博士论文。

[38]

Watkins，C.J.C.H.和Dayan，P.（1992年）。Q学习。机器学习，8(3/4). 强化学习专题。

数字图书馆

[39]

Wendt，M.、Li，P.和Wozny，G.（2002年）。不确定性条件下的非线性机会约束过程优化。工业工程化学。决议，21, 3621-3629.

引用人

加尔梅G奈尔五世帕蒂尔五世周毅（Zhou Y）Pelachaud C公司泰勒MFaliszewski P公司马斯卡迪五世(2022)平均马尔可夫决策过程（AMDP）环境下的长期资源分配公平性第21届自主智能体与多智能体系统国际会议论文集10.5555/3535850.3535910(525-533)在线发布日期：2022年5月9日
https://dl.acm.org/doi/10.5555/3535850.35535910
周C吴伟他H杨P吕F程N沈X(2021)SAGIN中面向延迟的物联网任务调度的深度强化学习IEEE无线通信汇刊10.1109/TWC.2020.302914320:2(911-925)在线发布日期：2021年2月1日
https://dl.acm.org/doi/10.1109/TWC.2020.3029143
哈恩JZoubir A公司(2021)通过受限预期回报进行风险敏感决策2016 IEEE声学、语音和信号处理国际会议（ICASSP）10.1109/ICASSP.2016.7472141(2569-2573)在线发布日期：2021年3月11日
https://dl.acm.org/doi/10.109/ICASSP.2016.7472141
显示更多引用者

索引术语

风险敏感强化学习在约束控制中的应用
1. 应用计算
  1. 企业计算

索引项已通过自动分类分配给内容。

建议

风险敏感强化学习：奖励不确定性的鞅方法
ICAIF’20：第一届ACM金融人工智能国际会议记录

我们引入了一个新的框架来解释序列决策问题中对奖励不确定性的敏感性。而迄今为止所研究的马尔可夫决策过程的风险敏感公式则侧重于累积报酬的分布。。。
用于风险敏感强化学习的状态增强转换
AAAI'19/IAAI'19/EAAI'19：第三十三届AAAI人工智能会议论文集和第三十一届人工智能创新应用会议论文集以及第九届AAAI-人工智能教育进展研讨会论文集

在MDP框架下，虽然一般奖励功能需要三个论据——当前状态、行动和继承状态；它通常被简化为两个参数的函数&当前状态和行动。前者称为基于转换的奖励。。。
风险敏感控制的Q学习

我们提出了有限马尔可夫链的风险敏感控制，这是经典马尔可夫决策过程中流行的Q学习算法的对应物。该算法被证明以概率1收敛到期望的解。证明技术。。。

评论

信息和贡献者

问询处

发布于

人工智能研究杂志封面图片

人工智能研究杂志第24卷第1期

2005年7月

892页

国际标准编号：1076-9757

出版商

AI Access基金会

El Segundo，加利福尼亚州，美国

出版历史

出版：2005年7月1日

收到：2004年12月1日

在JAIR中发布体积24,问题1

限定符

第条

贡献者

其他指标

查看文章指标

文献计量学和引文

文献计量学

文章指标

42
引文总数
查看引文
0
总下载次数

下载次数（过去12个月）0
下载次数（最近6周）0

反映截至2024年9月20日的下载量

其他指标

查看作者指标

引文

引用人

加尔梅G奈尔V帕蒂尔五世周毅（Zhou Y）Pelachaud C公司泰勒MFaliszewski P公司马斯卡迪五世(2022)平均马尔可夫决策过程（AMDP）环境下的长期资源分配公平性第21届自主智能体与多智能体系统国际会议论文集10.5555/3535850.3535910(525-533)在线发布日期：2022年5月9日
https://dl.acm.org/doi/10.5555/3535850.3535910
周C吴伟他H杨P吕F程恩（Cheng N）沈X(2021)SAGIN中面向延迟的物联网任务调度的深度强化学习IEEE无线通信汇刊10.1109吨/立方英尺.2020.302914320:2(911-925)在线发布日期：2021年2月1日
https://dl.acm.org/doi/10.1109/TWC.2020.3029143
哈恩JZoubir A公司(2021)通过受限预期回报进行风险敏感决策2016年IEEE声学、语音和信号处理国际会议（ICASSP）10.1109/ICASSP.2016.7472141(2569-2573)在线发布日期：2021年3月11日
https://dl.acm.org/doi/10.109/ICASSP.2016.7472141
哈桑贝格M阿巴特A克罗宁DEl Fallah Seghrouchni A公司Sukthankar G公司安B约克史密斯N(2020)具有逻辑约束的谨慎强化学习第19届自治代理和多代理系统国际会议记录10.5555/3398761.3398821(483-491)在线发布日期：2020年5月5日
https://dl.acm.org/doi/10.5555/3398761.3398821
Serrano-Cuevas J公司莫拉莱斯E埃尔南德斯·利尔(2020)基于相似性风险映射的安全强化学习自适应行为-动物、动画、软件代理、机器人、自适应系统10.1177/105971231985965028:4(213-224)在线发布日期：2020年8月1日
https://dl.acm.org/doi/10.1177/1059712319859650
瓦多里N加内什S红色PVeloso M公司Balch T公司(2020)风险敏感强化学习第一届ACM金融人工智能国际会议记录10.1145/3383455.3422519(1-9)在线发布日期：2020年10月15日
https://dl.acm.org/doi/10.1145/3383455.3422519
Umenberger J公司费里兹贝戈维奇MSchön T公司Hjalmarsson H公司瓦拉赫H拉罗谢尔HBeygelzimer A型d'Alché-Buc F餐厅福克斯E(2019)线性二次强化学习中的鲁棒性探索第33届神经信息处理系统国际会议记录10.5555/3454287.3455661(15336-15346)在线发布日期：2019年12月8日
https://dl.acm.org/doi/10.5555/3454287.3455661
艾顿B威廉姆斯B卡米利R(2019)基于风险边界函数的度量最大化自适应抽样第三十三届AAAI人工智能和第三十一届人工智能创新应用大会论文集和第九届AAAI人工智能教育进展研讨会论文集10.1609/aaai.v33i01.33017511(7511-7519)在线发布日期：2019年1月27日
https://dl.acm.org/doi/10.1609/aaai.v33i01.33017511
事务H蔡F迭戈·M穆索P约翰逊T库苏科斯X(2019)具有强化学习控制的网络物理系统的安全验证嵌入式计算系统ACM事务10.1145/335823018：5秒(1-22)在线发布日期：2019年10月8日
https://dl.acm.org/doi/10.1145/3358230
肖斯（Xiao S）郭L蒋ZL级陈毅朱J杨斯（Yang S）朱伟道D程X崔PRundensteiner E公司卡梅尔·D何Q徐宇J(2019)基于模型的约束MDP在序列激励营销中的预算分配第28届ACM信息与知识管理国际会议记录10.1145/3357384.3358031(971-980)在线发布日期：2019年11月3日
https://dl.acm.org/doi/10.1145/3357384.3358031
显示更多引用者

视图选项

查看选项

获取访问权限

登录选项

检查您是否可以通过登录凭据或您的机构访问本文。

完全访问权限

获取此文章

媒体

数字

其他

桌子

查看问题目录