Reinforcement Learning for POMDP Environments Using State Representation with Reservoir Computing

Kodai Yamashita; Tomoki Hamagami

doi:10.20965/jaciii.2022.p0562

单jc.php

«上一页

下一个»

JACIII第26卷第4期，第562-569页

doi:10.20965/jaciii.2022.p0562

(2022)

纸张：

过去60天的浏览量： 403

基于油藏计算的状态表示的POMDP环境强化学习

Kodai Yamashita公司^*和滨上智树^**

^*横滨国立大学工程科学研究生院
日本神奈川横滨区北道谷东京台79-5号，邮编：240-8501

^**横滨国立大学工程学院
日本神奈川横滨区北道谷东京台79-5号，邮编：240-8501

收到：

2021年12月18日

认可的：

2022年4月12日

出版：

2022年7月20日

关键词：

强化学习、水库计算、部分可观测马尔可夫决策过程环境

摘要

强化学习的挑战之一是关于部分可观察的马尔可夫决策过程（POMDP）。在这种情况下，代理无法观察环境的真实状态，也无法感知不同的状态是相同的。我们提出的方法使用代理的时间序列信息来处理这个不完美的感知问题。特别是，该方法使用水库计算将观测信息的时间序列转换为非线性状态。典型的水库计算模型——回波状态网络（ESN）将原始观测值转换为水库状态。所提出的方法被称为双重ESN强化学习，它使用两个专门用于观察和行动信息的ESN。实验结果表明，该方法在存在不完美感知问题的环境中是有效的。

使用两个储层的双ESN RL

引用本文为：

K.Yamashita和T.Hamagami，“使用油藏计算的状态表示法对POMDP环境进行强化学习”高级计算杂志。因特尔。因特尔。通知。第26卷第4期，第562-569页，2022年。

数据文件：

工具书类

[1] S.Gu、E.Holly、T.Lillicrap和S.Levine，“利用异步非策略更新进行机器人操作的深度强化学习”，IEEE机器人与自动化国际会议（ICRA），第3389-3396页，2017年。
[2] D.Isele、R.Rahimi、A.Cosgun、K.Subramanian和K.Fujimura，“使用深度强化学习通过自动车辆导航闭塞交叉口”，IEEE机器人与自动化国际会议（ICRA），第2034-2039页，2018年。
[3] S.Kapturowski、G.Ostrovski、W.Dabney、J.Quan和R.Munos，“分布式强化学习中的重复体验回放”，《学习表征国际会议程序》，2019年。
[4] S.Hochreiter和J.Schmidhuber，“长-短期记忆”，《神经计算》，第9卷，第8期，第1735-1780页，1997年。
[5] H.Jaeger，“分析和训练递归神经网络的“回声状态”方法——附勘误表，”德国国家研究中心信息技术。，第148卷，第34期，第13条，2001年。
[6] H.Jaeger和H.Haas，“利用非线性：预测混沌系统和无线通信节能”，《科学》，第304卷，第5667号，第78-80页，2004年。
[7] H.Chang和K.Futagami，“卷积油藏计算的强化学习”，《应用智能》，第50卷，第2400-2410页，2020年。
[8] Y.Wang和X.Tan，“POMDP的深度递归信念传播网络”，Proc。AAAI人工智能大会，第35卷，第11期，第10236-102442021页。
[9] B.Bakker，“长短期记忆强化学习”，Proc。神经信息处理系统进展14（NIPS 2001），第1475-1482页，2001年。
[10] T.Ni、B.Eysenbach和R.Salakhutdinov，“递归无模型RL是许多POMDP的强大基线”，arXiv预印arXiv:2110.05038，2021年。
[11] C.Gallicchio和A.Micheli，“深层储层计算网络的回声状态特性”，认知计算，第9卷，第337-350页，2017。
[12] J.Schulman、F.Wolski、P.Dhariwal、A.Radford和O.Klimov，“近似策略优化算法”，arXiv预打印arXiv:1707.063472017。
[13] X.Ma、J.Li、M.J.Kochenderfer、D.Isele和K.Fujimura，“利用潜在状态推理和时空关系进行自主驾驶的强化学习”，Proc。IEEE机器人与自动化国际会议（ICRA），第6064-6071页，2021年。
[14] 松木（T.Matsuki）和柴田（K.Shibata），“使用多层读出的回声状态网络强化记忆任务的学习”，Proc。第五届机器人智能技术与应用国际会议，2019年第17-26页。
[15] I.Szita、V.Gyenes和A.Lörincz，“回声状态网络的强化学习”，Proc。第16届国际人工神经网络会议（ICANN），第1卷，第830-8392006页。
[16] A.Chattopadhyay、P.Hassanzadeh和D.Subramanian，“使用机器学习方法对多尺度Lorenz 96混沌系统进行数据驱动预测：水库计算、人工神经网络和长短期记忆网络”，《地球物理中的非线性过程》，第27卷，第3期，第373-3892020页。
[17] E.López、C.Valle、H.Allende-Cid和H.Allinde，“风电预测递归神经网络的比较”，Proc。墨西哥模式识别会议（MCPR），第35-34页，2020年。
[18] K.Zheng，B.Qian，S.Li，Y.Xiao，W.Zhuang，和Q.Ma，“用于时间序列预测的长短期回波状态网络”，IEEE Access，第8卷，第91961-919742020页。
[19] L.Manneschi、M.O.A.Ellis、G.Gigante、A.C.Lin、P.D.Giudice和E.Vasilaki，“在分层回声状态网络中利用多个时间尺度”，《应用数学与统计学前沿》，2021年第6卷。
[20] T.Lesort、N.Díaz-Rodríguez、J.-F.Goudou和D.Filliat，“控制的状态表征学习：概述”，《神经网络》，第108卷，第379-392页，2018年。
[21]K.Ota、T.Oiki、D.K.Jha、T.Mariyama和D.Nikovski，“增加输入维度能改善深层强化学习吗？”。第37届国际机器学习大会（ICML），第7424-74332020页。
[22]J.Munk、J.Kober和R.Babuška，“深度actor-critic控制的学习状态表征”，Proc。IEEE第55届决策与控制大会（CDC）第4667-4673页，2016年。

本文发表于Creative Commons Attribution-NoDerivatives 4.0国际许可证。

[1] [1] S.Gu、E.Holly、T.Lillicrap和S.Levine，“利用异步非策略更新进行机器人操作的深度强化学习”，IEEE机器人与自动化国际会议（ICRA），第3389-3396页，2017年。

[2] [2] D.Isele、R.Rahimi、A.Cosgun、K.Subramanian和K.Fujimura，“使用深度强化学习通过自动车辆导航闭塞交叉口”，IEEE机器人与自动化国际会议（ICRA），第2034-2039页，2018年。

[3] [3] S.Kapturowski、G.Ostrovski、W.Dabney、J.Quan和R.Munos，“分布式强化学习中的重复体验回放”，《学习表征国际会议程序》，2019年。

[4] [4] S.Hochreiter和J.Schmidhuber，“长-短期记忆”，《神经计算》，第9卷，第8期，第1735-1780页，1997年。

[5] [5] H.Jaeger，“分析和训练递归神经网络的“回声状态”方法——附勘误表，”德国国家研究中心信息技术。，第148卷，第34期，第13条，2001年。

[6] [6] H.Jaeger和H.Haas，“利用非线性：预测混沌系统和无线通信节能”，《科学》，第304卷，第5667号，第78-80页，2004年。

[7] [7] H.Chang和K.Futagami，“卷积油藏计算的强化学习”，《应用智能》，第50卷，第2400-2410页，2020年。

[8] [8] Y.Wang和X.Tan，“POMDP的深度递归信念传播网络”，Proc。AAAI人工智能大会，第35卷，第11期，第10236-102442021页。

[9] [9] B.Bakker，“长短期记忆强化学习”，Proc。神经信息处理系统进展14（NIPS 2001），第1475-1482页，2001年。

[10] [10] T.Ni、B.Eysenbach和R.Salakhutdinov，“递归无模型RL是许多POMDP的强大基线”，arXiv预印arXiv:2110.05038，2021年。

[11] [11] C.Gallicchio和A.Micheli，“深层储层计算网络的回声状态特性”，认知计算，第9卷，第337-350页，2017。

[12] [12] J.Schulman、F.Wolski、P.Dhariwal、A.Radford和O.Klimov，“近似策略优化算法”，arXiv预打印arXiv:1707.063472017。

[13] [13] X.Ma、J.Li、M.J.Kochenderfer、D.Isele和K.Fujimura，“利用潜在状态推理和时空关系进行自主驾驶的强化学习”，Proc。IEEE机器人与自动化国际会议（ICRA），第6064-6071页，2021年。

[14] [14] 松木（T.Matsuki）和柴田（K.Shibata），“使用多层读出的回声状态网络强化记忆任务的学习”，Proc。第五届机器人智能技术与应用国际会议，2019年第17-26页。

[15] [15] I.Szita、V.Gyenes和A.Lörincz，“回声状态网络的强化学习”，Proc。第16届国际人工神经网络会议（ICANN），第1卷，第830-8392006页。

[16] [16] A.Chattopadhyay、P.Hassanzadeh和D.Subramanian，“使用机器学习方法对多尺度Lorenz 96混沌系统进行数据驱动预测：水库计算、人工神经网络和长短期记忆网络”，《地球物理中的非线性过程》，第27卷，第3期，第373-3892020页。

[17] [17] E.López、C.Valle、H.Allende-Cid和H.Allinde，“风电预测递归神经网络的比较”，Proc。墨西哥模式识别会议（MCPR），第35-34页，2020年。

[18] [18] K.Zheng，B.Qian，S.Li，Y.Xiao，W.Zhuang，和Q.Ma，“用于时间序列预测的长短期回波状态网络”，IEEE Access，第8卷，第91961-919742020页。

[19] [19] L.Manneschi、M.O.A.Ellis、G.Gigante、A.C.Lin、P.D.Giudice和E.Vasilaki，“在分层回声状态网络中利用多个时间尺度”，《应用数学与统计学前沿》，2021年第6卷。

[20] [20] T.Lesort、N.Díaz-Rodríguez、J.-F.Goudou和D.Filliat，“控制的状态表征学习：概述”，《神经网络》，第108卷，第379-392页，2018年。

[21] [21]K.Ota、T.Oiki、D.K.Jha、T.Mariyama和D.Nikovski，“增加输入维度能改善深层强化学习吗？”。第37届国际机器学习大会（ICML），第7424-74332020页。

[22] [22]J.Munk、J.Kober和R.Babuška，“深度actor-critic控制的学习状态表征”，Proc。IEEE第55届决策与控制大会（CDC）第4667-4673页，2016年。

基于油藏计算的状态表示的POMDP环境强化学习

Kodai Yamashita公司*和滨上智树**

Kodai Yamashita公司^*和滨上智树^**