{“状态”：“确定”，“消息类型”：“工作”，“信息版本”：“1.0.0”，“邮件”：{“索引”：{“日期部分”：[[2024,3,3]]，“日期时间”：“2024-03-03T12:19:11Z”，“时间戳”：1709468351484}，“参考计数”：22，“出版商”：“富士科技出版社有限公司”，“问题”：“4”，“内容域”:{“域”：[]，“交叉标记限制”：false}，”shortcontainer-title“：[“JACIII”，“J.Adv。计算。因特尔。因特尔。通知。“]，”published-print“：{”date-parts“：[[2022,7,20]]}，”抽象“：”强化学习的一个挑战是关于部分可观测马尔可夫决策过程（POMDP）。在这种情况下，代理无法观察环境的真实状态，也无法感知不同的状态是相同的。我们提出的方法使用agent的时间序列信息来处理这个不完美的感知问题。特别是，该方法使用水库计算将观测信息的时间序列转换为非线性状态。典型的水库计算模型——回波状态网络（ESN）将原始观测值转换为水库状态。该方法被称为双ESN强化学习，使用两个专用于观察和行动信息的ESN。实验结果表明，该方法在存在不完美感知问题的环境中是有效的<\/jats:p>“，”DOI“：”10.20965\/jacii.2022.p0562“，”type“：”journal-article“，”created“：{”date-parts“：[[2022,7,19]]，”date-time“：”2022-07-19T15:02:21Z“，”timestamp“：1658242941000}，”page“：“562-569”，“source”：“Crossref”，“is-referenced-by-count”：1，“title”：[“利用水库计算的状态表示对POMDP环境进行强化学习”]，“前缀“：”10.20965“，”卷“：”26“，”作者“：[｛”给定“：”Kodai“，”家族“：”Yamashita“，”序列“：”第一“，”隶属关系“：[]｝，｛”给定“：”Tomoki“，”家族“：”Hamagami“，”序列“：”附加“，”隶属关系“：[]｝，”名称“：”横滨国立大学工程科学研究生院79-5 Tokiwadai，Hodogaya ku，横滨市，神奈川240-8501“，”sequence“：”additional“，”affiliation“：[]}，{“name”：“横滨国立大学工程学院79-5 Tokiwadai，Hodogaya-ku，Yokohama-shi，Kanagawa 240-8501，Japan”，“sequence”：“additional”，“affiliation:[]}]，“member”：“8550”，“published-online”：{“date-parts”：[2022,7,20]}；“reference”：[{“key”：“key-10.20965\/jacii.2022.p0562-1”，“doi-asserted-by“：”crossref“，”unstructured“：”S.Gu，E.Holly，T.Lillicrap，and S.Levine，\u201cDeep reinforction learning for robot manipulation with asynchronous off-policy updates，IEEE Int.Conf.on Robotics and Automation（ICRA），pp.3389-33962017.“，”doi“：”10.1109\/ICRA.2017.7989385“}，{“key”：“key-10.20965，“jacii.2022.p0562-2”，“doi-asserted-by”：“crossref”，“unstructured”：“D.Isele，R.Rahimi，A.Cosgun，K.Subramanian，and K.Fujimura，使用深度强化学习导航闭塞交叉口与自动车辆，IEEE机器人与自动化国际会议（ICRA），第2034-2039页，2018年。”，“doi”：“10.1109 \/ICRA.2018.8461233“}，{“key”：“key-10.20965 \/jacii.2022.p0562-3”，“unstructured”：“S.Kapturowski，G.Ostrovski，W.Dabney，J.Quan，and R.Munos，分布式强化学习中的递归经验重播，2019年国际会议学习表征程序。”}，}，“key“：”key-10.2096 \/jachii.2022.p 0562-4“，”doi-asserted-by“：”crossref“，“非结构化”：“S.Hochreiter和J.Schmidhuber，长短期记忆，神经计算，第9卷，第8期，第1735-1780页，1997年。”，“DOI”：“10.1162”，“neco.1997.9.8.1735”}，{“key”：“key-10.20965”，jacii.2022.p0562-5”，“非结构性”：“H。Jaeger，\u201c\u201cecho state\u201d分析和训练递归神经网络的方法\u2013，带勘误表，德国国家研究中心信息技术。，第148卷，第34期，第13条，2001年。“}，{“key”：“key-10.20965”，“jacii.2022.p0562-6”，“doi-asserted-by”：“crossref”，“unstructured”：“H.Jaeger和H.Haas，《利用非线性：预测混沌系统和无线通信节能》，《科学》第304卷，第5667号，第78-80页，2004年。”，“doi”：“10.1126”，科学.1091277“}”，{key-10.20965\/jacii.2022.p0562-7“，“doi-asserted-by”：“crossref”，“unstructured”：“H.Chang和K.Futagami，《卷积油藏计算的强化学习》，《应用情报》，第50卷，第2400-2410页，2020年。”，“doi”：“10.1007\/s10489-020-01679-3”}，{“key”：“key-10.2096”，“jacii.2022.p062-8”，“非结构化”：“Y.Wang和X。Tan，\u201cPOMDP的深层递归信念传播网络，\u201 d Proc。AAAI人工智能会议，第35卷，第11期，第10236-10244页，2021年。“}，{“key”：“key-10.20965\/jacii.2022.p0562-9”，“非结构化”：“B.Bakker，长短期记忆的强化学习，《神经信息处理系统进展学报》14（NIPS 2001），第1475-1482页，2001年。”}key-10.20965 \/jacii.2022.p0562-10“，“非结构化”：“T.Ni，B.Eysenbach，and R.Salakhutdinov，\u201cRecurrent Model-Free RL是许多POMDP的强大基线，\u201 d arXiv Preprint arXiv:2110.05038，2021.”}，{“key”：“key-10.201965 \/yacii.2022.p0562-11”，“doi-asserted-by”：“交叉引用”，“非结构”：“C.Gallicchio and a。Micheli，深部油藏计算网络的回波状态属性，《认知计算》，第9卷，第337-350页，2017年。“，“DOI”：“10.1007”，“s12559-017-9461-9”}，{“key”：“key-10.20965”，jacii.2022.p0562-12，“非结构化”：“J.Schulman，F.Wolski，P.Dhariwal，A.Radford，and O。Klimov，\u201cProximal policy optimization algorithms，\u201 D arXiv Preprint arXiv:1707.06347，2017.“}，{”key“：”key-10.20965\/jacii.2022.p0562-13“，”doi-asserted-by“：”crossref“，“unstructured”：“X.Ma，J.Li，M.J.Kochenderfer，D.Isele，and K。Fujimura，\u201c利用潜在状态推理和时空关系加强自主驾驶学习，\u201 d Proc。IEEE机器人与自动化国际会议（ICRA）第6064-6071页，2021年。“，“DOI”：“10.1109”，{“key”：“key-10.20965”，jacii.2022.p0562-14“，“DOI-asserted-by”：“crossref”，“unstructured”：“T.Matsuki and K。Shibata，\u201c使用带有多层读出的回声状态网络强化记忆任务的学习，\u201 d Proc。第五届机器人智能技术与应用国际会议，2019年第17-26页。”，“DOI”：“10.1007\/978-319-78452-6_2”}，{“key”：“key-10.20965\/jacii.2022.p0562-15”，“DOI-asserted-by”：“crossref”，”非结构化“：“I.Szita，V.Gyenes，and A.L\u00f6rincz，”回声状态网络强化学习“，第十六届国际会议论文集。人工神经网络会议（ICANN），第1卷，第830-839页，2006年。”，“DOI”：“10.1007”，{“key”：“key-10.20965”，jacii.2022.p0562-16“，“DOI-asserted-by”：“crossref”，“unstructured”：“A.Chattopadhyay，P.Hassandeh，and D。Subramanian，《使用机器学习方法对多尺度Lorenz 96混沌系统进行数据驱动预测：水库计算、人工神经网络和长短期记忆网络》，《地球物理非线性过程》，第27卷，第3期，第373-389页，2020年。“，“DOI”：“10.5194”，{“key”：“key-10.20965 \/jacii.2022.p0562-17“，”doi-asserted-by“：”crossref“，”unstructured“：”E.L\u00f3pez，C.Valle，H.Allende-Cid，and H.Allinde，\u201c风电预测递归神经网络的比较，\u201 d Proc。墨西哥模式识别会议（MCPR），第35-342020页。”，“DOI”：“10.1007\/978-3-030-49076-8_3”}，{“key”：“key-10.20965\/jacii.2022.p0562-18”，“DOI-asserted-by”：“crossref”，”非结构化“：”K.Zheng，B.Qian，S.Li，Y.Xiao，W.Zhuang，and Q。马，用于时间序列预测的长短期回波状态网络，IEEE Access，第8卷，第91961-91974页，2020年。“，“DOI”：“10.1109”，“Access.2020.294773”}，{“key”：“key-10.20965”，jacii.2022.p0562-19“，”DOI-asserted-by“：”crossref“，“unstructured”：“L.Manneschi，M.O.A.Ellis，G.Gigante，A.C.Lin，P.D.Giudice，and E。Vasilaki，\u201c在分层回声状态网络中利用多个时间尺度，\u201d应用数学和统计学前沿，2021年第6卷。”，“DOI”：“10.3389\/fams.2020.616658”}，｛“key”：“key-10.20965\/jacii.2022.p0562-20”，“DOI断言”：“crossref”，“非结构化”：“T.Lesort，N.D\u00edaz Rodr\u00edguez，J.-F.Goudou，and D。Filliat，《控制的状态表征学习：概述》，《神经网络》，第108卷，第379-392页，2018年。“，“DOI”：“10.1016\/j.neunet.2018.07.006”}，{“key”：“key-10.20965\/jacii.2022.p0562-21”，“非结构化”：“K.Ota，T.Oiki，D.K.Jha，T.Mariyama，and D。Nikovski，\u201c增加输入维度能改善深度强化学习吗？，\u201d程序。第37届国际机器学习大会，第7424-74332020页第4667-4673页，2016年。“，”DOI“：”10.1109\/CDC.2016.7798980“}]，”container-title“：[”Journal of Advanced Computational Intelligence and Intelligent Informatics“]，”original-title”：[]，”language“：”en“，”link“：[{”URL“：”https:\/\/\www.fujipress.jp\/main\/wp-content\/themes\/fujipress\/hyosetus.php？ppno=JACII002600040013“，”content-type“：”unspecified“，”content-version“：”vor“，”intended-application“：”similarity-checking“}]，”deposed“：{”date-parts“：[2022,7,19]]，”date-time“：”2022-07-19T15:04:26Z“，”timestamp“：1658243066000}，”score“：1，”resource“：{primary”：{“URL”：“https:\\/www.fujipress.jp\/jaciii\/jc\/jacii002600040562”}}，“subtitle”：[]，“shorttitle”：[]，“已发布”：{“日期部分”：[[2022,7,20]]}，“references-count“：22，”journal-issue“：{”issue“：”4“，”published-online“：{”date-parts“：[2022,7,20]]}，”publised-print“：{》date-part“：[[2022,7,20]]}}，“URL”：“http://\/dx.doi.org\/10.20965\/jacii.2022.p0562”，“relation”：{}，《ISSN》：[“1883-8014”，“1343-0130”]，“ISSN-type”：[{“数值”：“1883-8014”，“类型”：“电子”}，{“值”：“1343-0130”，“型号”：“打印”}]，“主题“：[]，”已发布“：{“日期部分”：[[2022,7,20]]}}