{“状态”:“确定”,“消息类型”:“工作”,“信息版本”:“1.0.0”,“邮件”:{“索引”:{“日期部分”:[[2024,3,3]],“日期时间”:“2024-03-03T12:19:11Z”,“时间戳”:1709468351484},“参考计数”:22,“出版商”:“富士科技出版社有限公司”,“问题”:“4”,“内容域”:{“域”:[],“交叉标记限制”:false},”shortcontainer-title“:[“JACIII”,“J.Adv。计算。因特尔。因特尔。通知。“],”published-print“:{”date-parts“:[[2022,7,20]]},”抽象“:”强化学习的一个挑战是关于部分可观测马尔可夫决策过程(POMDP)。在这种情况下,代理无法观察环境的真实状态,也无法感知不同的状态是相同的。我们提出的方法使用agent的时间序列信息来处理这个不完美的感知问题。特别是,该方法使用水库计算将观测信息的时间序列转换为非线性状态。典型的水库计算模型——回波状态网络(ESN)将原始观测值转换为水库状态。该方法被称为双ESN强化学习,使用两个专用于观察和行动信息的ESN。实验结果表明,该方法在存在不完美感知问题的环境中是有效的<\/jats:p>“,”DOI“:”10.20965\/jacii.2022.p0562“,”type“:”journal-article“,”created“:{”date-parts“:[[2022,7,19]],”date-time“:”2022-07-19T15:02:21Z“,”timestamp“:1658242941000},”page“:“562-569”,“source”:“Crossref”,“is-referenced-by-count”:1,“title”:[“利用水库计算的状态表示对POMDP环境进行强化学习”],“前缀“:”10.20965“,”卷“:”26“,”作者“:[{”给定“:”Kodai“,”家族“:”Yamashita“,”序列“:”第一“,”隶属关系“:[]},{”给定“:”Tomoki“,”家族“:”Hamagami“,”序列“:”附加“,”隶属关系“:[]},”名称“:”横滨国立大学工程科学研究生院79-5 Tokiwadai,Hodogaya ku,横滨市,神奈川240-8501“,”sequence“:”additional“,”affiliation“:[]},{“name”:“横滨国立大学工程学院79-5 Tokiwadai,Hodogaya-ku,Yokohama-shi,Kanagawa 240-8501,Japan”,“sequence”:“additional”,“affiliation:[]}],“member”:“8550”,“published-online”:{“date-parts”:[2022,7,20]};“reference”:[{“key”:“key-10.20965\/jacii.2022.p0562-1”,“doi-asserted-by“:”crossref“,”unstructured“:”S.Gu,E.Holly,T.Lillicrap,and S.Levine,\u201cDeep reinforction learning for robot manipulation with asynchronous off-policy updates,IEEE Int.Conf.on Robotics and Automation(ICRA),pp.3389-33962017.“,”doi“:”10.1109\/ICRA.2017.7989385“},{“key”:“key-10.20965,“jacii.2022.p0562-2”,“doi-asserted-by”:“crossref”,“unstructured”:“D.Isele,R.Rahimi,A.Cosgun,K.Subramanian,and K.Fujimura,使用深度强化学习导航闭塞交叉口与自动车辆,IEEE机器人与自动化国际会议(ICRA),第2034-2039页,2018年。”,“doi”:“10.1109 \/ICRA.2018.8461233“},{“key”:“key-10.20965 \/jacii.2022.p0562-3”,“unstructured”:“S.Kapturowski,G.Ostrovski,W.Dabney,J.Quan,and R.Munos,分布式强化学习中的递归经验重播,2019年国际会议学习表征程序。”},},“key“:”key-10.2096 \/jachii.2022.p 0562-4“,”doi-asserted-by“:”crossref“,“非结构化”:“S.Hochreiter和J.Schmidhuber,长短期记忆,神经计算,第9卷,第8期,第1735-1780页,1997年。”,“DOI”:“10.1162”,“neco.1997.9.8.1735”},{“key”:“key-10.20965”,jacii.2022.p0562-5”,“非结构性”:“H。Jaeger,\u201c\u201cecho state\u201d分析和训练递归神经网络的方法\u2013,带勘误表,德国国家研究中心信息技术。,第148卷,第34期,第13条,2001年。“},{“key”:“key-10.20965”,“jacii.2022.p0562-6”,“doi-asserted-by”:“crossref”,“unstructured”:“H.Jaeger和H.Haas,《利用非线性:预测混沌系统和无线通信节能》,《科学》第304卷,第5667号,第78-80页,2004年。”,“doi”:“10.1126”,科学.1091277“}”,{key-10.20965\/jacii.2022.p0562-7“,“doi-asserted-by”:“crossref”,“unstructured”:“H.Chang和K.Futagami,《卷积油藏计算的强化学习》,《应用情报》,第50卷,第2400-2410页,2020年。”,“doi”:“10.1007\/s10489-020-01679-3”},{“key”:“key-10.2096”,“jacii.2022.p062-8”,“非结构化”:“Y.Wang和X。Tan,\u201cPOMDP的深层递归信念传播网络,\u201 d Proc。AAAI人工智能会议,第35卷,第11期,第10236-10244页,2021年。“},{“key”:“key-10.20965\/jacii.2022.p0562-9”,“非结构化”:“B.Bakker,长短期记忆的强化学习,《神经信息处理系统进展学报》14(NIPS 2001),第1475-1482页,2001年。”}key-10.20965 \/jacii.2022.p0562-10“,“非结构化”:“T.Ni,B.Eysenbach,and R.Salakhutdinov,\u201cRecurrent Model-Free RL是许多POMDP的强大基线,\u201 d arXiv Preprint arXiv:2110.05038,2021.”},{“key”:“key-10.201965 \/yacii.2022.p0562-11”,“doi-asserted-by”:“交叉引用”,“非结构”:“C.Gallicchio and a。Micheli,深部油藏计算网络的回波状态属性,《认知计算》,第9卷,第337-350页,2017年。“,“DOI”:“10.1007”,“s12559-017-9461-9”},{“key”:“key-10.20965”,jacii.2022.p0562-12,“非结构化”:“J.Schulman,F.Wolski,P.Dhariwal,A.Radford,and O。Klimov,\u201cProximal policy optimization algorithms,\u201 D arXiv Preprint arXiv:1707.06347,2017.“},{”key“:”key-10.20965\/jacii.2022.p0562-13“,”doi-asserted-by“:”crossref“,“unstructured”:“X.Ma,J.Li,M.J.Kochenderfer,D.Isele,and K。Fujimura,\u201c利用潜在状态推理和时空关系加强自主驾驶学习,\u201 d Proc。IEEE机器人与自动化国际会议(ICRA)第6064-6071页,2021年。“,“DOI”:“10.1109”,{“key”:“key-10.20965”,jacii.2022.p0562-14“,“DOI-asserted-by”:“crossref”,“unstructured”:“T.Matsuki and K。Shibata,\u201c使用带有多层读出的回声状态网络强化记忆任务的学习,\u201 d Proc。第五届机器人智能技术与应用国际会议,2019年第17-26页。”,“DOI”:“10.1007\/978-319-78452-6_2”},{“key”:“key-10.20965\/jacii.2022.p0562-15”,“DOI-asserted-by”:“crossref”,”非结构化“:“I.Szita,V.Gyenes,and A.L\u00f6rincz,”回声状态网络强化学习“,第十六届国际会议论文集。人工神经网络会议(ICANN),第1卷,第830-839页,2006年。”,“DOI”:“10.1007”,{“key”:“key-10.20965”,jacii.2022.p0562-16“,“DOI-asserted-by”:“crossref”,“unstructured”:“A.Chattopadhyay,P.Hassandeh,and D。Subramanian,《使用机器学习方法对多尺度Lorenz 96混沌系统进行数据驱动预测:水库计算、人工神经网络和长短期记忆网络》,《地球物理非线性过程》,第27卷,第3期,第373-389页,2020年。“,“DOI”:“10.5194”,{“key”:“key-10.20965 \/jacii.2022.p0562-17“,”doi-asserted-by“:”crossref“,”unstructured“:”E.L\u00f3pez,C.Valle,H.Allende-Cid,and H.Allinde,\u201c风电预测递归神经网络的比较,\u201 d Proc。墨西哥模式识别会议(MCPR),第35-342020页。”,“DOI”:“10.1007\/978-3-030-49076-8_3”},{“key”:“key-10.20965\/jacii.2022.p0562-18”,“DOI-asserted-by”:“crossref”,”非结构化“:”K.Zheng,B.Qian,S.Li,Y.Xiao,W.Zhuang,and Q。马,用于时间序列预测的长短期回波状态网络,IEEE Access,第8卷,第91961-91974页,2020年。“,“DOI”:“10.1109”,“Access.2020.294773”},{“key”:“key-10.20965”,jacii.2022.p0562-19“,”DOI-asserted-by“:”crossref“,“unstructured”:“L.Manneschi,M.O.A.Ellis,G.Gigante,A.C.Lin,P.D.Giudice,and E。Vasilaki,\u201c在分层回声状态网络中利用多个时间尺度,\u201d应用数学和统计学前沿,2021年第6卷。”,“DOI”:“10.3389\/fams.2020.616658”},{“key”:“key-10.20965\/jacii.2022.p0562-20”,“DOI断言”:“crossref”,“非结构化”:“T.Lesort,N.D\u00edaz Rodr\u00edguez,J.-F.Goudou,and D。Filliat,《控制的状态表征学习:概述》,《神经网络》,第108卷,第379-392页,2018年。“,“DOI”:“10.1016\/j.neunet.2018.07.006”},{“key”:“key-10.20965\/jacii.2022.p0562-21”,“非结构化”:“K.Ota,T.Oiki,D.K.Jha,T.Mariyama,and D。Nikovski,\u201c增加输入维度能改善深度强化学习吗?,\u201d程序。第37届国际机器学习大会,第7424-74332020页第4667-4673页,2016年。“,”DOI“:”10.1109\/CDC.2016.7798980“}],”container-title“:[”Journal of Advanced Computational Intelligence and Intelligent Informatics“],”original-title”:[],”language“:”en“,”link“:[{”URL“:”https:\/\/\www.fujipress.jp\/main\/wp-content\/themes\/fujipress\/hyosetus.php?ppno=JACII002600040013“,”content-type“:”unspecified“,”content-version“:”vor“,”intended-application“:”similarity-checking“}],”deposed“:{”date-parts“:[2022,7,19]],”date-time“:”2022-07-19T15:04:26Z“,”timestamp“:1658243066000},”score“:1,”resource“:{primary”:{“URL”:“https:\\/www.fujipress.jp\/jaciii\/jc\/jacii002600040562”}},“subtitle”:[],“shorttitle”:[],“已发布”:{“日期部分”:[[2022,7,20]]},“references-count“:22,”journal-issue“:{”issue“:”4“,”published-online“:{”date-parts“:[2022,7,20]]},”publised-print“:{》date-part“:[[2022,7,20]]}},“URL”:“http://\/dx.doi.org\/10.20965\/jacii.2022.p0562”,“relation”:{},《ISSN》:[“1883-8014”,“1343-0130”],“ISSN-type”:[{“数值”:“1883-8014”,“类型”:“电子”},{“值”:“1343-0130”,“型号”:“打印”}],“主题“:[],”已发布“:{“日期部分”:[[2022,7,20]]}}