帕皮尼,马蒂奥;马蒂奥·皮罗塔;马塞洛·雷斯泰利 平滑策略和安全策略梯度。 (英语) Zbl 07694459号 机器。学习。 111,编号11,4081-4137(2022).MSC公司:68T05型 PDF格式BibTeX公司 XML格式引用 \textit{M.Papini}等人,马赫。学习。111,编号11,4081--4137(2022;Zbl 07694459) 全文: 内政部 arXiv公司
张凯庆;杨卓然;塔梅尔·巴沙尔 多智能体强化学习:理论和算法的选择性概述。 (英语) Zbl 07608712号 Vamvoudakis,Kyriakos G.(编辑)等人,《强化学习和控制手册》。查姆:斯普林格。研究系统。Decis公司。控制325321-384(2021)。MSC公司:68次发射 PDF格式BibTeX公司 XML格式引用 \textit{K.Zhang}等人,研究系统。Decis公司。控制325、321--384(2021;Zbl 07608712) 全文: 内政部 arXiv公司
约西亚·P·汉纳。;斯科特·尼库姆;彼得·斯通 用估计的行为策略进行强化学习中的重要性抽样。 (英语) Zbl 07432836号 机器。学习。 110,第6号,1267-1317(2021).MSC公司:68T05型 PDF格式BibTeX公司 XML格式引用 \textit{J.P.Hanna}等人,马赫。学习。110,编号6,1267--1317(2021;Zbl 07432836) 全文: 内政部
苏普拉蒂克·保罗;康斯坦蒂诺斯·查齐利格鲁迪斯;卡米尔·乔塞克;Jean-Baptiste穆雷特;迈克尔·奥斯本。;西蒙·怀特森 具有贝叶斯优化和求积的稳健强化学习。 (英语) Zbl 1525.68124号 J.马赫。学习。物件。 21,第151号论文,第31页(2020年).MSC公司:68T05型 62-08 2015年1月62日 90 C90 PDF格式BibTeX公司 XML格式引用 \textit{S.Paul}等人,J.Mach。学习。第21号决议,第151号论文,31页(2020年;Zbl 1525.68124) 全文: 链接