洛杉矶Prashanth。;纳撒尼尔·科尔达;雷米·穆诺斯 线性函数近似的时间差分学习的浓度边界:批量数据和均匀采样的情况。 (英语) Zbl 07432813号 机器。学习。 110,第3号,559-618(2021).MSC公司:68T05型 PDF格式BibTeX公司 XML格式引用 \textit{L.A.Prashanth}等人,马赫。学习。110,编号3,559--618(2021;Zbl 07432813) 全文: 内政部 arXiv公司
穆罕默德·盖什拉吉(Mohammad Gheshlaghi Azar);雷米·穆诺斯;希尔伯特·J·卡彭。 Minimax PAC限制了生成模型强化学习的样本复杂性。 (英语) Zbl 1295.68180号 机器。学习。 91,第3期,325-349(2013).MSC公司:68T05型 90立方厘米 PDF格式BibTeX公司 XML格式引用 \textit{M.G.Azar}等人,马赫。学习。91,第3号,325--349(2013;Zbl 1295.68180) 全文: 内政部 arXiv公司
安托斯,安德拉斯;塞佩斯瓦里(Csaba Szepesvári);雷米·穆诺斯 使用基于Bellman剩余最小化的拟合策略迭代和单个样本路径学习近最优策略。 (英语) Zbl 1470.68072号 机器。学习。 71,第1号,89-129(2008).MSC公司:68T05型 62G08号 PDF格式BibTeX公司 XML格式引用 \textit{A.Antos}等人,马赫。学习。71,第1号,89--129(2007;Zbl 1470.68072) 全文: 内政部
雷米·穆诺斯;安德鲁·摩尔 最优控制中的变分辨率离散化。 (英语) 兹比尔1005.68086 机器。学习。 49,编号2-3,291-323(2002).MSC公司:68问题32 PDF格式BibTeX公司 XML格式引用 \textit{R.Munos}和\textit{A.Moore},马赫。学习。49,编号2--3,291--323(2002;Zbl 1005.68086) 全文: 内政部
雷米·穆诺斯 用粘性溶液研究连续情况下的强化学习。 (英语) Zbl 0962.68144号 机器。学习。 40,第3期,265-299(2000).MSC公司:68T05型 PDF格式BibTeX公司 XML格式引用 \textit{R.Munos},马赫。学习。40,第3号,265--299(2000;Zbl 0962.68144) 全文: 内政部