洛杉矶Prashanth。;纳撒尼尔·科尔达;雷米·穆诺斯 线性函数近似下时间差分学习的浓度边界:批处理数据和均匀采样的情况。 (英语) Zbl 07432813号 机器。学习。 110,第3号,559-618(2021).MSC公司:68T05型 PDF格式BibTeX公司 XML格式引用 \textit{L.A.Prashanth}等人,马赫。学习。110,编号3,559--618(2021;Zbl 07432813) 全文: 内政部 arXiv公司
Anna Harutyunyan;马克·贝勒马尔(Marc G.Bellemare)。;汤姆·斯特普顿;雷米·穆诺斯 \(\text{Q}(\lambda)\),带非策略更正。 (英语) Zbl 1466.68067号 Ortner,Ronald(编辑)等人,《算法学习理论》。第27届国际会议,2016年ALT,意大利巴里,2016年10月19-21日,会议记录。查姆:斯普林格。莱克特。注释计算。科学。9925, 305-320 (2016).MSC公司:68T05型 PDF格式BibTeX公司 XML格式引用 \textit{A.Harutyunyan}等人,Lect。注释计算。科学。9925305-320(2016;Zbl 1466.68067) 全文: 内政部 arXiv公司
罗纳德·奥尔特纳;丹尼尔·里亚布科;彼得·奥尔;雷米·穆诺斯 对不安的马尔科夫强盗感到遗憾。 (英语) Zbl 1360.60090号 西奥。计算。科学。 558, 62-76 (2014).MSC公司:60克40 90立方厘米 91A60型 PDF格式BibTeX公司 XML格式引用 \textit{R.Ortner}等人,Theor。计算。科学。558、62--76(2014年;Zbl 1360.60090) 全文: 内政部 arXiv公司
穆罕默德·盖什拉吉(Mohammad Gheshlaghi Azar);雷米·穆诺斯;希尔伯特·J·卡彭。 Minimax PAC通过生成模型对强化学习的样本复杂性进行了限制。 (英语) Zbl 1295.68180号 机器。学习。 91,第3期,325-349(2013).MSC公司:68T05型 90立方厘米 PDF格式BibTeX公司 XML格式引用 \textit{M.G.Azar}等人,马赫。学习。91,第3号,325--349(2013;Zbl 1295.68180) 全文: 内政部 arXiv公司
奥利维尔·卡佩;奥雷连·加里维尔;梅拉德,奥达尔里克·安布里姆;雷米·穆诺斯;吉尔斯·斯托尔茨 最优顺序分配的Kullback-Leibler置信上限。 (英语) Zbl 1293.62161号 Ann.统计。 41,第3期,1516-1541(2013).MSC公司:62升10 62升12 68T05型 PDF格式BibTeX公司 XML格式引用 \textit{O.Cappé}等人,Ann.Stat.41,No.3,1516--1541(2013;Zbl 1293.62161) 全文: 内政部 arXiv公司 欧几里得
塞巴斯蒂安·布贝克;雷米·穆诺斯;吉尔斯·斯托尔茨 在有限武装和连续武装的强盗中进行纯粹的探索。 (英语) Zbl 1214.62082号 西奥。计算。科学。 412,第19期,1832-1852(2011).MSC公司:62升05 62M20型 PDF格式BibTeX公司 XML格式引用 \textit{S.Bubeck}等人,Theor。计算。科学。412,第19号,1832--1852(2011;Zbl 1214.62082) 全文: 内政部
塞巴斯蒂安·布贝克;雷米·穆诺斯;吉尔斯·斯托尔茨 多武装匪徒问题的纯粹探索。 (英语) Zbl 1262.68061号 Gavaldá,Ricard(编辑)等,算法学习理论。第20届国际会议,ALT 2009,葡萄牙波尔图,2009年10月3-5日。诉讼程序。柏林:施普林格出版社(ISBN 978-3-642-04413-7/pbk)。计算机科学课程讲稿5809。人工智能课堂讲稿,23-37(2009)。MSC公司:68问题32 68T05型 91A60型 PDF格式BibTeX公司 XML格式引用 \textit{S.Bubeck}等人,Lect。注释计算。科学。5809、23-37(2009年;Zbl 1262.68061) 全文: 内政部
Jean-Yves奥迪伯特;雷米·穆诺斯;塞佩斯瓦里(Csaba Szepesvári) 在多武装土匪中使用方差估计进行勘探-勘探权衡。 (英语) Zbl 1167.68059号 西奥。计算。科学。 410,第19期,1876-1902(2009).MSC公司:68周05 60克40 PDF格式BibTeX公司 XML格式引用 \textit{J.-Y.Audibert}等人,Theor。计算。科学。410,第19号,1876--1902(2009;Zbl 1167.68059) 全文: 内政部
安托斯,安德拉斯;塞佩斯瓦里(Csaba Szepesvári);雷米·穆诺斯 使用基于Bellman剩余最小化的拟合策略迭代和单个样本路径学习近最优策略。 (英语) Zbl 1470.68072号 机器。学习。 71,第1号,89-129(2008).MSC公司:68T05型 62G08号 PDF格式BibTeX公司 XML格式引用 \textit{A.Antos}等人,马赫。学习。71,第1号,89--129(2007;Zbl 1470.68072) 全文: 内政部
Jean-Yves奥迪伯特;雷米·穆诺斯;塞佩斯瓦里(Csaba Szepesvári) 在随机环境中调整盗贼算法。 (英语) 兹比尔1142.68382 Hutter,Marcus(编辑)等人,《算法学习理论》。第18届国际会议,ALT 2007,日本仙台,2007年10月1-4日。诉讼程序。柏林:施普林格出版社(ISBN 978-3-540-75224-0/pbk)。计算机科学课堂讲稿4754。人工智能课堂讲稿,150-165(2007)。MSC公司:68问题32 60克40 PDF格式BibTeX公司 XML格式引用 \textit{J.-Y.Audibert}等人,Lect。注释计算。科学。4754,150--165(2007;Zbl 1142.68382) 全文: 内政部 链接
雷米·穆诺斯;齐达尼,哈斯纳 Hamilton-Jacobi-Bellman方程简单多维格式的一致性。 (英语) Zbl 1067.60045号 C.R.,数学。,阿卡德。科学。巴黎 340,编号7,499-502(2005). 审核人:伊芙琳·巴克瓦尔(柏林) MSC公司:60 H10型 65立方米 65立方厘米 49升20 93E20型 60时35分 PDF格式BibTeX公司 XML格式引用 \textit{R.Munos}和\textit{H.Zidani},C.R.,数学。,阿卡德。科学。巴黎340,No.7,499--502(2005;Zbl 1067.60045) 全文: 内政部