穆罕默德·盖什拉希·阿扎尔
人员信息
优化列表
![笔记](https://dblp.uni-trier.de/img/note-mark.dark.12x12.png)
2020年–今天
2024 [公元22年] 穆罕默德·盖什拉希·阿扎尔 , 赵汉·丹尼尔·郭 , 比拉尔·皮奥 , 雷米·穆诺斯 , 马克·罗兰 , 米查尔·瓦尔科 , 丹尼尔·卡兰德里洛 :
理解从人类偏好中学习的一般理论范式。 AISTATS公司 2024 : 4447-4455 [i29] 皮埃尔·哈维·里奇蒙 , 汤云浩 , 丹尼尔·郭 , 丹尼尔·卡兰德里洛 , 穆罕默德·盖什拉希·阿扎尔 , 拉斐尔·拉斐洛夫 , 贝尔纳多·阿维拉·皮雷斯 , 尤金·塔拉索夫 , 卢卡斯·斯潘格 , 威尔·埃尔斯沃思 , Aliaksei Severyn公司 , 乔纳森·马林森 , 利奥尔沙尼 , 吉尔·沙米尔 , 里沙布·乔希 , 刘天奇 , 雷米·穆诺斯 , 比拉尔·皮奥 :
大型语言模型对齐的离线规则强化学习。 CoRR公司 abs/2405.19107 ( 2024 ) 2023 【c21】 北村俊一 , Tadashi Kozuno公司 , 汤云浩 , 尼诺·维亚拉德 , 米查尔·瓦尔科 , 杨文浩 , 金城美 , 皮埃尔·梅纳德 , 穆罕默德·盖什拉希·阿扎尔 , 雷米·穆诺斯 , 奥利维尔·皮特金 , 马蒂厄·盖斯特 , Csaba Szepesvariá , 久马吉岛 , 松本裕隆(Yutaka Matsuo) :
正则化和方差加权回归在线性MDPs中实现最小最大最优:理论与实践。 ICML公司 2023 : 17135-17175 [公元20年] 汤云浩 , 赵汉·丹尼尔·郭 , 皮埃尔·哈维·里奇蒙 , 贝尔纳多·阿维拉·皮雷斯 , 亚什·昌达克 , 雷米·穆诺斯 , 马克·罗兰 , 穆罕默德·盖什拉希·阿扎尔 , 查林·勒兰 , 克莱尔·莱尔 , 安德烈斯·吉尔吉 , Shantanu Thakoor公司 , 威尔·达布尼 , 比拉尔·皮奥 , 丹尼尔·卡兰德里洛 , 米查尔·瓦尔科 :
了解自我预测学习以强化学习。 ICML公司 2023 : 33632-33656 [第28条] 马克·罗兰 , 雷米·穆诺斯 , 穆罕默德·盖什拉希·阿扎尔 , 汤云浩 , 乔治·奥斯特罗夫斯基 , 安娜·哈里顿扬(Anna Harutyunyan) , 卡尔·图尔斯 , 马克·贝勒马尔 , 威尔·达布尼 :
分位数时间差异学习分析。 CoRR公司 腹肌/2301.04462 ( 2023 ) [i27] 北村俊一 , Tadashi Kozuno公司 , 汤云浩 , 尼诺·维亚拉德 , 米查尔·瓦尔科 , 杨文浩 , 金城美 , 皮埃尔·梅纳德 , 穆罕默德·盖什拉希·阿扎尔 , 雷米·穆诺斯 , 奥利维尔·皮特金 , 马蒂厄·盖斯特 , Csaba Szepesvariá , 久马吉岛 , 松本裕隆(Yutaka Matsuo) :
正则化和方差加权回归在线性MDPs中实现最小最大最优:理论与实践。 CoRR公司 abs/2305.13185 ( 2023 ) [i26] 穆罕默德·盖什拉希·阿扎尔 , 马克·罗兰 , 比拉尔·皮奥 , 丹尼尔·郭 , 丹尼尔·卡兰德里洛 , 米查尔·瓦尔科 , 雷米·穆诺斯 :
理解从人类偏好中学习的一般理论范式。 CoRR公司 abs/2310.12036 ( 2023 ) [i25] 雷米·穆诺斯 , 米查尔·瓦尔科 , 丹尼尔·卡兰德里洛 , 穆罕默德·盖什拉希·阿扎尔 , 马克·罗兰 , 赵汉·丹尼尔·郭 , 汤云浩 , 马蒂厄·盖斯特 , 托马斯·梅斯纳德 , 安德烈亚·米奇 , 马可·塞尔维 , 谢尔坦·吉尔金 , 尼古拉·蒙切夫 , 奥利维尔·巴瑟姆 , 丹尼尔·曼科维茨 , Doina Precup公司 , 比拉尔·皮奥 :
纳什从人类反馈中学习。 CoRR公司 abs/2312.00886 ( 2023 ) 2022 [第19条] Shantanu Thakoor公司 , 科伦蒂·塔莱克 , 穆罕默德·盖什拉希·阿扎尔 , 迈赫迪·阿扎布 , 伊娃·L·戴尔 , 雷米·穆诺斯 , 彼得·维利科维奇 , 米查尔·瓦尔科 :
基于Bootstrapping的图的大尺度表示学习。 ICLR公司 2022 [第18条] 赵汉国 , Shantanu Thakoor公司 , Miruna双鱼座 , 贝尔纳多·阿维拉·皮雷斯 , 佛罗伦特·阿尔奇 , 科伦蒂·塔莱克 , 阿拉·萨阿德 , 丹尼尔·卡兰德里洛 , Jean-Bastien烧烤 , 汤云浩 , 米查尔·瓦尔科 , 雷米·穆诺斯 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 :
BYOL-Explore:通过引导预测进行探索。 NeurIPS公司 2022 【i24】 Tadashi Kozuno公司 , 杨文浩 , 尼诺·维亚拉德 , 北村俊一 , 汤云浩 , 金城美 , 皮埃尔·梅纳德 , 穆罕默德·盖什拉希·阿扎尔 , 米查尔·瓦尔科 , 雷米·穆诺斯 , 奥利维尔·皮特金 , 马蒂厄·盖斯特 , Csaba Szepesvariá :
具有生成模型的KL-Entropy-Regularized RL是Minimax最优的。 CoRR公司 abs/2205.14211 ( 2022 ) [第23条] 赵汉·丹尼尔·郭 , Shantanu Thakoor公司 , Miruna双鱼座 , 贝尔纳多·阿维拉·皮雷斯 , 佛罗伦特·阿尔奇 , 科伦蒂·塔莱克 , 阿拉·萨阿德 , 丹尼尔·卡兰德里洛 , Jean-Bastien烧烤 , 汤云浩 , 米查尔·瓦尔科 , 雷米·穆诺斯 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 :
BYOL-Explore:通过引导预测进行探索。 CoRR公司 abs/2206.08332 ( 2022 ) [i22] 汤云浩 , 赵汉·丹尼尔·郭 , 皮埃尔·哈维·里奇蒙 , 贝尔纳多·阿维拉·皮雷斯 , 亚什·昌达克 , 雷米·穆诺斯 , 马克·罗兰 , 穆罕默德·盖什拉希·阿扎尔 , 查林·勒兰 , 克莱尔·莱尔 , 安德烈斯·吉尔吉 , Shantanu Thakoor公司 , 威尔·达布尼 , 比拉尔·皮奥 , 丹尼尔·卡兰德里洛 , 米查尔·瓦尔科 :
了解自我预测学习以强化学习。 CoRR公司 abs/2212.03319 ( 2022 ) 2021 [第17条] 冉·刘 , 迈赫迪·阿扎布 , 马克斯·达巴吉亚 , 池亨林 , 穆罕默德·盖什拉希·阿扎尔 , 基思·B·亨根 , 米查尔·瓦尔科 , 伊娃·L·戴尔 :
丢弃、交换和生成:生成神经活动的自我监督方法。 NeurIPS公司 2021 : 10587-10599 【i21】 赵汉·丹尼尔·郭 , 穆罕默德·盖什拉希·阿扎尔 , 阿拉·萨阿德 , Shantanu Thakoor公司 , 比拉尔·皮奥 , 贝尔纳多·阿维拉·皮雷斯 , 米查尔·瓦尔科 , 托马斯·梅斯纳德 , 托拉蒂莫尔 , 雷米·穆诺斯 :
几何熵探索。 CoRR公司 abs/2101.02055 ( 2021 ) [i20] Shantanu Thakoor公司 , 科伦蒂·塔莱克 , 穆罕默德·盖什拉希·阿扎尔 , 雷米·穆诺斯 , 彼得·维利科维奇 , 米查尔·瓦尔科 :
图的自举表示学习。 CoRR公司 abs/2102.06514 ( 2021 ) [i19] 迈赫迪·阿扎布 , 穆罕默德·盖什拉希·阿扎尔 , 冉·刘 , 池亨林 , 埃里克·约翰逊 , 基兰·巴斯卡兰·奈尔 , 马克斯·达巴吉亚 , 基思·B·亨根 , 威廉·格雷·隆卡尔 , 米查尔·瓦尔科 , 伊娃·L·戴尔 :
挖掘你自己的vieW:通过跨样本预测进行自我监督学习。 CoRR公司 abs/2102.10106 ( 2021 ) [i18] 冉·刘 , 迈赫迪·阿扎布 , 马克斯·达巴吉亚 , 池亨林 , 穆罕默德·盖什拉希·阿扎尔 , 基思·B·亨根 , 米查尔·瓦尔科 , 伊娃·L·戴尔 :
丢弃、交换和生成:生成神经活动的自我监督方法。 CoRR公司 abs/2111.02338 ( 2021 ) 2020 [第16条] 赵汉·丹尼尔·郭 , 贝尔纳多·阿维拉·皮雷斯 , 比拉尔·皮奥 , Jean-Bastien烧烤 , 佛罗伦特·阿尔奇 , 雷米·穆诺斯 , 穆罕默德·盖什拉希·阿扎尔 :
多任务强化学习的引导潜在预测表征。 ICML公司 2020 : 3875-3886 [第15条] 雷米·穆诺斯 , 朱利安·佩罗拉 , Jean-Baptiste Lespiau女士 , 马克·罗兰 , 巴特·德·维尔德 , 马克·兰科特 , 芬巴尔木材 , 丹尼尔·海恩斯 , 沙耶根·奥米德沙维埃 , Audrunas Gruslys公司 , 穆罕默德·盖什拉希·阿扎尔 , 爱德华·洛克哈特 , 卡尔·图尔斯 :
不完全信息博弈中纳什均衡的快速计算。 ICML公司 2020 : 7119-7129 [第14条] Jean-Bastien烧烤 , 弗洛里安·斯特鲁布 , 佛罗伦特·阿尔奇 , 科伦蒂·塔莱克 , 皮埃尔·里奇蒙 , 埃琳娜·布恰茨卡娅 , 卡尔·多尔施 , 贝尔纳多·阿维拉·皮雷斯 , 赵汉国 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 , 科雷·卡武科格鲁 , 雷米·穆诺斯 , 米查尔·瓦尔科 :
引导你自己的潜能-一种自我监督学习的新方法。 NeurIPS公司 2020 [i17] 赵汉·丹尼尔·郭 , 贝尔纳多·阿维拉·皮雷斯 , 比拉尔·皮奥 , Jean-Bastien烧烤 , 佛罗伦特·阿尔奇 , 雷米·穆诺斯 , 穆罕默德·盖什拉希·阿扎尔 :
多任务强化学习的引导潜在预测表征。 CoRR公司 abs/2004.14646 ( 2020 ) [i16] Jean-Bastien烧烤 , 弗洛里安·斯特鲁布 , 佛罗伦特·阿尔奇 , 科伦蒂·塔莱克 , 皮埃尔·里奇蒙 , 埃琳娜·布恰茨卡娅 , 卡尔·多尔施 , 贝尔纳多·阿维拉·皮雷斯 , 赵汉·丹尼尔·郭 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 , 科雷·卡武科格鲁 , 雷米·穆诺斯 , 米查尔·瓦尔科 :
引导自己的潜能:一种自我监督学习的新方法。 CoRR公司 abs/2006.07733 ( 2020 ) 【i15】 Audrunas Gruslys公司 , 马克·兰科特 , 雷米·穆诺斯 , 芬巴尔木材 , 马丁·施密德 , 朱利安·佩罗拉 , 达斯汀·莫里尔 , 维尼希乌斯·弗洛雷斯·赞巴尔迪 , Jean-Baptiste Lespiau女士 , 约翰·舒尔茨 , 穆罕默德·盖什拉希·阿扎尔 , 迈克尔·鲍林 , 卡尔·图尔斯 :
优势后悔匹配演员-关键。 CoRR公司 abs/2008.12234 ( 2020 )
2010 – 2019
2019 [第13条] 安娜·哈里顿扬(Anna Harutyunyan) , 威尔·达布尼 , 托马斯·梅斯纳德 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 , 尼古拉斯·希斯 , 哈多·范·哈塞尔特 , 格雷戈里·韦恩 , 萨汀德·辛格 , Doina Precup公司 , 雷米·穆诺斯 :
事后观察信贷分配。 NeurIPS公司 2019 : 12467-12476 [第14条] 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 , 伯纳多·皮雷斯 , Jean-Bastien烧烤 , 佛罗伦特·阿尔奇 , 雷米·穆诺斯 :
世界发现模型。 CoRR公司 腹肌/1902.07685 ( 2019 ) [i13] 佩德罗·奥尔特加 , 简·X·王 , 马克·罗兰 , 蒂姆·吉纳温 , 泽布·库思·内尔森 , 拉兹万·帕斯卡努 , 尼古拉斯·希斯 , 乔尔·维内斯 , 亚历山大·普里策 , 巴勃罗·斯普雷希曼 , Siddhant M.贾亚库马尔 , 汤姆·麦格拉思 , 凯文·米勒 , 穆罕默德·盖什拉希·阿扎尔 , 伊恩·奥斯班德 , 尼尔·C·拉比诺维茨 , 安德烈斯·吉尔吉 , 西尔维娅·齐亚帕 , 西蒙·奥斯宾多 , 叶惠德 , 哈多·范·哈塞尔特 , 南多·德·弗雷塔斯 , 马修·博特维尼克 , 谢恩·莱格 :
序列策略的元学习。 CoRR公司 abs/1905.03030 ( 2019 ) [i12] 安娜·哈里顿扬(Anna Harutyunyan) , 威尔·达布尼 , 托马斯·梅斯纳德 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 , 尼古拉斯·希斯 , 哈多·范·哈塞尔特 , 格雷格·韦恩 , 萨汀德·辛格 , Doina Precup公司 , 雷米·穆诺斯 :
事后观察信贷分配。 CoRR公司 abs/1912.02503 ( 2019 ) 2018 [第12条] 马特奥·赫塞尔 , 约瑟夫·莫达伊尔 , 哈多·范·哈塞尔特 , 汤姆·绍尔 , 乔治·奥斯特罗夫斯基 , 威尔·达布尼 , 丹·霍根 , 比拉尔·皮奥 , 穆罕默德·盖什拉希·阿扎尔 , 大卫·西尔弗 :
彩虹:结合深度强化学习的改进。 AAAI公司 2018 : 3215-3222 [第11条] 迈尔·福图纳托 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 , 雅各布·梅尼克 , 马特奥·赫塞尔 , 伊恩·奥斯班德 , 亚历克斯·格拉夫斯 , 沃洛德米尔·姆尼赫 , 雷米·穆诺斯 , 哈萨比斯 , 奥利维尔·皮特金 , 查尔斯·布伦德尔 , 谢恩·莱格 :
用于探索的嘈杂网络。 ICLR(海报) 2018 [第10条] Audrunas Gruslys公司 , 威尔·达布尼 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 , 马克·贝勒马尔 , 雷米·穆诺斯 :
反应器:用于强化学习的快速、高效的行动者-批判性代理。 ICLR(海报) 2018 [i11] 托比亚斯·波伦 , 比拉尔·皮奥 , 托德·海丝特 , 穆罕默德·盖什拉希·阿扎尔 , 丹·霍根 , 大卫·布登 , 加布里埃尔·巴特·马龙 , 哈多·范·哈塞尔特 , 约翰·泉 , 梅尔·韦塞克 , 马特奥·赫塞尔 , 雷米·穆诺斯 , 奥利维尔·皮特金 :
观察并进一步观察:在Atari上实现一致的性能。 CoRR公司 abs/1805.11593 ( 2018 ) [i10] 赵汉·丹尼尔·郭 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 , 伯纳多·皮雷斯 , 托比·波伦 , 雷米·穆诺斯 :
神经预测信念表征。 CoRR公司 腹肌/1811.06407 ( 2018 ) 2017 【c9】 穆罕默德·盖什拉希·阿扎尔 , 伊恩·奥斯班德 , 雷米·穆诺斯 :
强化学习的Minimax后悔界限。 ICML公司 2017 : 263-272 [第九章] 穆罕默德·盖什拉希·阿扎尔 , 伊恩·奥斯班德 , 雷米·穆诺斯 :
强化学习的Minimax后悔界限。 CoRR公司 abs/1703.05449 ( 2017 ) [i8] Audrunas Gruslys公司 , 穆罕默德·盖什拉希·阿扎尔 , 马克·贝勒马尔 , 雷米·穆诺斯 :
反应器:一种示例高效的行动者-关键架构。 CoRR公司 abs/1704.04651 ( 2017 ) [i7] 迈尔·福图纳托 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 , 雅各布·梅尼克 , 伊恩·奥斯班德 , 亚历克斯·格拉夫斯 , Vlad Mnih公司 , 雷米·穆诺斯 , 哈萨比斯 , 奥利维尔·皮特金 , 查尔斯·布伦德尔 , 谢恩·莱格 :
探索的嘈杂网络。 CoRR公司 abs/1706.10295 ( 2017 ) [i6] 马特奥·赫塞尔 , 约瑟夫·莫达伊尔 , 哈多·范·哈塞尔特 , 汤姆·绍尔 , 乔治·奥斯特罗夫斯基 , 威尔·达布尼 , 丹尼尔·霍根 , 比拉尔·皮奥 , 穆罕默德·盖什拉希·阿扎尔 , 大卫·西尔弗 :
彩虹:结合深度强化学习的改进。 CoRR公司 abs/1710.02298 ( 2017 ) 2016 【c8】 维森·戈麦斯 , 穆罕默德·盖什拉希·阿扎尔 , 希尔伯特·J·卡彭 :
修正未观测公共输入影响的多元自回归模型。 CCIA公司 2016 : 177-186 【c7】 穆罕默德·盖什拉希·阿扎尔 , 伊娃·L·戴尔 , 康拉德·P·科林 :
凸松弛回归:通过学习光滑函数的凸包络对其进行黑盒优化。 阿拉伯联合酋长国 2016 [i5] 穆罕默德·盖什拉希·阿扎尔 , 伊娃·L·戴尔 , 康拉德·P·科林 :
凸松弛回归:通过学习光滑函数的凸包络对其进行黑盒优化。 CoRR公司 abs/1602.02191 ( 2016 ) 2014 【c6】 穆罕默德·盖什拉希·阿扎尔 , 亚历山德罗·拉扎里奇 , 艾玛·布伦斯基 :
相关带反馈下的在线随机优化。 ICML公司 2014 : 1557-1565 [i4] 穆罕默德·盖什拉希·阿扎尔 , 亚历山德罗·拉扎里奇 , 艾玛·布伦斯基 :
相关Bandit反馈下局部光滑函数的随机优化。 CoRR公司 abs/1402.0562 ( 2014 ) 2013 [注2] 穆罕默德·盖什拉希·阿扎尔 , 雷米·穆诺斯 , 希尔伯特·J·卡彭 :
Minimax PAC限制了生成模型强化学习的样本复杂性。 机器。 学习。 91 ( 三 ) : 325-349 ( 2013 ) 【c5】 穆罕默德·盖什拉希·阿扎尔 , 亚历山德罗·拉扎里奇 , 艾玛·布伦斯基 :
具有有限模型集的多臂Bandit中的顺序传输。 NIPS公司 2013 : 2220-2228 【c4】 穆罕默德·盖什拉希·阿扎尔 , 亚历山德罗·拉扎里奇 , 艾玛·布伦斯基 :
遗憾的是,有政策建议的强化学习势在必行。 ECML/PKDD(1) 2013 : 97-112 [i3] 穆罕默德·盖什拉希·阿扎尔 , 亚历山德罗·拉扎里奇 , 艾玛·布伦斯基 :
遗憾的是,有政策建议的强化学习势在必行。 CoRR公司 abs/1305.1027 ( 2013 ) [i2] 穆罕默德·盖什拉希·阿扎尔 , 亚历山德罗·拉扎里奇 , 艾玛·布伦斯基 :
具有有限模型集的多臂Bandit中的顺序传输。 CoRR公司 腹肌/1307.6887 ( 2013 ) 2012 [j1] 穆罕默德·盖什拉希·阿扎尔 , 维森·戈麦斯 , 希尔伯特·J·卡彭 :
动态策略编程。 J.马赫。 学习。 物件。 13 : 3207-3245 ( 2012 ) 【c3】 穆罕默德·盖什拉希·阿扎尔 , 雷米·穆诺斯 , 伯特·卡彭 :
基于生成模型的强化学习样本复杂性研究。 ICML公司 2012 2011 【c2】 穆罕默德·盖什拉希·阿扎尔 , 雷米·穆诺斯 , 穆罕默德·加瓦姆扎德 , 希尔伯特·J·卡彭 :
快速Q-Learning。 NIPS公司 2011 : 2411-2419 【c1】 穆罕默德·盖什拉希·阿扎尔 , 维森·戈麦斯 , 伯特·卡彭 :
具有函数逼近的动态策略规划。 AISTATS公司 2011 : 119-127 2010 [i1] 穆罕默德·盖什拉希·阿扎尔 , 希尔伯特·J·卡彭 :
动态策略编程。 CoRR公司 abs/1004.2027 ( 2010 )
合著者索引
![](https://dblp.uni-trier.de/img/cog.dark.24x24.png)