沃洛德米尔·姆尼赫
人员信息
SPARQL查询
优化列表
2020年–今天
2023 [公元28年] 迈克尔·拉斯金 , 王璐瑜(Luyu Wang) , Junhyuk噢 , 埃米利奥·帕里索托 , 史蒂芬·斯宾塞 , 里奇·斯泰格沃 , DJ频闪 , 史蒂文·斯坦伯格-汉森 , 安吉洛斯·菲洛斯 , 伊桑·A·布鲁克斯 , 马克西姆·加佐 , 希曼舒·萨尼 , 萨汀德·辛格 , 沃洛德米尔·姆尼赫 :
基于算法提取的In-context强化学习。 ICLR公司 2023 [i25] 凯特·鲍姆利 , 萨廷德·巴韦亚 , 费亚尔·M·P·贝巴哈尼 , 哈里斯·陈 , Gheorghe Comanici公司 , 塞巴斯蒂安·弗伦内尔哈格 , 马克西姆·加佐 , 克里斯蒂安·霍尔斯海默 , 丹·霍根 , 迈克尔·拉斯金 , 克莱尔·莱尔 , 侯赛因·马苏姆 , 凯·麦金尼 , 沃洛德米尔·姆尼赫 , 亚历山大·奈茨 , 法比奥·帕尔多 , 杰克·帕克霍尔德 , 约翰·泉 , 蒂姆·罗克塔舍尔 , 希曼舒·萨尼 , 汤姆·绍尔 , 扬尼克·施罗德克 , 史蒂芬·斯宾塞 , 里奇·斯泰格沃 , 王璐瑜(Luyu Wang) , 张磊(Lei Zhang) :
作为奖励来源的视觉语言模型。 CoRR公司 腹肌/2312.09187 ( 2023 ) 2022 [公元27年] DJ频闪 , 凯特·鲍姆利 , 大卫·沃德·法利 , 沃洛德米尔·姆尼赫 , 史蒂文·斯坦伯格-汉森 :
通过乐观探索学习更多技能。 ICLR公司 2022 [公元26年] 郝刘 , 汤姆·扎哈维 , 沃洛德米尔·姆尼赫 , 萨汀德·辛格 :
手掌向上:在无监督的预训练中发挥潜意识。 NeurIPS公司 2022 【i24】 郝刘 , 汤姆·扎哈维 , 沃洛德米尔·姆尼赫 , 萨汀德·辛格 :
手掌向上:在无监督的预训练中发挥潜意识。 CoRR公司 abs/2210.10913 ( 2022 ) [第23条] 迈克尔·拉斯金 , 王璐瑜(Luyu Wang) , Junhyuk噢 , 埃米利奥·帕里索托 , 史蒂芬·斯宾塞 , 里奇·斯泰格沃 , DJ频闪 , 史蒂文·汉森 , 安吉洛斯·菲洛斯 , 伊桑·A·布鲁克斯 , 马克西姆·加佐 , 希曼舒·萨尼 , 萨汀德·辛格 , 沃洛德米尔·姆尼赫 :
基于算法提取的In-context强化学习。 CoRR公司 abs/2210.14215 ( 2022 ) 2021 [公元25年] 凯特·鲍姆利 , 大卫·沃德·法利 , 史蒂文·汉森 , 沃洛德米尔·姆尼赫 :
相对变分本征控制。 AAAI公司 2021 : 6732-6740 [公元24年] 史蒂文·汉森 , 纪尧姆·德斯贾丁斯 , 凯特·鲍姆利 , 大卫·沃德·法利 , 尼古拉斯·希斯 , 西蒙·奥斯宾多 , 沃洛德米尔·姆尼赫 :
本征控制的熵期望动力学。 NeurIPS公司 2021 : 11436-11448 [i22] 汤姆·扎哈维 , 布伦丹·奥多诺霍 , 安德烈·巴雷托 , 沃洛德米尔·姆尼赫 , 塞巴斯蒂安·弗伦内尔哈格 , 萨汀德·辛格 :
发现具有后续功能的各种近似最佳策略。 CoRR公司 abs/2106.00669 ( 2021 ) 【i21】 DJ频闪 , 凯特·鲍姆利 , 大卫·沃德·法利 , Vlad Mnih公司 , 史蒂文·汉森 :
通过乐观的探索学习更多的技能。 CoRR公司 abs/2107.14226 ( 2021 ) [i20] 伊珊·杜鲁加尔 , 史蒂文·汉森 , 史蒂芬·斯宾塞 , 沃洛德米尔·姆尼赫 :
Wasserstein距离最大化内在控制。 CoRR公司 abs/2110.15331 ( 2021 ) 2020 [c23] 史蒂文·汉森 , 威尔·达布尼 , 安德烈·巴雷托 , 大卫·沃德·法利 , 汤姆·范·德维勒 , 沃洛德米尔·姆尼赫 :
具有可变内在继承特征的快速任务推理。 ICLR公司 2020 [i19] 汤姆·范·德维勒 , 大卫·沃德·法利 , 安德烈·姆尼赫 , 沃洛德米尔·姆尼赫 :
通过摊销近似最大化在巨大动作空间中进行Q-学习。 CoRR公司 abs/2001.08116 ( 2020 ) [i18] 凯特·鲍姆利 , 大卫·沃德·法利 , 史蒂文·汉森 , 沃洛德米尔·姆尼赫 :
相对变分本征控制。 CoRR公司 abs/2012.07827 ( 2020 )
2010 – 2019
2019 [公元22年] 大卫·沃德·法利 , 汤姆·范·德维勒 , 特哈斯·D·库尔卡尼 , Catalin Ionescu公司 , 史蒂文·汉森 , 沃洛德米尔·姆尼赫 :
通过非参数歧视性奖励的无监督控制。 ICLR(海报) 2019 【c21】 特哈斯·D·库尔卡尼 , 安库什·古普塔 , Catalin Ionescu公司 , 塞巴斯蒂安·博尔盖乌德 , 马尔科姆·雷诺兹 , 安德鲁·齐瑟曼 , 沃洛德米尔·姆尼赫 :
感知和控制对象关键点的无监督学习。 NeurIPS公司 2019 : 10723-10733 [i17] 史蒂文·汉森 , 威尔·达布尼 , 安德烈·巴雷托 , 汤姆·范·德维勒 , 大卫·沃德·法利 , 沃洛德米尔·姆尼赫 :
具有可变内在继承特征的快速任务推理。 CoRR公司 abs/1906.05030 ( 2019 ) [i16] 特哈斯·D·库尔卡尼 , 安库什·古普塔 , Catalin Ionescu公司 , 塞巴斯蒂安·博尔盖乌德 , 马尔科姆·雷诺兹 , 安德鲁·齐瑟曼 , 沃洛德米尔·姆尼赫 :
感知和控制对象关键点的无监督学习。 CoRR公司 abs/1906.11883 ( 2019 ) 2018 [公元20年] 迈尔·福图纳托 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 , 雅各布·梅尼克 , 马特奥·赫塞尔 , 伊恩·奥斯班德 , 亚历克斯·格拉夫斯 , 沃洛德米尔·姆尼赫 , 雷米·穆诺斯 , 哈萨比斯 , 奥利维尔·皮特金 , 查尔斯·布伦德尔 , 谢恩·莱格 :
探索的嘈杂网络。 ICLR(海报) 2018 [第19条] 拉斯·埃斯佩霍尔特 , 休伯特·索耶 , 雷米·穆诺斯 , 凯伦·西蒙扬 , 沃洛德米尔·姆尼赫 , 汤姆·沃德 , 约塔姆·多隆 , 弗拉德·菲鲁 , 蒂姆·哈雷 , 伊恩·邓宁 , 谢恩·莱格 , 科雷·卡武科格鲁 :
IMPALA:具有重要性加权参与者-学习者体系结构的可扩展分布式Deep-RL。 ICML公司 2018 : 1406-1415 [第18条] 布伦丹·奥多诺霍 , 伊恩·奥斯班德 , 雷米·穆诺斯 , 沃洛德米尔·姆尼赫 :
不确定性Bellman方程与探索。 ICML公司 2018 : 3836-3845 [第17条] 马丁·里德米勒 , 罗兰·哈夫纳 , 托马斯·兰普 , 迈克尔·纽内特 , 乔纳斯·迪格雷夫 , 汤姆·范·德维勒 , Vlad Mnih公司 , 尼古拉斯·希斯 , 约斯特·托比亚斯·斯普林伯格 :
通过玩游戏从零开始解决稀疏奖励任务来学习。 ICML公司 2018 : 4341-4350 【i15】 拉斯·埃斯佩霍尔特 , 休伯特·索耶 , 雷米·穆诺斯 , 凯伦·西蒙扬 , 沃洛德米尔·姆尼赫 , 汤姆·沃德 , 约塔姆·多隆 , 弗拉德·菲鲁 , 蒂姆·哈雷 , 伊恩·邓宁 , 谢恩·莱格 , 科雷·卡武科格鲁 :
IMPALA:具有重要性加权参与者-学习者体系结构的可扩展分布式Deep-RL。 CoRR公司 abs/1802.01561 ( 2018 ) [第14条] 马丁·里德米勒 , 罗兰·哈夫纳 , 托马斯·兰普 , 迈克尔·纽内特 , 乔纳斯·迪格雷夫 , 汤姆·范·德维勒 , 沃洛德米尔·姆尼赫 , 尼古拉斯·希斯 , 约斯特·托比亚斯·斯普林伯格 :
在游戏中学习-从头开始解决稀疏的奖励任务。 CoRR公司 abs/1802.10567 ( 2018 ) [i13] 大卫·沃德·法利 , 汤姆·范·德维勒 , 特哈斯·D·库尔卡尼 , Catalin Ionescu公司 , 史蒂文·汉森 , 沃洛德米尔·姆尼赫 :
通过非参数歧视性奖励的无监督控制。 CoRR公司 abs/1811.11359 ( 2018 ) 2017 [第16条] 王子玉 , 维克托·巴普斯特 , 尼古拉斯·希斯 , 沃洛德米尔·姆尼赫 , 雷米·穆诺斯 , 科雷·卡武科格鲁 , 南多·德·弗雷塔斯 :
示例高效演员-关键经验回放。 ICLR(海报) 2017 [第15条] 马克斯·贾德伯格 , 沃洛德米尔·姆尼赫 , Wojciech Marian Czarnecki公司 , 汤姆·绍尔 , 乔尔·雷波 , 大卫·西尔弗 , 科雷·卡武科格鲁 :
无监督辅助任务强化学习。 ICLR公司 2017 [第14条] 布伦丹·奥多诺霍 , 雷米·穆诺斯 , 科雷·卡武科格鲁 , 沃洛德米尔·姆尼赫 :
结合政策梯度和Q-学习。 ICLR(海报) 2017 [i12] 迈尔·福图纳托 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 , 雅各布·梅尼克 , 伊恩·奥斯班德 , 亚历克斯·格拉夫斯 , Vlad Mnih公司 , 雷米·穆诺斯 , 哈萨比斯 , 奥利维尔·皮特金 , 查尔斯·布伦德尔 , 谢恩·莱格 :
探索的嘈杂网络。 CoRR公司 abs/1706.10295 ( 2017 ) [i11] 布伦丹·奥多诺霍 , 伊恩·奥斯班德 , 雷米·穆诺斯 , 沃洛德米尔·姆尼赫 :
不确定性贝尔曼方程及其探索。 CoRR公司 abs/1709.05380 ( 2017 ) 2016 [第13条] 沃洛德米尔·姆尼赫 , 阿德里亚·普伊格多梅内克·巴迪亚 , 梅赫迪·米尔扎 , 亚历克斯·格拉夫斯 , 蒂莫西·利利克拉普 , 蒂姆·哈雷 , 大卫·西尔弗 , 科雷·卡武科格鲁 :
深度强化学习的异步方法。 ICML公司 2016 : 1928-1937 [第12条] 亚历山大·维日涅维茨 , 沃洛德米尔·姆尼赫 , 西蒙·奥斯宾多 , 亚历克斯·格拉夫斯 , Oriol葡萄酒 , 约翰·阿加皮欧 , 科雷·卡武科格鲁 :
学习宏观行动的战略关注作家。 NIPS公司 2016 : 3486-3494 [第11条] 哈多·范·哈塞尔特 , 阿瑟·盖兹 , 马特奥·赫塞尔 , 沃洛德米尔·姆尼赫 , 大卫·西尔弗 :
学习跨越多个数量级的价值观。 NIPS公司 2016 : 4287-4295 [第10条] 吉米·巴 , 杰弗里·欣顿 , 沃洛德米尔·姆尼赫 , 乔尔·雷波 , Catalin Ionescu公司 :
使用快速权重关注最近的过去。 NIPS公司 2016 : 4331-4339 【c9】 安德烈·鲁苏 , 塞尔吉奥·戈麦斯·科尔梅纳雷霍 , 圣格雷 , 纪尧姆·德斯贾丁斯 , 詹姆斯·柯克帕特里克 , 拉兹万·帕斯卡努 , 沃洛德米尔·姆尼赫 , 科雷·卡武科格鲁 , Raia Hadsell公司 :
政策提炼。 ICLR(海报) 2016 [i10] 沃洛德米尔·姆尼赫 , 阿德里亚·普伊格多梅内克·巴迪亚 , 梅赫迪·米尔扎 , 亚历克斯·格拉夫斯 , 蒂莫西·利利克拉普 , 蒂姆·哈雷 , 大卫·西尔弗 , 科雷·卡武科格鲁 :
深度强化学习的异步方法。 CoRR公司 abs/1602.01783 ( 2016 ) [第九章] 亚历山大·维日涅维茨 , 沃洛德米尔·姆尼赫 , 约翰·阿加皮欧 , 西蒙·奥斯宾多 , 亚历克斯·格拉夫斯 , Oriol葡萄酒 , 科雷·卡武科格鲁 :
学习宏观行动的战略关注作家。 CoRR公司 abs/1606.04695 ( 2016 ) [i8] 吉米·巴 , 杰弗里·欣顿 , 沃洛德米尔·姆尼赫 , 乔尔·雷波 , Catalin Ionescu公司 :
使用快速权重关注最近的过去。 CoRR公司 abs/1610.06258 ( 2016 ) [i7] 王子玉 , 维克托·巴普斯特 , 尼古拉斯·希斯 , 沃洛德米尔·姆尼赫 , 雷米·穆诺斯 , 科雷·卡武科格鲁 , 南多·德·弗雷塔斯 :
示例高效演员-关键经验回放。 CoRR公司 腹肌/1611.01224 ( 2016 ) [i6] 布伦丹·奥多诺霍 , 雷米·穆诺斯 , 科雷·卡武科格鲁 , 沃洛德米尔·姆尼赫 :
PGQ:结合政策梯度和Q-学习。 CoRR公司 abs/1611.01626 ( 2016 ) [i5] 马克斯·贾德伯格 , 沃洛德米尔·姆尼赫 , Wojciech Marian Czarnecki公司 , 汤姆·绍尔 , 乔尔·雷波 , 大卫·西尔弗 , 科雷·卡武科格鲁 :
无监督辅助任务强化学习。 CoRR公司 abs/1611.05397 ( 2016 ) 2015 [j3] 沃洛德米尔·姆尼赫 , 科雷·卡武科格鲁 , 大卫·西尔弗 , 安德烈·鲁苏 , 乔尔·维内斯 , 马克·贝勒马尔 , 亚历克斯·格拉夫斯 , 马丁·里德米勒 , 安德烈亚斯·菲德杰兰 , 乔治·奥斯特罗夫斯基 , 斯蒂格·彼得森 , 查尔斯·比蒂 , 阿米尔·萨迪克 , Ioannis Antonoglou公司 , 海伦·金 , 达山库马兰 , Daan Wierstra公司 , 谢恩·莱格 , 哈萨比斯 :
通过深度强化学习进行人性化控制。 国家。 518 ( 7540 ) : 529-533 ( 2015 ) 【c8】 吉米·巴 , 沃洛德米尔·姆尼赫 , 科雷·卡武科格鲁 :
具有视觉注意的多目标识别。 ICLR(海报) 2015 [i4] 阿伦·奈尔 , 普拉文·斯里尼瓦桑 , 萨姆·布莱克威尔 , 卡格达斯·阿尔切克 , 罗里·费伦 , 亚历山德罗·德·玛丽亚 , Vedavyas Panneershelvam公司 , 穆斯塔法·苏莱曼 , 查尔斯·比蒂 , 斯蒂格·彼得森 , 谢恩·莱格 , 沃洛德米尔·姆尼赫 , 科雷·卡武科格鲁 , 大卫·西尔弗 :
深度强化学习的大规模并行方法。 CoRR公司 abs/1507.04296 ( 2015 ) 2014 【c7】 沃洛德米尔·姆尼赫 , 尼古拉斯·希斯 , 亚历克斯·格拉夫斯 , 科雷·卡武科格鲁 :
视觉注意的递归模型。 NIPS公司 2014 : 2204-2212 [i3] 沃洛德米尔·姆尼赫 , 尼古拉斯·希斯 , 亚历克斯·格拉夫斯 , 科雷·卡武科格鲁 :
视觉注意的递归模型。 CoRR公司 abs/1406.6247 ( 2014 ) 2013 【b1】 沃洛德米尔·姆尼赫 :
航空图像标签的机器学习。 加拿大多伦多大学, 2013 [注2] 马克·阿雷利奥·兰扎托 , 沃洛德米尔·姆尼赫 , 约书亚·M·苏斯金 , 杰弗里·欣顿 :
使用门控MRF对自然图像进行建模。 IEEE传输。 模式分析。 机器。 因特尔。 35 ( 9 ) : 2206-2222 ( 2013 ) [i2] 沃洛德米尔·姆尼赫 , 科雷·卡武科格鲁 , 大卫·西尔弗 , 亚历克斯·格拉夫斯 , Ioannis Antonoglou公司 , Daan Wierstra公司 , 马丁·里德米勒 :
使用深度强化学习玩Atari。 CoRR公司 abs/1312.5602 ( 2013 ) 2012 【c6】 沃洛德米尔·姆尼赫 , 杰弗里·欣顿 :
学习从噪声数据中标记航空图像。 ICML公司 2012 [i1] 沃洛德米尔·姆尼赫 , 雨果·拉罗谢尔 , 杰弗里·欣顿 :
结构化输出预测的条件限制Boltzmann机器。 CoRR公司 abs/1202.3748 ( 2012 ) 2011 【c5】 马克·阿雷利奥·兰扎托 , 约书亚·M·苏斯金 , 沃洛德米尔·姆尼赫 , 杰弗里·欣顿 :
深度生成模型及其在识别中的应用。 CVPR公司 2011 : 2857-2864 【c4】 沃洛德米尔·姆尼赫 , 雨果·拉罗谢尔 , 杰弗里·欣顿 :
结构化输出预测的条件限制Boltzmann机器。 阿联酋 2011 : 514-522 2010 【c3】 沃洛德米尔·姆尼赫 , 杰弗里·欣顿 :
学习在高分辨率航空图像中检测道路。 ECCV(6) 2010 : 210-223 【c2】 马克·阿雷利奥·兰扎托 , 沃洛德米尔·姆尼赫 , 杰弗里·欣顿 :
使用门控MRF生成更真实的图像。 NIPS公司 2010 : 2002-2010
2000 – 2009
2008 【c1】 沃洛德米尔·姆尼赫 , Csaba Szepesvariá , Jean-Yves奥迪伯特 :
经验伯恩斯坦停止。 ICML公司 2008 : 672-679 2006 [j1] 何旭明 , 理查德·泽梅尔 , 沃洛德米尔·姆尼赫 :
从室外图像序列学习拓扑图。 J.野外机器人 23 ( 11-12 ) : 1091-1104 ( 2006 )