汤云浩
人员信息
优化列表
![笔记](https://dblp.org/img/note-mark.dark.12x12.png)
2020年–今天
2024 [公元36年] Joongkyu Lee(李钟圭) , Seung Joon公园 , 汤云浩 , 吴敏焕 :
学习不确定感知的临时扩展操作。 AAAI公司 2024 : 13391-13399 【i50】 Joongkyu Lee(李钟圭) , Seung Joon公园 , 汤云浩 , Min-hwan噢 :
学习不确定感知的临时扩展操作。 CoRR公司 abs/2402.05439 ( 2024 ) [i49] 汤云浩 , 赵汉·丹尼尔·郭 , 郑泽瑜 , 丹尼尔·卡兰德里洛 , 雷米·穆诺斯 , 马克·罗兰 , 皮埃尔·哈维·里奇蒙 , 米查尔·瓦尔科 , 贝尔纳多·阿维拉·皮雷斯 , 比拉尔·皮奥 :
广义偏好优化:离线校准的统一方法。 CoRR公司 abs/2402.05749 ( 2024 ) [i48] 汤云浩 , 马克·罗兰 , 雷米·穆诺斯 , 贝尔纳多·阿维拉·皮雷斯 , 威尔·达布尼 :
非政策分布Q(λ):无重要性抽样的分布RL。 CoRR公司 abs/2402.05766 ( 2024 ) [i47] 马克·罗兰 , 李凯文文亮 , 雷米·穆诺斯 , 克莱尔·莱尔 , 汤云浩 , 威尔·达布尼 :
基于生成模型的近极小最优分布强化学习。 CoRR公司 abs/2402.07598 ( 2024 ) [i46] 哈利·威尔泽 , 杰西·法雷布罗特 , 亚瑟·格雷顿 , 汤云浩 , 安德烈·巴雷托 , 威尔·达布尼 , 马克·贝勒马尔 , 马克·罗兰 :
继任者代表的分布类比。 CoRR公司 abs/2402.08530 ( 2024 ) [i45] 丹尼尔·卡兰德里洛 , 丹尼尔·郭 , 雷米·穆诺斯 , 马克·罗兰 , 汤云浩 , 贝尔纳多·阿维拉·皮雷斯 , 皮埃尔·哈维·里奇蒙 , 查林·勒兰 , 米哈尔·瓦尔科 , 刘天奇 , 里沙布·乔希 , 郑泽瑜 , 比拉尔·皮奥 :
通过在线偏好优化实现大型语言模型的人工对齐。 CoRR公司 abs/2403.08635 ( 2024 ) [i44] 汤云浩 , 赵汉·丹尼尔·郭 , 郑泽瑜 , 丹尼尔·卡兰德里洛 , 袁操 , 尤金·塔拉索夫 , 雷米·穆诺斯 , 贝尔纳多·阿维拉·皮雷斯 , 米哈尔·瓦尔科 , 永成 , 威尔·达布尼 :
了解在线和离线对齐算法之间的性能差距。 CoRR公司 abs/2405.08448 ( 2024 ) [i43] 皮埃尔·哈维·里奇蒙 , 汤云浩 , 丹尼尔·郭 , 丹尼尔·卡兰德里洛 , 穆罕默德·盖什拉希·阿扎尔 , 拉斐尔·拉斐洛夫 , 贝尔纳多·阿维拉·皮雷斯 , 尤金·塔拉索夫 , 卢卡斯·斯潘格 , 威尔·埃尔斯沃思 , Aliaksei Severyn公司 , 乔纳森·马林森 , 利奥·沙尼 , 吉尔·沙米尔 , 里沙布·乔希 , 刘天奇 , 雷米·穆诺斯 , 比拉尔·皮奥特 :
用于大型语言模型对齐的离线正则化强化学习。 CoRR公司 abs/2405.19107 ( 2024 ) 2023 [公元35年] 亚什·昌达克 , Shantanu Thakoor公司 , 赵汉·丹尼尔·郭 , 汤云浩 , 雷米·穆诺斯 , 威尔·达布尼 , 戴安娜·博尔萨 :
基于奇异值分解的深度强化学习的表示与探索。 ICML公司 2023 : 4009-4034 [公元34年] 北村俊一 , Tadashi Kozuno公司 , 汤云浩 , 尼诺·维亚拉德 , 米查尔·瓦尔科 , 杨文浩 , 金城梅 , 皮埃尔·梅纳德 , 穆罕默德·盖什拉希·阿扎尔 , 雷米·穆诺斯 , 奥利维尔·皮特金 , 马蒂厄·盖斯特 , Csaba Szepesvariá , 久马吉岛 , 松本裕隆(Yutaka Matsuo) :
正则化和方差加权回归在线性MDPs中实现最小最大最优:理论与实践。 ICML公司 2023 : 17135-17175 [公元33年] 托马斯·梅斯纳德 , 陈文琪 , 阿拉·萨阿德 , 汤云浩 , 马克·罗兰 , 西奥芬妮·韦伯 , 克莱尔·莱尔 , Audrunas集团 , 米查尔·瓦尔科 , 威尔·达布尼 , 乔治·奥斯特罗夫斯基 , 埃里克·穆林斯 , 雷米·穆诺斯 :
分位数学分分配。 ICML公司 2023 : 24517-24531 [公元32年] 皮埃尔·哈维·里奇蒙 , Allison C.Tam公司 , 汤云浩 , 弗洛里安·斯特鲁布 , 比拉尔·皮奥 , 费利克斯·希尔 :
正交性的边缘:BYOL勾选原因的简单视图。 ICML公司 2023 : 29063-29081 [公元31年] 马克·罗兰 , 汤云浩 , 克莱尔·莱尔 , 雷米·穆诺斯 , 马克·贝勒马尔 , 威尔·达布尼 :
分位时差学习对价值估计的统计益处。 ICML公司 2023 : 29210-29231 [公元30年] 汤云浩 , 赵汉Daniel Guo , 皮埃尔·哈维·里奇蒙 , 贝尔纳多·阿维拉·皮雷斯 , 亚什·昌达克 , 雷米·穆诺斯 , 马克·罗兰 , 穆罕默德·盖什拉希·阿扎尔 , 查林·勒兰 , 克莱尔·莱尔 , 安德烈斯·吉尔吉 , Shantanu Thakoor公司 , 威尔·达布尼 , 比拉尔·皮奥 , 丹尼尔·卡兰德里洛 , 米查尔·瓦尔科 :
了解自我预测学习以强化学习。 ICML公司 2023 : 33632-33656 [公元29年] 汤云浩 , Tadashi Kozuno公司 , 马克·罗兰 , 安娜·哈里顿扬(Anna Harutyunyan) , 雷米·穆诺斯 , 贝尔纳多·阿维拉·皮雷斯 , 米查尔·瓦尔科 :
DoMo-AC:双多步非策略参与者关键算法。 ICML公司 2023 : 33657-33673 [c28] 汤云浩 , 雷米·穆诺斯 :
更好地理解TD学习下的表征动力学。 ICML公司 2023 : 33720-33738 [公元27年] 汤云浩 , 雷米·穆诺斯 , 马克·罗兰 , 米哈尔·瓦尔科 :
VA-学习是Q-学习的一种更有效的替代方法。 ICML公司 2023 : 33739-33757 [公元26年] 达尼尔·蒂普金 , 丹尼斯·贝洛梅斯特尼 , 丹尼尔·卡兰德里洛 , 埃里克·穆林斯 , 雷米·穆诺斯 , 阿列克谢·诺莫夫 , 皮埃尔·佩罗 , 汤云浩 , 米查尔·瓦尔科 , 皮埃尔·梅纳德 :
最大熵探索的快速速度。 ICML公司 2023 : 34161-34221 [i42] 马克·罗兰 , 雷米·穆诺斯 , 穆罕默德·盖什拉希·阿扎尔 , 汤云浩 , 乔治·奥斯特罗夫斯基 , 安娜·哈里顿扬(Anna Harutyunyan) , 卡尔·图尔斯 , 马克·贝勒马尔 , 威尔·达布尼 :
分位数时间差异学习分析。 CoRR公司 腹肌/2301.04462 ( 2023 ) [i41] 皮埃尔·里奇蒙 , Allison C.Tam公司 , 汤云浩 , 弗洛里安·斯特鲁布 , 比拉尔·皮奥 , 费利克斯·希尔 :
正交性的边缘:BYOL勾选原因的简单视图。 CoRR公司 abs/2302.04817 ( 2023 ) [i40] 丹尼尔·蒂普金 , 丹尼斯·贝洛梅斯特尼 , 丹尼尔·卡兰德里洛 , 埃里克·穆林斯 , 雷米·穆诺斯 , 阿列克谢·诺莫夫 , 皮埃尔·佩罗 , 汤云浩 , 米查尔·瓦尔科 , 皮埃尔·梅纳德 :
最大熵探索的快速速度。 CoRR公司 abs/2303.08059 ( 2023 ) [i39] 亚什·昌达克 , Shantanu Thakoor公司 , 赵汉·丹尼尔·郭 , 汤云浩 , 雷米·穆诺斯 , 威尔·达布尼 , 戴安娜·博尔萨 :
基于奇异值分解的深度强化学习的表示与探索。 CoRR公司 abs/2305.00654 ( 2023 ) [i38] 北村俊一 , Tadashi Kozuno公司 , 汤云浩 , 尼诺·维亚拉德 , 米查尔·瓦尔科 , 杨文浩 , 金城美 , 皮埃尔·梅纳德 , 穆罕默德·盖什拉希·阿扎尔 , 雷米·穆诺斯 , 奥利维尔·皮特金 , 马蒂厄·盖斯特 , Csaba Szepesvariá , 熊谷华太郎 , 松本裕隆(Yutaka Matsuo) :
正则化和方差加权回归在线性MDPs中实现最小最大最优:理论与实践。 CoRR公司 abs/2305.13185 ( 2023 ) [i37] 汤云浩 , 雷米·穆诺斯 , 马克·罗兰 , 米查尔·瓦尔科 :
VA-学习是Q-学习的一种更有效的替代方法。 CoRR公司 abs/2305.18161 ( 2023 ) [公元36年] 马克·罗兰 , 汤云浩 , 克莱尔·莱尔 , 雷米·穆诺斯 , 马克·贝勒马尔 , 威尔·达布尼 :
分位时差学习对价值估计的统计益处。 CoRR公司 abs/2305.18388 ( 2023 ) [i35] 汤云浩 , 雷米·穆诺斯 :
更好地理解TD学习下的表征动力学。 CoRR公司 abs/2305.18491 ( 2023 ) [i34] 汤云浩 , Tadashi Kozuno公司 , 马克·罗兰 , 安娜·哈里顿扬(Anna Harutyunyan) , 雷米·穆诺斯 , 贝尔纳多·阿维拉·皮雷斯 , 米查尔·瓦尔科 :
DoMo-AC:双多步非策略参与者关键算法。 CoRR公司 abs/2305.18501 ( 2023 ) [i33] 雷米·穆诺斯 , 米哈尔·瓦尔科 , 丹尼尔·卡兰德里洛 , 穆罕默德·盖什拉希·阿扎尔 , 马克·罗兰 , 赵汉·丹尼尔·郭 , 汤云浩 , 马蒂厄·盖斯特 , 托马斯·梅斯纳德 , 安德烈亚·米奇 , 马尔科·塞尔维 , 谢尔坦·吉尔金 , 尼古拉·蒙切夫 , 奥利维尔·巴瑟姆 , 丹尼尔·曼科维茨 , Doina Precup公司 , 比拉尔·皮奥 :
纳什从人的反馈中学习。 CoRR公司 abs/2312.00886 ( 2023 ) 2022 [公元25年] 汤云浩 , 马克·罗兰 , 雷米·穆诺斯 , 米哈尔·瓦尔科 :
用于策略外强化学习的边缘化运算符。 AISTATS公司 2022 : 655-679 [公元24年] 汤云浩 :
Meta强化学习中的带偏差梯度估计和急剧方差减少。 ICML公司 2022 : 21050-21075 【c23】 丹尼尔·蒂普金 , 丹尼斯·贝洛梅斯特尼 , 埃里克·穆林斯 , 阿列克谢·瑙莫夫 , 谢尔盖·萨姆索诺夫 , 汤云浩 , 米查尔·瓦尔科 , 皮埃尔·梅纳德 :
从迪里克利特到鲁宾:RL中的乐观探索,没有奖金。 ICML公司 2022 : 21380-21431 [公元22年] 赵汉国 , 尚塔努·塔库尔 , Miruna双鱼座 , 贝尔纳多·阿维拉·皮雷斯 , 佛罗伦特·阿尔奇 , 科伦蒂·塔莱克 , 阿拉·萨阿德 , 丹尼尔·卡兰德里洛 , Jean-Bastien烧烤 , 汤云浩 , 米查尔·瓦尔科 , 雷米·穆诺斯 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 :
BYOL-Explore:通过引导预测进行探索。 NeurIPS公司 2022 【c21】 汤云浩 , 雷米·穆诺斯 , 马克·罗兰 , 贝尔纳多·阿维拉·皮雷斯 , 威尔·达布尼 , 马克·贝勒马尔 :
多级分布强化学习中时间差异误差的性质。 NeurIPS公司 2022 [i32] 汤云浩 , 马克·罗兰 , 雷米·穆诺斯 , 米查尔·瓦尔科 :
非政策强化学习的边缘化算子。 CoRR公司 abs/2203.16177 ( 2022 ) [i31] 丹尼尔·蒂普金 , 丹尼斯·贝洛梅斯特尼 , 埃里克·穆林斯 , 阿列克谢·诺莫夫 , 谢尔盖·萨姆索诺夫 , 汤云浩 , 米查尔·瓦尔科 , 皮埃尔·梅纳德 :
从迪里克利特到鲁宾:RL中的乐观探索,没有奖金。 CoRR公司 abs/2205.07704 ( 2022 ) [i30] Tadashi Kozuno公司 , 杨文浩 , 尼诺·维亚拉德 , 北村俊一 , 汤云浩 , 金城美 , 皮埃尔·梅纳德 , 穆罕默德·盖什拉希·阿扎尔 , 米查尔·瓦尔科 , 雷米·穆诺斯 , 奥利维尔·皮特金 , 马蒂厄·盖斯特 , Csaba Szepesvariá :
具有生成模型的KL-Entropy-Regularized RL是Minimax最优的。 CoRR公司 abs/2205.14211 ( 2022 ) [i29] 赵汉Daniel Guo , Shantanu Thakoor公司 , Miruna双鱼座 , 贝尔纳多·阿维拉·皮雷斯 , 弗洛伦特·阿尔切 , 科伦蒂·塔莱克 , 阿拉·萨阿德 , 丹尼尔·卡兰德里洛 , Jean-Bastien烧烤 , 汤云浩 , 米查尔·瓦尔科 , 雷米·穆诺斯 , 穆罕默德·盖什拉希·阿扎尔 , 比拉尔·皮奥 :
BYOL-Explore:通过引导预测进行探索。 CoRR公司 abs/2206.08332 ( 2022 ) [第28条] 汤云浩 , 马克·罗兰 , 雷米·穆诺斯 , 贝尔纳多·阿维拉·皮雷斯 , 威尔·达布尼 , 马克·贝勒马尔 :
多步分布强化学习中时间差异错误的性质。 CoRR公司 abs/2207.07570 ( 2022 ) [i27] 汤云浩 , 赵汉·丹尼尔·郭 , 皮埃尔·哈维·里奇蒙 , 贝尔纳多·阿维拉·皮雷斯 , 亚什·昌达克 , 雷米·穆诺斯 , 马克·罗兰 , 穆罕默德·盖什拉希·阿扎尔 , 查林·勒兰 , 克莱尔·莱尔 , 安德烈斯·吉尔吉 , Shantanu Thakoor公司 , 威尔·达布尼 , 比拉尔·皮奥 , 丹尼尔·卡兰德里洛 , 米查尔·瓦尔科 :
了解自我预测学习以强化学习。 CoRR公司 abs/2212.03319 ( 2022 ) 2021 【b1】 汤云浩 :
强化学习:整数规划的新算法和应用。 美国哥伦比亚大学, 2021 [公元20年] 汤云浩 , 阿尔普·库库克尔比尔 :
目标条件强化学习的后视期望最大化。 AISTATS公司 2021 : 2863-2871 [第19条] 汤云浩 :
使用非政策行为体关键指导进化策略。 美国原子能机构 2021 : 1317-1325 [第18条] Tadashi Kozuno公司 , 汤云浩 , 马克·罗兰 , 雷米·穆诺斯 , 史蒂文·卡普托洛夫斯基 , 威尔·达布尼 , 米哈尔·瓦尔科 , 埃布尔 :
重温彭氏现代强化学习的Q(λ)。 ICML公司 2021 : 5794-5804 [第17条] 汤云浩 , 马克·罗兰 , 雷米·穆诺斯 , 米查尔·瓦尔科 :
贴现因子的泰勒展开。 ICML公司 2021 : 10130-10140 [第16条] 汤云浩 , Tadashi Kozuno公司 , 马克·罗兰 , 雷米·穆诺斯 , 米哈尔·瓦尔科 :
通过非政策评估实现元增强学习的统一梯度估计。 NeurIPS公司 2021 : 5303-5315 [i26] 宋兴友 , Krzysztof Choromanski公司 , 杰克·帕克霍尔德 , 汤云浩 , 戴义鹏 , 迪帕利·贾因 , 高文博 , 阿尔多·帕奇亚诺 , 塔马斯·萨洛斯 , 杨玉祥 :
ES-ENAS:将进化策略与神经架构搜索相结合,无需额外成本即可进行强化学习。 CoRR公司 abs/2101.07415 ( 2021 ) [i25] Krzysztof Choromanski公司 , 迪帕利·贾因 , 杰克·帕克霍尔德 , 兴友歌 , 瓦莱里·利霍舍斯托夫 , 阿尼尔班·桑塔拉 , 阿尔多·帕奇亚诺 , 汤云浩 , 阿德里安·韦勒 :
通过内隐注意为强化学习解锁像素。 CoRR公司 abs/2102.04353 ( 2021 ) [i24] Tadashi Kozuno公司 , 汤云浩 , 马克·罗兰 , 雷米·穆诺斯 , 史蒂文·卡普托洛夫斯基 , 威尔·达布尼 , 米查尔·瓦尔科 , 埃布尔 :
重温彭氏现代强化学习的Q(λ)。 CoRR公司 腹肌/2103.00107 ( 2021 ) [第23条] 汤云浩 , 马克·罗兰 , 雷米·穆诺斯 , 米查尔·瓦尔科 :
贴现因子的泰勒展开。 CoRR公司 abs/2106.06170 ( 2021 ) [i22] 汤云浩 , Tadashi Kozuno公司 , 马克·罗兰 , 雷米·穆诺斯 , 米查尔·瓦尔科 :
通过非政策评估实现元增强学习的统一梯度估计。 CoRR公司 abs/2106.13125 ( 2021 ) [i21] 汤云浩 :
Meta强化学习中的带偏差梯度估计和急剧方差减少。 CoRR公司 abs/2112.07328 ( 2021 ) 2020 [第15条] 汤云浩 , 希普拉·阿格拉瓦尔 :
离散化连续行动空间用于在线策略优化。 AAAI公司 2020 : 5981-5988 [第14条] 汤云浩 , Krzysztof Choromanski公司 , 阿尔普·库库克尔比尔 :
通过结构控制变量的进化策略的方差减少。 AISTATS公司 2020 : 646-656 [第13条] Krzysztof Choromanski公司 , 阿尔多·帕奇亚诺 , 杰克·帕克霍尔德 , 汤云浩 :
通过行列式点过程实现高维非各向同性蒙特卡罗采样。 AISTATS公司 2020 : 1363-1374 [第12条] 余光岳 , 汤云浩 , 尹明章 , 周明远 :
离散行动政策学习与行动价值批判。 AISTATS公司 2020 : 1977-1987 [第11条] 兴友歌 , 高文博 , 杨玉祥 , 克日什托夫·乔罗曼斯基 , 阿尔多·帕奇亚诺 , 汤云浩 :
ES-MAML:简单的Hessian自由元学习。 ICLR公司 2020 [第10条] Jean-Bastien烧烤 , 佛罗伦特·阿尔奇 , 汤云浩 , 托马斯·休伯特 , 米查尔·瓦尔科 , Ioannis Antonoglou公司 , 雷米·穆诺斯 :
蒙特卡罗树搜索作为正则化策略优化。 ICML公司 2020 : 3769-3778 【c9】 阿尔多·帕奇亚诺 , 杰克·帕克霍尔德 , 汤云浩 , 克日什托夫·乔罗曼斯基 , 安娜·乔洛曼斯卡 , 迈克尔·乔丹 :
学习为指导性政策优化的行为评分。 ICML公司 2020 : 7445-7454 【c8】 汤云浩 , 希普拉·阿格拉瓦尔 , 尤里·法恩扎 :
整数规划的强化学习:学习切割。 ICML公司 2020 : 9367-9376 【c7】 汤云浩 , 米查尔·瓦尔科 , 雷米·穆诺斯 :
泰勒展开策略优化。 ICML公司 2020 : 9397-9406 【c6】 汤云浩 :
基于广义下界Q学习的自模仿学习。 NeurIPS公司 2020 [i20] 余光岳 , 汤云浩 , 尹明章 , 尹明元 :
离散行动政策学习与行动价值批判。 CoRR公司 2002年3月534日 ( 2020 ) [i19] 汤云浩 , 米查尔·瓦尔科 , 雷米·穆诺斯 :
泰勒展开策略优化。 CoRR公司 abs/2003.06259 ( 2020 ) [i18] 汤云浩 :
基于广义下界Q学习的自模仿学习。 CoRR公司 abs/2006.07442 ( 2020 ) [i17] 汤云浩 , 阿尔普·库库克尔比尔 :
目标条件强化学习的后视期望最大化。 CoRR公司 abs/2006.07549 ( 2020 ) [i16] 汤云浩 , Krzysztof Choromanski公司 :
基于进化策略的非政策学习中的在线超参数调整。 CoRR公司 abs/2006.07554 ( 2020 ) 【i15】 Jean-Bastien烧烤 , 佛罗伦特·阿尔奇 , 汤云浩 , 托马斯·休伯特 , 米查尔·瓦尔科 , Ioannis Antonoglou公司 , 雷米·穆诺斯 :
蒙特卡罗树搜索作为正则化策略优化。 CoRR公司 abs/2007.12509 ( 2020 )
2010 – 2019
2019 【c5】 马克·罗兰 , 吉里·赫隆 , 汤云浩 , Krzysztof Choromanski公司 , 塔马斯·萨洛斯 , 阿德里安·韦勒 :
Wasserstein距离的正交估计。 AISTATS公司 2019 : 186-195 【c4】 克日什托夫·乔罗曼斯基 , 阿尔多·帕奇亚诺 , 杰弗里·彭宁顿 , 汤云浩 :
KAMA-NNs:基于低维旋转的神经网络。 AISTATS公司 2019 : 236-245 【c3】 克日什托夫·乔罗曼斯基 , 阿尔多·帕奇亚诺 , 杰克·帕克霍尔德 , 汤云浩 , 迪帕利·贾因 , 杨玉祥 , 阿提尔·伊斯肯 , 茉莉花Hsu , 维卡斯·辛德瓦尼 :
用于强化学习的显著稳健黑箱优化。 CoRL公司 2019 : 683-696 【c2】 Krzysztof Choromanski公司 , 阿尔多·帕奇亚诺 , 杰克·帕克霍尔德 , 汤云浩 , 维卡斯·辛德瓦尼 :
从复杂性到简单性:黑箱优化的自适应ES-Active子空间。 NeurIPS公司 2019 : 10299-10309 [第14条] 汤云浩 , 希普拉·阿格拉瓦尔 :
离散化连续行动空间用于在线策略优化。 CoRR公司 腹肌/1901.10500 ( 2019 ) [i13] 马克·罗兰 , 吉里·赫隆 , 汤云浩 , Krzysztof Choromanski公司 , 塔马斯·萨洛斯 , 阿德里安·韦勒 :
Wasserstein距离的正交估计。 CoRR公司 abs/1903.03784 ( 2019 ) [i12] Krzysztof Choromanski公司 , 阿尔多·帕奇亚诺 , 杰克·帕克霍尔德 , 汤云浩 :
通过ES-active子空间的自适应高效样本黑盒优化。 CoRR公司 腹肌/1903.04268 ( 2019 ) [i11] 汤云浩 , 尹明章 , 周明远 :
二元随机策略的增强-增强-合并策略梯度。 CoRR公司 abs/1903.05284 ( 2019 ) [i10] Krzysztof Choromanski公司 , 阿尔多·帕奇亚诺 , 杰克·帕克霍尔德 , 汤云浩 :
通过行列式点过程对非各向同性分布进行结构化蒙特卡罗采样。 CoRR公司 abs/1905.12667 ( 2019 ) [第九章] 阿尔多·帕奇亚诺 , 杰克·帕克霍尔德 , 汤云浩 , 安娜·乔洛曼斯卡 , 克日什托夫·乔罗曼斯基 , 迈克尔·乔丹 :
瓦瑟斯坦强化学习。 CoRR公司 abs/1906.04349 ( 2019 ) [i8] 汤云浩 , 希普拉·阿格拉瓦尔 , 尤里·法恩扎 :
整数规划的强化学习:学习切割。 CoRR公司 abs/1906.04859 ( 2019 ) [i7] 汤云浩 , Krzysztof Choromanski公司 , 阿尔普·库克尔比尔 :
通过结构化控制变量减少进化策略的方差。 CoRR公司 abs/1906.08868 ( 2019 ) [i6] 兴友歌 , Krzysztof Choromanski公司 , 杰克·帕克霍尔德 , 汤云浩 , 高文博 , 阿尔多·帕奇亚诺 , 塔马斯·萨洛斯 , 迪帕利·贾因 , 杨玉祥 :
彩色网络强化学习。 CoRR公司 腹肌/1907.06511 ( 2019 ) [i5] 兴友歌 , 高文博 , 杨玉祥 , Krzysztof Choromanski公司 , 阿尔多·帕奇亚诺 , 汤云浩 :
ES-MAML:简单的Hessian自由元学习。 CoRR公司 绝对值/190.01215 ( 2019 ) 2018 【c1】 汤云浩 , 希普拉·阿格拉瓦尔 :
通过分布强化学习进行探索。 国际JCAI 2018 : 2710-2716 [i4] 汤云浩 , 希普拉阿格拉瓦尔 :
通过分布强化学习进行探索。 CoRR公司 abs/1805.01907 ( 2018 ) [i3] 汤云浩 , 希普拉·阿格拉瓦尔 :
强化学习的内隐策略。 CoRR公司 abs/1806.06798 ( 2018 ) [i2] 汤云浩 , 希普拉·阿格拉瓦尔 :
通过规范化流策略促进信任区域策略优化。 CoRR公司 abs/1809.10326 ( 2018 ) 2017 [i1] 汤云浩 , 阿尔普·库库克尔比尔 :
变分深Q网络。 CoRR公司 abs/1711.11225 ( 2017 )
合著者索引
![](https://dblp.org/img/cog.dark.24x24.png)