Tadashi Kozuno公司
人员信息
优化列表
![笔记](https://dblp.uni-trier.de/img/note-mark.dark.12x12.png)
2020年–今天
2024 [第23条] 北村俊一 , Tadashi Kozuno公司 , 加藤正弘 , 一原由纪夫 , 西森Soichiro Nishimori , Akiyoshi Sannai公司 , 肖·索诺达 , 久马吉岛 , 松本裕隆(Yutaka Matsuo) :
具有一致PAC保证的约束MDP的策略梯度原对偶算法。 CoRR公司 abs/2401.17780 ( 2024 ) [i22] Hai Nguyen(海阮) , Tadashi Kozuno公司 , 克里斯蒂安·贝尔特兰·赫南德斯 , 滨山正史 :
软腕部分可观测机器人装配的对称强化学习。 CoRR公司 abs/2402.18002 ( 2024 ) 2023 [j3] 卡祖米·卡萨拉 , Shuwa Miura公司 , Tadashi Kozuno公司 , Ryo Yonetani先生 , 肯塔·胡西诺 , 尤海·胡索 :
具有动作约束的机器人控制的基准Actor-Critic深度强化学习算法。 IEEE机器人自动化。 莱特。 8 ( 8 ) : 4449-4456 ( 2023 ) [第14条] 阿萨诺(Hikaru Asano) , Ryo Yonetani先生 , Mai Nishimura公司 , Tadashi Kozuno公司 :
公平延迟多机器人导航的反事实公平过滤器。 美国原子能机构 2023 : 887-895 [第13条] 科梅·菲格尔 , 皮埃尔·梅纳德 , Tadashi Kozuno公司 , 雷米·穆诺斯 , 维亚尼·珀切特 , 米查尔·瓦尔科 :
适应零和不完全信息博弈中的博弈树。 ICML公司 2023 : 10093-10135 [第12条] 北村俊一 , Tadashi Kozuno公司 , 汤云浩 , 尼诺·维亚拉德 , 米查尔·瓦尔科 , 杨文浩 , 金城美 , 皮埃尔·梅纳德 , 穆罕默德·盖什拉希·阿扎尔 , 雷米·穆诺斯 , 奥利维尔·皮特金 , 马蒂厄·盖斯特 , Csaba Szepesvariá , 久马吉岛 , 松本裕隆(Yutaka Matsuo) :
正则化和方差加权回归在线性MDPs中实现最小最大最优:理论与实践。 ICML公司 2023 : 17135-17175 [第11条] 汤云浩 , Tadashi Kozuno公司 , 马克·罗兰 , 安娜·哈里顿扬(Anna Harutyunyan) , 雷米·穆诺斯 , 贝尔纳多·阿维拉·皮雷斯 , 米查尔·瓦尔科 :
DoMo-AC:双多步非策略参与者关键算法。 ICML公司 2023 : 33657-33673 【i21】 杨文浩 , 韩旺(Han Wang) , Tadashi Kozuno公司 , 斯科特·乔丹 , 张志华 :
用生成模型避免稳健马尔可夫决策过程中的模型估计。 CoRR公司 abs/2302.01248 ( 2023 ) [i20] 卡祖米·卡萨拉 , Shuwa Miura公司 , Tadashi Kozuno公司 , Ryo Yonetani先生 , 肯塔·胡西诺 , 尤海·胡索 :
具有动作约束的机器人控制的基准参与者关键深度强化学习算法。 CoRR公司 abs/2304.08743 ( 2023 ) [i19] Kohei Honda公司 , Ryo Yonetani先生 , Mai Nishimura公司 , Tadashi Kozuno公司 :
何时重播? 基于深度强化学习的自主导航自适应重规划策略。 CoRR公司 abs/2304.12046 ( 2023 ) [i18] 阿萨诺(Hikaru Asano) , Ryo Yonetani先生 , Mai Nishimura公司 , Tadashi Kozuno公司 :
公平延迟多机器人导航的反事实公平过滤器。 CoRR公司 abs/2305.11465 ( 2023 ) [i17] 北村俊一 , Tadashi Kozuno公司 , 汤云浩 , 尼诺·维亚拉德 , 米查尔·瓦尔科 , 杨文浩 , 金城美 , 皮埃尔·梅纳德 , 穆罕默德·盖什拉希·阿扎尔 , 雷米·穆诺斯 , 奥利维尔·皮特金 , 马蒂厄·盖斯特 , Csaba Szepesvariá , 久马吉岛 , 松本裕隆(Yutaka Matsuo) :
正则化和方差加权回归在线性MDPs中实现最小最大最优:理论与实践。 CoRR公司 abs/2305.13185 ( 2023 ) [i16] 汤云浩 , Tadashi Kozuno公司 , 马克·罗兰 , 安娜·哈里顿扬(Anna Harutyunyan) , 雷米·穆诺斯 , 贝尔纳多·阿维拉·皮雷斯 , 米查尔·瓦尔科 :
DoMo-AC:双多步非策略参与者关键算法。 CoRR公司 abs/2305.18501 ( 2023 ) 【i15】 科梅·菲格尔 , 皮埃尔·梅纳德 , Tadashi Kozuno公司 , 雷米·穆诺斯 , 维亚尼·珀切特 , 米查尔·瓦尔科 :
局部镜像和自适应镜像在扩展形式的游戏中下降。 CoRR公司 abs/2309.00656 ( 2023 ) [第14条] 所以Kuroki , Mai Nishimura公司 , Tadashi Kozuno公司 :
多代理行为检索:用于移动机器人协作操作的检索增强策略训练。 CoRR公司 abs/2312.02008年 ( 2023 ) 2022 [注2] 陈幼坚 , 雨果·席尔瓦 , 宋素林 , Tadashi Kozuno公司 , A.鲁帕姆·马哈茂德 , 马莎怀特 :
政策优化的Greedification算子:研究正向和反向KL差异。 J.马赫。 学习。 物件。 23 : 253:1-253:79 ( 2022 ) [j1] 韩旺(Han Wang) , 阿奇特·萨哈多奥 , 亚当·怀特 , 詹姆斯·贝尔 , 文森特·刘 , 赵旭彤 , 刘普洱 , Tadashi Kozuno公司 , 阿隆娜·费舍 , 马莎怀特 :
不再有Pesky超参数:RL的脱机超参数调整。 事务处理。 机器。 学习。 物件。 2022 ( 2022 ) [第10条] 东齐韩 , Tadashi Kozuno公司 , 罗旭芳 , 陈赵云 , Kenji Doya公司 , 杨玉清 , 李东生 :
强化学习的可变预言机指导。 ICLR公司 2022 【c9】 盖勒特·维兹 , 安德烈斯·吉尔吉 , Tadashi Kozuno公司 , Csaba Szepesvariá :
$q^\pi$可实现MDP中有效局部规划的可靠近似策略迭代。 NeurIPS公司 2022 【c8】 八木神户 , 中原文治 , 铃木康介 , Tadashi Kozuno公司 , 久野大辅 :
基于深度学习的前程压缩非线性量化器。 OECC/PSC公司 2022 : 1-3 [i13] 韩旺(Han Wang) , 阿奇特·萨哈多奥 , 亚当·怀特 , 詹姆斯·贝尔 , 文森特·刘 , 赵旭彤 , 刘普洱 , Tadashi Kozuno公司 , 阿隆娜·费舍 , 马莎怀特 :
不再有Pesky超参数:RL的脱机超参数调整。 CoRR公司 abs/2205.08716 ( 2022 ) [i12] Tadashi Kozuno公司 , 杨文浩 , 尼诺·维亚拉德 , 北村俊一 , 汤云浩 , 金城美 , 皮埃尔·梅纳德 , 穆罕默德·盖什拉希·阿扎尔 , 米查尔·瓦尔科 , 雷米·穆诺斯 , 奥利维尔·皮特金 , 马蒂厄·盖斯特 , Csaba Szepesvariá :
具有生成模型的KL-Entropy-Regularized RL是Minimax最优的。 CoRR公司 abs/2205.14211 ( 2022 ) [i11] 盖勒特·维兹 , 安德烈斯·吉尔吉 , Tadashi Kozuno公司 , Csaba Szepesvariá :
q中有效局部规划的置信近似策略迭代 π -可实现MDP。 CoRR公司 abs/2210.15755 ( 2022 ) [i10] 科梅·菲格尔 , 皮埃尔·梅纳德 , Tadashi Kozuno公司 , 雷米·穆诺斯 , 维亚尼·珀切特 , 米查尔·瓦尔科 :
适应零和不完全信息博弈中的博弈树。 CoRR公司 abs/2212.12567 ( 2022 ) 2021 【c7】 Hiroki Furuta公司 , 松岛达也 , Tadashi Kozuno公司 , 松本裕隆(Yutaka Matsuo) , 谢尔盖·莱文 , 奥菲尔·纳楚姆 , 《世祥·谢恩古》 :
政策信息能力:深度强化学习中任务复杂性的信息理论度量。 ICML公司 2021 : 3541-3552 【c6】 Tadashi Kozuno公司 , 汤云浩 , 马克·罗兰 , 雷米·穆诺斯 , 史蒂文·卡普托洛夫斯基 , 威尔·达布尼 , 米查尔·瓦尔科 , 埃布尔 :
重温彭氏现代强化学习的Q(λ)。 ICML公司 2021 : 5794-5804 【c5】 汤云浩 , Tadashi Kozuno公司 , 马克·罗兰 , 雷米·穆诺斯 , 米查尔·瓦尔科 :
通过非政策评估实现元增强学习的统一梯度估计。 NeurIPS公司 2021 : 5303-5315 【c4】 Hiroki Furuta公司 , Tadashi Kozuno公司 , 松岛达也 , 松本裕隆(Yutaka Matsuo) , 《世祥·谢恩古》 :
基于推理的深度强化学习中算法和实现创新的协同适应。 NeurIPS公司 2021 : 9828-9842 【c3】 Tadashi Kozuno公司 , 皮埃尔·梅纳德 , 雷米·穆诺斯 , 米查尔·瓦尔科 :
具有完全回忆的两人零和部分可观测马尔可夫博弈中的学习。 NeurIPS公司 2021 : 11987-11998 [第九章] Tadashi Kozuno公司 , 汤云浩 , 马克·罗兰 , 雷米·穆诺斯 , 史蒂文·卡普托洛夫斯基 , 威尔·达布尼 , 米查尔·瓦尔科 , 埃布尔 :
重温彭氏现代强化学习的Q(λ)。 CoRR公司 abs/2103.00107 ( 2021 ) [i8] Hiroki Furuta公司 , 松岛达也 , Tadashi Kozuno公司 , 松本裕隆(Yutaka Matsuo) , 谢尔盖·莱文 , 奥菲尔·纳楚姆 , 《世祥·谢恩古》 :
政策信息能力:深度强化学习中任务复杂性的信息理论度量。 CoRR公司 腹肌/2103.12726 ( 2021 ) [i7] Hiroki Furuta公司 , Tadashi Kozuno公司 , 松岛达也 , 松本裕隆(Yutaka Matsuo) , 《世祥·谢恩古》 :
识别深度强化学习中算法和实现创新的协同适应:基于推理的算法的分类和案例研究。 CoRR公司 abs/2103.17258 ( 2021 ) [i6] Tadashi Kozuno公司 , 皮埃尔·梅纳德 , 雷米·穆诺斯 , 米查尔·瓦尔科 :
具有完美回忆的二人零和部分可观测马尔可夫对策的无模型学习。 CoRR公司 abs/2106.06279 ( 2021 ) [i5] 汤云浩 , Tadashi Kozuno公司 , 马克·罗兰 , 雷米·穆诺斯 , 米查尔·瓦尔科 :
通过非政策评估实现元增强学习的统一梯度估计。 CoRR公司 腹肌/2106.13125 ( 2021 ) [i4] 陈幼坚 , 雨果·席尔瓦 , 宋素林 , Tadashi Kozuno公司 , A.鲁帕姆·马哈茂德 , 马莎怀特 :
政策优化的Greedification算子:研究正向和反向KL差异。 CoRR公司 abs/2107.08285 ( 2021 ) 2020 【c2】 尼诺·维亚拉德 , Tadashi Kozuno公司 , 布鲁诺·谢勒 , 奥利维尔·皮特金 , 雷米·穆诺斯 , 马蒂厄·盖斯特 :
利用平均值:强化学习中KL规则化的分析。 NeurIPS公司 2020 [i3] 尼诺·维亚拉德 , Tadashi Kozuno公司 , 布鲁诺·谢勒 , 奥利维尔·皮特金 , 雷米·穆诺斯 , 马蒂厄·盖斯特 :
利用平均值:RL规则化分析。 CoRR公司 abs/2003.14089 ( 2020 )
2010 – 2019
2019 【c1】 Tadashi Kozuno公司 , 内野英二 , Kenji Doya公司 :
强化学习中Softmax和Gap-Increased算子效率和鲁棒性的理论分析。 AISTATS公司 2019 : 2995-3003 [i2] Tadashi Kozuno公司 , 东齐韩 , Kenji Doya公司 :
针对高效和耐噪声强化学习的差距增大政策评估。 CoRR公司 abs/1906.07586 ( 2019 ) 2017 [i1] Tadashi Kozuno公司 , 内野英二 , Kenji Doya公司 :
统一价值迭代、优势学习和动态政策规划。 CoRR公司 abs/1710.10866 ( 2017 )
合著者索引
![](https://dblp.uni-trier.de/img/cog.dark.24x24.png)