停止战争！

Остановите войну!

对于科学家：

默认搜索操作

组合dblp搜索
作者搜索
场馆搜索
出版物搜索

问别人

Tadashi Kozuno公司

>主页 >珀森斯

人员信息

优化列表

优化激活！

放大了??属于??记录

查看优化列表

导出优化列表为

显示全部 ??记录

2020年–今天

请参阅常见问题解答

出版物列表中颜色的含义是什么？

2024
[第23条]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2401-17780
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2401-17780
北村俊一,Tadashi Kozuno公司,加藤正弘,一原由纪夫,西森Soichiro Nishimori,Akiyoshi Sannai公司,肖·索诺达,久马吉岛,松本裕隆（Yutaka Matsuo）:
具有一致PAC保证的约束MDP的策略梯度原对偶算法。 CoRR公司 abs/2401.17780(2024)
[i22]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2402-18002
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2402-18002
Hai Nguyen（海阮）,Tadashi Kozuno公司,克里斯蒂安·贝尔特兰·赫南德斯,滨山正史:
软腕部分可观测机器人装配的对称强化学习。 CoRR公司 abs/2402.18002(2024)
2023
[j3]
- 看法
  权限控制：
- 出口记录
  dblp键：
  - 期刊/ral/KasauraMKYHH23
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/ral/KasauraMKYHH23
卡祖米·卡萨拉,Shuwa Miura公司,Tadashi Kozuno公司,Ryo Yonetani先生,肯塔·胡西诺,尤海·胡索:
具有动作约束的机器人控制的基准Actor-Critic深度强化学习算法。 IEEE机器人自动化。莱特。 8(8):4449-4456(2023)
[第14条]
- 看法
  权限控制：
- 出口记录
  dblp键：
  - conf/atal/AsanoYNK23
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/atal/AsanoYNK23
阿萨诺（Hikaru Asano）,Ryo Yonetani先生,Mai Nishimura公司,Tadashi Kozuno公司:
公平延迟多机器人导航的反事实公平过滤器。美国原子能机构 2023:887-895
[第13条]
- 看法
  - 电子版@mlr.press（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/icml/FiegelMKMPV23
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/icml/FiegelMKMPV23
科梅·菲格尔,皮埃尔·梅纳德,Tadashi Kozuno公司,雷米·穆诺斯,维亚尼·珀切特,米查尔·瓦尔科:
适应零和不完全信息博弈中的博弈树。 ICML公司 2023:10093-10135
[第12条]
- 看法
  - 电子版@mlr.press（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/icml/KitamuraKTVVYMM23
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/icml/KitamuraKTVVYMM23
北村俊一,Tadashi Kozuno公司,汤云浩,尼诺·维亚拉德,米查尔·瓦尔科,杨文浩,金城美,皮埃尔·梅纳德,穆罕默德·盖什拉希·阿扎尔,雷米·穆诺斯,奥利维尔·皮特金,马蒂厄·盖斯特,Csaba Szepesvariá,久马吉岛,松本裕隆（Yutaka Matsuo）:
正则化和方差加权回归在线性MDPs中实现最小最大最优：理论与实践。 ICML公司 2023:17135-17175
[第11条]
- 看法
  - 电子版@mlr.press（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/icml/TangKRHMPV23
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/icml/TangKRHMPV23
汤云浩,Tadashi Kozuno公司,马克·罗兰,安娜·哈里顿扬（Anna Harutyunyan）,雷米·穆诺斯,贝尔纳多·阿维拉·皮雷斯,米查尔·瓦尔科:
DoMo-AC：双多步非策略参与者关键算法。 ICML公司 2023:33657-33673
【i21】
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2302-01248
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2302-01248
杨文浩,韩旺（Han Wang）,Tadashi Kozuno公司,斯科特·乔丹,张志华:
用生成模型避免稳健马尔可夫决策过程中的模型估计。 CoRR公司 abs/2302.01248(2023)
[i20]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2304-08743
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2304-08743
卡祖米·卡萨拉,Shuwa Miura公司,Tadashi Kozuno公司,Ryo Yonetani先生,肯塔·胡西诺,尤海·胡索:
具有动作约束的机器人控制的基准参与者关键深度强化学习算法。 CoRR公司 abs/2304.08743(2023)
[i19]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2304-12046
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2304-12046
Kohei Honda公司,Ryo Yonetani先生,Mai Nishimura公司,Tadashi Kozuno公司:
何时重播？基于深度强化学习的自主导航自适应重规划策略。 CoRR公司 abs/2304.12046(2023)
[i18]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2305-11465
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2305-11465
阿萨诺（Hikaru Asano）,Ryo Yonetani先生,Mai Nishimura公司,Tadashi Kozuno公司:
公平延迟多机器人导航的反事实公平过滤器。 CoRR公司 abs/2305.11465(2023)
[i17]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2305-13185
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2305-13185
北村俊一,Tadashi Kozuno公司,汤云浩,尼诺·维亚拉德,米查尔·瓦尔科,杨文浩,金城美,皮埃尔·梅纳德,穆罕默德·盖什拉希·阿扎尔,雷米·穆诺斯,奥利维尔·皮特金,马蒂厄·盖斯特,Csaba Szepesvariá,久马吉岛,松本裕隆（Yutaka Matsuo）:
正则化和方差加权回归在线性MDPs中实现最小最大最优：理论与实践。 CoRR公司 abs/2305.13185(2023)
[i16]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2305-18501
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2305-18501
汤云浩,Tadashi Kozuno公司,马克·罗兰,安娜·哈里顿扬（Anna Harutyunyan）,雷米·穆诺斯,贝尔纳多·阿维拉·皮雷斯,米查尔·瓦尔科:
DoMo-AC：双多步非策略参与者关键算法。 CoRR公司 abs/2305.18501(2023)
【i15】
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2309-00656
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2309-00656
科梅·菲格尔,皮埃尔·梅纳德,Tadashi Kozuno公司,雷米·穆诺斯,维亚尼·珀切特,米查尔·瓦尔科:
局部镜像和自适应镜像在扩展形式的游戏中下降。 CoRR公司 abs/2309.00656(2023)
[第14条]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2312-02008
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2312-02008
所以Kuroki,Mai Nishimura公司,Tadashi Kozuno公司:
多代理行为检索：用于移动机器人协作操作的检索增强策略训练。 CoRR公司 abs/2312.02008年(2023)
2022
[注2]
- 看法
  - 电子版@jmlr.org（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - 期刊/jmlr/0001SLKMW22
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/jmlr/0001SLKMW22
陈幼坚,雨果·席尔瓦,宋素林,Tadashi Kozuno公司,A.鲁帕姆·马哈茂德,马莎怀特:
政策优化的Greedification算子：研究正向和反向KL差异。 J.马赫。学习。物件。 23:253:1-253:79(2022)
[j1]
- 看法
  - 电子版@openreview.net（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - 日志/tmlr/WangSWBLZLKFW22
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/tmlr/WangSWBLZLKFW22
韩旺（Han Wang）,阿奇特·萨哈多奥,亚当·怀特,詹姆斯·贝尔,文森特·刘,赵旭彤,刘普洱,Tadashi Kozuno公司,阿隆娜·费舍,马莎怀特:
不再有Pesky超参数：RL的脱机超参数调整。事务处理。机器。学习。物件。 2022(2022)
[第10条]
- 看法
  - 电子版@openreview.net（开放访问）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/iclr/HanKLCDYL22
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/iclr/HanKLCDYL22
东齐韩,Tadashi Kozuno公司,罗旭芳,陈赵云,Kenji Doya公司,杨玉清,李东生:
强化学习的可变预言机指导。 ICLR公司 2022
【c9】
- 看法
  - 电子版@nips.cc（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/nips/Weisz0KS22
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/nips/Weisz0KS22
盖勒特·维兹,安德烈斯·吉尔吉,Tadashi Kozuno公司,Csaba Szepesvariá:
$q^\pi$可实现MDP中有效局部规划的可靠近似策略迭代。 NeurIPS公司 2022
【c8】
- 看法
  权限控制：
- 出口记录
  dblp键：
  - conf/ps/YagiNSKH22
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/ps/YagiNSKH22
八木神户,中原文治,铃木康介,Tadashi Kozuno公司,久野大辅:
基于深度学习的前程压缩非线性量化器。 OECC/PSC公司 2022:1-3
[i13]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 日记账/corr/abs-2205-08716
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2205-08716
韩旺（Han Wang）,阿奇特·萨哈多奥,亚当·怀特,詹姆斯·贝尔,文森特·刘,赵旭彤,刘普洱,Tadashi Kozuno公司,阿隆娜·费舍,马莎怀特:
不再有Pesky超参数：RL的脱机超参数调整。 CoRR公司 abs/2205.08716(2022)
[i12]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2205-14211
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2205-14211
Tadashi Kozuno公司,杨文浩,尼诺·维亚拉德,北村俊一,汤云浩,金城美,皮埃尔·梅纳德,穆罕默德·盖什拉希·阿扎尔,米查尔·瓦尔科,雷米·穆诺斯,奥利维尔·皮特金,马蒂厄·盖斯特,Csaba Szepesvariá:
具有生成模型的KL-Entropy-Regularized RL是Minimax最优的。 CoRR公司 abs/2205.14211(2022)
[i11]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-220-15755
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-220-15755
盖勒特·维兹,安德烈斯·吉尔吉,Tadashi Kozuno公司,Csaba Szepesvariá:
q中有效局部规划的置信近似策略迭代^π-可实现MDP。 CoRR公司 abs/2210.15755(2022)
[i10]
- 看法
  - 通过DOI的电子版（开放存取）
  - 参考文献和引文
  权限控制：
- 出口记录
  dblp键：
  - 期刊/corr/abs-2212-12567
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2212-12567
科梅·菲格尔,皮埃尔·梅纳德,Tadashi Kozuno公司,雷米·穆诺斯,维亚尼·珀切特,米查尔·瓦尔科:
适应零和不完全信息博弈中的博弈树。 CoRR公司 abs/2212.12567(2022)
2021
【c7】
- 看法
  - 电子版@mlr.press（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/icml/FurutaMKMLNG21
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/icml/FurutaMKMLG21
Hiroki Furuta公司,松岛达也,Tadashi Kozuno公司,松本裕隆（Yutaka Matsuo）,谢尔盖·莱文,奥菲尔·纳楚姆,《世祥·谢恩古》:
政策信息能力：深度强化学习中任务复杂性的信息理论度量。 ICML公司 2021:3541-3552
【c6】
- 看法
  - 电子版@mlr.press（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/icml/KozunoTRMKDVA21
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/icml/KozunoTRMKDVA21
Tadashi Kozuno公司,汤云浩,马克·罗兰,雷米·穆诺斯,史蒂文·卡普托洛夫斯基,威尔·达布尼,米查尔·瓦尔科,埃布尔:
重温彭氏现代强化学习的Q（λ）。 ICML公司 2021:5794-5804
【c5】
- 看法
  - 电子版@neurips.cc（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/nips/TangKRMV21文件
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/nips/TangKRMV21
汤云浩,Tadashi Kozuno公司,马克·罗兰,雷米·穆诺斯,米查尔·瓦尔科:
通过非政策评估实现元增强学习的统一梯度估计。 NeurIPS公司 2021:5303-5315
【c4】
- 看法
  - 电子版@neurips.cc（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/nips/FurutaKMMG21
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/nips/FurutaKMMG21
Hiroki Furuta公司,Tadashi Kozuno公司,松岛达也,松本裕隆（Yutaka Matsuo）,《世祥·谢恩古》:
基于推理的深度强化学习中算法和实现创新的协同适应。 NeurIPS公司 2021:9828-9842
【c3】
- 看法
  - 电子版@neurips.cc（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/nips/KozunoMMV21型
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/nips/KozunoMMV21
Tadashi Kozuno公司,皮埃尔·梅纳德,雷米·穆诺斯,米查尔·瓦尔科:
具有完全回忆的两人零和部分可观测马尔可夫博弈中的学习。 NeurIPS公司 2021:11987-11998
[第九章]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 日记账/corr/abs-2103-00107
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2103-00107
Tadashi Kozuno公司,汤云浩,马克·罗兰,雷米·穆诺斯,史蒂文·卡普托洛夫斯基,威尔·达布尼,米查尔·瓦尔科,埃布尔:
重温彭氏现代强化学习的Q（λ）。 CoRR公司 abs/2103.00107(2021)
[i8]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-2103-12726
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2103-12726
Hiroki Furuta公司,松岛达也,Tadashi Kozuno公司,松本裕隆（Yutaka Matsuo）,谢尔盖·莱文,奥菲尔·纳楚姆,《世祥·谢恩古》:
政策信息能力：深度强化学习中任务复杂性的信息理论度量。 CoRR公司腹肌/2103.12726(2021)
[i7]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/cor/abs-2103-17258
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2103-17258
Hiroki Furuta公司,Tadashi Kozuno公司,松岛达也,松本裕隆（Yutaka Matsuo）,《世祥·谢恩古》:
识别深度强化学习中算法和实现创新的协同适应：基于推理的算法的分类和案例研究。 CoRR公司 abs/2103.17258(2021)
[i6]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-2106-06279
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2106-06279
Tadashi Kozuno公司,皮埃尔·梅纳德,雷米·穆诺斯,米查尔·瓦尔科:
具有完美回忆的二人零和部分可观测马尔可夫对策的无模型学习。 CoRR公司 abs/2106.06279(2021)
[i5]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 日记账/corr/abs-2106-13125
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2106-13125
汤云浩,Tadashi Kozuno公司,马克·罗兰,雷米·穆诺斯,米查尔·瓦尔科:
通过非政策评估实现元增强学习的统一梯度估计。 CoRR公司腹肌/2106.13125(2021)
[i4]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/cor/abs-2107-08285
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2107-08285
陈幼坚,雨果·席尔瓦,宋素林,Tadashi Kozuno公司,A.鲁帕姆·马哈茂德,马莎怀特:
政策优化的Greedification算子：研究正向和反向KL差异。 CoRR公司 abs/2107.08285(2021)
2020
【c2】
- 看法
  - 电子版@neurips.cc（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/nips/VieillardKSPMG20
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/nips/VieillardKSPMG20
尼诺·维亚拉德,Tadashi Kozuno公司,布鲁诺·谢勒,奥利维尔·皮特金,雷米·穆诺斯,马蒂厄·盖斯特:
利用平均值：强化学习中KL规则化的分析。 NeurIPS公司 2020
[i3]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-2003-14089
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-2003-14089
尼诺·维亚拉德,Tadashi Kozuno公司,布鲁诺·谢勒,奥利维尔·皮特金,雷米·穆诺斯,马蒂厄·盖斯特:
利用平均值：RL规则化分析。 CoRR公司 abs/2003.14089(2020)

2010 – 2019

请参阅常见问题解答

出版物列表中颜色的含义是什么？

2019
【c1】
- 看法
  - 电子版@mlr.press（开放存取）
  - 没有参考文献和引文
- 出口记录
  dblp键：
  - conf/aistats/KozunoUD19
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/conf/aistats/KozunoUD19
Tadashi Kozuno公司,内野英二,Kenji Doya公司:
强化学习中Softmax和Gap-Increased算子效率和鲁棒性的理论分析。 AISTATS公司 2019:2995-3003
[i2]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-1906-07586
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-1906-07586
Tadashi Kozuno公司,东齐韩,Kenji Doya公司:
针对高效和耐噪声强化学习的差距增大政策评估。 CoRR公司 abs/1906.07586(2019)
2017
[i1]
- 看法
  - 电子版@arxiv.org（开放访问）
  - 参考文献和引文
- 出口记录
  dblp键：
  - 期刊/corr/abs-1710-10866
- 问别人
- 股份记录
  持久URL：
  - https://dblp.org/rec/journals/corr/abs-1710-10866
Tadashi Kozuno公司,内野英二,Kenji Doya公司:
统一价值迭代、优势学习和动态政策规划。 CoRR公司 abs/1710.10866(2017)

合著者索引

请参阅常见问题解答

服务

管理网站设置

为了保护您的隐私，所有依赖浏览器外部API调用的功能都是默认情况下关闭。你需要选择加入，让他们变得活跃。此处的所有设置将在您的web浏览器中存储为cookie。有关更多信息查看我们的F.A.Q。