选定出版物
(单击展开)
非政策评估中未来相关价值函数的未来与历史诅咒[arXiv公司,幻灯片]
(预印本)张玉恒,南江。
POMDP中无模型OPE的新覆盖概念
POMDP中基于未来相关价值的非政策评估[arXiv公司]
(NeurIPS-23,聚光灯)Masatoshi Uehara、Haruka Kiyohara、Andrew Bennett、Victor Chernozhukov、Nan Jiang、Nathan Kallus、Chengchun Shi、Wen Sun。
使PSR思想现代化,并将其转变为允许无模型函数近似的框架
具有密度特征的低秩MDP中的强化学习[arXiv公司]
(ICML-23)Audrey Huang*、Jinglin Chen*、Nan Jiang。
通过新的误差归纳分析获得了清晰的结果,用于控制误差指数。
具有可实现性和单策略集中性的离线强化学习[arXiv公司]
(COLT-22)詹文浩、黄百合、黄奥黛丽、南江、杰森·D·李。
行为正则化是避免函数逼近下退化鞍点的关键
线下强化学习的对抗训练演员-评论家[arXiv公司]
(ICML-22, 优秀论文亚军)程庆安*、谢腾阳*、南江、阿加瓦尔。
Bellman一贯的悲观主义与模仿学习的稳健政策改进
面向离线强化学习的超参数无策略选择[arXiv公司,代码]
(NeurIPS-21)张思源,南江。
BVFT在离线政策选择方面表现出良好的实证性能。
最优状态值函数线性可实现条件下MDP中的查询效率规划[arXiv公司]
(COLT-21)Gellert Weisz、Philip Amortila、Barnabás Janzer、Yasin Abbasi-Yadkori、Nan Jiang、Csaba Szepesvari。
生成模型+线性V*的可爱张量技巧。
只有可实现性的批值函数逼近[arXiv公司,谈话]
(ICML-21)谢腾阳,南江。
从一个可实现的或任意的函数类中学习Q*,这被认为是不可能的
非政策评估的Minimax权重和Q函数学习[arXiv公司]
(ICML-20)Masatoshi Uehara,Jiawei Huang,南江。
通过与RL中许多新旧算法的联系,相互学习重要性权重和值函数。
批量强化学习中的信息论思考[pdf格式,海报,MSR对话,西蒙斯说话]
(ICML-19)陈静林,南江。
重新审视基于价值的RL的一些基本方面。
低Bellman秩的上下文决策过程是PAC可学习的[ICML版本,arXiv公司,勘误表,海报,谈话视频]
(ICML-17)南江、阿克谢·克里希纳穆西、阿勒克·阿加瓦尔、约翰·朗福德、罗伯特·夏皮雷。
用函数逼近研究RL的一种新的一般理论。
强化学习的双稳健非政策价值评估[pdf格式,海报]
(ICML-16)南江,李丽红。
通过控制变量简单有效地改进重要性抽样。