你好,我是南江。我是一名机器学习研究员。
我致力于建立强化学习(RL)的理论基础,尤其是在函数逼近设置方面。

潜在学生:请阅读这张便条.
我愿意就将RL应用于域X展开合作:笔记


2024年-现在   副教授,CS@UIUC
2018 – 2024   助理教授,CS@UIUC
2017 – 2018   博士后研究员,MSR纽约
2011 – 2017   博士,乌米奇CSE


3322 Siebel中心 个人简历  
伊利诺伊州立大学的南江分校
 
南江cs(a)收集一些有用的(?)推文)  

服务和认可

期刊编辑和会议区主席

  • STS公司AE(RL特刊,2024)
  • JMLR公司动作编辑器(2024-)
  • FnT(ML)编辑(2023-)
  • ICML地区主席(2019-)
  • NeurIPS区域主席(2020–)
  • ICLR高级地区主席(2024年)

研究奖项

教学奖项

  • 卓越教学奖(CS 598 F20)
  • 卓越教学(CS 542:F22、F21、S19、F18;CS 443:S24、S23、S21)

选定出版物
(单击展开)

非政策评估中未来相关价值函数的未来与历史诅咒[arXiv公司,幻灯片]
(预印本)张玉恒,南江。
POMDP中无模型OPE的新覆盖概念

POMDP中基于未来相关价值的非政策评估[arXiv公司]
(NeurIPS-23,聚光灯)Masatoshi Uehara、Haruka Kiyohara、Andrew Bennett、Victor Chernozhukov、Nan Jiang、Nathan Kallus、Chengchun Shi、Wen Sun。
使PSR思想现代化,并将其转变为允许无模型函数近似的框架

具有密度特征的低秩MDP中的强化学习[arXiv公司]
(ICML-23)Audrey Huang*、Jinglin Chen*、Nan Jiang。
通过新的误差归纳分析获得了清晰的结果,用于控制误差指数。

具有可实现性和单策略集中性的离线强化学习[arXiv公司]
(COLT-22)詹文浩、黄百合、黄奥黛丽、南江、杰森·D·李。
行为正则化是避免函数逼近下退化鞍点的关键

线下强化学习的对抗训练演员-评论家[arXiv公司]
(ICML-22, 优秀论文亚军)程庆安*、谢腾阳*、南江、阿加瓦尔。
Bellman一贯的悲观主义与模仿学习的稳健政策改进

面向离线强化学习的超参数无策略选择[arXiv公司,代码]
(NeurIPS-21)张思源,南江。
BVFT在离线政策选择方面表现出良好的实证性能。

最优状态值函数线性可实现条件下MDP中的查询效率规划[arXiv公司]
(COLT-21)Gellert Weisz、Philip Amortila、Barnabás Janzer、Yasin Abbasi-Yadkori、Nan Jiang、Csaba Szepesvari。
生成模型+线性V*的可爱张量技巧。

只有可实现性的批值函数逼近[arXiv公司,谈话]
(ICML-21)谢腾阳,南江。
从一个可实现的或任意的函数类中学习Q*,这被认为是不可能的

非政策评估的Minimax权重和Q函数学习[arXiv公司]
(ICML-20)Masatoshi Uehara,Jiawei Huang,南江。
通过与RL中许多新旧算法的联系,相互学习重要性权重和值函数。

批量强化学习中的信息论思考[pdf格式,海报,MSR对话,西蒙斯说话]
(ICML-19)陈静林,南江。
重新审视基于价值的RL的一些基本方面。

低Bellman秩的上下文决策过程是PAC可学习的[ICML版本,arXiv公司,勘误表,海报,谈话视频]
(ICML-17)南江、阿克谢·克里希纳穆西、阿勒克·阿加瓦尔、约翰·朗福德、罗伯特·夏皮雷。
用函数逼近研究RL的一种新的一般理论。

强化学习的双稳健非政策价值评估[pdf格式,海报]
(ICML-16)南江,李丽红。
通过控制变量简单有效地改进重要性抽样。


谈BVFT与Bellman一贯的悲观主义