南江

你好，我是南江。我是一名机器学习研究员。
我致力于建立强化学习（RL）的理论基础，尤其是在函数逼近设置方面。

潜在学生：请阅读这张便条.
我愿意就将RL应用于域X展开合作：笔记

2024年-现在		副教授，CS@UIUC
2018 – 2024		助理教授，CS@UIUC
2017 – 2018		博士后研究员，MSR纽约
2011 – 2017		博士，乌米奇CSE

3322 Siebel中心个人简历
伊利诺伊州立大学的南江分校
南江cs（a）收集一些有用的（？）推文）

服务和认可

期刊编辑和会议区主席

STS公司AE（RL特刊，2024）
JMLR公司动作编辑器（2024-）
FnT（ML）编辑（2023-）
ICML地区主席（2019-）
NeurIPS区域主席（2020–）
ICLR高级地区主席（2024年）

研究奖项

谷歌研究学者(2024)
史隆研究学者奖(2024)
ICML公司优秀论文亚军(2022)
国家科学基金会职业授予（2022年）
Adobe数据科学研究奖（2021年）
AAMAS最佳论文奖（2015）

教学奖项

卓越教学奖（CS 598 F20）
卓越教学（CS 542:F22、F21、S19、F18；CS 443:S24、S23、S21）

选定出版物
（单击展开）

非政策评估中未来相关价值函数的未来与历史诅咒[arXiv公司,幻灯片]
(预印本)张玉恒，南江。
POMDP中无模型OPE的新覆盖概念

POMDP中基于未来相关价值的非政策评估[arXiv公司]
（NeurIPS-23，聚光灯)Masatoshi Uehara、Haruka Kiyohara、Andrew Bennett、Victor Chernozhukov、Nan Jiang、Nathan Kallus、Chengchun Shi、Wen Sun。
使PSR思想现代化，并将其转变为允许无模型函数近似的框架

具有密度特征的低秩MDP中的强化学习[arXiv公司]
（ICML-23）Audrey Huang*、Jinglin Chen*、Nan Jiang。
通过新的误差归纳分析获得了清晰的结果，用于控制误差指数。

具有可实现性和单策略集中性的离线强化学习[arXiv公司]
（COLT-22）詹文浩、黄百合、黄奥黛丽、南江、杰森·D·李。
行为正则化是避免函数逼近下退化鞍点的关键

线下强化学习的对抗训练演员-评论家[arXiv公司]
（ICML-22， 优秀论文亚军)程庆安*、谢腾阳*、南江、阿加瓦尔。
Bellman一贯的悲观主义与模仿学习的稳健政策改进

面向离线强化学习的超参数无策略选择[arXiv公司,代码]
（NeurIPS-21）张思源，南江。
BVFT在离线政策选择方面表现出良好的实证性能。

最优状态值函数线性可实现条件下MDP中的查询效率规划[arXiv公司]
（COLT-21）Gellert Weisz、Philip Amortila、Barnabás Janzer、Yasin Abbasi-Yadkori、Nan Jiang、Csaba Szepesvari。
生成模型+线性V*的可爱张量技巧。

只有可实现性的批值函数逼近[arXiv公司,谈话]
（ICML-21）谢腾阳，南江。
从一个可实现的或任意的函数类中学习Q*，这被认为是不可能的

非政策评估的Minimax权重和Q函数学习[arXiv公司]
（ICML-20）Masatoshi Uehara，Jiawei Huang，南江。
通过与RL中许多新旧算法的联系，相互学习重要性权重和值函数。

批量强化学习中的信息论思考[pdf格式,海报,MSR对话,西蒙斯说话]
（ICML-19）陈静林，南江。
重新审视基于价值的RL的一些基本方面。

低Bellman秩的上下文决策过程是PAC可学习的[ICML版本,arXiv公司,勘误表,海报,谈话视频]
（ICML-17）南江、阿克谢·克里希纳穆西、阿勒克·阿加瓦尔、约翰·朗福德、罗伯特·夏皮雷。
用函数逼近研究RL的一种新的一般理论。

强化学习的双稳健非政策价值评估[pdf格式,海报]
（ICML-16）南江，李丽红。
通过控制变量简单有效地改进重要性抽样。

谈BVFT与Bellman一贯的悲观主义