雷寒（Lei Han）

首席研究员

办公室：中国深圳滨海大厦。
腾讯电子邮件：腾讯网lxhan
Gmail：gmail dot com上的leihan dot cs

以前的电子邮件地址：lei.han@msstate.edu;lhan@stat.rutgers.edu;leihan@comp.hkbu.edu.hk;hanlei@cis.pku.edu.cn

我是腾讯机器人X的首席研究员。我是代理学习中心的负责人。我是美国密西西比州立大学基础科学系的助理研究教授，我在北京大学获得了博士学位（由教授建议谢昆庆)并在香港浸会大学度过了两年（由教授建议于章)和罗格斯大学（由教授建议张彤（音译）)作为博士后研究员。我是中国人工智能协会（CAAI）最佳论文奖获得者(中国人工智能学会优博).我的研究兴趣主要集中在机器学习、人工智能以及在机器人和游戏中的应用。

选定出版物

[谷歌学者]

长期项目

[4] 雷寒^*、朱清旭^*、盛嘉鹏^*、张冲^*，李廷光^*，张仪征^*、何章^*刘玉珍、周成、赵瑞、，李杰、张玉凤、王瑞、池万超、熊莉、朱永辉、项玲珠、肖腾、张正友。（*同等出资）
四足机器人使用强化学习和生成性预训练模型实现逼真的敏捷性和游戏性。[项目页面][PDF格式][阿西夫][代码和数据]
在：自然机器智能，第6卷，第7期，2024年。(封面文章)
[3] 雷寒^∗，熊杰超^∗，孙鹏^∗孙星海、孟芳、郭庆伟、陈巧波、史腾飞、张正友。（*同等贡献。与前三位作者的通信。）
TStarBot-X：《星际争霸II》全游戏中高效联盟训练的开放资源和综合研究。[阿西夫]
arXiv预印arXiv:2011.37292020。
[2]孙鹏（音译）^∗、熊洁超^∗,雷寒^∗孙星海、李树兴、徐佳伟、方萌、张正友。（*同等贡献。与前三位作者的通信。）
TLeague：基于竞争性自我游戏的分布式多智能体强化学习框架。[阿西夫]
arXiv预印arXiv：2011.128952020。
[1]孙鹏（音译）^*，孙兴海^*,雷寒^*、熊洁超^*、王庆、李波、杨正、刘季柳、刘永生、刘韩、张彤。（*同等出资）
TStarBots：在完整游戏中击败星际争霸II中的作弊级内置人工智能。[阿西夫]
arXiv:1809.07193[cs.AI]，2018年。

2024

[58] 雷寒^*、朱清旭^*、盛嘉鹏^*、张冲^*，李廷光^*，张仪征^*、何章^*刘玉珍、周成、赵瑞、，李杰、张玉凤、王瑞、池万超、熊莉、朱永辉、项玲珠、肖腾、张正友。（*同等出资）
四足机器人使用强化学习和生成性预训练模型实现逼真的敏捷性和游戏性。[项目页面][PDF格式][阿西夫][代码和数据]
在：自然机器智能，第6卷，第7期，2024年。
[57]李英如、徐佳伟、，雷寒罗志泉。
Q-Star遇到可扩展的后验采样：通过HyperAgent桥接理论和实践。[阿西夫]
在：机器学习国际会议(ICML公司), 2024.
[56]张冲、盛嘉鹏、李廷光、何章、周成、朱清旭、赵瑞、张仪征、，雷寒.
学习四足机器人的高动态行为。[阿西夫]
在：IEEE机器人与自动化国际会议(ICRA公司), 2024.
[55]史浩杰、李廷光、朱庆旭、盛嘉鹏、，雷寒，Max Q.-H Meng。
一种在没有强化的情况下学习敏捷运动技能的有效的基于模型的方法。[阿西夫]
在：IEEE机器人与自动化国际会议(ICRA公司), 2024.
[54]史继元、白晨嘉、何浩然、，雷寒王东、赵斌、赵明国、李秀丽、李雪龙。
通过风险规避策略学习实现四足动物的稳健运动。[阿西夫]
在：IEEE机器人与自动化国际会议(ICRA公司), 2024.
[53]杨瑞、韩忠、徐嘉伟、张艾米、张崇杰、，雷寒、童章。
多样化数据破坏下的鲁棒离线强化学习。[阿西夫]
在：第十二届学习代表国际会议(ICLR公司), 2024. (聚光灯)
[52]杨玉成、周天一、何强、，雷寒、Mykola Pechenizkiy、Meng Fang。
从技能中适应任务：信息几何、分离和无监督强化学习的新目标。[阿西夫]
在：第十二届学习代表问题国际会议(ICLR公司), 2024. (聚光灯)
[51]杨玉成、周天一、，雷寒、孟芳和Mykola Pechenizkiy。
无监督强化学习的自动课程。[阿西夫]
在：自治代理和多代理系统国际会议(美国原子能机构), 2024.
[50]徐嘉伟、周成、张仪征、王宝祥、，雷寒.
快速政策转移的相对政策转换优化。[阿西夫]
在：第三十八届AAAI人工智能会议(AAAI公司), 2024.

2023

[49]赵慧琪、张仪征、，雷寒钱伟琦、王嘉斌、吴和婷、李静晨、袁岱、张正友、克里斯·R·鲍文、亚阳。
使用具有人类触觉感知的超轻多功能纳米碳气凝胶传感器进行智能识别。[PDF格式]
在：纳米-微米字母（IF=23.655）, 2023.
[48]董宏华、徐嘉伟、余阳、赵瑞、吴世文、袁春、李秀丽、克里斯·麦迪逊、，雷寒.
MeGraph：通过在多尺度图形层次上交替进行局部和层次聚集来捕获长范围交互。[PDF格式]
在：第三十七届神经信息处理系统会议(NeurIPS公司), 2023.
[47]朱清旭*、何章*、兰梦婷、，雷寒（*同等出资）
基于物理的字符控制的神经分类先验。[项目页面][阿西夫]
在：ACM图形事务(TOG公司)（ACM SIGGRAPH Asia 2023程序）, 2023. (最佳论文荣誉奖)
[46]李廷光、张仪征、张冲、朱清旭、盛嘉鹏、池万超、周成、，雷寒.
通过模仿动物学习具有敏捷行为的地形自适应运动。[阿西夫]
在：智能机器人和系统国际会议(IROS公司), 2023.
[45]张申奥、李深、，雷寒李深。
多智能体强化学习中智能体元表示的学习。[阿西夫]
在：终身学习代理会议(科拉斯), 2023.
[44]李树兴*、徐嘉伟*、董红花、于洋、袁春元、孙鹏、，雷寒（*同等出资）
Fittest获胜：在ViZDoom竞争中实现新SOTA的多阶段框架。[链接]
在：IEEE游戏交易(TG公司), 2023.
[43]徐嘉伟*、李树兴*、杨瑞、袁春、，雷寒（*同等出资）
通过价值一致性优先化实现高效的多目标强化学习。[链接]
在：人工智能研究杂志(美洲虎), 2023.
[42]Rui Zhao*、Xu Liu*、Yizheng Zhang*、Minghao Li、Cheng Zhou、Shuai Li和雷寒（*同等出资）
CraftEnv：用于多智能体强化学习的灵活集体机器人构建环境。[链接]
在：自治代理和多代理系统国际会议(美国原子能机构), 2023.

2022

[41]郝孙，雷寒、瑞阳、马晓腾、郭健、周伯雷。
在基于价值的深层RL中利用报酬转移[阿西夫]
在：神经信息处理系统会议(NeurIPS公司), 2022.
[40]Rui Yang*、Chenjia Bai*、Xiaoteng Ma、Zhaoran Wang、Chongjie Zhang、，雷寒（*同等出资）
RORL：通过保守平滑实现稳健的离线强化学习。[阿西夫]
在：神经信息处理系统会议(NeurIPS公司), 2022. (聚光灯)
[39]徐启伟、张仪征、张盛浩、赵睿、吴卓兴、张东胜、周成、熊莉、陈佳红、赵增军、唐鲁阳、张正友、，雷寒.
RECCraft系统：实现可靠高效的集体机器人构建。[PDF格式]
在：2022年IEEE/RSJ智能机器人和系统国际会议记录(IROS公司), 2022.
[38]杨瑞、陆一鸣、李文哲、孙浩、孟芳、杜亚丽、李秀丽、，雷寒张崇杰。
重新思考目标条件下的监督学习及其与离线RL的联系[PDF格式]
在：第十届国际学习代表大会(ICLR公司), 2022.

2021

[37]白晨嘉、王凌霄、，雷寒阿尼梅斯·加格（Animesh Garg）、郝建业（Jianye Hao）、刘鹏（Peng Liu）、王兆然（Zhaoran Wang）。
稳健自我监督探索的动态瓶颈。[PDF格式]
在：神经信息处理系统会议(NeurIPS公司), 2021.
[36]瑞阳、孟芳、，雷寒杜亚丽、罗凤、李秀丽。
MHER：基于模型的后视体验重播。[PDF格式]
在：NeurIPS的DeepRL研讨会, 2021.
[35]白晨佳，王凌霄，雷寒，郝建业，Animesh Garg，刘鹏，王兆然。
通过乐观引导和反向归纳法进行原则性探索。[阿西夫]
在：机器学习国际会议(ICML公司), 2021. (聚光灯)
[34]白晨嘉、刘鹏、刘开宇、王凌霄、赵英南、，雷寒王兆然。
深度强化学习中自我监督探索的变分动力学。[PDF格式]
在：IEEE神经网络和学习系统汇刊(TNNLS公司), 2021.
[33]王璐，雷寒陈新茹、李成昌、黄俊洲、张卫南、张伟、何晓峰、罗迪军。
用于分配保证显示广告的分层多代理强化学习[PDF格式]
在：IEEE神经网络和学习系统汇刊(TNNLS公司), 2021.
[32]凯特琳·沃特斯、程高、马修·伊凯玛、，雷寒林登·沃思（Lynden Voth）、陶一智（Yizhi Tao）、王秀峰（Xiu-Feng Wan）。
三重重组增加了当代禽流感和人流感A病毒核糖核蛋白基因之间的兼容性。[链接]
在：多囊卵巢综合征病原体, 2021.
[31]凯特琳·沃特斯，汉密尔顿·万，雷寒薛建丽、马修·伊克玛、陶一智、王秀峰。
PB1催化活性位点保守基序之外的变异可能影响A型流感病毒RNP复合体的复制效率。[链接]
在：病毒学, 2021.

2020

[30] 雷寒、谭庆明、杨婷和张彤。
大尺度多类Logistic回归的局部不确定性抽样。[PDF格式][阿西夫]
在：统计年鉴(AOS公司), 48(3): 1770-1788, 2020.arXiv:1604.080982016年。
[29]Lei Li、Deborah Chang、，雷寒张晓健、蔡依雅、万秀峰。
多任务学习稀疏群套索：一种使用血凝素糖基化突变和变异量化甲型H1N1流感病毒抗原性的方法。[PDF格式]
在：BMC生物信息学, 2020.
[28]黄一恒、田金川、，雷寒王广森、宋星辰、苏丹红、董瑜。
用于神经语言建模的随机流言BMUF过程。[阿西夫]
在：国际声学、语音和信号处理会议(ICASSP公司), 2020.
[27]李祥泰、赵厚龙、，雷寒汤云海、谭少华、杨奎元。
用于语义分割的门控完全融合。[阿西夫]
在：第三十四届AAAI人工智能会议(AAAI公司), 2020.

2019

[26]杜雅丽^*,雷寒^*、孟芳、刘季、戴天鸿、陶大成。（*等额出资）
LIIR：在多智能体强化学习中学习个体内在回报。[PDF格式]
在：第三十三届神经信息处理系统年会(NeurIPS公司), 2019.
[25]孟芳、周天一、杜亚丽、，雷寒，张正友。
课程指导的后见体验回放。[PDF格式]
在：第三十三届神经信息处理系统年会(NeurIPS公司), 2019.
[24] 雷寒^*，孙鹏^*，杜亚丽^*熊洁超、王庆、孙星海、刘韩、张彤。（*等额出资）
视频游戏AI中多智能体强化学习的网格化控制[PDF格式][补充材料][演示视频]
在：第三十六届国际机器学习会议(ICML公司), 2019.
[23]Yu Zhang和雷寒.
学习特征之间的深层层次结构。[PDF格式][链接]
在：第三十三届AAAI人工智能会议(AAAI公司), 2019.

2018

[22]王青，熊杰超，雷寒孙鹏、刘韩、张彤。
成批历史数据的指数加权模拟学习。[PDF格式][链接]
在：第三十二届神经信息处理系统年会(NeurIPS公司), 2018.
[21] 雷寒黄一恒和张彤。
大型多类分类问题的候选与噪声估计。[PDF格式][链接][阿西夫]
在：第35届国际机器学习会议(ICML公司), 2018. （长篇演讲）
[20] 雷寒李磊、冯文、雷忠、张彤和万秀峰。
图引导多任务稀疏学习模型：一种识别甲型流感（H3N2）病毒抗原变异的方法。[PDF格式]
在：生物信息学, 2018.
[19]董岱，雷寒、Ting Yang和Tong Zhang。
指数最小二乘损失的贝叶斯模型平均。[链接][阿西夫]
在：IEEE信息理论汇刊(TIT公司), 2018.
[18]杜思晨、宋国杰、，雷寒和Haikun Hong。
具有时滞的时间因果推断。[链接]
在：神经计算30（1），271-291，2018

2016

[17] 雷寒张瑜、王秀凤和张彤。
流感病毒数据中任意顺序交互式抗原位点识别的广义层次稀疏模型。[PDF格式][链接][补充材料][代码]
在：第22届ACM SIGKDD知识发现和数据挖掘会议记录(KDD公司)2016年，美国旧金山。（接受率=18.1%。完整演示，接受率=8.9%）
[16] 雷寒^*，于章^*和Tong Zhang（*同等出资）
用于大规模逆协方差估计的快速分量追踪。[PDF格式][链接]
在：第22届ACM SIGKDD知识发现和数据挖掘会议论文集(KDD公司)2016年，美国旧金山。（接受率=18.1%）
[15] 雷寒和于章。（两位作者的贡献相等）
基于图的凸聚类的约简技术[PDF格式][链接][补充材料]
在：第三十届AAAI人工智能会议记录(AAAI公司)美国亚利桑那州凤凰城，2016年。（接受率=26%）
[14] 雷寒和于章。（两位作者的贡献相等）
降低等级的多阶段多任务学习。[PDF格式][链接][补充材料]
在：第三十届AAAI人工智能会议记录(AAAI公司)美国亚利桑那州凤凰城，2016年。（接受率=26%）
[13]李雷，雷寒和王秀凤。
使用稀疏群拉索回归确定决定甲型流感病毒抗原漂移事件的糖基化位点和突变。[链接]
在：糖生物学26（12）, 1393-1394, 2016.
[12]周夏兵、邢兴兴、，雷寒、洪海昆、卞凯贵、谢昆卿。
不完备数据的结构特征学习方法。[PDF格式][链接][补充材料]
在：国际模式识别与人工智能杂志30（9）：1660007, 2016.

2015

[11] 雷寒和于章。（两位作者的贡献相等）
多任务学习中的学习树结构。[PDF格式][链接][补充材料][代码]
在：第21届ACM SIGKDD知识发现和数据挖掘会议记录(KDD公司)，悉尼，2015年。（验收率=19%）
[10]周夏兵，雷寒Xingxing Xing、Haikun Hong、Wenhao Huang、Kaigui Bian和Kunqing Xie。
在不完全数据的学习中融入时间平滑性和组结构。[链接]
在：第十二届模糊系统与知识发现国际会议论文集(FSKD公司), 2015.
[9]叶柳、聂利强、，雷寒张鲁明（Luming Zhang）、大卫·罗森布鲁姆（David Rosenblum）。
Action2Activity：从传感器数据中识别复杂活动。[链接]
在：国际人工智能联合会议(国际JCAI), 2015.（接受率=28.8%）
[8]宋国杰，雷寒^*谢昆卿。(*通讯作者；前两位作者的贡献相等）
高斯图形建模的重叠分解。[PDF格式][链接]
在：IEEE知识与数据工程汇刊(TKDE公司), 2015. （KDD2012中出现了会议文件的改进版本）
[7] 雷寒和于章。（两位作者的贡献相等）
在多任务学习中学习多层次任务组。[PDF格式][链接][补充材料][代码]
在：第二十届AAAI人工智能会议记录(AAAI公司)2015年，美国德克萨斯州奥斯汀。（验收率=26.7%）
[6] 雷寒和于章。（两位作者的贡献相等）
鉴别特征分组。[PDF格式][链接][代码]
在：第二十届AAAI人工智能会议记录(AAAI公司)2015年，美国德克萨斯州奥斯汀。（验收率=26.7%）

2014年之前

[5] 雷寒张瑜、宋国杰、谢昆卿。
多任务学习中的编码树稀疏性：一个概率框架[PDF格式][链接]
在：第二十八届AAAI人工智能会议记录(AAAI公司)2014年，加拿大魁北克省魁北克市。（接受率=28%）
[4] 雷寒宋国杰、高聪、谢昆卿。
因果图形建模的重叠分解。[PDF格式][链接]
在：第18届ACM SIGKDD知识发现和数据挖掘国际会议记录(KDD公司)，中国北京，2012年。（接受率=18%）
[3] 雷寒谢昆卿和宋国杰。
局部加权学习中随数据密度变化的自适应拟合参数调整。[PDF格式]
在：第七届神经网络国际研讨会论文集(ISNN公司)中国上海，2010年。
[2] 雷寒吴建英、顾萍、谢昆卿、宋国杰、汤世伟、杨东青、焦丙丽和高峰。
基于局部加权学习的自适应知识转移。[PDF格式]
在：人工智能技术与应用会议论文集(泰国)，台湾新竹，2010年。
[1] 雷寒、孟帅、谢昆卿、宋国杰、马秀君。
交通流预测中适应数据分布的局部核回归。[PDF格式]
在：第18届国际地理信息学会议记录(地理信息学)，中国北京，2010年。

预印本和技术报告

王庆（音）^∗、熊洁超^∗,雷寒、孟芳、孙星海、郑卓斌、孙鹏、张正友。（*等额出资）
Arena：多智能体强化学习工具包。[阿西夫]
arXiv:1907.09467[cs.LG]，2019年。
黄一恒^∗、何立强^*王广森，雷寒和Dan Su.（*同等出资）
基于短语级类的汉语智能说话人查询识别语言模型。[阿西夫]
arXiv:1909.00556[cs.CL]，2019年。
熊洁超、王庆、杨卓然、孙鹏、，雷寒、杨正、傅浩波、张彤、刘吉、刘韩
参数化深度Q网络学习：离散连续混合动作空间的强化学习。[阿西夫]
arXiv:1810.06394[cs.LG]，2018年。

博士论文（中文）

雷寒.交通网络分析中的多任务学习方法EECS，北京大学，2014年7月。

活动

期刊审核人：
IEEE知识与数据工程汇刊（TKDE）
IEEE智能交通系统汇刊（TITS）
机器学习研究杂志（JMLR）
IEEE模式分析和机器智能汇刊（TPAMI）
神经计算
PC成员/审核人：
AAAI:2016-2020年
NeurIPS:2016-2023年
ICML:2018-2023年
ICLR:2018-2023年
高级PC成员：
IJCAI:202021年

前学生

杜雅丽（伦敦国王学院助理教授。腾讯人工智能实验室Intership，2018-2019）
帅丽（上海交通大学副教授。腾讯人工智能实验室Intership，2018-2019）
陈家白（上海人工智能实验室研究员，腾讯机器人X实验室Intership，2020年）
瑞阳（Rui Yang）（香港科技大学博士，腾讯机器人X实验室Intership，2021-2022）
洪华东（多伦多大学博士，腾讯机器人X实验室Intership，2021-2022）
郝孙（剑桥大学博士，腾讯机器人X实验室，2021年）
李树星（清华大学硕士，腾讯机器人X实验室，2021-2022）
李英如（香港中文大学博士，腾讯机器人X实验室Intership，2020-2022）
杨玉成（Eindhoven科技大学博士，腾讯机器人X实验室，2022-2023）
徐佳伟（中大博士。腾讯机器人X实验室Intership，2021年-）

荣誉和奖项

ACM图形交易（ACM SIGGRAPH Asia 2023），最佳论文荣誉奖，2023年。
中国人工智能协会最佳论文奖(中国人工智能学会优博), 2016. [链接]
2014年北京市优秀博士研究生奖
2014年北京大学杰出博士研究生奖
2013-2014年校长奖学金（北京大学最高奖学金）
2012-2013年校长奖学金（北京大学最高奖学金）
2011-2012年中国国家奖学金（从中国顶尖博士生中选出）
2011-2012年校长奖学金（北京大学最高奖学金）
2010-2011年校长奖学金（北京大学最高奖学金）
2010-2011年优秀学生奖（从北京大学顶尖研究生中选出）
2009-2010年校长奖学金（北京大学最高奖学金）
2009-2010年优秀学生奖（从北京大学顶尖研究生中选出）