于白 0017
人员信息
附属: Salesforce Research,美国加利福尼亚州帕洛阿尔托 从属关系(2019年博士): 斯坦福大学,加利福尼亚州,美国
其他同名人员
于白 — 消歧页 于白 0001 -美国罗得岛州普罗维登斯布朗大学工程系 于白 0002 -沈阳航空航天大学,中国知识工程研究中心 于白 0003 -德国凯泽斯劳滕大学嵌入式系统集团计算机科学系 于白 0004 — 加利福尼亚州立大学工程与计算机科学学院,美国加利福尼亚州富勒顿 (还有1个) 于白 0005 -中国科学院地理科学与自然资源研究所,北京 于白 0006 -西安工业大学机电工程学院 于白 0007 -武汉大学电子信息学院 于白 0008 -北京理工大学信号与信息处理实验室,中国 于白 0009 -北京理工大学光电子学院 于白 0010 -国防科技大学并行与分布式实验室,长沙 于白 0011 -哈尔滨工程大学计算机科学与技术学院 于白 0012 -中国海洋大学经济学院,中国青岛 于白 0013 -中国南京航空航天大学民航学院 于白 0014 — 南京审计大学政治经济学院 (还有1个) 于白 0015 -西南石油大学机电工程学院,中国成都 于白 0016 -北京师范大学地理科学学院 于白 0018 -中国计算机科学与技术学院北京理工学院 于白 0019 -澳大利亚悉尼新南威尔士大学 于白 0020 -邮电大学网络与交换技术国家重点实验室
优化列表
2020年–今天
2023 [公元35年] 王元浩 , 刘庆华 , 于白 , 池瑾(Chi Jin) :
打破多代理诅咒:具有函数逼近的高效分散多代理RL。 COLT公司 2023 : 2793-2848 [c34] 王元浩 , 丁文孔 , 于白 , 池瑾(Chi Jin) :
在多人游戏中学习合理化均衡。 ICLR公司 2023 [公元33年] 范晨 , 于白 , 宋梅 :
具有B-稳定性的部分可观测RL:统一的结构条件和尖锐的样本效率算法。 ICLR公司 2023 [c32] 谢腾阳 , 迪伦·福斯特 , 于白 , 南江 , 沙姆·M·卡卡德 :
报道在在线强化学习中的作用。 ICLR公司 2023 [公元31年] Aadyot Bhatnagar公司 , Huan Wang(王欢) , 熊才明 , 于白 :
通过强自适应在线学习改进在线保形预测。 ICML公司 2023 : 2337-2363年 [公元30年] 范晨 , Huan Wang(王欢) , 熊才明 , 宋梅 , 于白 :
揭示POMDP的学习下限。 ICML公司 2023 : 5104-5161 [公元29年] 于白 , 范晨 , Huan Wang(王欢) , 熊才明 , 宋梅 :
变形金刚作为统计学家:可证明的上下文内学习与上下文内算法选择。 NeurIPS公司 2023 [c28] 陈敏硕 , 于白 , H.文森特·普尔 , 王梦迪 :
可观测性受损的有效RL:学会处理延迟和缺失的状态观测。 NeurIPS公司 2023 [公元27年] Hengyu Fu公司 , 郭天宇 , 于白 , 宋梅 :
单个注意力层可以学到什么? 通过随机特征透镜进行的研究。 NeurIPS公司 2023 [i42] 范晨 , Huan Wang(王欢) , 熊才明 , 宋梅 , 于白 :
揭示POMDP的学习下限。 CoRR公司 abs/2302.01333 ( 2023 ) [i41] 王元浩 , 刘庆华 , 于白 , 池瑾(Chi Jin) :
打破多代理诅咒:具有函数逼近的高效分散多代理RL。 CoRR公司 腹肌/2302.06606 ( 2023 ) [i40] Aadyot Bhatnagar公司 , Huan Wang(王欢) , 熊才明 , 于白 :
通过强自适应在线学习改进在线保形预测。 CoRR公司 abs/2302.07869 ( 2023 ) [i39] 陈敏硕 , 于白 , H.文森特·普尔 , 王梦迪 :
可观测性受损的有效RL:学会处理延迟和缺失的状态观测。 CoRR公司 abs/2306.01243 ( 2023 ) [i38] 于白 , 范晨 , Huan Wang(王欢) , 熊才明 , 宋梅 :
变形金刚作为统计学家:可证明的上下文内学习与上下文内算法选择。 CoRR公司 abs/2306.04637 ( 2023 ) [i37] 郭嘉诚 , 陈敏硕 , Huan Wang(王欢) , 熊才明 , 王梦迪 , 于白 :
事后多观察POMDP的样本有效学习。 CoRR公司 abs/2307.02884 ( 2023 ) [公元36年] Hengyu Fu公司 , 郭天宇 , 于白 , 宋梅 :
单个注意力层可以学到什么? 通过随机特征透镜进行的研究。 CoRR公司 腹肌/2307.11353 ( 2023 ) [i35] 李宗林 , 于白 , 宋梅 :
变形金刚作为决策者:通过有监督的预训练进行可证明的上下文强化学习。 CoRR公司 abs/2310.08566 ( 2023 ) [i34] 郭天宇 , 胡伟 , 宋梅 , Huan Wang(王欢) , 熊才明 , 西尔维奥·萨瓦雷斯 , 于白 :
变形金刚如何学习简单函数以外的上下文? 用表征学习的案例研究。 CoRR公司 腹肌/2310.10616 ( 2023 ) [i33] 雷昭(Lei Zhao) , 王梦迪 , 于白 :
反向强化学习比标准强化学习难吗? CoRR公司 abs/2312.00054 ( 2023 ) 2022 [公元26年] 普拉福拉·库马尔·乔比 , 于白 , 吴建胜 , 刘文浩 , 纳兹尼·拉贾尼 :
用于提高零镜头文本分类效率的保角预测器。 EMNLP公司 2022 : 3027-3034 [公元25年] 于白 , 宋梅 , Huan Wang(王欢) , 周英波 , 熊才明 :
具有一般函数类的高效可微保角预测。 ICLR公司 2022 [公元24年] Ziang Song公司 , 宋梅 , 于白 :
我们什么时候才能充分学习具有大量参与者样本的广义Sum Markov对策? ICLR公司 2022 【c23】 于白 , 池瑾(Chi Jin) , 宋梅 , 天成余 :
具有不完全信息的广义形式博弈的近似最优学习。 ICML公司 2022 : 1337-1382 [公元22年] 于白 , 池瑾(Chi Jin) , 宋梅 , Ziang Song公司 , 天成余 :
通过在线镜像下降实现大规模游戏中的高效Phi-Regret最小化。 NeurIPS公司 2022 【c21】 埃沙安·尼查尼 , 于白 , 杰森·D·李 :
识别好的方向以避开NTK机制并有效地学习低阶加稀疏多项式。 NeurIPS公司 2022 [公元20年] Ziang Song公司 , 宋梅 , 于白 :
广义博弈中相关均衡的样本有效学习。 NeurIPS公司 2022 [第19条] 张润宇(音) , 刘庆华 , Huan Wang(王欢) , 熊才明 , 李娜(Na Li) , 于白 :
马尔可夫博弈的策略优化:统一框架和更快的收敛。 NeurIPS公司 2022 [第18条] 罗秀好 , Aadyot Bhatnagar公司 , 于白 , 赵胜佳 , Huan Wang(王欢) , 熊才明 , 西尔维奥·萨瓦雷斯 , 斯特凡诺·埃尔蒙 , 爱德华·施默林 , 马可·帕沃内 :
本地校准:量度和重新校准。 阿拉伯联合酋长国 2022 : 1286-1295 [i32] 于白 , 池瑾(Chi Jin) , 宋梅 , 天成余 :
不完全信息下广义博弈的近最优学习。 CoRR公司 abs/2202.01752 ( 2022 ) [i31] 于白 , 宋梅 , Huan Wang(王欢) , 周英波 , 熊才明 :
具有一般函数类的高效可微保角预测。 CoRR公司 abs/2202.11091 ( 2022 ) [i30] 宋子昂 , 宋梅 , 于白 :
广义博弈中相关均衡的样本有效学习。 CoRR公司 abs/2205.07223 ( 2022 ) [i29] 于白 , 池瑾(Chi Jin) , 宋梅 , Ziang Song公司 , 天成余 :
通过在线镜像下降实现大规模游戏中的高效Φ-后悔最小化。 CoRR公司 腹肌/2205.15294 ( 2022 ) [第28条] 张润宇(音) , 刘庆华 , Huan Wang(王欢) , 熊才明 , 李娜(Na Li) , 于白 :
马尔可夫博弈的策略优化:统一框架和更快的收敛。 CoRR公司 abs/2206.02640 ( 2022 ) [i27] 埃沙安·尼查尼 , 于白 , 杰森·D·李 :
识别好的方向以避开NTK机制,并有效地学习低阶加稀疏多项式。 CoRR公司 腹肌/2206.03688 ( 2022 ) [i26] 范晨 , 宋梅 , 于白 :
具有决策估计系数的RL统一算法:无偏差、PAC和无回报学习。 CoRR公司 abs/2209.11745 ( 2022 ) [i25] 范晨 , 于白 , 宋梅 :
具有B-稳定性的部分可观测RL:统一的结构条件和尖锐的样本效率算法。 CoRR公司 abs/2209.14990 ( 2022 ) 【i24】 谢腾阳 , 迪伦·福斯特 , 于白 , 南江 , 沙姆·M·卡卡德 :
报道在在线强化学习中的作用。 CoRR公司 abs/2210.04157 ( 2022 ) [第23条] 王元浩 , 丁文孔 , 于白 , 池瑾(Chi Jin) :
在多人游戏中学习合理化均衡。 CoRR公司 abs/2210.11402 ( 2022 ) [i22] 普拉福拉·库马尔·乔比 , 于白 , 吴建胜 , 刘文浩 , 纳兹尼·拉贾尼 :
共形预测器用于提高零炮文本分类效率。 CoRR公司 abs/2210.12619 ( 2022 ) 2021 [第17条] 明音 , 于白 , 王玉祥 :
用于强化学习的离线策略评估中的近似最优可证明一致收敛。 AISTATS公司 2021 : 1567-1575 [第16条] 于白 , 陈敏硕 , 潘舟 , 拓兆 , 杰森·D·李 , 沙姆·M·卡卡德 , Huan Wang(王欢) , 熊才明 :
培训验证在元学习中的拆分有多重要? ICML公司 2021 : 543-553 [第15条] 于白 , 宋梅 , Huan Wang(王欢) , 熊才明 :
不要因为过度自信而责怪过度参数化:二元分类中校准的理论分析。 ICML公司 2021 : 566-576 [第14条] 刘庆华 , 天成余 , 于白 , 池瑾(Chi Jin) :
对基于模型的自我游戏强化学习的深入分析。 ICML公司 2021 : 7001-7010 [第13条] 梓潼杨 , 于白 , 宋梅 :
随机特征模型中泛化误差和一致收敛之间的精确差距。 ICML公司 2021 : 11704-11715 [第12条] 明音 , 于白 , 王玉祥 :
基于双方差约简的近最优离线强化学习。 NeurIPS公司 2021 : 7677-7688 [第11条] 于白 , 宋梅 , Huan Wang(王欢) , 熊才明 :
了解不确定性估计中的覆盖不足偏差。 NeurIPS公司 2021 : 18307-18319 [第10条] 于白 , 池瑾(Chi Jin) , Huan Wang(王欢) , 熊才明 :
广义Sum博弈中Stackelberg均衡的样本有效学习。 NeurIPS公司 2021 : 25799-25811 【c9】 谢腾阳 , 南江 , Huan Wang(王欢) , 熊才明 , 于白 :
政策微调:桥接样本高效的离线和在线强化学习。 NeurIPS公司 2021 : 27395-27407 【i21】 明音 , 于白 , 王玉祥 :
基于双方差约简的近最优离线强化学习。 CoRR公司 abs/2102.01748 ( 2021 ) [i20] 于白 , 宋梅 , Huan Wang(王欢) , 熊才明 :
不要仅仅因为过度自信而指责过度参数化:二进制分类中校准的理论分析。 CoRR公司 abs/2102.07856 ( 2021 ) [i19] 罗秀好 , Aadyot Bhatnagar公司 , Huan Wang(王欢) , 熊才明 , 西尔维奥·萨瓦雷斯 , 于白 , 赵胜佳 , 斯特凡诺·埃尔蒙 :
本地化校准:量度和重新校准。 CoRR公司 abs/2102.10809 ( 2021 ) [i18] 于白 , 池瑾(Chi Jin) , Huan Wang(王欢) , 熊才明 :
广义Sum博弈中Stackelberg均衡的样本有效学习。 CoRR公司 腹肌/2102.11494 ( 2021 ) [i17] 梓潼杨 , 于白 , 宋梅 :
随机特征模型中泛化误差和一致收敛之间的精确差距。 CoRR公司 abs/2103.04554 ( 2021 ) [i16] 谢腾阳 , 南江 , Huan Wang(王欢) , 熊才明 , 于白 :
政策微调:架起高效样本离线和在线强化学习的桥梁。 CoRR公司 abs/2106.04895 ( 2021 ) 【i15】 于白 , 宋梅 , Huan Wang(王欢) , 熊才明 :
了解不确定度估计中的覆盖不足偏差。 CoRR公司 abs/2106.05515 ( 2021 ) [第14条] Ziang Song公司 , 宋梅 , 于白 :
我们什么时候才能充分学习具有大量参与者样本的广义Sum Markov对策? CoRR公司 abs/2110.04184 ( 2021 ) 2020 [c8] 于白 , 杰森·D·李 :
超越线性化:关于宽神经网络的二次逼近和高阶逼近。 ICLR公司 2020 【c7】 于白 , 池瑾(Chi Jin) :
竞争强化学习的可证明自演算法。 ICML公司 2020 : 551-560 【c6】 于白 , 池瑾(Chi Jin) , 天成余 :
具有自我游戏的近最优强化学习。 NeurIPS公司 2020 【c5】 陈敏硕 , 于白 , 杰森·D·李 , 拓兆 , Huan Wang(王欢) , 熊才明 , 理查德·索彻 :
理解分层学习:神经表征的好处。 NeurIPS公司 2020 [i13] 于白 , 本·克劳斯 , Huan Wang(王欢) , 熊才明 , 理查德·索彻 :
泰勒化训练:在有限宽度上更好地逼近神经网络训练。 CoRR公司 abs/2002.04010 ( 2020 ) [i12] 于白 , 池瑾(Chi Jin) :
竞争强化学习的可证明自演算法。 CoRR公司 abs/2002.04017 ( 2020 ) [i11] 于白 , 池瑾(Chi Jin) , 天成余 :
具有自我游戏的近最优强化学习。 CoRR公司 abs/2006.12007 ( 2020 ) [i10] 陈敏硕 , 于白 , 杰森·D·李 , 赵拓 , Huan Wang(王欢) , 熊才明 , 理查德·索彻 :
理解分层学习:神经表征的好处。 CoRR公司 abs/2006.13436 ( 2020 ) [第九章] 明音 , 于白 , 王玉祥 :
强化学习非策略评估中的近最优可证明一致收敛性。 CoRR公司 abs/2007.03760 ( 2020 ) [i8] 刘庆华 , 天成余 , 于白 , 池瑾(Chi Jin) :
对基于模型的自我游戏强化学习的深入分析。 CoRR公司 abs/2010.01604 ( 2020 ) [i7] 于白 , 陈敏硕 , 潘舟 , 拓兆 , 杰森·D·李 , 沙姆·M·卡卡德 , Huan Wang(王欢) , 熊才明 :
训练验证分割在元学习中有多重要? CoRR公司 abs/2010.05843 ( 2020 )
2010 – 2019
2019 [c4] 于白 , 齐家江 , 朱孙 :
次梯度下降学习正交词典。 ICLR(海报) 2019 【c3】 于白 , 马腾宇(Tengyu Ma) , 安德烈·里斯特斯基 :
鉴别器的近似性意味着GAN中的多样性。 ICLR(海报) 2019 【c2】 于白 , 王玉祥 , Edo Liberty公司 :
ProxQuant:通过邻近算子的量化神经网络。 ICLR(海报) 2019 【c1】 于白 , 谢腾阳 , 南江 , 王玉祥 :
有效的Q学习,切换成本低。 NeurIPS公司 2019 : 8002-8011 [i6] 于白 , 约翰·杜奇 , 宋梅 :
约束复合优化的近似算法,用于求解低秩SDP。 CoRR公司 abs/1903.00184 ( 2019 ) [i5] 于白 , 谢腾阳 , 南江 , 王玉祥 :
有效的Q学习,切换成本低。 CoRR公司 abs/1905.12849 ( 2019 ) [i4] 于白 , 杰森·D·李 :
超越线性化:关于宽神经网络的二次逼近和高阶逼近。 CoRR公司 abs/1910.01619 ( 2019 ) 2018 [i3] 于白 , 马腾宇(Tengyu Ma) , 安德烈·里斯特斯基 :
鉴别器的近似性意味着GANs中的多样性。 CoRR公司 abs/1806.10586 ( 2018 ) [i2] 于白 , 王玉祥 , Edo Liberty公司 :
ProxQuant:通过邻近算子的量化神经网络。 CoRR公司 abs/1810.00861 ( 2018 ) [i1] 于白 , 齐家江 , 朱孙 :
次梯度下降学习正交词典。 CoRR公司 abs/1810.10702 ( 2018 )