迪伦·福斯特

研究

我的研究是机器学习和决策的交叉点，包括强化学习和控制、上下文强盗以及因果/反事实环境中的学习。我有兴趣探索交互式决策的新算法原理和基本限制，主题包括：

样品效率。一类模型描述了需要学习的样本数量当我们从统计学习转向要求更高的交互式任务时？
算法设计。我们能否将具有挑战性的交互式决策问题简化为经典的机器学习原语，例如监督分类和回归？
适应性。我们能否开发出符合以下条件的决策算法超越最坏情况，适应有利条件真实世界实例的属性以获得改进的性能？

更广泛地说，我对机器学习和人工智能的所有理论方面都感兴趣。

关于统计强化学习和决策的课堂讲稿
麻省理工学院2023年秋季课程：统计强化学习与决策

ICML 2022教程：衔接学习和决策

实习和博士后。我很幸运能在MSR与以下杰出的实习生和博士后共事：菲尔·阿莫提拉,亚当·布洛克,诺亚·戈洛维奇,克莱顿·桑福德,宋宇达,安德鲁·瓦格梅克,谢腾阳,徐云宗,朱英伦. 如果您是一名博士生，对2024年MSR ML&RL实习感兴趣，请申请在这里对于2024年开始的博士后，请申请这里（理论）和此处（经验）.

代表性论文(全部显示):

精选近期作品

探索性偏好优化：样本效率RLHF的隐式Q*-逼近

谢腾阳^†，迪伦·福斯特^†阿卡什·克里希纳穆提、科尔比·罗塞特、艾哈迈德·阿瓦达拉和亚历山大·拉赫林。
2024
通过可覆盖性进行可扩展的在线探索

菲利普·阿莫提拉（Philip Amortila）、迪伦·福斯特（Dylan J.Foster）和阿克谢·克里希纳穆西（Akshay Krishnamurthy）。
ICML 2024。
报道在在线强化学习中的作用

谢腾阳^†，迪伦·福斯特^†、于白、南江和Sham M.Kakade。
ICLR 2023。 口头陈述.
具有决策估计系数的交互式决策的严格保证

Dylan J.Foster、Noah Golowich和Yanjun Han。
COLT 2023（冷2023）。
交互式决策中的实例优化：一种非共鸣理论

Andrew Wagenmaker和Dylan J.Foster。
COLT 2023（冷2023）。
基于多步逆运动学的表示学习：一种高效且优化的富观测RL方法

扎卡里娅·穆罕默德（Zakaria Mhammedi）、迪伦·福斯特（Dylan J.Foster）和亚历山大·拉赫林（Alexander Rakhlin）。
ICML 2023。 口头陈述.
离线强化学习：价值函数逼近的基本障碍

Dylan J.Foster、Akshay Krishnamurthy、David Simchi Levi和Yunzong Xu。
COLT 2022（冷2022）。在NeurIPS 2021离线强化学习研讨会上进行口头演示。
论对抗性决策的复杂性

迪兰·福斯特（Dylan J.Foster）、亚历山大·拉赫林（Alexander Rakhlin）、阿尤什·塞卡里（Ayush Sekhari）和卡西克·斯里德哈兰（Karthik Sridharan）。
NeurIPS 2022。 口头陈述.
交互式决策的统计复杂性

迪伦·J·福斯特（Dylan J.Foster）、沙姆·M·卡卡德（Sham M.Kakade）、建谦（Jian Qian）和亚历山大·拉赫林（Alexander Rakhlin）。
2021
高效的一阶上下文强盗：
预测、分配和三角判别

迪伦·福斯特（Dylan J.Foster）和阿克西·克里希纳穆西（Akshay Krishnamurthy）。
NeurIPS 2021。 口头陈述.

选定的旧作品

超越UCB：最佳高效的上下文强盗
使用回归甲骨文

迪伦·福斯特（Dylan J.Foster）和亚历山大·拉赫林（Alexander Rakhlin）。
ICML 2020。
现在加入Vowpal Wabbit公司! 使用--squarcb选项或参见在这里了解更多信息。
天真的探索是在线LQR的最佳选择

Max Simchowitz和Dylan J.Foster*
ICML 2020。
正交统计学习

Dylan J.Foster和Vasilis Syrgkanis。
《统计年鉴》，2023年。
2019年COLT。 最佳论文奖.
非凸随机优化的下界

尤西·阿杰瓦尼（Yossi Arjevani）、亚尔·卡蒙（Yair Carmon）、约翰·杜奇（John C.Duchi）、迪伦·福斯特（Dylan J.Foster）、，
内森·斯雷布罗和布莱克·伍德沃思。
数学规划，A辑，2022年。
使梯度变小的复杂性
随机凸优化

Dylan J.Foster、Ayush Sekhari、Ohad Shamir、Nathan Srebro、Karthik Sridharan、，
和Blake Woodworth。
COLT 2019年。 最佳学生论文奖.
逻辑回归：不当的重要性

Dylan J.Foster、Satyen Kale、Haipeng Luo、Mehryar Mohri和Karthik Sridharan。
COLT 2018。 最佳学生论文奖.
在线学习：充分统计与伯克霍尔德方法

迪伦·福斯特（Dylan J.Foster）、亚历山大·拉赫林（Alexander Rakhlin）和卡西克·斯里德哈兰（Karthik Sridharan）。
COLT 2018。
神经网络的谱规范化界

Peter Bartlett、Dylan J.Foster和Matus Telgarsky。
2017年NeurIPS。 聚光灯演示.

预印本/审查中

探索性偏好优化：利用隐式Q*-近似实现样本有效RLHF

谢腾阳^†，迪伦·福斯特^†阿卡什·克里希纳穆提、科尔比·罗塞特、艾哈迈德·阿瓦达拉和亚历山大·拉赫林。
2024
重置在在线强化学习中的作用

扎卡里娅·穆罕默德（Zakaria Mhammedi）、迪伦·福斯特（Dylan J.Foster）和亚历山大·拉赫林（Alexander Rakhlin）。
2024
大型语言模型可以探索上下文吗？

阿克谢·克里希纳穆尔西、基根·哈里斯、迪伦·福斯特、西里尔·张和亚历克桑德斯·斯利夫金斯。
2024
基于离线估计的在线估计：一个信息论框架

迪伦·福斯特（Dylan J.Foster）、韩彦军（Yanjun Han）、钱建（Jian Qian）和亚历山大·拉赫林（Alexander Rakhlin）。
2024
交互式决策的统计复杂性

迪伦·J·福斯特（Dylan J.Foster）、沙姆·M·卡卡德（Sham M.Kakade）、建谦（Jian Qian）和亚历山大·拉赫林（Alexander Rakhlin）。
2021

2024

通过可覆盖性进行可扩展的在线探索

菲利普·阿莫提拉（Philip Amortila）、迪伦·福斯特（Dylan J.Foster）和阿克谢·克里希纳穆西（Akshay Krishnamurthy）。
ICML 2024。
具有连续潜在动力学的丰富观察强化学习

宋育达、吴丽丽、迪伦·福斯特和阿克谢·克里希纳穆蒂。
ICML 2024。
利用密度比进行在线强化学习

菲利普·阿莫蒂拉（Philip Amortila）、迪伦·福斯特（Dylan J.Foster）、南江（Nan Jiang）、阿尤什·塞卡里（Ayush Sekhari）和谢腾扬（Tengyang Xie）。
ICLR 2024。 聚光灯演示.
SGD噪声的蝴蝶效应：行为克隆和自回归中的误差放大

Adam Block、Dylan J.Foster、Akshay Krishnamurthy、Max Simchowitz和Cyril Zhang。
ICLR 2024。

2023

低库MDP中的高效无模型勘探

扎卡里娅·穆罕默德（Zakaria Mhammedi）、亚当·布洛克（Adam Block）、迪伦·福斯特（Dylan J.Foster）和亚历山大·拉赫林（Alexander Rakhlin）。
NeurIPS 2023。
注：arXiv版本在NeurIPS版本的结果基础上显著改进，消除了可达性假设。
基于决策估计系数的无模型强化学习

迪兰·福斯特（Dylan J.Foster）、诺亚·戈洛维奇（Noah Golowich）、建谦（Jian Qian）、亚历山大·拉赫林（Alexander Rakhlin）和阿尤什·塞哈里（Ayush Sekhari）。
NeurIPS 2023。
具有决策估计系数的交互式决策的严格保证

Dylan J.Foster、Noah Golowich和Yanjun Han。
COLT 2023（冷2023）。
交互式决策中的实例优化：一种非共鸣理论

Andrew Wagenmaker和Dylan J.Foster。
COLT 2023（冷2023）。
论多智能体决策的复杂性：从博弈学习到部分监控

Dylan J.Foster、Dean P.Foster、Noah Golowich和Alexander Rakhlin。
COLT 2023（冷2023）。
具有包装和覆盖约束的上下文强盗：基于回归的模块化拉格朗日方法

Aleksandrs Slivkins、Karthik Abinav Sankaraman和Dylan J.Foster。
COLT 2023（冷2023）。
基于多步逆运动学的表示学习：一种高效且优化的富观测RL方法

扎卡里娅·穆罕默德（Zakaria Mhammedi）、迪伦·福斯特（Dylan J.Foster）和亚历山大·拉赫林（Alexander Rakhlin）。
ICML 2023。 口头陈述.
马尔可夫博弈中独立学习的困难与稀疏均衡计算

迪伦·福斯特（Dylan J.Foster）、诺亚·戈洛维奇（Noah Golowich）和沙姆·卡卡德（Sham M.Kakade）。
ICML 2023。
报道在在线强化学习中的作用

谢腾阳^†，迪伦·福斯特^†、于白、南江和Sham M.Kakade。
ICLR 2023。 口头陈述.
正交统计学习

Dylan J.Foster和Vasilis Syrgkanis。
《统计年鉴》，2023年。
2019年COLT大会上的会议版本为“带有有害成分的统计学习”。
基于经验熵的条件密度估计的极小极大率

布莱尔·比洛多、迪伦·福斯特和丹尼尔·罗伊。
《统计年鉴》，2023年。
用多步逆模型保证发现控制内生潜在状态

亚历克斯·兰姆（Alex Lamb）、利亚沙特·伊斯拉姆（Riashat Islam）、约纳森·埃夫罗尼（Yonathan Efroni）、安妮克·迪多尔卡（Aniket Didolkar）、迪潘德拉·米斯拉（Dipendra Misra）、迪伦·福斯特（Dylan J.Foster）、勒坎·莫鲁（Lekan Mo。
TMLR，2023年。

2022

非凸随机优化的下界

尤西·阿杰瓦尼（Yossi Arjevani）、亚尔·卡蒙（Yair Carmon）、约翰·杜奇（John C.Duchi）、迪伦·福斯特（Dylan J.Foster）、，
内森·斯雷布罗和布莱克·伍德沃思。
数学规划，A辑，2022年。
离线强化学习：价值函数逼近的基本障碍

迪伦·福斯特（Dylan J.Foster）、阿克谢·克里希纳穆西（Akshay Krishnamurthy）、大卫·辛奇·列维（David Simchi-Levi）和徐云宗（Yunzong Xu）。
COLT 2022（冷2022）。在NeurIPS 2021离线强化学习研讨会上进行口头演示。
外源信息存在下的样本有效强化学习

约纳森·埃夫罗尼（Yonathan Efroni）、迪伦·福斯特（Dylan J.Foster）、迪潘德拉·米斯拉（Dipendra Misra）、阿克谢·克里希纳穆西（Akshay Krishnamurthy）和约翰·朗福德。
COLT 2022（冷2022）。
论对抗性决策的复杂性

Dylan J.Foster、Alexander Rakhlin、Ayush Sekhari和Karthik Sridharan。
NeurIPS 2022。 口头陈述.
了解Eluder维度

Gene Li、Pritish Kamath、Dylan J.Foster和Nathan Srebro
NeurIPS 2022。
互动式学习与包容行动反馈

谢腾阳（Tengyang Xie）、阿坎莎·萨兰（Akanksha Saran）、迪伦·福斯特（Dylan J.Foster）、勒坎·莫鲁（Lekan Molu）、艾达·莫门内贾德（Ida Momennejad）、南江（Nan Jiang）、保罗·米内罗。
NeurIPS 2022。
具有大动作空间的情境匪徒：实用化

朱英伦（Yinglun Zhu）、迪伦·福斯特（Dylan J.Foster）、约翰·朗福德（John Langford）和保罗·米内罗（Paul Mineiro）。
ICML 2022。

2021

高效的一阶上下文强盗：
预测、分配和三角判别

迪伦·福斯特（Dylan J.Foster）和阿克西·克里希纳穆西（Akshay Krishnamurthy）。
NeurIPS 2021。 口头陈述.
上下文盗贼的实例依赖复杂性
和强化学习：基于分歧的观点

迪伦·福斯特（Dylan J.Foster）、亚历山大·拉赫林（Alexander Rakhlin）、大卫·辛奇·列维（David Simchi-Levi）和徐云宗（Yunzong Xu）
COLT 2021（冷2021）。

2020

从非线性观测值中学习线性二次调节器

扎卡里娅·穆罕默德（Zakaria Mhammedi）、迪伦·福斯特（Dylan J.Foster）、马克斯·辛乔维茨（Max Simchowitz）、迪潘德拉·米斯拉（Dipendra Misra）、，
孙文（Wen Sun）、阿克谢·克里希纳穆西（Akshay Krishnamurthy）、亚历山大·拉赫林（Alexander Rakhlin）和约翰·朗福德（John Langford）*
NeurIPS 2020。
适应上下文强盗中的错误规范

迪伦·福斯特（Dylan J.Foster）、克劳迪奥·金蒂莱（Claudio Gentile）、梅赫亚尔·莫赫里（Mehryar Mohri）和朱利安·齐默特（Julian Zimmert）。
NeurIPS 2020。
竞争强化学习的独立策略梯度方法

Constantinos Daskalakis、Dylan J.Foster和Noah Golowich。
NeurIPS 2020。
超越UCB：最佳高效的上下文强盗
使用回归甲骨文

迪伦·福斯特（Dylan J.Foster）和亚历山大·拉赫林（Alexander Rakhlin）。
ICML 2020。
最佳聚光灯演讲，第14届纽约科学院ML年会.
现在加入Vowpal Wabbit公司! 使用--squarebc选项或查看在这里了解更多信息。
对抗性在线控制的对数回归

Dylan J.Foster和Max Simchowitz*
ICML 2020。
天真的探索是在线LQR的最佳选择

Max Simchowitz和Dylan J.Foster*
ICML 2020。
对数损失下Minimax后悔的紧界
通过自我协调

布莱尔·比洛多、迪伦·福斯特和丹尼尔·罗伊。
ICML 2020。
非凸随机优化中的二阶信息：
权力和限制

尤西·阿杰瓦尼（Yossi Arjevani）、亚尔·卡蒙（Yair Carmon）、约翰·杜奇（John C.Duchi）、迪伦·福斯特（Dylan J.Foster）、，
Ayush Sekhari和Karthik Sridharan。
COLT 2020。
开放问题：背景盗贼的模型选择

迪伦·福斯特（Dylan J.Foster）、阿克谢·克里希纳穆西（Akshay Krishnamurthy）和罗海鹏（Haipeng Luo）。
COLT 2020开放问题。
从单个轨迹学习非线性动力系统

迪伦·福斯特（Dylan J.Foster）、亚历山大·拉赫林（Alexander Rakhlin）和图欣·萨卡尔（Tuhin Sarkar）。
L4DC 2020。完整的口头陈述。

2019

上下文强盗的模型选择

迪伦·福斯特（Dylan J.Foster）、阿克谢·克里希纳穆西（Akshay Krishnamurthy）和罗海鹏（Haipeng Luo）。
2019年NeurIPS。 聚光灯演示.
假设集的稳定性与推广

Dylan J.Foster、Spencer Greenberg、Satyen Kale、Haipeng Luo、Mehryar Mohri、，
和Karthik Sridharan。
2019年NeurIPS。
基于次线性通信的分布式学习

贾亚德夫·阿查里亚（Jayadev Acharya）、克里斯托弗·德萨（Christopher De Sa）、迪兰·福斯特（Dylan J.Foster）和卡西克·斯里德哈兰（Karthik Sridharan）。
2019年ICML。 长谈.
最佳聚光灯演讲，第13届纽约科学院ML年会.
平方和满足平方损失：
不可知张量完成的快速速率

迪伦·J·福斯特和安德烈·里斯特斯基。
COLT 2019年。
使梯度变小的复杂性
随机凸优化

Dylan J.Foster、Ayush Sekhari、Ohad Shamir、Nathan Srebro、Karthik Sridharan、，
和Blake Woodworth。
2019年COLT。 最佳学生论文奖.
带有干扰成分的统计学习

Dylan J.Foster和Vasilis Syrgkanis。
COLT 2019年。 最佳论文奖.
的扩展摘要正交统计学习.
简短版本出现在IJCAI 2020年姐妹会议最佳论文轨道上。

2018

具有替代损失的上下文强盗：利润界限
和高效算法

迪伦·福斯特（Dylan J.Foster）和阿克西·克里希纳穆西（Akshay Krishnamurthy）。
2018年NeurIPS。
非凸梯度的一致收敛性
学习和优化

Dylan J.Foster、Ayush Sekhari和Karthik Sridharan。
2018年NeurIPS。简短版本位于ICML 2018非凸优化研讨会.
带有回归预言器的实用上下文强盗

迪伦·福斯特（Dylan J.Foster）、阿列克·阿加瓦尔（Alekh Agarwal）、米罗斯拉夫·杜迪克（Miroslav Dudík）、罗海鹏（Haipeng Luo）和罗伯特·夏皮雷（Robert E.Schapire）*
ICML 2018。 长谈.
现在加入Vowpal Wabbit公司（多亏了阿尔贝托·比埃蒂!). 尝试使用--regcb或--regcbopt选项。
逻辑回归：不当的重要性

Dylan J.Foster、Satyen Kale、Haipeng Luo、Mehryar Mohri和Karthik Sridharan。
COLT 2018。 最佳学生论文奖.
在线学习：充分统计和Burkholder方法

Dylan J.Foster、Alexander Rakhlin和Karthik Sridharan。
COLT 2018。
稀疏图的两两测度推理
和侧面信息

迪伦·福斯特（Dylan J.Foster）、丹尼尔·赖奇曼（Daniel Reichman）和卡西克·斯里德哈兰（Karthik Sridharan）。
AISTATS 2018。

2017

通过模型选择实现无参数在线学习

Dylan J.Foster、Satyen Kale、Mehryar Mohri和Karthik Sridharan。
2017年NeurIPS。 聚光灯演示.
神经网络的谱规范化界

Peter Bartlett、Dylan J.Foster和Matus Telgarsky。
2017年NeurIPS。 聚光灯演示.
ZigZag：一种新的自适应在线学习方法

迪伦·福斯特（Dylan J.Foster）、亚历山大·拉赫林（Alexander Rakhlin）和卡西克·斯里德哈兰（Karthik Sridharan）。
2017年COLT。

2016

游戏学习：快速收敛的稳健性

Dylan J.Foster、Li Zhiyuan、Thodoris Lykouris、Karthik Sridharan和Eva Tardos。
2016年NeurIPS。初步版本位于2016年欧共体广告拍卖研讨会.

2015

自适应在线学习

迪伦·福斯特（Dylan J.Foster）、亚历山大·拉赫林（Alexander Rakhlin）和卡西克·斯里德哈兰（Karthik Sridharan）。
NeurIPS 2015。 聚光灯演示.

技术报告和说明

ℓ_∞Rademacher复杂性的向量压缩

迪伦·福斯特和亚历山大·拉赫林
技术说明。
2019

*表示供款顺序，^†表示同等贡献。

论文

自适应学习：算法和复杂性

迪伦·福斯特
博士论文。康奈尔大学计算机科学系，2019年。
康奈尔大学CS博士论文奖.

课堂讲稿

强化学习和交互式决策的基础

Dylan J.Foster和Alexander Rakhlin，2023年。
课堂笔记来自9.522：统计强化学习和决策

选定奖项

服务

项目委员会/地区主席：COLT（高级PC）：2020年、2021年、2022年、2023年、2024年，NeurIPS（地区主席）：2020、2021、2022、2023、2024 ICML（地区主席。
会议审查：COLT、NeurIPS、ICML、STOC、FOCS、SODA、ALT、AISTATS、AAAI。
期刊审查：JMLR、ACM杂志、统计学年鉴、运筹学数学、运筹研究、生物统计学。

教学

统计强化学习与决策
麻省理工学院，2023年秋季。
与萨沙·拉赫林合作。
统计强化学习与决策
麻省理工学院，2022年秋季。
与萨沙·拉赫林合作。
机器学习理论
康奈尔大学，2018年春季。
Karthik Sridharan的助教。
算法分析导论
康奈尔大学，2015年春季。
Éva Tardos和David Steurer的助教。
获得优秀教学奖。
人工智能基础
康奈尔大学，2014年秋季。
巴特·塞尔曼的助教。

联系人

我可以联系到迪兰福斯特在微软点通用域名格式.