文达

OpenAI·旧金山

我是OpenAI的研究员。


研究

我对高维统计、压缩感知和深度学习方面的各种主题感兴趣。最近,我还开始探索机器学习在不同环境中的应用,例如数据压缩和化学。

文件

  • 基于神经蒙特卡罗树搜索的代码超优化器NeurIPS 2022 MLSys研讨会(聚光灯)

    W·周,O.Solodova公司,R.P.亚当斯

    有很多方法可以将高级程序转换为与该计算一致的指令序列。为给定的硬件选择性能最佳的此类指令序列——优化编译——是计算机科学的一个核心挑战。优化编译器通过一系列由启发式驱动的简化和局部转换(例如寄存器分配、指令调度、窥视孔优化)来执行此任务。一种自然且经过充分探索的研究方法是用数据驱动的、自动设计的启发式方法取代当前的手写启发式方法,这些启发式方法可以从机器学习中获得。我们提出了一种完全不同的方法,在这种方法中,我们将编译视为一个组合优化问题,它包括在具有指定程序语义的约束下,找到最优(例如,执行速度最快或最短)的指令序列。我们展示了如何将此问题实际地构建为有限马尔可夫决策过程,从而从强化学习中释放出丰富的潜在算法空间。我们实现了一个这样的算法,一个类似AlphaGo的分布式神经Monte-Carlo树搜索过程,并证明它能够直接生成优化的装配。与传统的优化编译器不同,这种方法不依赖现有的优化库来转换代码,而是直接尝试逐指令生成最优化的程序指令,同时考虑到寄存器分配、指令调度和操作融合等影响。

  • 斑点噪声存在下的压缩传感IEEE传输。I.T.(2022年)

    W·周,S.贾拉利,A.马利基

    散斑或乘性噪声是合成孔径雷达和光学相干层析成像等相干成像系统中的一个关键问题。散斑噪声的存在通过降低系统的性能大大限制了此类系统的适用性。另一方面,乘性噪声研究中出现的复杂性迄今为止阻碍了对此类成像系统的理论分析。因此,当前的捕获技术依赖于启发式解决方案,例如对信号进行过采样,并将问题转换为带乘性噪声的去噪问题。本文试图通过对此类系统进行首次理论分析,弥合理论与实践之间的差距。为了实现这一目标,描述了与散斑噪声测量系统相对应的对数似然函数。然后利用压缩码对源结构进行建模,针对采样不足的情况,提出了一种基于压缩的最大似然恢复方法。所提出方法的均方误差(MSE)性能的特征表示为O(运行)(k个日志n个),其中k、m和n分别表示根据压缩代码、观测次数和信号的环境维度的信号类的固有维度。这一结果与MSE缩放为O(运行)(k个日志n个),表示如果信号类是结构化的(即。,k个n个)即使在存在散斑噪声的情况下,从欠定测量中准确恢复信号仍然是可行的。仿真结果表明,乘性噪声下的图像恢复本质上比加性噪声更具挑战性,并且推导出的理论结果非常清晰。

  • 玻璃体切割:参数化CAD草图的生成模型ICLR 2022年

    A.塞夫,W·周,N.理查森,R.P.亚当斯

    参数化计算机辅助设计(CAD)工具是工程师指定物理结构的主要方式,从自行车踏板到飞机再到印刷电路板。参数化CAD的关键特点是,设计意图不仅通过几何图元进行编码,还通过元素之间的参数化约束进行编码。这个关系规范可以被视为约束程序的构造,允许编辑连贯地传播到设计的其他部分。机器学习提供了一种有趣的可能性,可以通过对这些结构进行生成性建模来加速设计过程,从而支持诸如自动补全、约束推理和条件合成等新工具。在这项工作中,我们提出了一种参数化CAD草图的生成建模方法,这些草图构成了现代机械设计的基本计算构件。我们的模型根据来自SketchGraphs数据集的真实设计进行训练,通过初始坐标和引用回采样图元的约束,自回归将草图合成为图元序列。由于来自模型的样本与标准CAD软件中使用的约束图表示相匹配,因此可以根据下游设计任务直接导入、求解和编辑这些样本。此外,我们将模型置于各种上下文中,包括局部草图(引物)和手绘草图的图像。对该方法的评估表明,该方法能够合成逼真的CAD草图,并有助于机械设计工作流。

  • Autobahn:基于自同构的图形神经网络NeurIPS 2021

    E.H.蒂德,W·周,R.康多

    我们介绍了基于自同构的图神经网络(Autobahn),这是一个新的图神经网家族。在Autobahn中,我们将图分解为一系列子图,并对每个子图的自同构群应用等变的局部卷积。局部邻域和子图的特定选择恢复现有的结构,如消息传递神经网络。我们的形式主义还包括新的体系结构:例如,我们引入了一个图形神经网络,它将图形分解为路径和循环。由此产生的卷积反映了图的部分可以变换的自然方式,在不牺牲全局置换等方差的情况下保留了卷积的直观含义。我们通过将Autobahn应用于分子图来验证我们的方法,在分子图中它获得了最先进的结果。

  • 草图:用于在计算机辅助设计中建模关系几何的大规模数据集Arxiv预打印

    A.塞夫,Y.卵巢,W·周,R.P.亚当斯

    参数化计算机辅助设计(CAD)是机械工程物理设计的主导范式。与关系几何不同,参数化CAD模型最初是由几何图元(例如线段、圆弧)和它们之间的显式约束(例如重合、垂直度)组成的二维草图,它们构成了三维构造操作的基础。训练机器学习模型来推理和综合参数化CAD设计,有可能减少设计时间并实现新的设计工作流。此外,参数化CAD设计可以被视为约束编程的实例,它们为探索程序合成和归纳中的想法提供了一个范围很广的测试平台。为了促进这项研究,我们引入了SketchGraphs,这是一个由1500万张草图组成的集合,这些草图是从真实的CAD模型中提取出来的,并且带有开源数据处理管道。每个草图都表示为一个几何约束图,其中的边表示设计人员在图元和图的节点之间施加的几何关系。我们演示并建立了数据集的两个用例的基准:草图的生成建模和给定无约束几何体的可能约束的条件生成。

  • 交叉验证的渐近性Arxiv预打印

    M.奥斯汀,W·周

    交叉验证是评估机器学习和统计模型性能的中心工具。然而,尽管它无处不在,但它的理论性质仍然没有得到很好的理解。我们研究了一大类模型交叉验证风险的渐近性质。在稳定性条件下,我们建立了中心极限定理和Berry-Esseen界,使我们能够计算渐近准确的置信区间。使用我们的结果,我们为交叉验证的统计加速与列车试验分割程序相比描绘了一幅大图。我们的结果的一个推论是,当在训练损失下进行交叉验证时,参数M-估计量(或经验风险最小化器)受益于“完全”加速。在其他常见情况下,例如当使用替代损失或正则化器进行训练时,我们表明交叉验证风险的行为是复杂的,方差减少可能小于或大于“完全”加速,具体取决于模型和基本分布。我们允许褶皱的数量以任何速度随着观察次数的增加而增加。

  • 高维Leave-on-Out交叉验证估计样本外预测误差的误差界AISTATS 2020

    K.R.半径,W·周,A.马利基

    我们研究了高维情况下的样本外风险估计问题n个和功能数量第页很大,并且n个 / 第页可以小于一。大量的经验证据证实了样本外风险估计的留样交叉验证(LO)的准确性。然而,对高维问题中LO精度的统一理论评估仍然是一个悬而未决的问题。本文旨在填补广义线性族中惩罚回归的这一空白。通过对数据生成过程的较小假设,以及对回归系数没有任何稀疏性假设,我们的理论分析得到了估计样本外误差时LO的期望平方误差的有限样本上界。我们的界限表明,误差为零n个, 第页 ,即使尺寸第页特征向量的大小等于或大于样本大小n个该理论的一个技术优势是,它可以用于澄清和连接最近有关可扩展近似LO的文献中的一些结果。

  • 基于可逆归纳结构的离散对象生成2019年NeurIPS

    A.塞夫,W·周,F.达马尼,A.道尔,R.P.亚当斯

    连续域生成建模的成功导致了对生成离散数据(如分子、源代码和图形)的兴趣激增。然而,这些离散对象的构建历史通常不是唯一的,因此生成模型必须对难以理解的大空间进行推理才能学习。此外,结构化离散域的特征通常是对有效对象的构成有严格的约束,生成模型必须遵守这些要求,才能生成有用的新样本。在这里,我们提出了一个使用马尔可夫链的离散对象生成模型,其中转换被限制为一组保持有效性的局部操作。基于去噪自动编码器的生成性解释,马尔可夫链在以下两种情况中交替产生:1)产生一系列有效但不是来自数据分布的损坏对象;2)生成一个学习的重建分布,试图修复损坏,同时保持有效性。这种方法限制生成模型只产生有效的对象,要求学习者只发现对象的局部修改,并避免在未知且可能很大的建筑历史空间上边缘化。我们在两个高度结构化的离散域(分子和拉曼图)上评估了所提出的方法,发现它在捕获大量语义相关度量的分布统计信息方面优于其他方法。

  • 结构化随机过程的去噪ArXiv电子打印

    W·周,S.贾拉利

    对平稳过程进行去噪 ( X(X) ) 加性高斯白噪声是信息论和统计信号处理中的一个经典而基本的问题。尽管在设计有效的去噪算法方面取得了相当大的进展,但对于一般模拟源,理论上有效的计算方法尚未找到。例如在去噪方面 X(X) n个 被噪音破坏Zn个作为Y(Y)n个=X(X)n个+Zn个,考虑到 X(X) n个 ,需要计算最小均方误差(MMSE)去噪器𝔼[X(X)n个Y(Y)n个]然而,对于一般源,计算𝔼[X(X)n个Y(Y)n个]即使不可行,在计算上也是非常具有挑战性的。本文从源分布已知的贝叶斯设置出发,提出了一种新的去噪方法,即量化最大后验(Q-MAP)去噪器,并分析了其在高信噪比条件下的渐近性能。对于无记忆信源和结构化一阶马尔可夫信源,都表明,当σ收敛到零时,1 σ 2 𝔼 [ ( X(X) - X(X) Q-MAP(质量地图) ) 2 ] 通过Q-MAP去噪器实现了向信源信息维收敛。对于所研究的无记忆源,这个极限是最优的。Q-MAP去噪器的一个主要优点是,与MMSE去噪器不同,它突出了去噪中要使用的源分布的关键特性。该特性大大降低了Q-MAP去噪器近似解的计算复杂性。此外,它自然会导致基于学习的去噪器。利用ImageNet数据库进行训练,给出了初步仿真结果,探讨了这种基于学习的去噪器在图像去噪中的性能。

  • ImageNet尺度下的非虚泛化边界:一种PAC-Baysian压缩方法2019年ICLR

    W·周,V.韦奇,M.奥斯汀,R.P.亚当斯,P.奥尔班兹

    现代神经网络是高度超参数化的,其能力大大超过训练数据。尽管如此,这些网络在实践中通常具有良好的通用性。还观察到,经过训练的网络通常可以压缩的到更小的表示。本文的目的是将这两个实证观察结果联系起来。我们的主要技术成果是基于压缩大小的压缩网络泛化界限,结合离线压缩算法,可以实现最先进的泛化保证。特别地,我们为应用于ImageNet分类问题的真实体系结构提供了第一个非空洞的泛化保证。此外,我们还表明,倾向于过盈的模型的压缩性是有限的。经验结果表明,过拟合的增加会增加描述训练网络所需的比特数。

  • 关系数据的经验风险最小化和随机梯度下降2019年AISTATS

    V.韦奇,M.奥斯汀,W·周,P.奥尔班兹,D.布莱

    经验风险最小化是预测问题的主要工具,但其对关系数据的扩展仍未解决。我们利用图采样理论的最新进展来解决这个问题。我们(i)定义了关系数据的经验风险,(ii)获得了该风险的随机梯度,该随机梯度自动无偏。关键要素是将从图形中采样数据的方法视为模型设计的显式组件。理论结果表明,抽样方案的选择至关重要。通过将图采样方案的快速实现与标准的自动微分工具集成,即使在大型数据集上,我们也能够以即插即用的方式解决风险最小化问题。我们实证证明,关系ERM模型在半监督节点分类任务上取得了最新的结果。实验也证实了抽样方案选择的重要性。

  • 高维快速参数调整的近似Leave-One-OutICML 2018年

    S.Wang(王)*,W·周*,H.卢,A.马利基,V.镜尼

    考虑以下类别的学习计划: β ^ = 参数 最小值 β 𝒞 j个 = 1 n个 ( x个 j个 β ; j个 ) + λ R(右) ( β ) 哪里 x个 第页 表示特征和响应变量。设У和R为凸损失函数和正则化子,β表示未知权重,λ为正则化参数。 𝒞 第页 是一个闭凸集。在n和p都很大的高维区域中,找到λ的最佳选择是一个具有挑战性的问题。我们提出了三个框架,以获得非光滑损失和正则化子的遗漏交叉验证(LOOCV)风险的计算效率近似。我们的三个框架基于上述问题的原始、对偶和近似公式。每个框架在某些类型的问题上都显示了其优势。我们在光滑条件下证明了这三种方法的等价性。这种等效性使我们能够证明这三种方法在这种条件下的准确性。我们使用我们的方法来获得几个标准问题的风险估计,包括广义LASSO、核范数正则化和支持向量机。我们实证证明了我们的结果对不可微情况的有效性。
    这篇论文的一个版本在2019年DMDA研讨会INFORMS上获得了最佳论文奖亚军。

  • 稀疏诱导正则回归甲基化相互作用分析基因型BMC 2018年会议记录(GAW 20)

    W·周,S.低

    我们考虑使用最小绝对收缩和选择算子(LASSO)型回归技术在全基因组关联研究(GWAS)和表观基因组关联研究中检测重要的遗传或表观遗传位点。我们演示了如何通过稳定性选择来调整这些技术以提供可量化的不确定性,包括明确控制系列错误率。我们还考虑了LASSO的变体,如LASSO组,以研究遗传和表观遗传相互作用。我们使用这些技术复制了降脂药物和饮食网络遗传学(GOLDN)数据集上的一些现有结果,该数据集收集了991名个体的血液甘油三酯和464000个胞嘧啶-磷酸-鸟嘌呤(CpG)位点和761000个单核苷酸多态性(SNPs)的差异甲基化,并确定新的研究方向。考虑了基于LASSO的表观基因组和全基因组模型,以及仅限于11号染色体的相互作用模型。分析重复了肉碱棕榈酰转移酶1A(CPT1A)中2个CpG的发现。对于遗传和表观遗传学相互作用的分析可能感兴趣的方向,提出了一些建议。

服务

我曾担任NeurIPS、ICML、JMLR、ICLR、ISIT、AAAI、统计年鉴、IEEE IT的评论员。

教育类

哥伦比亚大学

统计学博士
2015年8月至今

剑桥大学

MMath学士(第三部分)
2011年10月至2015年5月

莱伊圣日耳曼国际乐团

Bac科学提法très bien餐厅.
2011年10月

教学

  • 微积分统计学导论2017年夏季

    第1201节

    这是哥伦比亚大学的统计学入门课。本课程的所有材料(包括完整笔记和R笔记本演示)都可以在github.
  • 高级机器学习2017年秋季

    GR5245型

    本课程的材料可在课程页面.