克里斯·德萨

出版物

AAAI 2024年	公平分类中预测的任意性最佳学生论文（荣誉奖） A.Feder Cooper、Katherine Lee、Madiha Choksi、Solon Barocas、Christopher De Sa、James Grimmelmann、Jon Kleinberg、Siddhartha Sen、Baobao Zhang 在第38届AAAI人工智能年会2024年2月。 [摘要][阿尔西夫] 不同训练模型之间的预测差异是公平二进制分类中一个重要的、未被充分探索的错误来源。在实践中，一些数据示例的方差非常大，以至于决策实际上是任意的。为了研究这个问题，我们采取了一种实验性的方法，并做出了四个主要贡献：我们：1）定义了一个称为自我一致性的指标，该指标来源于方差，我们将其用作衡量和减少任意性的代表；2）开发一种集成算法，在任意预测时避免分类；3）对方差（相对于自我一致性和任意性）在公平二进制分类中的作用进行最大规模的实证研究；以及，4）发布一个工具包，使《美国住房抵押贷款披露法》（HMDA）数据集易于用于未来的研究。总之，我们的实验揭示了关于基准数据集结论可靠性的令人震惊的见解。考虑到预测中存在的任意性，在我们尝试应用任何公平干预之前，大多数公平的二进制分类基准都是接近公平的。这一发现对常用算法公平性方法的实用性提出了质疑，进而建议我们应该重新考虑如何选择在二进制分类中衡量公平性。
南澳大利亚2023	蒙特卡罗偏微分方程求解器的神经缓存李子璐、杨冠道、席登、克里斯托弗·德萨、巴拉斯·哈里哈兰、史蒂夫·马施纳在SIGGRAPH亚洲20232023年12月。 [摘要][纸类] 本文提出了一种使用神经网络作为缓存机制的方法，以减少蒙特卡罗偏微分方程解算器的方差，如Walk-on-Spheres算法[Sawhney and Crane 2020]。虽然这些蒙特卡罗PDE解算器具有无偏和无离散化的优点，但它们的高方差通常会阻碍实时应用。另一方面，神经网络可以近似PDE解，并且在推理时评估这些网络可以非常快速。然而，基于神经网络的解决方案可能存在收敛困难和高偏差。我们的混合系统旨在通过训练一个神经场来使用WoS解算器的监督来近似PDE解，从而将这两个潜在的互补解决方案结合起来。然后，该神经场用作WoS解算器中的缓存，以减少推理过程中的方差。我们证明，我们的神经场训练程序优于文献中常用的自我监督目标。我们还表明，在相同的计算预算下，我们的混合解算器表现出比WoS更低的方差：对于较小的计算预算，它明显更好；对于较大的预算，它提供较小的改进，在极限内达到与WoS相同的性能。
NeurIPS 2023年	QuIP：保证大型语言模型的2位量化聚光灯 Jerry Chee、Yaohui Cai、Volodymyr Kuleshov、Christopher De Sa 在第36届神经信息处理系统会议记录，2023年12月。 [摘要][阿尔西夫] 本文研究了大型语言模型（LLM）中训练后参数的量化。我们引入了带非相干处理的量化（QuIP），这是一种新方法，基于量化受益于非相干权重和Hessian矩阵，即权重大小均匀，并且重要的是使其四舍五入的方向与坐标轴不对齐。QuIP包括两个步骤：（1）自适应舍入过程最小化二次代理目标；（2）高效的预处理和后处理，通过随机正交矩阵的乘法确保权重和Hessian不相干。我们用LLM尺度量化算法的第一个理论分析来补充QuIP，并表明我们的理论也适用于现有的方法OPTQ。经验性地，我们发现我们的非相干预处理改进了几种现有的量化算法，并产生了第一种LLM量化方法，该方法仅使用每重量两位产生可行的结果。我们的代码可以在https://github.com/jerry-chee/QuIP。
	CD-GraB：协调分布式示例订单以显著加快培训 A.Feder Cooper、Wentao Guo、Khiem Pham、Tiancheng Yuan、Charlie F.Ruan、Yucheng Lu、Christopher De Sa 在第36届神经信息处理系统会议记录2023年12月。 [摘要][阿尔西夫] 最近对在线梯度平衡（GraB）的研究表明，存在基于置换的示例排序，可以保证其性能优于随机重组（RR）。虽然RR任意排列训练示例，但GraB利用了从以前的时间段到顺序示例的陈旧梯度，实现了比RR更快的收敛速度。然而，GraB受到设计的限制：虽然它展示了在集中数据上扩大训练的强大能力，它不能自然地扩展到现代分布式ML工作负载。因此，我们提出了协调分布式GraB（CD-GraB），它利用先前关于内核细化的工作中的见解，将基于置换的示例排序的优点转化为分布式设置。CD-GraB的开销可以忽略不计，与集中式GraB相比，它在收敛速度上表现出线性加速，并且在各种基准任务上的性能优于基线，包括分布式RR。
	圆锥头：层次意识关注曾荫权（Albert Tseng）、陶瑜（Tao Yu）、托尼·J.B.刘（Toni J.B.Liu）、克里斯托弗·德萨（Christopher De Sa）在第36届神经信息处理系统会议记录2023年12月。 [摘要][阿尔西夫] 注意力网络（如变压器）在许多领域都取得了最先进的性能。这些网络在很大程度上依赖点积注意算子，该算子通过取点的内积来计算两点之间的相似性。然而，内部产品并没有显式地建模现实世界数据集的复杂结构属性，例如数据点之间的层次结构。为了解决这个问题，我们引入了圆锥体注意力，这是一种基于双曲蕴涵圆锥体的点积注意力的替代品。圆锥体注意力通过双曲圆锥体定义的层次结构中最低共同祖先的深度将两点关联起来，双曲圆锥直观地测量两点的散度并给出相似性分数。我们对各种模型和任务进行了锥形注意力测试，结果表明，与点产品注意力和其他基线相比，锥形注意力可以提高任务级别的性能，并且能够用更少的参数匹配点产品注意力。我们的结果表明，锥形注意力是计算注意力时捕捉层次关系的有效方法。
	TART：用于任务认知推理的即插即用Transformer模块库什·巴蒂亚、阿瓦尼卡·纳拉扬、克里斯托弗·德萨、克里斯托弗·雷在第36届神经信息处理系统会议记录2023年12月。 [摘要][阿尔西夫] 大型语言模型（LLM）展示了上下文内学习能力，使同一模型能够在没有任何特定任务训练的情况下执行多个任务。相比之下，传统的适应方法，如微调，会修改每个特定任务的基本模型。然而，即使有相同的例子，在上下文学习中，特定任务的调优方法也始终表现不佳。虽然大多数现有方法（例如，即时工程）都将重点放在LLM的学习表示上，以弥补这一性能差距，但我们的实验实际上表明，LLM表示包含足够的信息，可以做出良好的预测。因此，我们关注LLM的推理能力，并证明这种性能差距的存在是由于它们无法执行简单的概率推理任务。这提出了一个有趣的问题：LLM真的能够学习如何以任务认知的方式进行推理吗？我们对此作出了肯定的回答，并提出了TART，作为概念证明，它使用综合训练的推理模块来提高LLM的推理能力。TART仅使用合成逻辑回归任务，以任务认知的方式训练此基于变换器的推理模块，并将其与任意的真实世界预训练模型组合，无需任何额外训练。通过单个推理模块，TART可以提高不同模型族（GPT-Neo、Pythia、Bloom）、模型大小（100M-6B）、任务（14个NLP分类任务）甚至不同模式（音频和视觉）的性能。在RAFT基准测试中，TART提高了GPT-Neo（125M）的表现，超过了Bloom（176B），并且在GPT-3的4%以内。
	黎曼剩余神经网络 Isay Katsman、Eric Ming Chen、Sidhanth Holalkere、Anna Asch、Aaron Lou、Ser-Nam Lim、Christopher De Sa 在第36届神经信息处理系统会议记录2023年12月。 [摘要][阿尔西夫] 最近的几何深度学习方法引入了各种神经网络来操作位于黎曼流形上的数据。为了更好地学习具有层次结构的图，或者学习自然科学中遇到的多值数据，这样的网络通常是必要的。这些网络通常受到标准欧几里德神经网络的启发并直接推广。然而，扩展欧几里得网络是困难的，并且只对选定的几个流形进行了扩展。在这项工作中，我们研究了剩余神经网络（ResNet），并展示了如何以几何原理的方式将这种构造推广到一般黎曼流形。ResNets最初是为了帮助解决消失梯度问题而引入的，由于其有益的学习特性、出色的经验结果以及在构建各种神经网络时易于合并的特性，ResNets在机器学习中变得无处不在。我们发现我们的黎曼ResNets反映了这些理想的特性：与现有的设计用于在双曲空间和对称正定矩阵流形上学习的流形神经网络相比，我们在相关测试指标和训练动力学方面都优于这两种网络。
UAI 2023年	概率依赖图的推理奥利弗·理查森（Oliver Richardson）、乔·哈尔珀（Joe Halpern）、克里斯托弗·德萨（Christopher De Sa）在UAI：第39届人工智能不确定性会议2023年8月。 [摘要][纸类] 概率依赖图（PDG）是一类灵活的概率图形模型，包括贝叶斯网络和因子图。它们还可以捕获不一致的信念，并提供一种衡量这种不一致程度的方法。我们提出了第一个可处理的离散变量PDG推理算法，使得PDG推理的渐近复杂性与它们推广的图形模型的渐近复杂性相似。关键部分包括：（1）观察到PDG推理可以简化为指数锥约束的凸优化，（2）一种结构，允许我们将这些问题紧凑地表示为有界树宽的PDG，为此我们需要进一步发展PDG理论，以及（3）呼吁使用内点方法在多项式时间内解决此类问题。我们验证了我们的方法的正确性和时间复杂性，并提供了它的实现。然后，我们评估了我们的实现，并证明它优于基准方法。我们的代码位于github.com/orichardson/pdg-infer-uai。
ICML 2023年	鸡尾酒SGD：500Mbps网络上的微调基础模型王珏、陆玉成、袁斌航、陈蓓蒂、梁佩西、克里斯托弗·德萨、克里斯托弗·瑞、张策在ICML：第三十九届机器学习国际会议2023年7月。 [摘要][纸类] 基础模型，特别是大型语言模型（LLM）的分布式训练是通信密集型的，因此在很大程度上依赖于具有快速互连的集中式数据中心。我们能否在慢速网络上进行培训，并释放基础模型分散基础设施的潜力？在本文中，我们提出了CocktailSGD，这是一种新的高效通信训练框架，它结合了三种不同的压缩技术——随机稀疏化、top-K稀疏化和量化——以实现比单独使用每种技术更大的压缩。我们通过对收敛性的理论分析来证明这种混合方法的好处。经验表明，CocktailSGD在高达200亿个参数的微调LLM中实现了高达117倍的压缩，而不会影响收敛。在500Mbps网络上，与数据中心网络相比，CocktailSGD只会出现约1.2倍的速度下降。
	信息扩散：利用信息最大化扩散模型进行表征学习王英亨、亚尔·希夫、亚伦·戈卡斯兰、潘伟深、王飞、克里斯托弗·德萨、沃洛德米尔·库列舍夫在ICML：第三十九届机器学习国际会议2023年7月。 [摘要][纸类] 扩散模型具有较高的样本质量，但在学习语义有意义的潜在表征方面并不有效。在这里，我们提出了InfoDiffusion，这是一种使扩散模型能够使用低维潜在变量执行表示学习的算法。我们引入了辅助变量扩散模型——一个包含额外语义意义潜在成分的模型族——并导出了新的变分推理算法，该算法优化了用互信息项正则化的学习目标。最大化相互信息有助于InfoDiffusion发现跨多个数据集的语义有意义的表示，包括实现解纠缠的强大属性的表示。我们设想我们的方法在需要探索学习的潜在空间以产生高质量输出的应用中是有用的，例如在生成性设计中。
	步骤：通过先决条件从头开始学习N:M结构化稀疏面具陆玉成（Yucheng Lu）、阿米尔·亚兹丹巴赫什（Amir Yazdanbakhsh）、希瓦尼·阿格拉瓦尔（Shivani Agrawal）、苏维奈·苏布拉曼尼亚（Suvinay Subramanian）、奥列格·里巴科夫（Oleg Rybakov）、克里斯托弗·德萨（Christopher De Sa）在ICML：第三十九届国际机器学习大会2023年7月。 [摘要][纸类] 最近的硬件创新（如Nvidia A100）促使我们从头开始学习N:M结构稀疏掩模，以实现快速模型推断。然而，针对动量SGD等非自适应优化器，提出了该领域最先进的学习方法（例如SR-STE），而对于Adam训练模型（如基于注意力的LLM），则会导致非平凡的精度下降。在本文中，我们首先证明了这种间隙来源于由屏蔽权重给出的Adam状态中估计不足的二阶矩（即方差）。我们推测，使用Adam学习N:M掩码应该考虑方差估计的关键范围。有鉴于此，我们提出了STEP，一种Adam感知配方，它通过两个阶段学习N:M掩码：首先，STEP计算可靠的方差估计值（前提阶段），然后，方差保持不变，并用作学习N:M掩码的前提条件（掩码学习阶段）。STEP通过在训练轨迹上动态采样方差变化并测试样本浓度，自动识别两个阶段的切换点。经验上，我们评估了STEP和其他基线，如ASP和SR-STE在多个任务上的性能，包括CIFAR分类、机器翻译和LLM微调（BERT-Base、GPT-2）。我们表明，STEP缓解了基线配方的精度下降，并对激进的结构化稀疏比具有鲁棒性。
JMLR 2023年	分散学习：理论优化与实践改进陆玉成、克里斯托弗·德萨在JMLR：机器学习研究杂志2023年4月。 [摘要][纸类] 分散是一种扩展并行机器学习系统的很有前途的方法。在本文中，我们提供了在随机非凸环境中此类方法的迭代复杂度的一个紧下界。我们的下限揭示了许多现有分散训练算法（如D-PSGD）已知收敛速度的理论差距。我们通过构造证明了这个下限是紧密的并且可以实现的。基于我们的见解，我们进一步提出了DeTAG，这是一种实用的八卦式分散算法，它只需要一个对数间隙即可实现下限。虽然具有普通SGD和恒定步长的简单DeTAG版本足以达到理论极限，但我们还提供了DeTAG在一般步长和动量不增加的情况下的收敛范围。根据经验，我们在多个视觉基准上将DeTAG与其他去中心化算法进行了比较，包括CIFAR10/100和ImageNet。我们证实了我们的理论，并表明DeTAG在无缓冲数据和稀疏网络中收敛更快。此外，我们研究了一种DeTAG变体DeTAG*，它实际上加快了以数据为中心的模型训练。这份手稿提供了ICML版本的扩展内容。
ICLR 2023年	通过0/1 Adam最大化大规模培训的沟通效率陆玉成、李从龙、张敏佳、克里斯托弗·德萨、何玉雄在ICLR：第十一届学习代表国际会议2023年5月。 [摘要][阿尔西夫] 1位梯度压缩和局部步骤是两种具有代表性的技术，能够在分布式SGD中大幅减少通信。然而，在基于Adam的大型模型预培训（例如BERT和GPT）方面，它们的好处仍然是一个悬而未决的问题。在本文中，我们证明了Adam中的非线性会导致收敛缓慢，即使单独应用1位压缩或局部步长。为了缓解这一限制，我们建议0/1 Adam通过使用其陈旧估计和线性相关性近似其优化器状态来线性化每个Adam步骤。0/1 Adam执行类似Adam的步骤以保持自适应性，而其线性允许同时利用1位压缩和局部步骤来加快墙锁时间。我们为0/1 Adam在光滑非凸目标上提供收敛保证。在各种大型基准测试中，如BERT-Base、BERT-large、GPT-2预训练和ImageNet，我们在多达128个GPU上证明0/1 Adam能够减少多达87%的数据量、54%的通信轮次、，并且与最先进的基线1位Adam相比，实现高达2的训练吞吐量和端到端训练时间减少；同时在GLUE数据集和ImageNet验证集上享受相同的统计收敛速度和最终任务模型准确性。
ICLR 2023年	双曲空间学习的随机拉普拉斯特征陶瑜、克里斯托弗·德萨在ICLR：第十一届学习代表国际会议2023年5月。 [摘要][阿尔西夫] 由于双曲线空间的几何特性，它可以支持树结构和图形结构数据的高保真嵌入，各种双曲线网络都是基于这些数据开发的。现有的双曲线网络不仅对输入进行几何先验编码，而且对网络的每一层都进行几何先兆编码。这种方法涉及到双曲线空间的反复映射，这使得这些网络的实现复杂，计算量大，并且训练时数值不稳定。在本文中，我们提出了一种更简单的方法：学习输入的双曲线嵌入，然后使用一个映射将其映射到欧几里德空间，该映射通过尊重双曲线空间的等距对几何先验进行编码，最后使用标准欧几里得网络完成。关键的见解是通过拉普拉斯算子的特征函数使用随机特征映射，我们证明它可以近似双曲空间上的任何等距不变核。我们的方法可以与任何图形神经网络一起使用：即使使用线性图形模型，在传递和归纳任务中，与其他双曲线基线相比，其效率和性能也会显著提高。
NeurIPS 2022	抓住：找到比随机重组更好的数据排列陆玉成、郭文涛、克里斯托弗·德萨在NeurIPS：第35届神经信息处理系统会议记录2022年12月。 [摘要][纸类] 随机重排（Random reshuffing）在模型训练中被广泛采用，它在每个历元对数据集进行随机重排，因为它的收敛速度比无重排采样更快。最近的研究表明，贪婪地选择数据顺序可以在经验上进一步加快收敛速度，但代价是使用更多的计算和内存。然而，贪婪排序缺乏理论依据，由于其非平凡的内存和计算开销，其效用有限。在本文中，我们首先建立了一个名为mph{herding}的示例排序框架，并肯定地回答了带有herding的SGD在光滑、非凸目标上的收敛速度为（O（T^{-2/3}），快于通过随机重组获得的（O（n^{1/3}T^{-2-3}）），其中（n）表示数据点的数量，（T）表示迭代的总数。为了减少内存开销，我们利用差异最小化理论提出了一种在线梯度平衡算法（GraB），该算法与羊群算法具有相同的速率，同时将内存使用量从\（O（nd）\）减少到仅\（O（d）\），并将计算量从\（O（n^2）\）减少到\（O（n）\），其中\（d\）表示模型维度。我们在MNIST、CIFAR10、WikiText和GLUE等应用程序上的经验表明，GraB在训练和验证性能方面都优于随机重组，甚至优于最先进的贪婪排序，同时将内存使用量减少了100倍以上。
	理解用于并行单通道学习的超维计算 Tao Yu、Yichi Zhang、Zhiru Zhang、Christopher De Sa 在NeurIPS：第35届神经信息处理系统会议记录2022年12月。 [摘要][纸类] 超维计算（HDC）是一种新兴的学习范式，它使用高维二进制向量进行计算。由于HDC的能效和超低延迟，在新兴硬件领域有一条积极的研究路线，但HDC的模型精度较低，对其性能的限制缺乏理论理解。通过考虑哪些相似矩阵可以用二进制向量“表示”，我们提出了一种新的HDC极限的理论分析，并说明了如何使用随机傅里叶特征（RFF）逼近HDC极限。我们将分析扩展到更一般的向量符号体系结构（VSA）类，该类使用不一定是二进制的高维向量（超向量）进行计算。我们提出了一类新的VSA，即有限群VSA，它超越了HDC的极限。利用表示理论，我们刻画了哪些相似矩阵可以用有限群VSA超向量“表示”，并说明了如何构造这些VSA。实验结果表明，我们的RFF方法和组VSA在保持硬件效率的同时，可以比最新的HDC模型高出7.6%。这项工作旨在激发ML社区未来对HDC的兴趣，并与硬件社区建立联系。
	神经网络的模型保持压缩 Jerry Chee、Megan Renz、Anil Damle、Christopher De Sa 在NeurIPS：第35届神经信息处理系统会议记录，2022年12月。 [摘要][纸类] 在训练复杂的深度学习模型之后，一个常见的任务是压缩模型以减少计算和存储需求。在压缩时，需要保留原始模型的逐示例决策（例如，超越前1精度或保持鲁棒性），保持网络结构，自动确定逐层压缩级别，并消除微调的需要。现有的压缩方法都不能同时满足这些标准，我们引入了一种利用插值分解的原则方法。我们的方法同时选择和消除通道（类似于神经元），然后构造插值矩阵，将校正传播到下一层，从而保留网络的结构。因此，即使不进行微调，我们的方法也能获得良好的性能，并且可以进行理论分析。我们对单层网络的理论泛化界自然而然地提供了一种启发式方法，允许我们的方法自动选择深层网络的每层大小。我们通过对各种任务、模型和数据集（从简单的单层网络到ImageNet上的深层网络）的强大经验性能证明了我们的方法的有效性。
	从人口损失梯度流到随机梯度下降学习 Christopher De Sa、Satyen Kale、Jason D.Lee、Ayush Sekhari、Karthik Sridharan 在NeurIPS：第35届神经信息处理系统会议记录2022年12月。 [摘要][纸类] 随机梯度下降（SGD）是学习大规模非凸模型的首选方法。虽然对SGD何时起作用的一般分析尚不明确，但最近在理解梯度流（GF）对人口损失的收敛性方面取得了很多进展，部分原因是连续时间分析为我们带来的简单性。本文的一个主要主题是提供SGD收敛的一般条件，假设GF对种群损失收敛。我们建立这种联系的主要工具是逆李亚普诺夫类似定理，它暗示了在关于GF收敛速度的温和假设下，Lyapunov势的存在。事实上，利用这些势，我们显示了GF的收敛速度与潜在目标的几何性质之间的一一对应关系。当这些势进一步满足某些自边界性质时，我们表明它们可以用于为梯度下降（GD）和SGD提供收敛保证（即使GF路径和GD/SGD路径相距很远）。事实证明，这些自边界假设在某种意义上也是GD/SGD工作所必需的。使用我们的框架，我们不仅对经典设置（如凸损失）或满足PL/KL属性的目标，而且对更复杂的问题（包括相位恢复和矩阵平方根），提供了GD/SGD的统一分析，并扩展了Chatterjee 2022最近工作的结果。
CSLaw 2022公司法	不确定性与ML码的非法性口腔 A.Feder Cooper、Jonathan Frankle、Christopher De Sa 在CSLaw：第二届ACM计算机科学与法律研讨会2022年11月。 [摘要][纸类] 关于机器学习（ML）的法律文献倾向于关注危害，因此倾向于分析单个模型的结果和总结错误率。这种对模型级结果和错误的关注掩盖了ML的重要方面，这些方面根源于其固有的非确定性。我们表明，从将ML输出作为可能结果的概率分布进行推理的角度来看，非决定论的影响及其对法律的影响反而变得更加清晰。这种分配观点通过强调ML的可能结果来解释非决定论。重要的是，这种推理并不排斥当前的法律推理；它补充（实际上可以加强）有关特定自动化决策的个别具体结果的分析。通过阐明非确定性的重要作用，我们证明了洗钱代码不属于将“代码视为法律”的网络法框架，因为该框架假设代码是确定性的。最后，我们简要讨论了ML可以做些什么来限制非决定论的潜在危害诱导效应，并且我们澄清了法律必须在哪里做工作来弥合其当前的个人结果焦点和我们建议的分配方法之间的差距。
ICML 2022年	低精度随机梯度朗之万动力学聚光灯 Ruqi Zhang、Andrew Wilson、Christopher De Sa 在ICML：第三十九届国际机器学习会议2022年7月。 [摘要][纸类] 虽然低精度优化已被广泛用于加速深度学习，但低精度采样在很大程度上仍未被探索。因此，尽管采样对神经网络的泛化和不确定性估计有显著的好处，但在许多大规模场景中采样是不可行的。在本文中，我们首次研究了低精度随机梯度朗之万动力学（SGLD），表明由于其固有的处理系统噪声的能力，其成本可以在不牺牲性能的情况下显著降低。我们证明了在强凸环境下，具有全精度梯度累加器的低精度SGLD的收敛性受量化误差的影响小于其对应的SGD。为了进一步启用低精度梯度累加器，我们为SGLD开发了一个新的量化函数，该量化函数保留了每个更新步骤中的方差。我们证明，在各种深度学习任务中，低精度SGLD仅用8位就可以实现与全精度SGLD相当的性能。
ICLR 2022年	随机梯度下降的选例分析聚光灯陆玉成、孟思义、德萨在ICLR：第十届学习代表国际会议记录2022年4月。 [摘要] 众所周知，SGD中的训练示例顺序会影响收敛速度。最近的结果表明，对于基于排列的样本顺序，在各种情况下都可以加快速度，在这种情况下，训练集中的每个示例都会在重用任何示例之前使用一次。在本文中，我们对SGD使用的示例序列提出了一个广泛的条件，该条件足以证明在强凸和非凸环境中的紧收敛速度。我们表明，我们的方法足以恢复并在某些情况下改进对四个已知示例选择方案的先前最新分析：（1）一次洗牌，（2）随机洗牌，，（3）带数据回显的随机洗牌和（4）马尔可夫链梯度下降。基于我们的理论，我们提出了两种新的示例选择方法。首先，使用准蒙特卡罗方法，我们通过数据增强实现了前所未有的加速收敛速度。其次，我们贪婪地选择一个固定的扫描顺序来最小化我们条件中使用的度量，并表明我们可以从相同的SGD周期数中获得更精确的解。最后，我们通过实证证明了我们的方法在凸线性模型和深度学习任务中的实用性。
ICLR 2022年	我们能走多低：用记忆换取低精度训练中的错误杨成润、吴紫阳、许杰瑞、克里斯托弗·德萨和马德琳·尤德尔在ICLR：第十届学习代表国际会议论文集2022年4月。 [摘要] 低精度算法使用更少的能量、更少的内存和更少的时间来训练深度学习模型。然而，我们为节省成本付出了代价：较低的精度可能会产生较大的舍入误差，从而产生较大的预测误差。随着应用程序的激增，用户必须选择使用哪种精度来训练新模型，芯片制造商必须决定制造哪种精度。我们将这些精度选择视为一个超参数调整问题，并借鉴元学习的思想来学习记忆和错误之间的权衡。本文引入Pareto估计来选取最佳精度（PEPPP）。我们使用矩阵分解来寻找具有有限数量网络评估的非支配配置（Pareto边界）。对于任何给定的内存预算，将错误降至最低的精度都是这个边界上的一个点。实践者可以利用边界来交换记忆以换取错误，并为他们的目标选择最佳精度。
NeurIPS 2021	超参数优化欺骗了我们，如何阻止它 A.Feder Cooper、Yucheng Lu和Christopher De Sa 在NeurIPS：第34届神经信息处理系统会议记录2021年12月。 [摘要][阿尔西夫] 最近的实证研究表明，基于超参数优化（HPO）配置选择的结果不一致是ML研究中普遍存在的问题。当比较两种算法J和K时，搜索一个子空间可以得出J优于K的结论，而搜索另一个子空间可以得出相反的结论。简言之，我们选择超参数的方式可能会欺骗我们。我们为之前的工作提供了理论上的补充，认为为了避免这种欺骗，从HPO得出结论的过程应该更加严格。我们将此过程称为认知超参数优化（EHPO），并提出了一个逻辑框架来捕获其语义以及它如何导致关于性能的不一致结论。我们的框架使我们能够证明EHPO方法，这些方法保证能够抵御欺骗。我们通过证明和实证验证随机搜索的防御变体来证明其效用。
	用多分量浮点精确表示双曲空间陶瑜、克里斯托弗·德萨在NeurIPS：第34届神经信息处理系统会议记录2021年12月。 [摘要] 双曲空间对于嵌入具有层次结构的数据非常有用；然而，用普通浮点数表示双曲空间，由于其不可避免的数值误差，极大地影响了性能。仅仅提高浮点的精度并不能解决这个问题，而且在不支持GPU的硬件上模拟更大的双精度浮点会带来很高的计算成本。在本文中，我们提出了一种简单、可行、易于理解的解决方案，用于双曲空间上的数值精确学习。我们使用了一种新的方法来表示双曲线空间，该方法在Poincare上手空间模型中使用多分量浮点（MCF）。理论和实验表明，我们的模型具有较小的数值误差，并且在跨各种数据集嵌入任务时，由多分量浮点表示的模型在GPU上只需轻微的计算速度减慢即可显著增加容量。
	等变流形流 Isay Katsman、Aaron Lou、Derek Lim、Qingxuan Jiang、Ser-Nam Lim、Christopher De Sa 在NeurIPS：第34届神经信息处理系统会议记录2021年12月。 [摘要] 对流形上的分布进行跟踪建模一直是自然科学的一个重要目标。最近的工作重点是开发通用机器学习模型来学习此类分布。然而，对于许多应用程序，这些分布必须尊重流形对称性——这是大多数以前的模型所忽略的特性。本文为利用等变流形流学习任意流形上的对称变分布奠定了理论基础。在量子场论的背景下，我们用它来学习SU（n）上的规范不变密度，从而证明了我们方法的实用性。
2021年夏季奥运会	分布式ML系统中的精确-效率权衡和责任口腔 A.Feder Cooper、Karen Levy、Christopher De Sa 在EAAMO：算法、机制和优化公平与准入会议（待发布）2021年10月。 [摘要][阿尔西夫] 准确性和效率之间的权衡遍及法律、公共卫生和其他非计算领域，这些领域制定了政策，以指导如何在不确定性条件下平衡两者。虽然计算机科学通常也会研究准确率与效率之间的权衡，但它们的政策含义仍然没有得到很好的研究。借鉴美国的风险评估实践，我们认为，由于研究这些权衡对于指导其他领域的治理是有用的，因此我们需要在治理计算机系统时同样考虑这些权衡。我们将重点分析分布式机器学习系统。了解这一领域的政策含义尤为紧迫，因为包括自动驾驶车辆在内的此类系统往往风险高、安全关键。我们1）描述这些系统的权衡是如何形成的，2）强调现有美国风险评估标准之间的差距以及这些系统需要进行适当评估的内容，以及3）当与准确率-效率权衡相关的假设风险成为现实世界中的事故时，发出具体行动呼吁，以促进问责制。最后，我们讨论了这种问责机制如何鼓励与公共价值观相一致的更公正、透明的治理。
ICML 2021年	分散训练中的最优复杂性优秀论文（荣誉奖）陆玉成、克里斯托弗·德萨在ICML：第三十八届机器学习国际会议2021年7月。 [摘要][纸类] 分散是一种扩展并行机器学习系统的很有前途的方法。在本文中，我们提供了在随机非凸环境中此类方法的迭代复杂度的一个紧下界。我们的下限揭示了许多现有分散训练算法（如D-PSGD）已知收敛速度的理论差距。我们通过构造证明了这个下限是紧密的并且可以实现的。基于我们的见解，我们进一步提出了DeTAG，这是一种实用的八卦式分散算法，它只需要一个对数间隙即可实现下限。经验上，我们将DeTAG与其他分散算法在图像分类任务上进行了比较，并表明DeTAG相对于基线具有更快的收敛速度，尤其是在无缓冲数据和稀疏网络中。
	预测模型的分层抽样降方差训练 Yucheng Lu、Youngsuk Park、Lifan Chen、Yuyang Wang、Christopher De Sa、Dean Foster 在ICML：第三十八届机器学习国际会议2021年7月。 [摘要][纸类] 在大规模时间序列预测中，人们经常会遇到这样的情况，即时间序列的时间模式在随时间漂移的同时，在同一数据集中彼此不同。在本文中，我们证明了在这种异质性下，使用常用的随机优化器（例如SGD）训练预测模型可能会在梯度估计上遭受较大方差，从而导致长时间训练。我们表明，通过分层可以有效地缓解此问题，这允许优化器从预先分组的时间序列层中进行采样。为了更好地权衡梯度方差和计算复杂性，我们进一步提出了SCott（随机分层控制变量梯度下降），这是一种方差减少的SGD型优化器，通过控制变量使用分层采样。理论上，我们提供了SCott在光滑非凸目标上的收敛保证。根据经验，我们对SCott和其他基线优化器在合成和真实世界的时间序列预测问题上进行了评估，并证明了SCott在迭代和挂钟时间方面收敛得更快。
	低精度强化学习：以半精度运行软Actor-Critic 约翰·比约克（Johan Björck）、陈香玉（Xiangyu Chen）、克里斯托弗·德萨（Christopher De Sa）、卡拉·戈麦斯（Carla Gomes）、基利安·温伯格（Kilian Weinberger）在ICML:第三十八届国际机器学习大会2021年7月。 [摘要][纸类] 低精度培训已成为一种流行的方法，用于减少监督学习中的计算需求、内存占用和能耗。相比之下，这种有希望的方法尚未在强化学习（RL）社区中得到类似的广泛采用，部分原因是RL代理即使在完全精确的情况下也很难训练。在本文中，我们考虑使用最先进的SAC代理进行连续控制，并证明了对监督学习中的低精度方法的天真适应是失败的。我们提出了一组六个修改，所有修改都很容易实现，使底层代理及其超参数保持不变，但显著提高了数值稳定性。改进后的SAC代理在匹配全精度奖励的同时，具有更低的内存和计算要求，这表明低精度训练可以大幅加快最先进的RL，而无需调整参数。
ICML INNF 2021	等变流形流 Isay Katsman、Aaron Lou、Derek Lim、Qingxuan Jiang、Ser-Nam Lim、Christopher De Sa 在可逆神经网络、归一化流和显式似然模型ICML研讨会2021年7月。 [摘要][纸类] 对流形上的分布进行跟踪建模一直是自然科学的一个重要目标。最近的工作重点是开发通用机器学习模型来学习此类分布。然而，对于许多应用程序，这些分布必须尊重流形对称性——这是大多数以前的模型所忽略的特性。本文为利用等变流形流学习任意流形上的对称变分布奠定了理论基础。在量子场论的背景下，我们用它来学习SU（n）上的规范不变密度，从而证明了我们方法的实用性。
ICLR RML 2021号	超参数优化欺骗了我们，如何阻止它 A.Feder Cooper、Yucheng Lu和Christopher De Sa 在ICLR 2021，稳健ML（RML）研讨会2021年5月。 [摘要][阿尔西夫] 众所周知，超参数优化（HPO）对学习算法的性能有很大影响，但它通常被视为一种事后经验。最近的实证研究强调了这种二流HPO治疗的风险。他们表明，基于超参数子空间搜索选择的性能结果不一致是ML研究中普遍存在的问题。在比较两种算法时，J和K搜索一个子空间可以得出J优于K的结论，而搜索另一个子空间可能会得到相反的结果。简而言之，您选择的超参数可能会欺骗您。我们为之前的工作提供了理论上的补充：我们分析了这个问题，我们称之为超参数欺骗，并表明网格搜索本质上是欺骗性的。我们证明了一种具有防止欺骗保证的辩护，并在实践中证明了辩护。
ICLR SEDL 2021	模型选择在现实世界深度学习应用中的不同影响口腔 Jessica Zosa Forde、A.Feder Cooper、Kweku Kwegyir-Aggrey、Christopher De Sa、Michael Littman 在ICLR 2021，深度学习科学与工程研讨会（SEDL）2021年5月。 [摘要][Arxiv公司] 算法公平性强调了有偏差数据在自动决策结果中的作用。最近，人们的注意力转移到了偏见的来源上，这些偏见在洗钱渠道的其他阶段牵涉到公平性。我们认为，这种偏见的一个来源，即模型选择中的人类偏好，在其对不同人口群体的不同影响中所起的作用方面，仍然没有得到充分的探索。使用根据真实医学成像数据训练的深度学习模型，我们从经验上验证了我们的主张，并认为模型比较的度量选择会严重影响模型选择结果。
AISTATS 2021年	变分推理的元学习发散张如琪、李英珍、克里斯托弗·德萨、萨姆·德夫林、张成在AISTATS：第24届国际人工智能与统计会议记录2021年4月。 [摘要] 变分推理（VI）由于其计算效率和广泛的适用性，在近似贝叶斯推理中起着至关重要的作用。VI性能的关键是选择相关的散度度量，因为VI通过最小化散度来近似难以处理的分布。在本文中，我们提出了一种元学习算法来学习适合感兴趣任务的发散度量，从而自动化VI方法的设计。此外，当我们的方法被部署在少数快照学习场景中时，我们可以在不增加额外成本的情况下学习变分参数的初始化。我们证明了我们的方法在高斯混合分布近似、贝叶斯神经网络回归、变分自编码器图像生成和部分变分自编码推荐系统方面优于标准VI。
MLSys 2021公司	PipeMare：异步管道并行DNN培训杨博文、张健、Jonathan Li、Christopher Ré、Christopher R.Aberger、Christopher De Sa 在MLSys：第四届机器学习和系统会议记录2021年4月。 [摘要][阿尔西夫] 最近，人们对在训练神经网络时使用流水线并行性产生了浓厚的兴趣。流水线并行使更大的模型能够在芯片之间和芯片内进行空间划分，从而降低网络通信并提高整体硬件利用率。不幸的是，为了保持统计效率，现有的流水线并行技术通过在流水线中引入气泡和/或产生额外的内存成本来牺牲硬件效率。在本文中，我们将研究这些牺牲在多大程度上是必要的。理论上，我们推导出了一种简单但健壮的训练方法，称为PipeMare，它允许在并行执行期间进行异步更新。利用这一点，我们在ResNet网络和Transformer网络上实证地表明，PipeMare可以实现与同步训练技术相匹配的最终模型质量（测试准确度最差0.9%，测试BLEU分数最好0.3）同时，与其他流水线并行训练技术相比，使用的重量和优化器内存少2.0倍，速度快3.3倍。据我们所知，我们是第一个在神经网络训练期间探索这些技术和细粒度管道并行性（例如，管道阶段的数量等于层的数量）的人。
NeurIPS 2020	渐近最优精确小批量都市——黑斯廷斯聚光灯 Ruqi Zhang、A.Feder Cooper、Christopher De Sa 在NeurIPS：第33届神经信息处理系统会议记录2020年12月。 [摘要][阿尔西夫] Metropolis-Hastings（MH）是一种常用的MCMC算法，但由于需要对整个数据集进行计算，因此在大型数据集上可能很难实现。在本文中，我们研究了小批量MH方法，该方法使用子样本来实现缩放。我们观察到，大多数现有的小批量MH方法都是不精确的（即它们可能会改变目标分布），并表明这种不精确性会导致推理中出现任意大的错误。我们提出了一种新的精确小批量MH方法TunaMH，该方法暴露了其小批量大小与其理论上保证的收敛速度之间的可调权衡。我们证明了任何小批量MH方法在保证快速收敛的同时必须保持精确性的批量大小的一个下界，这是小批量MH-的第一个此类下界，并表明TunaMH在批量大小方面是渐近最优的。经验表明，TunaMH在稳健线性回归、截断高斯混合和逻辑回归方面优于其他精确的小批量MH方法。
	随机重新洗牌并不总是更好聚光灯克里斯托弗·德萨在NeurIPS：第33届神经信息处理系统会议记录2020年12月。 [摘要] 许多学习算法，如随机梯度下降，都受到训练示例使用顺序的影响。一般认为，在不进行重定位（也称为随机重组）的情况下对训练示例进行采样，可以使学习算法更快地收敛。我们给出了非交换算术和几何平均算子不等式的反例，这是一个与学习算法中随机重组性能相关的长期猜想（Recht和Ré，“走向非交换算术-几何平均不等式：猜想、案例研究和结果”，COLT 2012）。我们用它来给出一个学习任务和算法的例子，在这个例子中，重定位随机抽样实际上优于随机重组。
	神经流形常微分方程阿伦·娄、德里克·林、伊萨·凯茨曼、黄利奥、蒋清轩、林瑟南、克里斯托弗·德萨在NeurIPS：第33届神经信息处理系统会议记录2020年12月。 [摘要] 为了更好地符合数据几何，最近的深层生成建模技术将欧几里德构造应用于非欧几里得空间。本文研究流形上的规范化流。先前的工作已经为特定情况开发了流程模型；然而，这些进步在流形-流形的基础上增加了手工工艺层，限制了通用性，并产生了繁琐的设计约束。我们通过引入神经流形常微分方程来克服这些问题，这是神经常微分方程的流形推广，可以构造流形连续规范化流（MCNF）。MCNF只需要局部几何学（因此可推广到任意流形），并计算变量连续变化的概率（允许简单而富有表现力的流构造）。我们发现，利用连续流形动力学可以显著改善密度估计和下游任务。
ICML 2020年	Moniqa：分散SGD中的模量化通信陆玉成、克里斯托弗·德萨在ICML：第三十七届机器学习国际会议2020年7月。 [摘要][纸类][阿尔西夫] 以分散方式运行随机梯度下降（SGD）已显示出良好的结果。在本文中，我们提出了Moniquea，一种允许分散SGD使用量化通信的技术。我们从理论上证明，Moniquea每次迭代传递的比特数是可证明的有界的，同时收敛速度与原始算法在全精度通信中的收敛速度相同。Moniqua改进了以前的工作，因为它（1）不需要额外的内存，（2）使用1位量化，（3）适用于各种分散算法。我们实证证明，相对于其他量化分散算法，Moniqua相对于挂钟时间的收敛速度更快。我们还表明，Moniqua对非常低的位预算是健壮的，允许在CIFAR10上训练ResNet20和ResNet110时进行1位/参数通信，而不会影响验证准确性。
ICML 2020年	通过Fréchet均值进行区分 Aaron Lou、Isay Katsman、Qingxuan Jiang、Serge Belongie、Ser Nam Lim、Christopher De Sa 在ICML：第三十七届机器学习国际会议2020年7月。 [摘要][纸类][Arxiv公司] 黎曼流形上深度表示学习的最新进展扩展了经典的深度学习操作，以更好地捕获流形的几何。一个可能的扩展是傅里叶平均，欧几里德平均的推广；然而，它一直很难应用，因为它缺乏具有易于计算的导数的闭合形式。本文证明了如何通过Fréchet均值对任意黎曼流形进行微分。然后，针对双曲空间，我们导出了显式梯度表达式和一个快速、准确、无超参数的Fréchet均值解算器。这将Fréchet均值完全集成到双曲神经网络管道中。为了证明这种整合，我们提出了两个案例研究。首先，我们将我们的Fréchet均值应用于现有的双曲图卷积网络，替换其投影聚合，以在具有高度双曲性的数据集上获得最新的结果。其次，为了证明Fréchet均值推广欧几里德神经网络操作的能力，我们开发了一种双曲线批处理归一化方法，该方法的改进与欧几里得设置中观察到的方法类似。
LML@ICML2020	在分布式机器学习系统中调节精度-效率权衡口腔 A.Feder Cooper、Karen Levy、Christopher De Sa 在LML 2020：ICML法律与机器学习研讨会2020年7月。 [摘要][阿尔西夫][SSRN（SSRN）] 本文讨论了分布式机器学习（ML）系统中准确性和效率之间的权衡，并分析了由此产生的策略考虑。事实上，这种权衡在包括法律和医学在内的多个学科中很常见，它适用于计算机科学的各种子领域。准确度和效率的权衡在ML算法中有着独特的含义，因为这些算法本质上是概率的，通常具有容错性。在描述了在真实的分布式计算系统中如何进行权衡之后，我们展示了此类系统和ML算法之间的相互作用，详细解释了准确性和效率如何相互作用，特别是在分布式ML系统中。最后，我们提出了具体的行动要求，以接近实时分布式ML系统新兴技术的监管政策。
INNF@ICML2020	神经流形常微分方程阿伦·娄、德里克·林、伊萨·凯茨曼、黄利奥、蒋清轩、林瑟南、克里斯托弗·德萨在INNF+2020:ICML可逆神经网络、归一化流和显式似然模型研讨会2020年7月。 [摘要][阿尔西夫][阿尔西夫] 为了更好地符合数据几何，最近的深层生成建模技术将欧几里德构造应用于非欧几里得空间。本文研究流形上的规范化流。以前的工作已经为特定情况开发了流动模型；然而，这些进步在流形-流形的基础上增加了手工工艺层，限制了通用性，并产生了繁琐的设计约束。我们通过引入神经流形常微分方程来克服这些问题，这是神经常微分方程的流形推广，可以构造流形连续规范化流（MCNF）。MCNF只需要局部几何学（因此可推广到任意流形），并计算变量连续变化的概率（允许简单而富有表现力的流构造）。我们发现，利用连续流形动力学可以显著改善密度估计和下游任务。
AISTATS 2020	AMAGOLD：有效随机梯度MCMC的摊销大都市调整 Ruqi Zhang、A.Feder Cooper、Christopher De Sa 在AISTATS：第23届国际人工智能与统计大会2020年6月。 [摘要][阿尔西夫] 随机梯度哈密顿蒙特卡罗（SGHMC）是一种从连续分布中采样的有效方法。它是HMC的一种更快的替代方法：SGHMC不在每次迭代中使用整个数据集，而只使用一个子样本。这提高了性能，但引入了可能导致SGHMC收敛到错误分布的偏差。可以使用步长衰减为零的步长来防止这种情况，但这样的步长调度会大大降低收敛速度。为了解决这个问题，我们提出了一种新的二阶SG-MCMC算法-AMAGOLD，它很少使用Metropolis-Hastings（M-H）校正来消除偏差。更正的频率很低，因此摊销了其成本。我们证明了AMAGOLD以固定步长而非递减步长收敛到目标分布，并且其收敛速度至多是一个常数因子，慢于全批次基线。我们实证证明了AMAGOLD对综合分布、贝叶斯逻辑回归和贝叶斯神经网络的有效性。
2019年NeurIPS	通道选通神经网络华伟哲、袁舟、克里斯托弗·德萨、张志如、G.Edward Suh 在NeurIPS：第32届神经信息处理系统会议记录2019年12月。 [摘要][纸类][阿尔西夫] 本文介绍了信道门控，这是一种动态、细粒度和高硬件效率的修剪方案，以降低卷积神经网络（CNNs）的计算成本。通道选通识别特征中对分类结果贡献较小的区域，并跳过对这些无效区域的输入通道子集的计算。与静态网络修剪不同，通道选通通过利用特定于输入的特征，在运行时优化CNN推理，从而在几乎没有精度损失的情况下大幅降低计算成本。我们的实验表明，在最先进的网络中应用信道选通技术可以在CIFAR-10上以最小的精度损失将FLOP减少2.7-8.0倍。将我们的方法与知识提取相结合，可以将ResNet-18的计算成本降低2.6倍，而不会降低ImageNet的精度。我们进一步证明，通道选通可以在硬件中以有效的方式实现。我们的方法展示了稀疏模式，这些模式非常适合使用附加硬件最少的密集脉动阵列。我们为通道选通网络设计了一个加速器，可以使用FPGA或ASIC实现。我们的加速器为ImageNet运行量化的ResNet-18模型，平均实现了令人鼓舞的2.4倍加速，理论上FLOP减少了2.8倍。
	基于平铺模型的数值精确双曲线嵌入聚光灯陶瑜、克里斯托弗·德萨在NeurIPS：第32届神经信息处理系统会议记录2019年12月。 [摘要][纸类] 双曲线嵌入在嵌入同义词或类型层次结构等层次数据结构时具有优异的性能，但在使用普通浮点数表示双曲线空间中的点时，它们可能会受到数值错误的限制。当点远离原点时，标准模型（如庞加莱盘和洛伦兹模型）具有无限误差。为了解决这个问题，我们提出了一个新的模型，使用基于整数的平铺来表示任何空间中具有可证明有界数值误差的点。这使我们能够在不使用BigFloat的情况下学习高精度嵌入，并使我们能够用更少的位存储生成的嵌入。我们对基于平铺的模型进行了实证评估，结果表明，它既可以压缩双曲线嵌入（降至WordNet上庞加莱嵌入的2%），也可以在真实数据集上学习更准确的嵌入。
	保证收敛速度的Gibbs抽样的Poisson微批处理聚光灯张如琪、克里斯托弗·德萨在NeurIPS：第32届神经信息处理系统会议论文集2019年12月。 [摘要][纸类][阿尔西夫] 吉布斯采样是一种马尔可夫链蒙特卡罗方法，常用于图形模型的学习和推理。微型批处理（Minibatching）在每次迭代时使用图的一个小随机子集）可以通过降低计算成本，帮助Gibbs采样扩展到大型图形模型。本文提出了一种新的辅助变量小批量Gibbs抽样方法，泊松-小批量吉布斯它既能产生无偏样本，又对其收敛速度有理论保证。与以前的小分批Gibbs算法相比，泊松-小分批吉布斯算法支持从连续状态空间进行快速采样，并避免了对离散状态空间进行Metropolis-Hastings校正的需要。我们证明了我们的方法在多个应用中的有效性，并与普通Gibbs方法和以前的小批量方法进行了比较。
	低精度训练的无量纲界限郑丽、克里斯托弗·德萨在NeurIPS：第32届神经信息处理系统会议记录2019年12月。 [摘要][纸类] 低精度训练是降低训练机器学习模型的时间和能量成本的一种很有前途的方法。之前的工作分析了低精度训练算法，如低精度随机梯度下降，并推导了它们的收敛速度的理论界。这些界限往往取决于模型d的维数，因为实现特定错误界限所需的位数随着d的增加而增加。在本文中，我们推导了不包含维度d的低精度训练算法的新边界，这使我们能够更好地理解随着参数的缩放，是什么影响了这些算法的收敛。我们的方法也很自然地进行了推广，使我们能够用其他量化方案（如低精度浮点计算和对数量化）证明低精度训练的新收敛界。
EMC2@NeurIPS2019	QPyTorch：一种低精度算法仿真框架张天一、林志秋、杨冠道、克里斯托弗·德萨在EMC2：NeurIPS关于节能ML和认知计算的研讨会2019年12月。 [摘要][阿尔西夫][在GitHub上下载][通过Pip安装] 低精度训练降低了计算成本，并产生了有效的模型。最近在开发新的低精度训练算法方面的研究通常依赖于仿真来实证评估量化的统计效果，同时避免构建特定硬件的大量开销。为了支持这一实证研究，我们引入了QPyTorch，这是一个低精度算法仿真框架。QPyTorch内置于PyTorch中，提供了一个方便的接口，可以最大限度地减少可靠转换现有代码以研究低精度训练所需的工作量。QPyTorch是通用的，支持精度、数字格式和舍入选项的多种组合。此外，它利用一种高效的融合内核方法来减少模拟器开销，从而能够模拟大规模的现实问题。
MICRO 2019年	用动态细粒度通道选通提高CNN加速器的性能华伟哲、袁舟、克里斯托弗·德萨、张志如、G.Edward Suh 在MICRO’52第52届IEEE/ACM国际微体系结构研讨会论文集2019年10月。 [摘要][纸类] 本文提出了一种新的用于CNN推理的细粒度动态修剪技术，称为信道门控，并提出了一种可以有效利用动态稀疏性的加速器架构。直观地说，通道选通识别了每个CNN层特征图中对分类结果贡献较小的区域，并关闭了用于计算这些不太重要区域中激活的通道子集。与静态网络修剪（在推理之前删除冗余权重或神经元）不同，通道选通在运行时以结构化方式利用特定于每个输入的动态稀疏性。为了最大限度地节省计算，同时最大限度地减少精度损失，通道门控通过训练自动学习门控阈值和权重。实验结果表明，该方法可以显著提高最先进的网络的速度，而精度损失很小，并且可以在性能和精度之间进行权衡。本文还表明，信道选通可以通过对CNN加速器的一组小扩展来支持，并实现了量化ResNet-18模型的原型。当理论FLOP约简为2.8倍时，加速器对ImageNet的平均加速比为2.3倍，表明硬件可以有效利用信道选通暴露的动态稀疏性。
2019年SIGOPS	实时物联网应用的云托管智能 Ken Birman、Bharath Hariharan、Christopher De Sa 在SIGOPS操作系统审查532019年7月。 [摘要][纸类][内政部] 将机器学习部署到物联网云设置中需要云基础设施的发展。在本白皮书中，我们证明了这一断言，并确定了实时智能系统所需的新功能。我们还概述了我们为创建更适合ML的新边缘体系结构所做的初步努力。尽管工作仍在进行中，但存在几个组件，我们对它们进行了审查。然后，我们指出随着我们朝着这个方向的进一步发展，需要解决的公开技术问题。
2019年ICML	使用Outlier信道分割改进无需再训练的神经网络量化赵丽奇、胡玉伟、乔丹·多泽尔、克里斯托弗·德萨、张志如在第三十六届国际机器学习大会2019年6月。 [摘要][纸类][阿尔西夫] 量化可以提高商品GPU和专用加速器上神经网络的执行延迟和能量效率。现有的大多数文献都集中于量化DNN的训练，而本研究则探讨了在不进行（重新）训练的情况下量化浮点模型这一研究较少的主题。DNN权重和激活遵循钟形分布后训练，而实际硬件使用线性量化网格。这给处理分布中的异常值带来了挑战。之前的工作已经通过剪裁离群值或使用专用硬件解决了这一问题。在这项工作中，我们提出了离群信道分裂（OCS），它复制包含离群值的信道，然后将信道值减半。网络的功能保持不变，但受影响的异常值被移向分布中心。OCS不需要额外的培训，并且可以在商品硬件上工作。对ImageNet分类和语言建模的实验评估表明，OCS的性能优于最新的裁剪技术，开销很小。
	基于次线性通信的分布式学习长时间口服 Jayadev Acharya、Christopher De Sa、Dylan J.Foster、Karthik Sridharan 在第三十六届国际机器学习大会2019年6月。 [摘要][纸类][阿尔西夫] 在分布式统计学习中，（N）个样本被分割到（m）台机器上，学习者希望使用最少的通信进行学习，就像示例是在一台机器上一样。由于该模型的可扩展性和并行加速的潜力，它在机器学习中受到了极大的关注。然而，在高维环境中，示例数量小于特征数量（“维”），分布式学习提供的加速可能会被单个示例的通信成本所掩盖。本文研究了以下问题：在（d）中总通信次线性的分布式环境中，何时可以学习d维模型？从一个否定的结果开始，我们证明了对于学习（ell_1）有界或稀疏线性模型，只有当通信在维数上是线性的时，算法才能获得最佳误差。我们的主要结果是，通过稍微放宽线性模型的标准有界性假设，我们可以获得具有通信对数维数的最优误差的分布式算法。该结果基于一系列将镜像下降与随机稀疏化/量化迭代相结合的算法，并扩展到一般的随机凸优化模型。
	现代数据增强的核心理论 Tri-Dao、Albert Gu、Alexander J.Ratner、Virginia Smith、Christopher De Sa、Christopher Ré 在第三十六届国际机器学习大会2019年6月。 [摘要][纸类][阿尔西夫] 数据增强是一种通过类保存转换扩展训练集的技术，在现代机器学习管道中普遍存在。在本文中，我们试图建立一个理解数据增强的理论框架。我们从两个方向来探讨这一点：首先，我们提供了一个作为马尔可夫过程的一般增强模型，并表明，即使我们不使用核分类，核也会自然地出现在这个模型中。接下来，我们更直接地分析了增强对核分类器的影响，表明数据增强可以通过一阶特征平均和二阶方差正则化分量来近似。这些框架都用于说明数据增强影响下游学习模型的方式，并且由此产生的分析在不变核、切线传播和鲁棒优化的先前工作之间提供了新的联系。最后，我们提供了几个概念验证应用程序，表明我们的理论可以用于加速机器学习工作流，例如减少使用增强数据进行训练所需的计算量，以及在训练之前预测变换的效用。
	SWALP：低精度训练中的随机加权平均杨冠道、张天一、波琳娜·基里琴科、白俊文、安德鲁·戈登·威尔逊、克里斯托弗·德萨在第三十六届国际机器学习大会2019年6月。 [摘要][纸类][阿尔西夫] 低精度操作可以提供可扩展性、内存节省、可移植性和能效。本文提出了SWALP，这是一种低精度训练方法，它使用修改的学习率调度对低精度SGD进行平均迭代。SWALP易于实现，即使所有数字量化到8位，包括梯度累加器，也可以与全精度SGD的性能相匹配。此外，我们证明了在强凸环境下，SWALP可以任意收敛到二次目标的最优解附近，并且收敛到噪声球渐近小于低精度SGD。
2019年国际货币基金组织	利用酉群卷积构造高效的深度神经网络赵丽奇、胡玉伟、乔丹·多泽尔、克里斯托弗·德萨、张志如在CVPR：计算机视觉和模式识别会议2019年6月。 [摘要][阿尔西夫] 我们提出了酉组卷积（UGConvs），这是CNN的一个构建块，它与特征空间中的酉变换组成一个组卷积，以学习比单独的组卷积更丰富的表示集。UGConvs概括了CNN体系结构中的两种不同思想，即频道洗牌（即ShuffleNet）和块循环网络（即CirCNN），并提供了统一的见解，从而加深了对每种技术的理解。实验证明，稠密酉变换在DNN精度上优于信道混洗。另一方面，不同的稠密变换表现出相当的精度性能。基于这些观察结果，我们提出了使用Hadamard变换的UGConv网络HadaNet。HadaNets的精度与循环网络相似，但计算复杂度较低，且精度优于具有相同参数数和浮点乘法的ShuffleNets。
2019年ICDT	概率不清数据库的形式化框架克里斯托弗·德萨（Christopher De Sa）、伊哈布·F·伊利亚斯（Ihab F.Ilyas）、本尼·基梅尔菲尔德（Benny Kimelfeld）、克里斯托弗·雷（Christopor Ré）、西奥多洛斯·雷卡西纳斯在第22届国际数据库理论会议2019年3月。 [摘要][阿尔西夫] 大多数关注数据错误和不一致的理论框架遵循基于逻辑的推理。然而，实际的数据清理工具需要结合统计推理才能在实际数据清理任务中有效。受这些经验成功的启发，我们提出了一个不干净数据库的正式框架，其中包含了两种类型的统计知识：第一种表示对如何生成预期（干净）数据的信念，第二种表示对如何在实际观察到的数据库实例中引入噪声的信念。为了捕获这种噪声信道模型，我们引入了概率不清数据库（PUD）的概念，这是一个由概率数据库（我们称之为意图）、概率数据转换器（我们称其为实现）和捕获噪声引入方式组成的三元组，以及一个脏的被观察数据库实例，我们称之为观察。我们在PUD框架中定义了三个计算问题：清理（在给定PUD的情况下推断最可能的清理实例）、概率查询回答（计算不干净观察实例上的回答元组的概率）、，和学习（估计给定训练数据集合的PUD最可能的意图和实现模型）。我们在意图和实现的具体表示上说明了PUD框架，表明它们概括了传统的修复概念，如基数和值修复，并与一致查询应答建立了联系，并证明了可处理性结果。我们进一步证明了参数可以在实际实例化中学习，事实上，证明了在某些条件下，我们可以直接从单个脏数据库实例学习PUD，而不需要任何干净的示例。
2019年上海国际展览中心	本体感知光学泡沫系统中传感器漂移的处理伊尔塞·范·梅尔贝克（Ilse M.Van Meerbeek）、何塞·巴雷罗斯（Jose A.Barrieros）、罗伯特·谢泼德（Robert F.Shepherd）、克里斯托弗·德萨（Christopher M.De Sa）在程序。SPIE 10970：2019年民用、机械和航空航天系统的传感器和智能结构技术2019年3月。 [摘要][纸类] 我们之前报道过一种弹性体光学泡沫传感器，可以感知不同类型的变形。弹性泡沫塑料嵌入光纤，光纤将光线照射到泡沫塑料中，同时将散射光从泡沫塑料发射出去。我们将机器学习技术应用于光纤数据，以形成预测模型，预测泡沫是扭曲还是弯曲（分类），以及变形的大小和方向（回归）。最佳分类模型对新数据点的准确率为100%，最佳回归模型对新的数据点的平均绝对误差为0.06度。这种本体感知能力可以为软机器人提供更多关于其物理状态的信息，从而提高我们控制它们的能力；然而，由于光纤输出中的漂移，预测误差随着时间的推移而增加。本文试图解决这一漂移。我们应用了一种基于Di Carlo等人工作的技术。这种无监督技术使用进化优化过程“协方差矩阵自适应进化策略”（CMA-ES）来计算可应用于未观测到的漂移数据点的校正因子。最佳解决方案将分类误差减少了49%，回归平均绝对误差减少了36%。
科学。机器人。2018	具有本体感受功能的软光电传感泡沫伊尔塞·范·梅尔贝克、克里斯托弗·德萨、罗伯特·谢泼德在科学机器人2018年11月。 [摘要][纸类][第条] 为了实现软机器人本体感受，从而实现更好的控制，本文提出了一种内部照明的弹性体泡沫，该泡沫经过训练，可以通过机器学习技术检测自身的变形。光纤将光传输到泡沫中，同时接收来自内部反射的漫射波。漫反射光通过机器学习技术进行解释，以预测泡沫是顺时针扭曲、逆时针扭曲、向上弯曲还是向下弯曲。机器学习技术也用于预测变形类型的大小。在新的数据点上，该模型以100%的精度预测变形类型，以0.06°的平均绝对误差预测变形大小。这种能力可以赋予软机器人更完整的本体感觉，使其能够可靠地控制和响应外部刺激。
ICML 2018年	大型图形模型上的小批量Gibbs抽样长时间口服 Christopher De Sa、Vincent Chen、Wing Wong 在ICML：第35届机器学习国际会议论文集2018年7月。 [摘要][纸类][阿尔西夫] 吉布斯抽样是事实上的马尔可夫链蒙特卡罗方法，用于大规模图形模型的推理和学习。对于具有许多因子的复杂因子图，吉布斯采样的性能可能受到执行马尔可夫链的单个更新步骤的计算成本的限制。此成本与图形的程度、每个变量相邻的因子数成正比。在本文中，我们展示了如何通过使用小批量处理来降低成本：对因素进行二次抽样，以形成对其总和的估计。我们引入了吉布斯的几个微匹配变体，证明了它们可以是无偏的，证明了它们收敛速度的界限，并证明了在某些条件下，它们可以在纯吉布斯采样上导致渐进的单更新运行时加速。
ICML 2018年	双曲线嵌入的表示权衡长时间口服弗雷德里克·萨拉、克里斯托弗·德萨、阿尔伯特·古、克里斯托弗·雷在ICML：第35届机器学习国际会议论文集2018年7月。 [摘要][纸类][阿尔西夫] 在嵌入层次数据结构时，双曲线嵌入提供了低维的优良质量。我们给出了一种组合结构，该结构将树嵌入到双曲空间中，且无需优化。在WordNet上，该算法仅在两个维度上获得0.989的平均精度，比现有的工作高0.11个百分点。我们提供了描述任何双曲线嵌入固有的精度-维数权衡的边界。为了嵌入一般度量空间，我们提出了多维尺度的双曲推广（h-MDS）。我们展示了如何从距离中精确恢复双曲线点，提供了扰动分析，并给出了恢复结果，使我们能够降低维数。最后，我们从上述算法和理论中吸取教训，设计了一个可扩展的基于PyTorch的实现，可以处理不完整信息。
2018年4月	异步共享存储器中随机梯度下降的收敛性 Dan Alistarh、Christopher De Sa、Nikola Konstantinov 在PODC：分布式计算原理2018年7月。 [摘要][阿尔西夫] 随机梯度下降（SGD）是机器学习中的一种基本算法，代表了训练从回归到神经网络的几个经典模型的优化主干。鉴于最近对分布式机器学习的实际关注，人们致力于研究该算法在分布式环境中执行时产生的不一致和噪声更新下的收敛特性。然而，令人惊讶的是，这一经典算法在标准共享内存模型中的收敛特性仍然没有得到很好的理解。在这项工作中，我们解决了这一差距，并为无锁并发随机梯度下降提供了新的收敛边界，该算法在经典异步共享内存模型中执行，以对抗强自适应对手。我们的结果给出了在并发环境中执行基本SGD算法时“异步代价”的改进上下界。他们表明，在异步迭代下，这一经典优化工具可以更快地收敛，参数范围比以前已知的更广。同时，我们展示了系统中最大延迟与SGD收敛速度之间的基本权衡，这决定了该算法仍能有效工作的参数集。
AISTATS 2018	加速随机幂迭代克里斯托弗·德萨（Christopher De Sa）、布莱恩·何（Bryan He）、伊奥尼斯·米利亚卡斯（Ioannis Mitliagkas）、克里斯托弗·雷（Christoper Ré）、彭旭（Peng Xu）在AISTATS：第21届国际人工智能与统计会议2018年4月。 [摘要][阿尔西夫] 主成分分析（PCA）是机器学习中最强大的工具之一。主成分分析最简单的方法是幂迭代法，它需要（mathcal O（1/Delta））完整的数据传递来恢复具有特征映射（Delta）的矩阵的主成分。Lanczos是一种更为复杂的方法，它可以实现更快的通过率（mathcal O（1/sqrt{Delta}））。然而，现代应用程序会激发只吸收可用数据子集的方法，即随机设置。在在线随机设置中，像Oja迭代这样的简单算法可以实现最佳样本复杂度（mathcal O（sigma^2/Delta^2））。不幸的是，它们是完全连续的，并且还需要（mathcal O（sigma^2/Delta^2））迭代，远远低于Lanczos的（mathcalO（1/sqrt{Delta}）速度。我们提出了一种添加动量项的幂迭代的简单变体，它既实现了最优样本，又实现了迭代的复杂性。在全通设置中，标准分析表明动量达到了加速率，（mathcal O（1/\sqrt{Delta}））。我们从经验上证明，将动量天真地应用于随机方法不会导致加速度。我们进行了一个新颖的、严密的方差分析，揭示了“断点方差”，超过该方差，加速度就不会发生。通过将这一观点与现代方差减少技术相结合，我们为在线和离线设置构造了随机PCA算法，以实现加速的迭代复杂性（mathcal O（1/sqrt{Delta}））。由于我们的方法具有令人尴尬的并行性，如果部署在并行环境中，这种加速将直接转化为墙锁时间。我们的方法非常通用，适用于许多现在可以使用相同技术加速的非凸优化问题。
2018年SODA	结构密集矩阵乘法的双刃剑克里斯托弗·德萨（Christopher De Sa）、阿尔伯特·古（Albert Gu）、罗汉·普塔古塔（Rohan Puttagunta）、克里斯托弗·雷（Christopor Ré）、阿特里·鲁德拉（Atri Rudra）在SODA:ACM-SIAM离散算法研讨会，2018年1月。 [摘要][阿尔西夫] 矩阵-向量乘法是最基本的计算原语之一。给定矩阵\（a\in\mathbb｛F｝^｛N\times N｝\）和向量\（b\），已知在最坏的情况下，需要对\（\mathbb｛F｝\）进行\（Theta（N^2）\）运算来计算\（Ab\）。一个广泛的问题是确定可以用（O（N））参数表示的结构化密集矩阵类，以及可以亚二次执行矩阵-向量乘法的类。其中一类结构矩阵是正交多项式变换，其行对应于一系列正交多项式。其他著名的类包括Toeplitz、Hankel、Vandermonde、Cauchy矩阵及其扩展，它们都是位移秩属性的特例。在本文中，我们在两个方面取得了进展： 1.引入了矩阵的递推宽度的概念。对于具有常数递推宽度的矩阵，我们设计了计算近似线性运算次数中的（Ab）和（A^Tb）的算法。这种宽度的概念比上述所有类型的结构矩阵都精细，因此我们可以使用相同的核心算法计算所有这些矩阵的乘法。 2.我们还将此算法应用于一类更一般的具有位移结构的矩阵的算法：那些相对于拟可分矩阵具有低位移秩的矩阵。此类包括Toeplitz-plus-Hankel-like矩阵、离散余弦/正弦变换等，并使用我们已知的位移结构捕获所有先前已知的矩阵。我们的工作统一、概括并简化了结构化矩阵-向量乘法中现有的最新结果。最后，我们展示了如何将多元多项式的多点求值和计算线性序列等领域的应用简化为涉及低递归宽度矩阵的问题。
2017年NeurIPS	核特征的高斯求积聚光灯特里·道、克里斯托弗·德萨、克里斯托弗·雷在NeurIPS：第30届神经信息处理系统会议记录2017年12月。 [摘要][阿尔西夫] 核方法最近引起了人们的重新关注，它与深层神经网络在语音识别等任务中的性能相匹配。随机傅里叶特征映射是一种常用于放大内核机器的技术，但使用随机特征映射意味着需要O（ε{-2}）样本才能获得最大的近似误差。在本文中，我们研究了通过使用高斯求积在频域中逼近核来构造确定性而非随机性特征映射的一些替代方案。我们证明，对于任何\（\gamma>0\），当\（\epsilon\）变为0时，可以构造确定性特征图，以实现具有\（O（e^｛\gamma｝+\epsilon\｛-1/\gamma｝）\）样本的误差\（\epsilon\）。我们在不同领域（如MNIST和TIMIT）的数据集上验证了我们的方法，表明确定性特征生成速度更快，并且与基于随机傅里叶特征的最新核方法的精度相当。
ISCA 2017	异步低精度随机梯度下降的理解与优化克里斯托弗·德萨、马特·费尔德曼、克里斯托弗·雷、昆勒·奥卢科顿在ISCA：第44届计算机体系结构国际研讨会2017年6月。 [摘要][纸类] 随机梯度下降（SGD）是机器学习和其他领域中最常用的数值算法之一。由于这种情况可能在可预见的未来继续存在，因此研究能够使其在并行硬件上快速运行的技术非常重要。在本文中，我们首次分析了一种称为BUCKWILD的技术，该技术同时使用异步执行和低精度计算。我们介绍了DMGC模型，这是实现低精度SGD时存在的参数空间的第一个概念化，并表明它提供了一种对这些算法进行分类并对其性能进行建模的方法。我们利用这一洞察力提出并分析提高低精度SGD速度的技术。首先，我们提出了可以将现有CPU上的吞吐量提高11倍的软件优化。其次，我们提出了架构更改，包括一种新的缓存技术，我们称之为顽固缓存，它可以提高吞吐量，超出当前新一代硬件的限制。我们还在FPGA上实现和分析了低精度SGD，这是未来SGD系统中CPU的一个很有希望的替代方案。
HILDA 2017	Flipper：调试训练集的系统方法 Paroma Varma、Dan Iter、Christopher De Sa、Christopher Ré 在HILDA:SIGMOD第二届人在回路数据分析研讨会会议记录2017年5月。 [摘要][纸类] 随着机器学习方法在不同领域的普及，获取标记的训练数据集已成为机器学习管道中的主要瓶颈。最近，生成模型被用于创建和标记大量的训练数据，尽管这些数据很吵。然后，这些生成模型的输出被用于训练一个选择的判别模型，例如逻辑回归或复杂的神经网络。然而，生成模型中的任何错误都可能传播到随后的训练模型中。不幸的是，这些生成模型不容易解释，因此很难为用户调试。为了解决这个问题，我们提出了我们对Flipper的设想，Flipper是一个框架，它向用户提供关于为什么他们的训练集不准确的高级信息，并在他们手动改进生成模型时通知他们的决策。我们展示了Flipper框架中的潜在工具，其灵感来自于观察生物医学专家使用生成模型的工作，使用户可以系统地分析其训练数据中的错误。最后，我们讨论了Flipper的原型，并报告了一项用户研究的结果，其中用户为分类任务创建了一个训练集，并在不到一个小时的时间内利用Flipper提供的反馈将区分模型的准确性提高了2.4点。
2016年NeurIPS	数据编程：快速创建大型训练集亚历克斯·拉特纳、克里斯托弗·德萨、吴森、丹尼尔·塞尔萨姆、克里斯托弗·雷在NeurIPS：第29届神经信息处理系统会议记录2016年12月。 [摘要][阿尔西夫] 大型标记训练集是监督学习方法的关键构建块，是深度学习技术的关键促成因素。对于某些应用程序，创建标记的训练集是应用机器学习最耗时、最昂贵的部分。因此，我们提出了一种称为数据编程的训练集程序化创建范式，其中用户提供一组标记函数，这些函数是启发式标记大型数据点子集的程序，尽管噪音很大。通过将这些标记函数视为隐式描述此噪声的生成模型，我们表明可以恢复此模型的参数以“去噪”训练集。然后，我们展示了如何修改判别损失函数以使其具有噪声感知能力。我们在一系列判别模型上展示了我们的方法，包括逻辑回归和LSTM。我们从理论上确定，我们可以在少数设置中恢复这些生成模型的参数。实验上，在2014年的TAC-KBP关系提取挑战中，我们表明数据编程将获得一个优胜分数，并且还表明将数据编程应用于LSTM模型将导致TAC-KPP得分比监督的LSTM基线高出近6个F1分（并在比赛中排名第二）。此外，在最初的用户研究中，我们观察到数据编程可能是为非专家创建机器学习模型的一种更容易的方式。
2016年NeurIPS	吉布斯抽样中的扫描顺序：模型中它的重要性和多少的界限 Bryan He、Christopher De Sa、Ioannis Mitliagkas、Christoper Ré 在NeurIPS：第29届神经信息处理系统会议记录2016年12月。 [摘要][阿尔西夫] 吉布斯抽样是一种马尔可夫链蒙特卡罗抽样技术，它从变量的条件分布中对变量进行迭代抽样。变量有两种常见的扫描顺序：随机扫描和系统扫描。由于硬件的局部性优势，系统扫描通常被使用，尽管大多数统计保证仅用于随机扫描。虽然已经推测随机扫描和系统扫描的混合时间相差不超过一个对数因子，但我们通过反例表明情况并非如此，并且我们证明在温和的条件下，混合时间相差不会超过一个多项式因子。为了证明这些相对界，我们引入了一种通过增加状态空间来研究电导的系统扫描的方法。
2016年FiLM-NIPS	苏格拉底式学习：赋予生成模型权力 Paroma Varma、Rose Yu、Dan Iter、Christopher De Sa、Christopor Ré 在FiLM NIPS：互动学习机器在NIPS的未来2016年12月。 [摘要][阿尔西夫] 现代机器学习技术，如深度学习，通常使用需要大量标记数据的区分模型。另一种方法是使用生成模型，该模型利用领域专家的启发，对未标记的数据进行培训。领域专家通常更喜欢使用生成模型，因为他们会“讲述”自己的数据。不幸的是，生成模型通常不如区分模型准确。最近的几种方法将这两种类型的模型结合起来，以发挥其优势。在这种情况下，错误指定的生成模型可能会影响后续辨别训练的性能。为了解决这个问题，我们提出了一个称为苏格拉底学习的框架，该框架自动使用来自辨别模型的信息来纠正生成模型的错误指定。此外，这个过程为用户提供了关于如何改进其生成模型的可解释反馈。我们对现实世界中关系提取任务的苏格拉底式学习进行了评估，并观察到分类准确度的即时提高，否则可能需要领域专家数周的努力。
2016年ICML	确保异步Gibbs采样的快速混合和低偏差最佳论文奖克里斯托弗·德萨（Christopher De Sa）、昆勒·奥卢科顿（Kunle Olukotun）、克里斯托弗·雷（Christopor Ré）在ICML：第33届机器学习国际会议记录2016年6月。 [摘要][纸类][阿尔西夫] 吉布斯抽样是一种马尔可夫链蒙特卡罗技术，常用于估计边际分布。为了加速Gibbs采样，最近人们对通过异步执行将其并行化产生了兴趣。虽然经验结果表明，许多模型可以有效地异步采样，但传统的马尔可夫链分析不适用于异步情况，因此对异步吉布斯采样的理解很差。在本文中，我们更好地理解了异步吉布斯的两个主要挑战：偏差和混合时间。实验表明，我们的理论结果与实际结果相吻合。
2016年OptML	并行SGD：平均值什么时候有帮助？张健（Jian Zhang）、克里斯托弗·德萨（Christopher De Sa）、伊奥尼斯·米提利亚卡斯（Ioannis Mitiligkas）、克里斯多弗·雷（Christopor Ré）在OptML：下一代机器学习的优化方法，ICML研讨会2016年6月。 [摘要] 考虑到许多工作人员在同一个数据池中独立运行SGD，并每隔一段时间对模型求平均值，这是一种常见但不太容易理解的做法。我们将模型平均作为一种方差减少机制进行研究，并描述了平均频率影响收敛的两种方式。对于凸目标，我们表明频繁平均的好处取决于梯度方差包络。对于非凸目标，我们说明了这种益处取决于多个全局最优点的存在。我们用合成数据和真实数据的多核实验来补充我们的发现。
2016年SIGMOD	DeepDive：声明性知识库构建克里斯托弗·德萨（Christopher De Sa）、亚历克斯·拉特纳（Alex Ratner）、克里斯托弗·雷（Christopor Ré）、申杰浩（Jaeho Shin）、王飞然（Feiran Wang）、吴森（Sen Wu）、张策在SIGMOD记录，研究亮点2016年4月。 [摘要][纸类][在网络上] 暗数据提取或知识库构建（KBC）问题是用非结构化数据源（包括电子邮件、网页和pdf报告）中的信息填充SQL数据库。比利时联合银行是一个长期存在的工业和研究问题，包括数据提取、清理和集成问题。我们描述了DeepDive，一个结合了数据库和机器学习思想来帮助开发知识库系统的系统。DeepDive的关键思想是，统计推断和机器学习是以统一和更有效的方式解决提取、清理和集成中经典数据问题的关键工具。DeepDive程序是声明性的，因为不能编写概率推理算法；相反，用户通过定义域的特性或规则进行交互。这种设计选择的一个关键原因是使领域专家能够构建自己的知识库系统。我们介绍了DeepDive的应用程序、抽象和技术，用于加速KBC系统的构建。
2016年ASPLOS	从并行模式生成可配置硬件 Raghu Prabhakar、David Koeplinger、Kevin J.Brown、HyoukJoong Lee、Christopher De Sa、Christos Kozyrakis、Kunle Olukotun 在ASPLOS：第21届国际编程语言和操作系统体系结构支持会议2016年4月。 [摘要][纸类][阿尔西夫] 近年来，计算领域越来越多地转向专业加速器。现场可编程门阵列（FPGA）特别有前途，因为与用于广泛应用的CPU相比，FPGA具有显著的性能和能量改进，并且比固定功能ASIC更加灵活。然而，FPGA很难编程。可重构逻辑的传统编程模型使用低级硬件描述语言（如Verilog和VHDL），这些语言没有现代软件开发语言的生产力特征，但可以产生非常高效的设计，低级软件语言（如C和OpenCL）与高级综合（HLS）相结合通常生成效率低得多的设计的工具。具有并行模式的函数式语言更适合硬件生成，因为它们都为硬件设计经验不足的程序员提供了高级抽象，并避免了从命令式语言生成硬件时面临的许多问题。在本文中，我们确定了使用并行模式生成硬件时两个重要的优化：平铺和元管道。我们给出了平铺的并行模式的一般表示，并提供了自动平铺模式和生成元流水线的规则。我们通过实验证明，在数据分析领域的一组基准测试中，这些优化可以使速度提高40倍。
CGO 2016年	兼具抽象和吃性能：使用并行模式优化异构计算 Kevin J.Brown、HyoukJoong Lee、Tiark Rompf、Arvind K.Sujeeth、Christopher De Sa、Christopher Aberger、Kunle Olukotun 在CGO：代码生成与优化国际研讨会2016年3月。 [摘要][纸类] 现代计算平台的高性能要求程序是并行的、分布式的，并在异构硬件上运行。然而，由于需要使用多个编程模型实现应用程序，并以特殊方式将它们组合在一起，因此对这种架构进行编程是极其困难的。为了为现代硬件和现代程序员优化分布式应用程序，我们需要一种编程模型，它具有足够的表达能力，能够支持各种并行应用程序，具有足够的性能，能够超越手动优化的顺序实现，并且具有足够的可移植性，能够支持多种异构硬件。不幸的是，现有系统往往达不到这些要求。本文介绍了分布式多回路语言（DMLL），这是一种基于通用并行模式的新的中间语言，它可以捕获必要的语义知识，以有效地针对分布式异构体系结构。我们展示了直接的分析，根据数据的使用情况确定要分发的数据，以及对嵌套模式的强大转换，这些转换重构了计算，以支持分发并优化异构设备。我们给出了跨多个域的一系列应用程序的实验结果，并与多个分布式编程模型中手动优化的对应程序相比，展示了高效的执行。
NeurIPS 2015	基于层次宽度的一类因子图的快速混合Gibbs抽样聚光灯克里斯托弗·德萨（Christopher De Sa）、张策（Ce Zhang）、库勒·奥卢科顿（Kunle Olukotun）、克里斯托弗·雷（Christopor Ré）在NIPS：第28届神经信息处理系统会议记录，2015年12月。 [摘要][纸类][阿尔西夫] 因子图上的吉布斯抽样是一种广泛使用的推理技术，通常会产生良好的经验结果。其性能的理论保证很弱：即使对于树结构图，Gibbs的混合时间在变量数量上也可能是指数的。为了帮助理解吉布斯采样的行为，我们引入了一个新的（超）图属性，称为层次宽度。我们证明了在适当的权重条件下，有界层次宽度保证多项式混合时间。我们对层次宽度的研究部分是由一类因子图模板（层次模板）推动的，它们具有有限的层次宽度，而不考虑用于实例化它们的数据。我们展示了一个自然语言处理的丰富应用程序，其中吉布斯采样可以快速混合，并达到超过人类志愿者的精度。
NeurIPS 2015	驯服野外：霍格沃德的统一分析-样式算法克里斯托弗·德萨（Christopher De Sa）、张策（Ce Zhang）、库勒·奥卢科顿（Kunle Olukotun）、克里斯托弗·雷（Christopor Ré）在NIPS：第28届神经信息处理系统会议记录2015年12月。 [摘要][纸类][阿尔西夫] 随机梯度下降（SGD）是一种普遍适用于各种机器学习问题的算法。研究人员和业界开发了几种技术来优化SGD的运行时性能，包括异步执行和降低精度。我们的主要结果是基于鞅的分析，它使我们能够捕获此类技术可能产生的丰富噪声模型。具体地说，我们以三种方式使用我们的新分析：（1）在对问题稀疏性放松假设的情况下，导出了凸情形（Hogwild！）的收敛速度；（2）我们分析了非凸矩阵问题的异步SGD算法，包括矩阵补全；（3）我们设计并分析了一种异步SGD算法，称为Buckwild！，使用低精度算法。我们通过实验证明，我们的算法可以有效地解决现代硬件上的各种问题。
2015年VLDB	使用DeepDive构建增量知识库最佳发行量申杰浩、吴森、王飞然、张策、克里斯托弗·德萨、克里斯托弗·雷在VLDB：第41届超大数据库国际会议记录2015年9月。 [摘要][纸类][阿尔西夫] 用非结构化信息填充数据库是工业和研究领域长期存在的问题，其中包括提取、清理和集成问题。最近用于此问题的名称包括处理黑暗数据和知识库构建（KBC）。在这项工作中，我们描述了DeepDive，这是一个结合数据库和机器学习思想来帮助开发知识库系统的系统，并且我们介绍了使知识库过程更高效的技术。我们观察到KBC过程是迭代的，并且我们开发了技术来增量生成KBC系统的推理结果。我们提出了两种增量推理方法，分别基于采样和变分技术。我们还研究了这些方法的权衡空间，并开发了一个简单的基于规则的优化器。DeepDive包含了所有这些贡献，我们在五个KBC系统上对DeepDiver进行了评估，结果表明它可以将KBC推理任务的速度提高两个数量级，而对质量的影响可以忽略不计。
ICML 2015年	一些非凸矩阵问题随机梯度下降的全局收敛性 Christopher De Sa、Kunle Olukotun、Christopher Ré 在ICML：第32届机器学习国际会议论文集2015年7月。 [摘要][纸类][阿尔西夫] 基于低阶因式分解的随机梯度下降（SGD）通常用于加速矩阵问题，包括矩阵完成、子空间跟踪和SDP松弛。本文针对一个低阶最小二乘问题给出了SGD的一个步长方案，并证明了在宽采样条件下，我们的方法在常秩问题的（O（epsilon^{-1}n\logn）步长内以恒定概率从一个随机起点全局收敛。我们对SGD的修改将其与随机幂迭代联系起来。我们还通过实验说明了算法的运行时间和收敛性。

手稿

手稿	MixML：弱一致性并行学习的统一分析陆玉成、杰克·纳什、克里斯托弗·德萨手稿于2020年5月更新 [摘要][阿尔西夫] 并行性是加速机器学习算法的普遍方法。然而，并行学习的理论分析通常是在特定于算法和协议的环境中进行的，对于通信结构的变化如何影响收敛几乎没有任何见解。本文提出了一个分析弱一致并行机器学习收敛性的通用框架MixML。我们的框架包括：（1）对并行工作人员之间的通信过程进行建模的统一方法；（2）一个新参数，混合时间tmix，量化了通信过程如何影响收敛；（3）将序列算法的收敛证明转换为仅依赖tmix的并行版本的收敛证明的原则方法。我们展示了MixML对许多算法（包括SGD和AMSGrad）的异步和/或分散版本的已知收敛边界的恢复和改进。我们的实验证实了这一理论，并表明了收敛性对潜在混合时间的依赖性。
	覆盖量化：神经网络加速器的机会异常处理赵丽奇、克里斯托弗·德萨、张志如手稿于2019年10月更新 [摘要][阿尔西夫] 权重和激活中的异常值是神经网络定点量化的关键挑战。虽然可以通过微调来处理异常值，但这对于机器学习（ML）服务提供商（例如，谷歌、微软）来说并不实用，因为他们经常在没有培训数据的情况下接收客户的模型。用于处理离群值的专用硬件可以启用低精度DNN，但会带来非常大的区域开销。在本文中，我们提出了覆盖量化（OverQ），这是一种新的硬件技术，它通过允许离群值覆盖相邻值来机会主义地增加离群值的比特宽度。FPGA原型表明，OverQ可以显著提高ResNet-18在4位的精度，同时资源利用率几乎没有增加。
	高精度低精度训练克里斯托弗·德萨（Christopher De Sa）、梅根·莱斯琴斯基（Megan Leszczynski）、张健（Jian Zhang）、阿兰娜·马尔佐夫（Alana Marzoev）、克里斯托弗·阿贝格尔（Christopor R.Aberger）、库勒·奥卢科顿 2018年12月更新的手稿 [摘要][纸类][博客] 目前正在进行军备竞赛，以设计能够训练机器学习模型的低精度硬件加速器。这是因为专门构建的低精度硬件加速器可以减少完成任务所需的时间和精力。相比之下，传统硬件架构在数字精度方面对机器学习任务进行了过度配置。不幸的是，低精度计算的统计效应训练期间仍然没有被很好地理解。因此，在这些对更高精度计算支持有限的新型加速器上，很难达到传统架构的统计精度。这是由于标准低精度训练算法的折衷：随着比特数的减少，限制统计准确性的噪声也会增加。在本文中，我们认为可以在保持传统高精度数据格式的统计准确性的同时，获得低精度加速器的硬件优势。为此，我们引入了一种称为高精度低精度（HALP）的训练算法。HALP是一种低精度随机梯度下降变量，它在内部循环中使用完全低精度的计算，而在外部循环中很少使用高精度的计算重新进行此计算。HALP使用三种技术来降低噪声：（1）基于随机方差减少梯度（SVRG）的已知方差减少方法；（2）一种新颖的位定心技术，使用不频繁的高精度计算来减少量化噪声；以及（3）一种新的动态偏置调整技术，以防止溢出和下溢。对于强凸问题，我们从理论和经验上证明了HALP收敛于与全精度SVRG相同的线性速率。受这些结果的启发，我们在两个神经网络应用程序（CNN和LSTM）上表明，HALP可以在经验上与高精度训练算法竞争。
	SysML：机器学习系统的新前沿亚历山大·拉特纳等人。 2019年3月14日 [摘要][阿尔西夫][会议网站] 机器学习（ML）技术正得到越来越多的采用。然而，在实际部署中设计和实现支持ML模型的系统仍然是一个重大障碍，这在很大程度上是因为现代ML方法的开发和部署情况截然不同，以及随着更广泛的采用而带来的一系列实际问题。我们建议在传统系统和ML社区的交叉点培育一个新的系统机器学习研究社区，重点关注ML的硬件系统、ML的软件系统以及针对超出预测准确性的指标进行优化的ML。为此，我们介绍了一个新的会议SysML，该会议明确针对系统和机器学习的交叉点进行研究，由一个由系统专家和ML专家组成的程序委员会平均分配，并明确关注两者交叉点的主题。

手稿	MixML：弱一致性并行学习的统一分析陆玉成、杰克·纳什、克里斯托弗·德萨手稿于2020年5月更新 [摘要][阿尔西夫] 并行性是加速机器学习算法的普遍方法。然而，并行学习的理论分析通常是在特定于算法和协议的环境中进行的，对于通信结构的变化如何影响收敛几乎没有任何见解。本文提出了一个分析弱一致并行机器学习收敛性的通用框架MixML。我们的框架包括：（1）对并行工作人员之间的通信过程进行建模的统一方法；（2）一个新参数，混合时间tmix，量化了通信过程如何影响收敛；（3）将序列算法的收敛证明转换为仅依赖tmix的并行版本的收敛证明的原则方法。我们展示了MixML对许多算法（包括SGD和AMSGrad）的异步和/或分散版本的已知收敛边界的恢复和改进。我们的实验证实了这一理论，并表明了收敛性对潜在混合时间的依赖性。
	覆盖量化：神经网络加速器的机会异常处理赵丽奇、克里斯托弗·德萨、张志如手稿于2019年10月更新 [摘要][阿尔西夫] 权重和激活中的异常值是神经网络定点量化的关键挑战。虽然可以通过微调来处理异常值，但这对于机器学习（ML）服务提供商（例如，谷歌、微软）来说并不实用，因为他们经常在没有培训数据的情况下接收客户的模型。用于处理离群值的专用硬件可以启用低精度DNN，但会带来非常大的区域开销。在本文中，我们提出了覆盖量化（OverQ），这是一种新的硬件技术，它通过允许离群值覆盖相邻值来机会主义地增加离群值的比特宽度。FPGA原型表明，OverQ可以显著提高ResNet-18在4位的精度，同时资源利用率几乎没有增加。
	高精度低精度训练克里斯托弗·德萨（Christopher De Sa）、梅根·莱斯琴斯基（Megan Leszczynski）、张健（Jian Zhang）、阿兰娜·马尔佐夫（Alana Marzoev）、克里斯托弗·阿贝格尔（Christopor R.Aberger）、库勒·奥卢科顿 2018年12月更新的手稿 [摘要][纸类][博客] 目前正在进行军备竞赛，以设计能够训练机器学习模型的低精度硬件加速器。这是因为专门构建的低精度硬件加速器可以减少完成任务所需的时间和精力。相比之下，传统硬件架构在数字精度方面对机器学习任务进行了过度配置。不幸的是，低精度计算的统计效应训练期间仍然没有被很好地理解。因此，在这些对更高精度计算支持有限的新型加速器上，很难达到传统架构的统计精度。这是由于标准低精度训练算法的折衷：随着比特数的减少，限制统计准确性的噪声也会增加。在本文中，我们认为可以在保持传统高精度数据格式的统计准确性的同时，获得低精度加速器的硬件优势。为此，我们引入了一种称为高精度低精度（HALP）的训练算法。HALP是一种低精度随机梯度下降变量，它在内部循环中使用完全低精度的计算，而在外部循环中很少使用高精度的计算重新进行此计算。HALP使用三种技术来降低噪声：（1）基于随机方差减少梯度（SVRG）的已知方差减少方法；（2）一种新颖的位定心技术，使用不频繁的高精度计算来减少量化噪声；以及（3）一种新的动态偏置调整技术，以防止溢出和下溢。对于强凸问题，我们从理论和经验上证明了HALP收敛于与全精度SVRG相同的线性速率。受这些结果的启发，我们在两个神经网络应用程序（CNN和LSTM）上表明，HALP可以在经验上与高精度训练算法竞争。
	SysML：机器学习系统的新前沿亚历山大·拉特纳等人。 2019年3月14日 [摘要][阿尔西夫][会议网站] 机器学习（ML）技术正得到越来越多的采用。然而，在实际部署中设计和实现支持ML模型的系统仍然是一个重大障碍，这在很大程度上是因为现代ML方法的开发和部署情况截然不同，以及随着更广泛的采用而带来的一系列实际问题。我们建议在传统系统和ML社区的交叉点培育一个新的系统机器学习研究社区，重点关注ML的硬件系统、ML的软件系统以及针对超出预测准确性的指标进行优化的ML。为此，我们介绍了一个新的会议SysML，该会议明确针对系统和机器学习的交叉点进行研究，由一个由系统专家和ML专家组成的程序委员会平均分配，并明确关注两者交叉点的主题。

克里斯·德萨

最近的新闻和奖项[显示所有新闻][仅显示最近的新闻]

博士生

教学

出版物

手稿