网址:http://www.jmlr.org JMLR公司 机器学习研究杂志 学习公平陈述的内在权衡 http://jmlr.org/papers/v23/21-1427.html 2022 韩照,杰弗里·戈登 机器学习工具在高风险领域的实际应用通常被规定为公平的,即预测的目标应该满足与受保护属性相关的某种数量奇偶性概念。然而,即使对于分类问题的基本范式,公平性和准确性之间的确切权衡也不完全清楚。在本文中,我们通过提供任何公平分类器的分组错误总和的下限,刻画了分类设置中统计奇偶性和准确性之间的内在权衡。我们的不可能性定理可以解释为公平性中的某种不确定性原则:如果基本速率在组之间不同,那么任何满足统计奇偶性的公平分类器都必须在至少一个组上产生较大的错误。我们进一步扩展了这个结果,从学习公平表示的角度给出了任何(近似)公平分类器联合误差的下限。为了证明我们的下限是紧的,假设oracle可以访问Bayes(可能不公平)分类器,我们还构造了一个算法,该算法返回一个随机分类器,该分类器是最优的(就准确性而言)和公平的。有趣的是,当受保护的属性可以取两个以上的值时,这个下界的扩展不允许解析解。然而,在这种情况下,我们证明了通过求解线性规划可以有效地计算下限,我们称之为TV-重心问题,即TV-距离下的重心问题。从好的方面来说,我们证明了如果分组贝叶斯最优分类器很接近,那么学习公平表示会导致另一种公平性概念,称为精确奇偶性,即组之间的错误率很接近。最后,我们还对真实数据集进行了实验,以证实我们的理论发现。 solo-learn:视觉表征学习的自我监督方法库 http://jmlr.org/papers/v23/21-1155.html 2022 维克托·吉尔赫梅·图里西·达科斯塔(Victor Guilherme Turrisi da Costa)、恩里科·菲尼(Enrico Fini)、莫因·纳比(Moin Nabi)、尼库·塞贝(Nicu Sebe)、伊丽莎·里奇(Elisa Ricci) 本文介绍了一个用于视觉表征学习的自监督方法库,即solo-learn。该库使用Python实现,使用Pythor和Pythort闪电,具有混合精度的分布式培训管道,通过Nvidia DALI更快地加载数据,在线线性评估以获得更好的原型,以及许多其他培训技巧,从而满足了研究和行业需要。我们的目标是提供一个易于使用的库,其中包含大量的自我监督学习(SSL)方法,社区可以轻松扩展和微调这些方法。solo-learn为在廉价的小型基础设施上开发大预算SSL解决方案开辟了道路,并通过使所有人都可以访问SSL来寻求实现SSL的民主化。源代码位于https://github.com/vturrisi/solo-learn。 渐进差异隐私下的贝叶斯伪后验机制 http://jmlr.org/papers/v23/21-0936.html 2022 Terrance D.Savitsky、Matthew R.Williams和Jingchen Hu 我们提出了一种贝叶斯伪后验机制,以生成具有$(\epsilon,\pi)-$概率差异隐私(pDP)保证的记录级合成数据库,其中$\pi$表示任何观察到的数据库超过$\epsilon$的概率。伪后验机制采用数据记录诱导的、基于风险的权重向量,权重值为$\ in[0,1]$,通过外科手术降低高风险记录对模型估计和生成记录级合成数据以供公开发布的可能性贡献。伪后验合成器通过在对数伪似然效用函数下使用该记录的Lipschitz界为每个数据记录构造权重,该函数推广了用于构造正式私有数据生成机制的指数机制(EM)。通过选择权重来消除具有非有限log-likelihood值的似然贡献,我们保证了在每个样本大小下伪后验机制的有限局部隐私保证。我们的结果可以应用于数据传播者以可计算的方式设想的任何合成模型,该方法仅涉及参数的伪后验分布估计,$θ$,与最近使用通过EM实现的自然边界效用函数的方法不同,我们指定了保证$\pi$到$0$在数据库空间上渐近收缩的条件,这样我们的方法提供的保证形式是渐近的。我们从美国劳工统计局(U.S.Bureau of Labor Statistics)发布的消费者支出调查(Consumer Expendence Surveys)数据库中说明了我们对敏感家庭收入变量的伪后验机制。我们表明,与EM相比,我们的伪后验机制的效用在合成数据中得到了更好的保留,这两种机制都是使用相同的非专用合成器估计的,因为我们使用了有针对性的降权。 SMAC3:用于超参数优化的通用贝叶斯优化包 http://jmlr.org/papers/v23/21-0888.html 2022 马吕斯·林道尔(Marius Lindauer)、凯萨琳娜·艾根斯佩格(Katharina Eggensperger)、马蒂亚斯·费勒(Matthias Feurer)、安德烈·比登卡普(AndréBiedenkapp)、迪凡·登(Difan Deng)、卡罗琳·本杰明斯(Carolin Benjamins)、蒂姆·鲁科普夫(Tim Ruhko 算法参数,特别是机器学习算法的超参数,可以显著影响它们的性能。为了支持用户为其现有的算法、数据集和应用程序确定性能良好的超参数配置,SMAC3为贝叶斯优化提供了一个健壮而灵活的框架,可以在几个评估中提高性能。它为典型用例提供了几个外观和预设,例如优化超参数、解决低维连续(人工)全局优化问题以及配置算法以在多个问题实例中表现良好。SMAC3软件包可在以下位置获得许可的BSD许可证:https://github.com/automl/SMAC3。 DoubleML——Python中面向对象的双机器学习实现 http://jmlr.org/papers/v23/21-0862.html 2022 菲利普·巴赫、维克托·切尔诺朱科夫、马尔特·库尔茨、马丁·斯宾德勒 DoubleML是一个开源Python库,实现了Chernozhukov等人(2018)针对各种因果模型的双机器学习框架。当基于机器学习方法估计干扰参数时,它包含对因果参数进行有效统计推断的功能。DoubleML的面向对象实现在模型规范方面提供了高度的灵活性,并使其易于扩展。该软件包是根据麻省理工学院的许可证分发的,并依赖于科学Python生态系统的核心库:scikit-learn、numpy、pandas、scipy、statsmodels和joblib。源代码、文档和广泛的用户指南可以在https://github.com/DoubleML/DoubleML-for-py网站https://docs.doublenl.org。 LinCDE:基于Lindsey方法的条件密度估计 http://jmlr.org/papers/v23/21-0840.html 2022 高子军、特雷弗·哈斯蒂 条件密度估计是统计学中的一个基本问题,在生物学、经济学、金融和环境研究等领域都有科学和实际的应用。本文提出了一种基于梯度增强和Lindsey方法的条件密度估计(LinCDE)。LinCDE允许对密度族进行灵活建模,并可以捕获形态和形状等分布特征。特别是,当适当参数化时,LinCDE将生成平滑且非负的密度估计值。此外,与增强的回归树一样,LinCDE也进行自动特征选择。我们通过广泛的模拟和三个实际数据示例证明了LinCDE的功效。 多模式学习工具箱(scikit-multimodallearn) http://jmlr.org/papers/v23/21-0791.html 2022 多米尼克·贝尼埃利(Dominique Benielli)、巴普蒂斯特·鲍文(Baptiste Bauvin)、索科尔·科索(Sokol Koço)、瑞卡·胡萨里(Riikka Huusari)、塞西尔·卡波尼(Cécile Capponi)、哈切姆·卡德里(Hachem Kadri)、弗朗索瓦·拉维奥莱特(Francois Laviolette) scikit-multimodallearn是一个用于多模式监督学习的Python库,在Free BSD下获得许可,并与著名的scikit-learn工具箱兼容(Fabian Pedregosa,2011)。本文详细介绍了该库的内容,包括特定的多模态数据格式化、分类和回归算法。还提供了用例和示例。 贝叶斯神经网络中的解析可追踪隐态推理 http://jmlr.org/papers/v23/21-0758.html 2022 Luong-Ha Nguyen,James-A.古利特 除了少数例外,神经网络一直依赖于反向传播和梯度下降作为推理引擎,以学习模型参数,因为神经网络的封闭式贝叶斯推理被认为是棘手的。在本文中,我们展示了如何利用可处理的近似高斯推理(TAGI)能力来推断隐藏状态,而不是仅使用它来推断网络的参数。一个新颖的方面是,它允许通过施加旨在实现特定目标的约束来推断隐藏状态,如三个示例所示:(1)生成对抗攻击示例,(2)将神经网络用作黑盒优化方法,以及(3)推理在连续动作强化学习中的应用。在这三个示例中,约束条件位于(1)中,目标标签用于愚弄神经网络,以及(2和3)中,网络对其输入的导数设置为零,以推断最大或最小的最佳输入值。这些应用程序展示了以前保留给基于梯度的优化方法的任务现在可以通过分析可处理的推理来处理。 自动编码器的创新及其在一类异常序列检测中的应用 http://jmlr.org/papers/v23/21-0735.html 2022 王欣怡、郎彤 时间序列的新息序列是一个独立且同分布的随机变量序列,原始时间序列具有因果表示。某一时间的创新在统计上独立于时间序列的历史。因此,它代表了目前而不是过去所包含的新信息。由于其简单的概率结构,创新序列是原始签名中最有效的签名。与原理或独立分量表示不同,新息序列不仅保留了原始时间序列的完整统计特性,还保留了其时间顺序。一个长期存在的开放性问题是寻找一种计算上易于处理的方法来提取非高斯过程的创新序列。本文提出了一种深度学习方法,称为创新自动编码器(IAE),该方法使用因果卷积神经网络提取创新序列,并将IAE应用于具有未知异常和无异常模型的一类异常序列检测问题。 Deep ResNet的超参数化:零损失和平均场分析 http://jmlr.org/papers/v23/21-0669.html 2022 丁志彦、石晨、秦丽、斯蒂芬·赖特 在深度神经网络(NN)中寻找与训练数据相匹配的参数是一个非凸优化问题,但基本的一阶优化方法(梯度下降)可以在许多实际情况下找到具有完美拟合(零丢失)的全局优化器。我们在具有光滑激活函数的剩余神经网络(ResNet)的情况下,在一个限制区域中,层数(深度)和每层中的权重数(宽度)都趋于无穷大的情况下检验了这一现象。首先,我们使用平均场极限参数来证明参数训练的梯度下降成为概率分布的梯度流,该概率分布的特征是偏微分方程(PDE)在大-NN极限下。接下来,我们证明了在某些假设下,PDE的解在训练时间内收敛到零损失解。总之,这些结果表明,如果ResNet足够大,则ResNet的训练会产生几乎为零的损失。我们估计了将损失降低到给定阈值以下所需的深度和宽度,概率很高。 用于高保真图像生成的级联扩散模型 http://jmlr.org/papers/v23/21-0635.html 2022 Jonathan Ho、Chitwan Saharia、William Chan、David J.Fleet、Mohammad Norouzi、Tim Salimans 我们表明,级联扩散模型能够在类条件ImageNet生成基准上生成高保真图像,而无需借助辅助图像分类器来提高样本质量。级联扩散模型由多个扩散模型组成,这些模型生成分辨率不断提高的图像,从最低分辨率的标准扩散模型开始,然后是一个或多个超分辨率扩散模型,这些模型依次对图像进行升采样并添加更高分辨率的细节。我们发现级联管道的样本质量关键取决于条件增强,我们提出的方法是将低分辨率条件输入数据增强到超分辨率模型。我们的实验表明,条件增强可以防止级联模型中采样期间的复合错误,帮助我们训练级联管道,使其在64x64、128x128和256x256分辨率下的FID得分分别达到1.48、3.52和4.88,优于BigGAN-deep,分类准确度得分分别达到63.02%(top 1)和84.06%(top 5)256x256,优于VQ-VAE-2。 超越亚高斯噪声:随机梯度下降的尖锐集中分析 http://jmlr.org/papers/v23/21-0560.html 2022 朱万荣、楼志鹏、吴伟彪 本文研究了随机梯度下降(SGD)解的集中性。在现有的浓度分析中,研究人员对梯度噪声提出了限制性要求,如有界性或亚高斯性。我们考虑了一种更丰富的噪声类型,其中只需要有限多个力矩,因此允许出现重尾噪声。特别地,我们获得了线性模型中平均随机梯度下降(ASGD)估计误差的Nagaev型高概率上界。具体地说,我们证明了在SGD的$T$步后,ASGD估计达到$O(\sqrt{\log(1/\delta)/T}+(\delta T^{q-1})^{-1/q})$错误率,概率至少为$1-\delta$,其中$q>2$控制梯度噪声的尾部。相比之下,亚高斯噪声的错误率为$O(\sqrt{\log(1/\delta)/T})$。我们还通过一个例子证明了Nagaev型上界几乎是紧的,在这个例子中可以导出尾部概率的精确渐近形式。我们的集中度分析表明,在重尾噪声的情况下,对于SGD的错误率来说,对故障概率$\delta$的多项式依赖通常是不可避免的。 基于策略迭代的平稳马尔可夫链最优传输 http://jmlr.org/papers/v23/21-0519.html 2022 凯文·奥康纳、凯文·麦戈夫、安德鲁·诺贝尔 我们研究了平稳有限状态马氏链对的最优运输问题,重点是最优转移耦合的计算。过渡耦合是一类捕获马尔可夫链动力学的受限运输计划。最优过渡耦合(OTC)问题的解决方案对应于使长期平均成本最小化的两条链的对齐。我们在OTC问题和马尔可夫决策过程之间建立了联系,并证明了OTC问题的解可以通过策略迭代的自适应获得。对于状态空间较大的情况,我们基于OTC问题的熵正则化版本开发了一种快速近似算法,并给出了其迭代复杂度的界。我们建立了正则化算法和非正则化算法的稳定性结果,从中可以得出统计一致性结果。我们通过仿真研究实证验证了我们的理论结果,表明近似算法具有更快的整体运行时间和较低的误差。最后,我们将我们的方法的设置和应用扩展到隐马尔可夫模型,并通过应用于计算机生成的音乐来说明所提出的算法在实践中的潜在用途。 PAC保证和检测新类别的有效算法 http://jmlr.org/papers/v23/21-0451.html 2022 Si Liu、Risheek Garrepalli、Dan Hendrycks、Alan Fern、Debashis Mondal、Thomas G.Dietterich 开放类别检测是检测“外星人”的问题“属于训练数据中不存在的类别或类的测试实例。在许多应用程序中,可靠地检测此类外星人对于确保测试集预测的安全性和准确性至关重要。不幸的是,没有算法能够从理论上保证它们在一般情况下检测外星人的能力泵。此外,虽然有用于开放类别检测的算法,但很少有直接报告外星人检测率的经验结果。因此,在我们对开放类别检测的理解上存在着重大的理论和实证差距。在本文中,我们通过研究一种简单但实际相关的开放类别检测变体,朝着解决这一差距迈出了一步。在我们的环境中,我们得到了一个“干净”的培训集,其中只包含感兴趣的目标类别和未标记的“受污染”包含外来示例的分数$\alpha$的训练集。在假设我们知道$\alpha$的上限的情况下,我们开发了一种算法,该算法为PAC类型的外星人检测率提供了保证,同时旨在最小化假警报。给定训练数据量的总体预算,我们还导出了混合数据集和干净数据集之间样本的最佳分配。在合成和标准基准数据集上的实验评估了该算法的有效性,并为进一步的改进提供了基线。此外,对于$\alpha$的上界不可用的情况,我们使用了九种不同的异常比例估值器,并在合成和标准基准数据集上进行了实验,以比较它们的性能。 Shapley值估计的抽样置换 http://jmlr.org/papers/v23/21-0439.html 2022 Rory Mitchell、Joshua Cooper、Eibe Frank、Geoffrey Holmes 基于Shapley值的博弈论属性技术用于解释黑盒机器学习模型,但其精确计算通常为NP-hard,需要对非平凡模型进行近似。由于Shapley值的计算可以表示为对一组排列的求和,因此常用的方法是对这些排列的子集进行采样以进行近似。不幸的是,标准蒙特卡罗抽样方法可能会表现出缓慢的收敛性,而更复杂的准蒙特卡罗方法尚未应用于置换空间。为了解决这个问题,我们研究了基于两类近似方法的新方法,并对它们进行了实证比较。首先,我们在包含置换函数的RKHS中演示了求积技术,将Mallows核与核羊群和序列贝叶斯求积相结合。RKHS透视图还导致了准蒙特卡罗型误差界,并在排列上定义了可处理的差异度量。其次,我们利用超球面$\mathbb{S}^{d-2}$和置换之间的联系,创建实用的算法来生成具有良好特性的置换样本。实验表明,与现有方法相比,上述技术显著改进了Shapley值估计,在相同数量的模型评估中收敛到较小的RMSE。 线性连续时间递归神经网络的逼近与优化理论 http://jmlr.org/papers/v23/21-0368.html 2022 钟莉、韩洁群、渭南E、李倩晓 我们对递归神经网络(RNN)用于学习时间数据中的输入输出关系时的近似特性和优化动力学进行了系统研究。我们考虑使用连续时间线性RNN从线性关系生成的数据中学习的简单但有代表性的设置。在逼近方面,我们利用RNN证明了线性泛函的一个正逼近定理和一个逆逼近定理,揭示了目标中记忆结构之间的复杂联系以及相应的逼近效率。特别地,我们证明了当且仅当时间关系具有足够的记忆衰减时,RNN可以有效地逼近时间关系。在优化方面,我们对优化动态进行了详细分析,包括对长期记忆学习关系中可能出现的困难的准确理解。术语“记忆诅咒”是用来描述未被发现的现象,类似于困扰高维函数近似的“维数诅咒”。这些结果形成了线性动力学环境中记忆和递归结构相互作用的相对完整的画面。 相关辅助缺失数据估计器 http://jmlr.org/papers/v23/21-0345.html 2022 蒂莫西·I·坎宁斯(Timothy I.Cannings)、范莹莹(Yingying Fan) 我们引入了一种新的方法来解决缺失数据环境中的估计问题。我们的建议——相关性辅助缺失数据(CAM)估计器——通过利用具有缺失特征的观测值与没有缺失特征的观察值之间的关系进行工作,以获得更高的预测精度。特别是,我们的理论结果阐明了在一系列估计问题中,所提出的CAM估计比广泛使用的完备方法具有更低的均方误差的一般条件。我们详细展示了如何将CAM估计量应用于$U$-Statistics,以获得一个无偏、渐近高斯估计量,该估计量的方差小于完备的$U$-Statistic。此外,在非参数密度估计和回归问题中,我们使用核函数构造了CAM估计,并表明它比相应的完备核估计具有更低的渐近均方误差。我们还使用CRAN提供的模拟数据、Terneuzen出生队列和Brandsma数据集,在整个论文中进行了实际演示。 结构自适应流形估计 http://jmlr.org/papers/v23/21-0338.html 2022 尼基塔·普奇金(Nikita Puchkin)、弗拉基米尔·斯波科尼(Vladimir Spokoiny) 我们考虑了一个基于噪声观测的流形估计问题。许多流形学习过程通过一个小邻域上的加权平均值局部逼近流形。然而,在存在大噪声的情况下,分配的权重被严重破坏,平均估计值表现出很差的性能。我们提出了一种结构自适应的方法,它可以同时重建光滑流形并估计点云在该流形上的投影。该方法使用在前面步骤中获得的结构信息,迭代地细化每个步骤的权重。经过几次迭代,我们获得了几乎“预言”权重,因此即使在存在较大噪声的情况下,最终估计也几乎是有效的。在我们的理论研究中,我们建立了严密的上下界来证明流形估计方法在Hausdorff损失下的渐近最优性,前提是噪声降到零的速度足够快。 (f,Gamma)-发散:f发散与积分概率度量之间的插值 http://jmlr.org/papers/v23/21-0100.html 2022 Jeremiah Birrell、Paul Dupuis、Markos A.Katsoulakis、Yannis Pantazis、Luc Rey-Bellet 我们为构建信息理论分歧制定了一个严格的通用框架,该框架包含$f$-分歧和积分概率度量(IPM),例如$1$-Wasserstein距离。我们证明了在何种假设下,这些发散(以下称为$(f,\Gamma)$-发散)提供了概率测度之间的“距离”概念,并表明它们可以表示为两阶段的质量再分布/质量传输过程。$(f,\Gamma)$-differences继承了IPM的特征,例如比较非绝对连续分布的能力,以及$f$-differences的特征,即它们的变分表示的严格凹性,以及控制$f$的特定选择的重尾分布的能力。当这些特征组合在一起时,会形成一种差异,从而改进估计、统计学习和不确定性量化应用程序的特性。以统计学习为例,我们证明了它们在训练生成性对抗网络(GAN)以获得重尾、非绝对连续样本分布方面的优势。在图像生成方面,我们还显示了与梯度化Wasserstein GAN相比改进的性能和稳定性。 无似然推理的分数匹配神经指数族 http://jmlr.org/papers/v23/21-0061.html 2022 Lorenzo Pacchiardi、Ritabrata Dutta 贝叶斯无似然推断(LFI)方法允许通过模型模拟获得具有难以处理的似然的随机模型的后验分布。在一种流行的LFI方法——近似贝叶斯计算(ABC)中,摘要统计用于降低数据维数。ABC算法根据观察自适应地调整模拟,以便从近似后验值中采样,后者的形式取决于所选的统计数据。在这项工作中,我们介绍了一种学习ABC统计的新方法:我们首先从模型中独立地根据观测值生成参数-模拟对;然后,我们使用分数匹配训练一个神经条件指数族来近似似然。指数族是具有固定大小充分统计量的最大类分布;因此,我们在ABC中使用它们,它直观地吸引人,并且具有最先进的性能。同时,我们在MCMC中插入我们的似然近似,以获得双难处理分布的后验样本。我们可以在没有额外模型模拟的情况下,对任何数量的观测重复这一点,其性能与相关方法相当。我们在已知似然的玩具模型和大维时间序列模型上验证了我们的方法。 基于Wasserstein度量的实线分布数据的投影统计方法 http://jmlr.org/papers/v23/21-0059.html 2022 马蒂奥·佩戈拉罗(Matteo Pegoraro)、马里奥·贝拉哈(Mario Beraha) 我们提出了一类新的投影方法,用2-Wasserstein度量对实线上概率分布的数据集进行统计分析。我们特别关注主成分分析(PCA)和回归。为了定义这些模型,我们通过将数据映射到合适的线性空间并使用度量投影算子来约束Wasserstein空间中的结果,利用了与其弱黎曼结构密切相关的Wassersstein空间的表示。通过仔细选择切点,我们能够利用约束B样条逼近导出快速的经验方法。作为我们方法的一个副产品,我们还能够为以前的分发PCA工作导出更快的例程。通过模拟研究,我们将我们的方法与之前提出的方法进行了比较,表明我们的预测主成分分析在计算成本的一小部分上具有类似的性能,并且即使在错误指定的情况下,预测回归也是非常灵活的。研究了模型的几个理论性质,并证明了其渐近一致性。讨论了在美国和风速预测中对新型冠状病毒(Covid-19)死亡率的两个实际应用。 从Mini优化到Minimax优化的加速零阶和一阶动量方法 http://jmlr.org/papers/v23/20-924.html 2022 黄飞虎、高尚谦、裴健、黄恒 在本文中,我们提出了一类用于非凸极小优化和极小极大优化的加速零阶和一阶动量方法。特别地,我们提出了一种新的加速零阶动量(Acc-ZOM)方法,用于只能获得函数值的黑盒最小优化。此外,我们证明了我们的Acc-ZOM方法在查找$\epsilon$-驻点时实现了$\tilde{O}(d^{3/4}\epsillon^{-3})$的较低查询复杂度,它通过$O(d^}1/4})$d表示可变维的因子改进了已知结果。特别是,我们的Acc-ZOM不需要现有零阶随机算法所需的大批量。同时,我们提出了一种加速的零阶动量下降上升(Acc-ZOMDA)方法,用于黑盒极小极大优化,其中只能获得函数值。我们的Acc-ZOMDA获得了$\tilde{O}((d_1+d_2)^{3/4}\kappa_y^{4.5}\epsilon^{-3})$的低查询复杂度,而不需要大批量来查找$\epsilon$-稳定点,其中$d_1$和$d_2$表示可变维度,$\kappo_y$是条件数。此外,我们提出了一种用于极大极小优化的加速一阶动量下降上升法(Acc-MDA),其显式梯度是可以访问的。我们的Acc MDA实现了$\tilde{O}(\kappa_y^{4.5}\epsilon ^{-3})$的低梯度复杂度,而不需要大批量来寻找$\epsilon$-稳定点。特别是,我们的Acc-MDA可以获得更低的梯度复杂度$\tilde{O}(\kappa_y^{2.5}\epsilon^{-3})$,批大小为$O(\kappa_y*4)$,这将最佳结果提高了$O(\ kappa_ y^{1/2})$。针对深度神经网络的黑盒对抗攻击和逻辑回归的中毒攻击的大量实验结果证明了我们算法的有效性。 非凸光滑对策的最优性和稳定性 http://jmlr.org/papers/v23/20-918.html 2022 张国军、帕斯卡尔·普帕特、余耀良 几十年来,人们一直在研究凸凹函数的鞍点收敛性,而近年来,由于非凸(零和)光滑对策的广泛应用,人们对其产生了浓厚的兴趣。如何定义局部最优点以及哪种算法可以收敛到这些点仍是一个有趣的研究挑战。一个有趣的概念被称为局部极小极大点,它与广为人知的梯度下降上升算法密切相关。本文旨在全面分析局部极小极大点,如它们与其他解概念的关系及其最优性条件。我们发现,在温和的连续性假设下,局部鞍点可以被视为一类特殊的局部极小极大点,称为一致局部极小极大值点。在(非凸)二次对策中,我们证明了局部极小极大点(在某种意义上)等价于全局极小极大点。最后,我们研究了梯度算法在局部极小极大点附近的稳定性。虽然梯度算法在非退化情况下可以收敛到局部/全局极小极大点,但在一般情况下它们往往会失败。这意味着在非凸光滑游戏中,必须使用超越鞍点和极大极小点的新算法或概念。 SODEN:一个通过常微分方程网络的可扩展连续时间生存模型 http://jmlr.org/papers/v23/20-900.html 2022 汤伟静、马嘉琪、梅巧竹、朱季军 在本文中,我们提出了一个使用神经网络和可扩展优化算法进行生存分析的灵活模型。直接将最大似然估计(MLE)应用于删失数据的一个关键技术挑战是,评估目标函数及其相对于模型参数的梯度需要计算积分。为了应对这一挑战,我们从一个新的角度认识到,删失数据的最大似然估计可以看作是一个微分方程约束的优化问题。根据这种联系,我们通过一个常微分方程来模拟事件时间的分布,并利用高效的ODE解算器和伴随灵敏度分析来数值评估似然和梯度。使用这种方法,我们能够1)在没有强结构假设的情况下提供一系列连续时间生存分布,2)使用神经网络获得强大的特征表示,以及3)在大规模应用中使用随机梯度下降对模型进行有效估计。通过仿真研究和实际数据示例,与现有最先进的深度学习生存分析模型相比,我们证明了该方法的有效性。拟议SODEN方法的实施已在https://github.com/jiaqima/SODEN。 模型平均比预测模型选择好 http://jmlr.org/papers/v23/20-874.html 2022 Tri M.Le、Bertrand S.Clarke 我们比较了六个模型平均预测因子的性能,即Mallows的模型平均、叠加、Bayes模型平均、装袋、随机森林和boosting,以及用于形成它们的组件。在所有六种情况下,我们都确定了模型平均预测值与其预期极限一致的条件,并在渐近上表现出与其任何分量相同或更好的性能。这在经验上是众所周知的,尤其是对于复杂问题,尽管理论结果似乎还没有正式确立。我们将注意力集中在回归背景上,因为这是模型平均技术与当前实践最常不同的地方。 有保证非线性系统辨识的主动学习 http://jmlr.org/papers/v23/20-807.html 2022 Horia Mania、Michael I.Jordan、Benjamin Recht 虽然非线性动力学系统的识别是基于模型的强化学习和反馈控制的基本构建块,但其样本复杂性仅适用于具有离散状态和动作的系统,或可从i.i.d.随机输入生成的数据中识别的系统。尽管如此,许多有趣的动力学系统具有连续的状态和作用,并且只能通过明智的输入选择来识别。受实际环境的启发,我们研究了一类非线性动力系统,其状态转换线性地依赖于状态-动作对的已知特征嵌入。要在有限时间内估计此类系统,识别方法必须在特征空间中探索所有方向。我们提出了一种主动学习方法,通过重复三个步骤来实现这一点:轨迹规划、轨迹跟踪和根据所有可用数据重新估计系统。我们证明了我们的方法以参数速率估计非线性动力系统,类似于标准线性回归的统计速率。 错误密度估计和逻辑回归中具有最优超额风险的不正确估计 http://jmlr.org/papers/v23/20-782.html 2022 杰瓦德·穆尔塔达(Jaouad Mourtada),圣埃芬·加法斯 我们介绍了对数损失下的条件密度估计过程,我们称之为SMP(Sample Minmax Predictor)。该估计器最小化了统计学习的一个新的一般超额风险界。在标准示例中,此绑定的大小为$d/n$,其中$d$为模型维度,$n$为样本大小,并且在模型指定错误的情况下仍然有效。作为一种不恰当的(模型外)过程,SMP改进了模型内估计量,如最大似然估计量,其超额风险在错误指定下降低。与减少顺序问题的方法相比,我们的边界删除了次优的$\log n$因子,并且可以处理无界类。对于高斯线性模型,SMP的预测和风险界取决于协变量的杠杆得分,在没有线性模型的噪声方差或近似误差条件的情况下,几乎匹配指定情况下的最佳风险。对于逻辑回归,SMP提供了一种基于虚拟样本的非贝叶斯方法来校准概率预测,并且可以通过求解两个逻辑回归来计算。它实现了$O((d+B^2R^2)/n)$的非渐近超额风险,其中$R$限定了特征的范数,$B$限定了比较参数的范数;相比之下,没有一个模型内估计器能够实现比$.min({BR}/{\sqrt{n}},{d e ^{BR}}/{n})$更好的速率。这为贝叶斯方法提供了一种更实用的替代方法,该方法需要近似后验抽样,从而部分解决了Foster等人(2018)提出的问题。 包含多元正态模型的多项式概率模型的一类共轭先验 http://jmlr.org/papers/v23/20-735.html 2022 奥古斯托·法萨诺(Augusto Fasano)、丹尼尔·杜兰特(Daniele Durante) 多项式probit模型是一种常规实现的表示,用于学习分类反应数据的类概率如何随着$p$观察到的预测因子而变化。虽然在这类模型中,已经开发了几种用于估计、推理和分类的频率统计方法,但贝叶斯推理仍然落后。这是由于明显缺乏一类可处理的共轭先验,这可能有助于对多项式概率系数进行后验推断。这一问题促使人们不断努力开发有效的马尔可夫链蒙特卡罗方法,但最先进的解决方案仍然面临严重的计算瓶颈,尤其是在高维方面。在本文中,我们证明了整类统一的偏正态(SUN)分布与几个多项式probit模型是共轭的。利用这个结果和SUN属性,我们改进了最先进的后验推理和分类解决方案,这两个解决方案都是针对几个感兴趣的函数的封闭形式结果,此外,还开发了新的计算方法,这些方法要么依赖于来自精确后验的独立且相同分布的样本,要么依赖于基于分块部分因子表示的可缩放且精确的变分近似。如模拟和胃肠损伤应用所示,当重点放在高维研究时,相对于当前方法的改进幅度在实践中尤其明显。 多步模型-认知元学习的理论收敛性 http://jmlr.org/papers/v23/20-720.html 2022 Ji Kaiyi、Yang Junjie、Liang Yingbin 作为一种流行的元学习方法,模型认知元学习(MAML)算法因其简单有效而得到了广泛的应用。然而,通用多步骤MAML的收敛性仍有待探索。在本文中,我们开发了一个新的理论框架,为两类实际感兴趣的目标函数提供了这种收敛保证:(a)重采样情况(例如,强化学习),其中损失函数以期望的形式出现,并且在算法运行时对新数据进行采样;以及(b)有限和情形(例如,监督学习),其中损失函数对给定样本采取有限和形式。对于这两种情况,我们刻画了在一般非凸环境下获得多步MAML$\epsilon$精确解的收敛速度和计算复杂性。特别是,我们的结果表明,为了保证$N$-step MAML的收敛性,需要选择与$N$级步数成反比的级内步长。从技术角度来看,我们开发了新的技术来处理多步MAML的元梯度的嵌套结构,这可能会引起独立的兴趣。 线性逆问题的新的Min-Max格式 http://jmlr.org/papers/v23/20-707.html 2022 Mohammed Rayyan警长,Debasish Chatterjee 在本文中,我们详细讨论了所谓的不适定线性逆问题(LIP),它只是指从相对较少的随机线性测量中恢复整个信号的任务。这些问题出现在各种应用场合,包括医学图像处理、推荐系统等。我们提出了误差约束线性逆问题的一个稍微广义的版本,并通过对其凸几何结构的阐述,获得了一个新的等效凸-凹最小-最大重制。min-max问题的鞍点完全以LIP的解决方案来表征,反之亦然。应用简单鞍点搜索升华型算法求解最小极大值问题,为LIP的求解提供了新的简单算法。此外,将LIP重新定义为本文中提供的min-max问题,对于开发解决具有几乎确定恢复约束的字典学习问题的方法至关重要。 数据驱动的弱通用一致性 http://jmlr.org/papers/v23/20-644.html 2022 Narayana Santhanam、Venkatachalam Anantharam、Wojciech Szpankowski 数据科学中的许多当前应用程序需要丰富的模型类来充分表示可能驱动观测的统计数据。这样丰富的模型类可能太复杂,无法接受一致一致的估计。在这种情况下,通常解决具有收敛速度保证的估计量,其中性能可以以模型相关的方式有界,即逐点一致估计量。但这种观点有一个实际缺陷,即估计器性能是待估计模型类中未知模型的函数。即使估计器是一致的,无论观测的样本量如何,它在任何给定时间的表现都可能不清楚。在这些情况下,一系列分析支持依赖样本的担保。我们通过研究可能只接受逐点一致性保证的丰富模型类来探索这个框架,然而,可以从手头的样本中推断出有关未知模型的足够信息,这些未知模型驱动了测量估计器准确性所需的观测值。本文根据我们所称的欺骗性分布,获得了数据衍生框架中可数字母表上无损压缩问题的一个新特征。我们还表明,估计压缩无记忆源的冗余度的能力相当于以数据衍生的方式学习底层的单字母边缘。我们预计,数据衍生评估框架中这些特征的基本方法将广泛适用于广泛的评估问题,从而能够对数据衍生担保采取更系统的方法。 MurTree:基于动态规划和搜索的最优决策树 http://jmlr.org/papers/v23/20-520.html 2022 埃米尔·德米罗维奇、安娜·卢基纳、艾曼纽尔·希伯拉德、杰弗里·陈、詹姆斯·贝利、克里斯托弗·莱基、科塔吉里·拉马莫哈纳罗、彼得·斯图基 决策树学习是机器学习中广泛使用的一种方法,在需要简明和可解释模型的应用中受到青睐。传统上,启发式方法用于快速生成具有相当高精度的模型。然而,一个常见的批评点是,从准确性和大小来看,生成的树未必是数据的最佳表示。近年来,这推动了最优分类树算法的发展,与执行一系列局部最优决策的启发式方法相比,该算法可以全局优化决策树。我们遵循这一工作路线,提供了一种基于动态规划和搜索的学习最优分类树的新算法。我们的算法支持对树深度和节点数的约束。我们方法的成功归功于一系列利用分类树特有属性的专业技术。尽管最优分类树算法传统上一直受到高运行时间和有限可扩展性的困扰,但我们在一项详细的实验研究中表明,我们的方法只使用了最先进技术所需时间的一小部分,并且可以处理数万个实例的数据集,提供了几个数量级的改进,并显著有助于优化决策树的实际使用。 基于ADMM型分裂的无量纲收敛率MCMC高效采样 http://jmlr.org/papers/v23/20-357.html 2022 马克西姆·沃诺(Maxime Vono)、丹尼尔·保林(Daniel Paulin)、阿诺德·多塞特(Arnaud Doucet) 对复杂模型执行精确的贝叶斯推断在计算上是很困难的。马尔可夫链蒙特卡罗(MCMC)算法可以提供可靠的后验分布近似值,但对于大数据集和高维模型来说代价昂贵。减轻这种复杂性的标准方法包括使用子采样技术或在集群中分布数据。然而,这些方法在高维场景中通常不可靠。在这里,我们重点介绍了最近的一类MCMC方案,该方案采用了一种类似于著名的交替方向乘法器(ADMM)优化算法所使用的分裂策略。这些方法似乎提供了经验上最先进的性能,但它们在高维的理论行为目前尚不清楚。在本文中,我们对其中一种称为分裂吉布斯采样器的算法进行了详细的理论研究。在正则性条件下,利用Ricci曲率和耦合思想建立了该格式的显式收敛速度。我们用数字说明支持我们的理论。 有偏随机梯度估计 http://jmlr.org/papers/v23/20-316.html 2022 德里克·德里格斯(Derek Driggs)、梁静伟(Jingwei Liang)、卡罗拉·比比安·舍利布(Carola-Bibiane Schönlieb) 我们对有偏随机梯度方法进行了统一分析,以最小化凸、强凸和非凸组合目标,并确定了偏差在随机梯度估计中有用的设置。我们提出的框架允许我们在凸设置中首次将近端支持扩展到偏置算法,包括SAG和SARAH。我们还使用我们的框架开发了一种新的算法,即随机平均递归梯度(SARGE),它实现了非凸有限和目标的预言复杂性下限,并且与SVRG和SARAH相比,每次迭代对随机梯度预言机的调用要少得多。我们用数值实验来支持我们的理论结果,这些实验证明了某些有偏梯度估计的优点。 针对模型错误规范的快速稳健秩聚合 http://jmlr.org/papers/v23/20-315.html 2022 潘元刚、Ivor W.Tsang、陈伟杰、牛刚、杉山正树 在等级聚合(RA)中,在用户同质性的假设下,不同用户的偏好集合被归纳为一个总的顺序。由于同质性假设在复杂的实际情况中无法满足,因此RA中出现了模型错误指定。现有的稳健RA通常借助于对排名模型的增强来考虑额外的噪声,其中收集到的偏好可以被视为理想偏好的噪声扰动。由于大多数鲁棒RA依赖于某些扰动假设,因此它们不能很好地推广到现实世界中不可知的噪声破坏偏好。在本文中,我们提出了CoarsenRank,它对模型错误指定具有鲁棒性。具体地说,我们的CoarsenRank的特性概括如下:(1)CoarsenRank是为轻度模型错误指定而设计的,它假设存在位于实际偏好附近的理想偏好(与模型假设一致)。(2) 然后,CoarsenRank对偏好的邻域执行常规RA,而不是直接对原始数据集执行。因此,CoarsenRank对邻域内的模型错误指定具有鲁棒性。(3) 数据集的邻域是通过其经验数据分布定义的。此外,我们对未知的邻域大小设置了指数先验,并导出了在特定散度测度下CoarsenRank的简化后验公式。(4) 粗化等级进一步实例化为粗化瑟斯顿、粗化布雷德利-特里和粗化Plackett-Luce,并使用三种流行的概率等级模型。同时,针对每个实例分别介绍了可处理的优化策略。最后,我们将CoarsenRank应用于四个实际数据集。实验表明,CoarsenRank算法速度快、鲁棒性强,与基线方法相比取得了一致的改进。 LSAR:用于大时间序列数据分析的高效杠杆得分抽样算法 http://jmlr.org/papers/v23/20-247.html 2022 Ali Eshragh、Fred Roosta、Asef Nazari、Michael W.Mahoney 我们应用随机数值线性代数(RandNLA)的方法开发了用于分析大规模时间序列数据的改进算法。我们首先开发了一种新的快速算法来估计自回归(AR)模型在大数据领域的杠杆得分。我们表明,近似值的准确性在真实杠杆得分的$(1+mathcal{O}({varepsilon}))$之内,且概率很高。随后利用这些理论结果开发了一种有效的算法,称为LSAR,用于将适当的AR模型拟合到大时间序列数据。我们提出的算法保证以高概率找到底层真实AR模型参数的最大似然估计,并且具有最坏情况下的运行时间,这显著提高了大数据系统中最先进的替代方案的运行时间。大规模合成数据和实际数据的实证结果高度支持理论结果,并揭示了这种新方法的有效性。 生成模型的进化变分优化 http://jmlr.org/papers/v23/20-233.html 2022 Jakob Drefs、Enrico Guiraud、Jörg Lücke 我们结合两种流行的优化方法来推导生成模型的学习算法:变分优化和进化算法。通过使用截断后验函数作为变分分布族,实现了具有离散潜在变量的生成模型的组合。截断后验函数的变分参数是潜在状态集。通过将这些状态解释为个体的基因组,并使用变分下界定义适应度,我们可以应用进化算法来实现变分循环。所使用的变分分布非常灵活,我们表明进化算法可以有效地优化变分界。此外,变分回路通常适用(“黑箱”),不需要分析推导。为了显示通用性,我们将该方法应用于三种生成模型(我们使用噪声或贝叶斯网、二进制稀疏编码和尖峰和板稀疏编码)。为了证明这种新的变分方法的有效性和效率,我们使用了图像去噪和修复的标准竞争基准。基准测试允许对广泛的方法进行定量比较,包括概率方法、深度确定性和生成性网络以及非局部图像处理方法。在“零快照”学习类别中(当只使用损坏的图像进行训练时),我们观察到进化变分算法在许多基准设置中显著提高了最新水平。对于一个众所周知的修复基准,我们还观察到所有类别算法的最先进性能,尽管我们只在损坏的图像上进行训练。总的来说,我们的调查强调了研究生成模型的优化方法以实现性能改进的重要性。 基于中心编码器的监督降维与可视化 http://jmlr.org/papers/v23/20-188.html 2022 Michael Kirby,Tomojit Ghosh 我们提出了一种新的工具,用于可视化复杂、潜在的大型和高维数据集,称为Centroid-Encoder(CE)。Centroid编码器的结构类似于自动编码器神经网络,但它有一个修改的目标,即环境空间中的类形心。因此,CE包含标签信息并执行监督数据可视化。CE的训练是用一个训练集以通常的方式完成的,该训练集的参数是使用验证集进行调整的。在隔离的测试集上对生成的CE可视化进行评估,在该测试集上,对模型的泛化进行了可视化和定量评估。我们使用多种数据集和技术,包括NCA、非线性NCA、t分布NCA、t分布MCML、监督UMAP、监督PCA、彩色最大方差展开、监督等值线图、参数嵌入、,监督邻域检索可视化工具和多关系嵌入。使用PCA进行的方差分析表明,通过CE变换对数据进行非线性预处理比PCA按维捕获更多方差。 脱落神经网络的通用逼近 http://jmlr.org/papers/v23/20-1433.html 2022 Oxana A.Manita、Mark A.Peletier、Jacobus W.Portegies、Jaron Sanders、Albert Senen-Cerda 我们证明了一系列丢失神经网络的两个通用逼近定理。这些是前馈神经网络,其中每条边都被赋予一个随机的$\{0,1\}$值滤波器,该滤波器有两种操作模式:在第一种情况下,每条边的输出都乘以其随机滤波器,从而产生随机输出,而在第二种情况下每条边的输入都乘以其滤波器的期望值,导致确定性输出。在训练过程中使用随机模式,在测试和预测过程中使用确定性模式是常见的。这两个定理的形式如下:给定一个近似函数和一个阈值$\varepsilon>0$,存在一个概率和L^q$接近的辍学网络。第一个定理适用于随机模式下的辍学网络。它几乎不假设激活函数,适用于一类广泛的网络,甚至可以应用于除神经网络以外的近似方案。核心是一个代数性质,表明确定性网络可以在预期中与随机网络精确匹配。第二个定理作出了更强有力的假设,并给出了更有力的结果。给定一个要近似的函数,它提供了同时在两种模式下近似的网络的存在性。证明组件是通过独立副本递归替换边缘,以及将生成的较大网络与输入耦合的特殊第一层替换。假设要近似的函数是一般赋范空间的元素,并且在相应的范数中测量近似。网络是明确构建的。由于证明方法不同,这两个结果对随机丢包网络的近似性质提供了独立的见解。由此,我们建立了辍学神经网络广泛满足普适逼近性质。 图上的消去框架系统和快速G-框架变换 http://jmlr.org/papers/v23/20-1402.html 2022 郑学斌、周冰心、王玉光、庄晓生 图形表示学习有许多实际应用,从自动驾驶激光雷达、3D计算机视觉到药物再利用、蛋白质分类、社交网络分析。图形数据的充分表示对于图形结构数据的统计或机器学习模型的学习性能至关重要。本文提出了一种新的图数据多尺度表示系统,称为抽取框架,它在图上形成局部紧框架。抽取的framelet系统允许在粗粒度链上存储图形数据表示,并在多尺度上处理图形数据,其中在每个尺度上,数据存储在子图上。在此基础上,我们通过构造性的数据驱动滤波器组,建立了用于多分辨率图形数据分解和重建的抽取G帧变换。图框架是建立在基于链的正交基上的,支持快速图傅里叶变换。由此,我们给出了一种快速的抽取G-framelet变换(FGT)算法,该算法对于大小为N的图具有线性计算复杂度O(N)。通过随机图的模拟示例和实际应用,证明了构造抽取G-frame系统和FGT的有效性,包括交通网络的多分辨率分析和用于图分类任务的图神经网络的表示学习。 用于大数据贝叶斯回归的空间多元树 http://jmlr.org/papers/v23/20-1361.html 2022 米歇尔·佩鲁齐(Michele Peruzzi)、大卫·B·邓森(David B.Dunson) 高分辨率地理空间数据具有挑战性,因为基于高斯过程的标准地质统计模型无法扩展到大数据量。虽然在能够更有效计算的方法方面取得了进展,但对于能够描述不同传感器以高分辨率记录的多个结果之间复杂关系的大规模数据方法的关注却少得多。我们的基于空间多元树的贝叶斯多元回归模型(SpamTrees)通过对树有向无环图后潜在随机效应的条件独立性假设实现了可伸缩性。关于计算效率的信息论论证和考虑指导了不平衡多元环境中树的构建和相关高效采样算法。除了模拟数据示例外,我们还使用了一个大型气候数据集来演示SpamTrees,该数据集将卫星数据与陆基站数据相结合。CRAN上提供了软件和源代码,网址为https://CRAN.R-project.org/package=spamtree。 TFPnP:免调谐即插即用近似算法及其在逆成像问题中的应用 http://jmlr.org/papers/v23/20-1297.html 2022 魏凯轩、安吉丽卡·艾维莱斯·里韦罗、梁静伟、傅莹、黄华、卡罗拉·比比安娜·舍利布 即插即用(PnP)是一种非凸优化框架,它将近距离算法(例如,交替方向乘法器(ADMM))与高级去噪先验知识相结合。在过去几年中,PnP算法取得了巨大的经验成功,特别是对于那些集成了基于深度学习的去噪器的算法。然而,PnP方法的一个关键问题是需要手动调整参数,这对于在成像条件和不同场景内容的高度差异中获得高质量的结果至关重要。在这项工作中,我们提出了一类无调谐PnP近似算法,可以自动确定参数,如去噪强度、终止时间和其他优化特定参数。我们方法的核心部分是一个用于自动参数搜索的策略网络,它可以通过无模型和基于模型的深度强化学习策略的混合有效学习。我们通过严格的数值和可视化实验证明,学习的策略可以根据不同的设置定制参数,并且通常比现有的手工标准更有效。此外,我们讨论了PnP去噪器的几个实际考虑因素,这与我们学到的政策一起产生了最先进的成果。这种先进的性能在线性和非线性样本逆成像问题上都很普遍,尤其是在压缩传感MRI、稀疏视图CT、单光子成像和相位检索方面显示出了有希望的结果。 插值的随机束方法 http://jmlr.org/papers/v23/20-1248.html 2022 阿拉斯代尔·帕伦、伦纳德·贝拉达、鲁德拉·波德尔、M.巴万·库马尔 我们提出了一种新的方法来训练能够插值的深度神经网络,即将经验损失降至零。在每次迭代中,我们的方法构造了学习目标的随机近似值。近似值称为束,是线性函数的逐点最大值。我们的束包含一个常数函数,它可以降低经验损失。这使我们能够计算自动自适应学习率,从而提供准确的解决方案。此外,我们的束包括在当前迭代中计算的线性近似值和DNN参数的其他线性估计值。这些额外近似的使用使我们的方法对其超参数更加稳健。基于其理想的经验特性,我们将我们的方法称为稳健和准确训练的捆绑优化(BORAT)。为了操作BORAT,我们设计了一种新的算法,在每次迭代时有效地优化束近似。我们建立了BORAT在凸和非凸设置下的理论收敛性。使用标准的公开数据集,我们将BORAT与其他单超参数优化算法进行了彻底的比较。我们的实验表明,BORAT与这些方法的最先进的泛化性能相匹配,并且是最稳健的。 基于距离的HDLSS数据分类器的推广 http://jmlr.org/papers/v23/20-1219.html 2022 Sarbojit Roy、Soham Sarkar、Subhajit Dutta、Anil K.Ghosh 在高维、低样本量(HDLSS)设置中,如果尺度差异掩盖了底层种群位置之间的差异,那么基于欧氏距离的分类器(如最近邻分类器和平均距离分类器)的性能会很差。为了纠正这个问题,文献中提出了对这些分类器的一些修改。然而,现有的方法仅限于位置和规模差异,它们往往无法区分前两个时刻以外的不同人群。在本文中,我们建议对这些分类器进行一些简单的转换,以提高性能,即使底层种群具有相同的位置和规模。基于变量分组的思想,我们进一步提出了这些分类器的泛化。从理论上研究了所提出分类器的高维行为。通过各种模拟示例进行的数值实验以及对三个不同数据库的基准数据集进行的广泛分析显示了所提方法的优点。 求解大尺度稀疏PCA可证明(近似)最优性 http://jmlr.org/papers/v23/20-1188.html 2022 Dimitris Bertsimas、Ryan Cory-Wright、Jean Pauphilet 稀疏主成分分析(PCA)是一种常用的降维技术,用于获取主成分,这些主成分是原始特征的一小部分的线性组合。现有方法无法提供变量超过$p=100s$的可证明最优主成分。通过将稀疏PCA重新定义为凸混合积分半定优化问题,我们设计了一种割平面方法,该方法在从$p=300$变量中选择$k=5$协变量的范围内解决了可证明最优性问题,并在更大的范围内提供了小的边界间隙。我们还提出了一种凸松弛和贪婪取整方案,该方案在实践中为$p=100$s在几分钟内或为$p=1000$s在几小时内提供了$1-2\%$的边界间隙,因此是精确方法的可行替代方案。使用真实的金融和医疗数据集,我们说明了我们的方法能够在规模上灵活地推导出可解释的主成分。 部分观测系统近似规划和强化学习的近似信息状态 http://jmlr.org/papers/v23/20-1165.html 2022 贾库马尔·苏布拉曼尼亚(Jayakumar Subramanian)、阿米特·辛哈(Amit Sinha)、莱汉·塞拉吉(Raihan Seraj)、阿迪蒂亚·马哈詹(Aditya Mahajan) 我们提出了部分观测系统中近似规划和学习的理论框架。我们的框架基于信息状态的基本概念。我们提供了信息状态的两个定义——i)历史的函数,它足以计算预期的奖励并预测其下一个值;ii)可以递归更新的历史函数,足以计算预期回报并预测下一次观察。信息状态总是导致动态编程分解。我们的关键结果是表明,如果历史函数(称为AIS)近似满足信息状态的属性,则存在相应的近似动态程序。我们证明了使用此方法计算的策略是近似最优的,具有有界的最优性损失。我们表明,文献中关于状态、观察和动作空间的几种近似可以视为AIS的实例。在某些情况下,我们得到了更紧的边界。AIS的一个显著特点是可以从数据中学习。我们提出了基于AIS的多时间尺度策略梯度算法,并在低维、中维和高维环境中进行了详细的数值实验。 部分可观测Markov决策过程中有限记忆反馈策略的近最优性 http://jmlr.org/papers/v23/20-1152.html 2022 阿里·卡拉(Ali Kara)、塞尔达尔·尤克塞尔(Serdar Yuksel) 在部分可观测马尔可夫决策过程(POMDP)理论中,最优策略的存在性通常是通过将原始的部分可观测随机控制问题转换为信念空间上的完全可观测随机控制器问题来建立的,从而得到一个置信MDP。然而,由于完全观测的belief-MDP模型的状态空间总是不可数的,因此,使用经典的动态或线性规划方法计算此完全观测模型的最优策略,以及原始POMDP的最优策略是很有挑战性的,即使原始系统具有有限的状态和动作空间。此外,由于所需的正则性条件通常需要进行繁琐的研究,涉及导致Feller连续性等特性的概率测度空间,因此几乎不存在严格的值函数近似和最优策略近似结果。在本文中,我们研究了POMDP的规划问题,其中假设系统动力学和测量通道模型是已知的。我们通过仅使用有限窗口信息变量离散信念空间来构造近似信念模型。然后,我们找到近似模型的最优策略,并在轻度非线性滤波器稳定性条件下,假设测量集和动作集是有限的(且状态空间是实向量值的),严格建立POMDP中所构造的有限窗口控制策略的近优定性。我们还建立了一个收敛速度结果,该结果与有限窗口内存大小和近似误差界有关,其中在显式和可测试的指数滤波器稳定性条件下,收敛速度是指数的。虽然存在许多实验结果和很少的严格渐近收敛结果,但据我们所知,显式收敛速度结果在文献中是新的。 高维因子回归中的内插预测 http://jmlr.org/papers/v23/20-12.html 2022 弗洛伦蒂娜·布内亚、塞思·斯特里马斯·马基、马丁·维坎普 本文研究了高维回归模型中最小范数插值预测器风险的有限样本性质。如果$p$回归特征的协方差矩阵$\Sigma$的有效秩远大于样本大小$n$,我们表明最小形式插值预测因子是不可取的,因为其风险接近于将响应预测为0的普通风险。然而,令人惊讶的是,我们详细的有限样本分析表明,当回归响应和特征共同为低维时,在广泛使用的因子回归模型下,这种行为并不存在。在这个流行的模型类中,当$\Sigma$的有效秩小于$n$,同时仍允许$p\gg n$时,超额风险的偏差和方差项都可以控制,并且最小范数插值预测器的风险接近最佳基准。此外,通过对偏差项的详细分析,我们展示了一些模型类,在这些模型类下,超额风险的上界接近于零,而在最近的工作arXiv:1906.11300中,相应的上界出现了分歧。此外,我们还表明,在因子回归模型下分析的最小范数插值预测因子,尽管具有模型预测性且没有调整参数,但与基于主成分回归和岭回归的预测因子具有相似的风险,并且可以改进基于LASSO的预测因子,在高维领域。 数据流形维的标度律 http://jmlr.org/papers/v23/20-111.1html 2022 尤特卡什·夏尔马(Utkarsh Sharma)、贾里德·卡普兰(Jared Kaplan) 当数据充足时,训练有素的神经网络实现的测试损失在网络参数$N$的数量中表现为幂律$L\propto N^{-\alpha}$。这种经验标度定律适用于各种各样的数据模式,并且可能持续许多数量级。如果神经模型只是有效地对内在维度为$d$的数据流形执行回归,则可以解释标度律。这个简单的理论预测,交叉熵和均方误差损失的标度指数α大约为4/d$。我们通过在教师/学生框架中独立测量内在维度和标度指数来证实这一理论,在这个框架中,我们可以通过调用随机教师网络的属性来研究各种$d$和$\alpha$。我们还在几个数据集上用CNN图像分类器和GPT类型的语言模型测试了这一理论。 目标空间的深度学习 http://jmlr.org/papers/v23/20-040.html 2022 Michael Fairbank、Spyridon Samothrakis、Luca Citi 深度学习使用神经网络,这些网络通过权重进行参数化。神经网络通常通过调整权重来训练,以直接最小化给定的损失函数。在本文中,我们建议将权重重新参数化为网络中单个节点的发射强度的目标。给定一组目标,可以计算使发射强度最符合这些目标的权重。有人认为,使用目标进行训练解决了梯度爆炸的问题,这是一个我们称之为级联解缠结的过程,并使损失函数曲面更平滑地遍历,从而使训练更容易、更快,也可能使泛化更好,它还允许更容易地学习更深层次的递归网络结构。目标到权重的必要转换需要额外的计算费用,这在许多情况下是可以管理的。目标空间中的学习可以与现有的神经网络优化工具相结合,以获得额外收益。实验结果表明,对于全连通网络和卷积网络,使用目标空间的速度和改进的泛化示例,以及召回和处理长时间序列的能力,以及使用递归网络执行自然语言处理的能力。 基于边际潜在矩阵-T过程的贝叶斯多项式Logistic正态模型 http://jmlr.org/papers/v23/19-882.html 2022 贾斯汀·西尔弗曼(Justin D.Silverman)、金伯利·罗氏(Kimberly Roche)、扎卡里·福尔摩斯(Zachary C.Holmes)、劳伦斯·戴维(Lawrence A.David)、赛扬·穆克吉(Sayan Mukherjee) 贝叶斯多项式逻辑正态(MLN)模型由于能够对具有复杂协方差结构的多变量计数数据进行建模,因此在序列计数数据(例如,微生物组或基因表达数据)的分析中很受欢迎。然而,由于多项式分布和逻辑正态分布的非共轭性,MLN模型的现有实现仅限于小数据集。出于开发贝叶斯MLN模型有效推理的需要,我们提出了两个关键思想。首先,我们发展了一类边际潜在矩阵-T过程(边际LTP)模型。我们证明了许多流行的MLN模型,包括那些具有潜在线性、非线性和动态线性结构的模型都是这类模型的特例。其次,我们为MLN子类具有特定加速度的边际LTP模型开发了一个有效的推理方案。通过对MLN模型的应用,我们证明了我们的推理方案具有较高的精度,并且通常比MCMC快4-5个数量级。 XAI超越分类:可解释的神经聚类 http://jmlr.org/papers/v23/19-497.html 2022 西鹏、李云凡、Ivor W.Tsang、朱宏元、吕建成、周天一 本文研究了可解释人工智能(XAI)和数据聚类中两个具有挑战性的问题。第一个问题是如何直接设计具有内在可解释性的神经网络,而不是对黑盒模型进行事后解释。第二种方法是使用可微分神经网络实现离散$k$-means,该神经网络具有并行计算、在线聚类和可避免聚类表示学习的优点。为了解决这两个挑战,我们设计了一个新的神经网络,它是香草$k$-means的一个可微分的重新公式,称为Terpretable neural cLustering(TELL)。我们的贡献是三重的。首先,据我们所知,大多数现有的XAI工作都专注于监督学习范式。这项工作是XAI关于无监督学习,特别是数据聚类的少数研究之一。其次,TELL是一个可解释的,或所谓的内在可解释和透明的模型。相比之下,大多数现有的XAI研究使用各种方法来理解带有事后解释的黑盒模型。第三,从数据聚类的角度来看,TELL具有$k$-means高度期望的许多特性,包括但不限于在线聚类、即插即用模块、并行计算和可证明的收敛性。大量实验表明,与14种聚类方法相比,我们的方法在三个具有挑战性的数据集上取得了优异的性能。源代码可以在www.pengxi.me上访问。 随机审查下的经验风险最小化 http://jmlr.org/papers/v23/19-450.html 2022 纪尧姆·奥塞特、斯蒂芬·克莱门松、弗朗索瓦·波特 我们考虑经典的监督学习问题,其中连续的非负随机标签$Y$(例如,随机持续时间)将通过具有最小最小二乘误差的回归规则,基于观察以$\mathbb{R}^d$为单位的随机向量$X$来预测,$d\geq为1$。在各种应用中,从工业质量控制到通过信用风险分析的公共卫生,例如,培训观察可以被正确审查,这意味着统计学习依赖于三元组$(X,\;min\{Y,\;C\}的$n\geq 1$独立实现的集合,而不是$(X、Y)$的独立副本,\; \delta)$,其中$C$是一个具有未知分布的非负随机变量,建模审查,$\delta=\mathbb{I}\{Y\leqC\}$指示持续时间是否正确审查。由于在风险计算中忽略审查可能会明显导致对目标持续时间的严重低估和危害预测,我们考虑基于审查$C$的条件生存函数的Kaplan-Meier估计的真实风险的插入式估计,给定$X$,称为Beran风险,为了实现经验风险最小化。在温和的条件下,当忽略插件估计固有的模型偏差问题时,这个有偏/加权经验风险泛函的极小值器的学习率为$O_{mathbb{P}}(\sqrt{log(n)/n})$,这在没有审查的情况下是可以实现的。除了理论结果之外,为了说明所开发方法的相关性,进行了数值实验。 利用高维因子隐马尔可夫模型的局部性 http://jmlr.org/papers/v23/19-267.html 2022 洛伦佐·里梅拉(Lorenzo Rimella)、尼克·怀特利(Nick Whiteley) 我们提出了高维因子隐马尔可夫模型中的近似滤波和平滑算法。近似包括根据与排放分布相关的因子图中的局部性概念,原则上丢弃似然因子。这样可以避免精确过滤和平滑的指数维代价。我们证明了在局部总变差范数中测量的近似精度是“无量纲”的,即随着模型的整体尺寸增加,我们得出的误差范围不一定降低。分析中的一个关键步骤是通过在贝叶斯规则更新中定位似然函数来量化引入的误差。当数据具有已知的空间或网络结构时,我们利用的似然函数的阶乘结构自然会出现。我们在综合示例和伦敦地铁客流问题上演示了新算法,其中因子图由列车网络有效给出。 从具有未知边缘分布的多个网络中恢复共享结构 http://jmlr.org/papers/v23/19-1056.html 2022 基思·莱文(Keith Levin)、阿萨德·洛迪亚(Asad Lodhia)、伊丽莎维塔·莱维纳(Elizaveta Levina) 在越来越多的设置中,数据集由来自网络群体的多个样本组成,其中顶点跨网络对齐;例如,神经科学中的大脑连接网络。我们考虑观察到的网络具有共同期望,但其边缘的噪声结构可能不同的设置。我们的方法利用共享平均结构去噪观测网络的边缘级测量值,并估计潜在的人口级参数。我们还探讨了边缘水平误差对估计和下游推断的影响程度。在此过程中,我们为随机加权邻接矩阵的低阶特征值截断建立了一个有限样本集中不等式,该不等式可能具有独立的意义。该方法在合成网络和精神分裂症fMRI研究的数据上进行了说明。 高维稀疏部分线性模型的欠量分布式学习 http://jmlr.org/papers/v23/18-467.html 2022 吕少高、恒联 尽管最近针对纯线性模型和全非参数模型提出了各种分布式机器学习方案,但对于具有多种结构(例如稀疏性、线性和非线性)的半参数模型的分布式优化却很少受到关注。为了解决这些问题,本文针对具有越来越多特征的稀疏部分线性模型,提出了一种新的高效通信的分布式学习算法。该方法基于处理大数据的经典分治策略,每个子样本的计算都包含双正则最小二乘法的一个减损估计。利用所提出的方法,我们从理论上证明了在对总数据进行适当划分的情况下,我们的全局参数估计器可以在我们的半参数模型中实现最佳参数率。具体来说,数据分区的选择依赖于非参数分量的底层平滑度,并且它对稀疏参数具有自适应性。最后,进行了一些模拟实验,以说明我们的debiased技术在分布式环境下的经验性能。 基于多层高斯图形模型的数据集成问题的联合估计与推理 http://jmlr.org/papers/v23/18-131.html 2022 乔治·米查利迪斯·苏巴巴拉塔·马朱姆达尔 高通量技术的快速发展使得能够从跨越多个层次的生物或疾病过程中生成数据,如基因组、蛋白质组或代谢组数据,并进一步涉及多种来源,如疾病亚型或实验条件。在这项工作中,我们提出了一个基于高斯图形模型的通用统计框架,用于水平(即跨条件或子类型)和垂直(即跨包含分子隔室数据的不同层)集成此类数据集中的信息。我们从将多层问题分解为一系列两层问题开始。对于每个两层问题,我们将下层节点的结果建模为依赖于该层其他节点以及上层所有节点的结果。我们使用邻域选择和分组优化回归的组合来获得所有模型参数的稀疏估计。在此基础上,我们开发了一种去噪技术和层间定向边缘权重的渐近分布,该方法利用已计算的上层节点的邻域选择系数。随后,我们为这些边权重建立了全局同步测试程序。根据合成数据和实际数据评估了所提方法的性能。