网址:http://www.jmlr.org JMLR公司 机器学习研究杂志 拓扑节点2vec:基于持久同调的增强图嵌入 http://jmlr.org/papers/v25/23-1185.html http://jmlr.org/papers/volume25/23-1185/23-1185.pdf 2024 平冈靖国、伊本优介、拉孔贝、米罕、矢村 Node2vec是一种图嵌入方法,它学习加权图中每个节点的向量表示,同时寻求保持相对邻近性和全局结构。数值实验表明Node2vec很难重建输入图的拓扑。为了解决这个问题,我们引入了一个拓扑损失项,将其添加到Node2vec的训练损失中,该项试图将结果嵌入的持久性图(PD)与输入图的持久性关系图尽可能地对齐。根据计算最优传输的结果,我们仔细地将熵正则化应用于PD度量,使我们能够以可微的方式测量PD之间的差异。然后,我们可以通过梯度下降将修改后的损失函数最小化,以重建输入图形的几何结构和拓扑结构。我们通过演示性的合成示例展示了这种方法的优点。 多变量Hawkes过程中基于最小消息长度的Granger因果推理 http://jmlr.org/papers/v25/23-1066.html http://jmlr.org/papers/volume25/23-1066/23-1066.pdf 2024 卡特琳娜·拉瓦奇科娃-辛德勒、安娜·梅尔尼科娃、艾琳·塔比卡内克 多变量Hawkes过程(MHP)是一种通用的概率工具,用于模拟各种现实现象:地震、股市操作、神经元活动、病毒传播等。本文主要研究具有指数衰减核的MHP,并估计连通图,这些连通图表示其组成部分之间的Granger因果关系。我们基于最小消息长度(MML)原理提出了一个优化准则和模型选择算法来解决这个推理问题。MML使用Occam剃刀原理对格兰杰因果模型进行了如下比较:即使模型与观测数据具有可比性,也首选对数据做出最简明解释的模型。虽然大多数使用套索式惩罚的最新方法在时间范围较短的场景中往往过于拟合,但基于MML的方法在这些环境中获得了较高的F1分数。我们进行了一项数值研究,将该算法与其他相关的经典和最新方法进行了比较,其中我们在特定稀疏图设置中获得了最高的F1分数。我们还对G7主权债券数据进行了说明,并获得了因果关系,这与文献中可用的专家知识一致。 基于流形平坦化和重构的表示学习 http://jmlr.org/papers/v25/23-0615.html http://jmlr.org/papers/volume25/23-0615/23-0615.pdf 2024 Michael Psenka、Druv Pai、Vishal Raman、Shankar Sastry、Yi Ma 现实世界中,可学习数据的一个常见假设是它具有某种低维结构,而形式化这种结构的一种方法是通过流形假设:可学习数据位于某个低维流形附近。深度学习架构通常具有压缩的自动编码器组件,其中数据映射到低维的潜在空间,但通常许多架构设计选择都是手动完成的,因为这些模型本身并没有利用数据的数学结构。为了利用这种几何数据结构,我们提出了一种几何流形式的迭代过程,用于显式地构造一对神经网络,该神经网络分层地从该流形的有限样本线性化并重建嵌入子流形。我们的这种生成的神经网络,称为Flattening networks(FlatNet),在理论上是可解释的,在规模上计算上是可行的,并且能够很好地推广到测试数据,这种平衡在基于流形的学习方法中是不常见的。我们在合成高维流形数据和2D图像数据上给出了经验结果,并与其他模型进行了比较。我们的代码是公开的。 袋装提供无假设稳定性 http://jmlr.org/papers/v25/23-0536.html http://jmlr.org/papers/volume25/23-0536/23-0536.pdf 2024 Jake A.Soloff、Rina Foygel Barber、Rebecca Willett 打包是稳定机器学习模型的重要技术。在本文中,我们导出了任何模型的袋装稳定性的有限样本保证。我们的结果没有对数据的分布、基本算法的属性或协变量的维数进行任何假设。我们的保证适用于多种装袋方式,在一定范围内是最佳的。实验结果验证了我们的发现,表明bagging成功地稳定了甚至高度不稳定的基本算法。 人口均等的多类别分类中的公平性保证 http://jmlr.org/papers/v25/23-0322.html http://jmlr.org/papers/volume25/23-0322/203-0322.pdf 2024 克里斯托夫·丹尼斯(Christophe Denis)、罗穆尔·伊利(Romuald Elie)、穆罕默德·希比里(Mohamed Hebiri)、弗朗索瓦·胡(François Hu) 算法公平是机器学习的一个既定领域,愿意减少数据中隐藏偏见的影响。然而,尽管它的应用范围很广,但很少有作品从公平的角度考虑多类分类设置。我们关注这个问题,并将人口均等情况下近似公平的定义扩展到多类分类。在属性感知的情况下,以及对于二进制和多类别敏感属性,我们指定了最优公平分类器的相应表达式。这建议使用插件数据驱动程序,我们为其建立理论保证。证明了改进的估计器在公平性和风险方面都能模拟最优规则的行为。值得注意的是,公平保障是无分配的。该方法在合成数据集和实际数据集上进行了评估,结果表明,在预设的不公平程度下,该方法在决策中非常有效。此外,我们的方法在二进制和多类任务中具有竞争力(如果不是更好的话)。 多班级主动学习中的无收益机制 http://jmlr.org/papers/v25/23-0234.html http://jmlr.org/papers/volume25/23-0234/23-0234.pdf 2024 甘源、赵云凡、Samory Kpotufe 我们考虑具有平滑回归函数的非参数分类,其中众所周知,$\mathbb{P}(Y=Y|X=X)$中的边距概念决定了主动和被动学习中的快速度或慢速度。在这里,我们阐明了主动学习和被动学习之间的一个显著区别——在多类环境中最为相关。也就是说,我们表明,边缘概念中的一些看似良性的细微差别,包括贝叶斯类的唯一性,它们对被动学习的速度没有明显影响,决定了任何主动学习者是否能够超越被动学习速度。虽然这项工作的简短会议版本已经暗示了这些细微差别,但它侧重于二进制情况,因此无法确定多类设置中的困难来源:我们在这里表明,贝叶斯分类器不唯一就足够了,而不需要所有类都是贝叶斯最优的,主动学习比被动学习没有任何收获。 学习受阶段性风险控制的最佳动态治疗方案 http://jmlr.org/papers/v25/23-0072.html http://jmlr.org/papers/volume25/23-0072/23-0072.pdf 2024 刘莫川、王元佳、傅浩达、曾冬林 动态治疗方案(DTR)旨在定制个性化的序贯治疗规则,通过调节患者决策的异质性,最大限度地提高累积受益结果。对于包括2型糖尿病(T2D)在内的许多慢性病,治疗通常是多方面的,即具有较高预期回报的积极治疗也可能增加急性不良事件的风险。本文提出了一种新的加权学习框架,即利益-风险动态治疗方案(BR-DTRs),以解决利益-风险权衡问题。新框架依赖于一种反向学习过程,通过限制治疗规则在每个治疗阶段的诱导风险不大于预先规定的风险约束。通过计算,该估计处理规则解决了一个带有修改的平滑约束的加权支持向量机问题。理论上,我们证明了所提出的DTR是Fisher一致的,并且我们进一步获得了值函数和风险函数的收敛速度。最后,通过广泛的仿真研究和T2D患者的实际研究应用,验证了所提方法的性能。 基于Margin的分类器主动学习 http://jmlr.org/papers/v25/22-1127.html http://jmlr.org/papers/volume25/22-1127/22-1127.pdf 2024 马可·布莱桑、尼科尔·塞萨·比安奇、西尔维奥·拉坦齐、安德烈亚·鲍迪斯 我们研究了多类分类器的主动学习,重点是可实现的转换设置。输入是某个度量空间的有限子集$X$,要学习的概念是$X$到$k$类中的分区$\mathcal{C}$。目标是通过查询尽可能少的$X$元素的标签来学习$\mathcal{C}$。在基于池的主动学习中,这是一个有用的子例程,它由标签获取成本高昂的应用程序驱动。我们的主要结果是,在非常不同的环境中,存在有趣的裕度概念,可以产生有效的主动学习算法。首先,我们考虑$X\subset\mathbb{R}^m$的情况,假设每个类都有一个未知的“个性化”边距将其与其他类分开。其次,我们考虑这样的情况,其中$X$是一个有限度量空间,并且根据阈值连通图中的测地距离,这些类是带边距的凸类。在这两种情况下,我们给出了使用$\mathcal{O}(\logn)$label查询在多项式时间内准确学习$\mathcal{C}$的算法,其中$\matchal{O{(\cdot)$隐藏了对度量空间维数的近最优依赖。我们的结果实际上适用于或可以适用于更一般的设置,例如伪度量空间和半度量空间。 基于查询的随机子图检测 http://jmlr.org/papers/v25/22-0395.html http://jmlr.org/papers/volume25/22-0395/22-0399.pdf 2024 Wasim Huleihel、Arya Mazumdar、Soumyabrata Pal 种植密集子图检测问题是指测试给定(随机)图中是否存在异常密集的子图的任务。具体来说,我们观察到$n$顶点上的无向和未加权图。在零假设下,该图是边缘概率(或密度)为$q$的Erdös-R{\ee}nyi图的实现。在该备选方案下,$k$顶点上有一个子图,其边概率为$p>q$。对于广泛的边缘参数$p$和$q$,这个问题的统计和计算障碍都很清楚。在本文中,我们考虑了上述问题的一个自然变体,在该变体中,人们只能使用自适应边缘查询观察到图中相对较小的部分。对于这个模型,我们确定检测种植子图存在的必要和充分的查询数(伴随着拟多项式优化算法)。我们还提出了一种多项式时间算法,该算法能够检测种植子图,尽管与上述下限相比,它具有更多的查询。我们推测,在剩余区域中,不存在多项式时间算法。我们的结果解决了过去文献中提出的两个悬而未决的问题。 基于深度神经网络和Logistic损失的分类 http://jmlr.org/papers/v25/22-0049.html http://jmlr.org/papers/volume25/22-0049/22-0049.pdf 2024 Zihan Zhang、Lei Shi、Ding Xuan Zhou 用逻辑损失(也称为交叉熵损失)训练的深度神经网络(DNN)在各种二进制分类任务中取得了令人瞩目的进展。尽管在实践中取得了相当大的成功,但使用深度神经网络进行二元分类的泛化分析和逻辑损失仍然很少。的目标函数的无界性二值分类中的logistic损失是获得满意泛化界的主要障碍。本文旨在通过发展一种新的理论分析来填补这一空白,并利用它建立严格的泛化边界,以训练二进制分类中具有逻辑损失的全连通ReLU DNN。我们的泛化分析基于一个优雅的oracle-type不等式,该不等式使我们能够处理目标函数的有界约束。利用这个oracle-type不等式,我们建立了完全连通ReLU DNN分类器${f}^{text{FNN}}_n$的泛化界,该分类器是针对大小为$n$的i.i.d.样本,通过经验逻辑风险最小化训练得到的,其收敛速度快于$n\至infty$。特别地,我们获得了只需要数据的条件类概率的Hölder光滑性的$hat{f}^{text{FNN}}_n$(直到某些对数因子)的最优收敛速度。此外,我们考虑了一个组合假设,该假设要求$\eta$是几个向量值多元函数的组合,其中每个分量函数要么是最大值函数,要么是仅依赖于少量输入变量的Hölder光滑函数。在这个假设下,我们甚至可以导出与数据的输入维数无关的$hat{f}^{text{FNN}}_n$的最优收敛速度(可达一些对数因子)。这一结果解释了为什么DNN分类器在实践中能够克服维数灾难,并在高维分类问题中表现良好。此外,我们还建立了在其他情况下的无量纲收敛速度,例如当决策边界是分段光滑的且输入数据有界远离它时,本文提出的快速收敛速度还归因于ReLU DNNs逼近接近零(无界)的自然对数函数的严格误差界。此外,我们通过证明相应的极小极大下界来证明我们对速率最优性的主张。所有这些结果在文献中都是新的,将加深我们对深度神经网络分类的理论理解。 多元极值的谱学习 http://jmlr.org/papers/v25/21-1367.html http://jmlr.org/papers/volume25/21-1367/21-1367.pdf 2024 马可·阿韦拉·麦地那、理查德·戴维斯、根纳迪·萨莫罗德尼茨基 我们提出了一种光谱聚类算法来分析多元极值的依赖结构。更具体地说,我们关注由极值理论中的角度或谱测度表征的多元极值的渐近相关性。我们的工作研究了基于由极值样本(即半径超过大阈值的随机向量的角度部分)构造的随机$k$最近邻图的谱聚类的理论性能。特别地,我们推导了线性因子模型产生的极值的渐近分布,并证明了在一定条件下,谱聚类可以一致地识别该模型中产生的极点簇。利用这个结果,我们提出了一个简单的一致性估计策略来学习角度测量。我们的理论发现得到了数值实验的补充,说明了我们方法的有限样本性能。 表单和集群不会分离附近的球 http://jmlr.org/papers/v25/21-0495.html http://jmlr.org/papers/volume25/21-0495/21-0499.pdf 2024 Alexander Dunlap,Jean-Christophe Mourrat 形式和聚类是$K$-means聚类的一种流行的凸化。我们证明,如果数据集是由大量独立随机变量组成的,这些随机变量按照单位半径两个不相交球并的统一度量分布,并且球之间足够近,则范数和聚类通常将无法恢复将数据集分解为两个聚类。由于尺寸趋于无穷大,即使两个球的中心之间的距离大到$2\sqrt{2}$,也会发生这种情况。为了说明这一点,我们引入并分析了表单总和聚类的一个连续版本,其中数据集被一个通用度量替换。特别是,我们陈述并证明了集群的局部-全局特征,即使在离散数据点的情况下,这种特征似乎也是新的。 零阶非光滑非凸随机优化的最优维数相关算法 http://jmlr.org/papers/v25/23-1159.html http://jmlr.org/papers/volume25/23-1159/23-1159.pdf 2024 盖伊·科诺夫斯基(Guy Kornowski)、奥哈德·沙米尔(Ohad Shamir) 我们研究了产生Lipschitz目标的$(delta,epsilon)$-平稳点的复杂性,这些平稳点可能既不光滑也不凸,只使用噪声函数求值。最近的工作提出了几种随机零阶算法来解决这一问题,所有这些算法都具有$\Omega(d^{3/2})$的维数依赖性,其中$d$是问题的维数,被认为是最优的。我们通过提供一个复杂度为$O(d\delta^{-1}\epsilon^{-3})$的更快算法来反驳这个猜想,该算法对于$d$是最优的(直到数值常量),对于精度参数$\delta,\epsilon$也是最优的,从而解决了Lin等人(2022)提出的一个未决问题。此外,我们算法的收敛速度对于光滑目标也是最优的,证明了在非凸随机零阶设置下,非光滑优化与光滑优化一样容易。我们提供的算法能够在预期的情况下实现上述收敛速度,并且具有较高的概率。我们的分析基于一个关于Goldstein次微分集的简单但强大的引理,该引理允许利用一阶非光滑非凸优化的最新进展。 带噪声标签的线性距离度量学习 http://jmlr.org/papers/v25/23-0791.html http://jmlr.org/papers/volume25/23-0791/23-0791。pdf 2024 Meysam Alishahi、Anna Little、Jeff M.Phillips 在线性距离度量学习中,我们在一个欧几里德度量空间中给定数据,目标是找到一个到另一个欧氏度量空间的适当线性映射,该映射尽可能地遵守一定的距离条件。本文形式化了一种简单而优雅的方法,将其归结为一个一般的连续凸损失优化问题,并针对不同的噪声模型推导了相应的损失函数。我们表明,即使数据是有噪声的,只要能够获得足够的样本,就可以以任何精度学习地面真值线性度量,并且我们提供了相应的样本复杂度界限。此外,我们提出了一种有效的方法,将学习到的模型截断为一个低阶模型,该模型可以证明地保持损失函数和参数的准确性,这是此类结果中的第一个。对合成数据集和实际数据集的一些实验观察支持并告知了我们的理论结果。 OpenBox:用于广义黑盒优化的Python工具包 http://jmlr.org/papers/v25/23-0537.html http://jmlr.org/papers/volume25/23-0537/23-0537.pdf 2024 姜怀军、沈瑜、杨莉、徐北成、杜思贤、张文涛、张策、崔斌 黑盒优化(BBO)具有广泛的应用,包括自动机器学习、实验设计和数据库旋钮调整。然而,用户在将BBO方法应用于现有软件包的问题时,仍然面临适用性、性能和效率方面的挑战。本文介绍了OpenBox,一个具有改进可用性的开源BBO工具包。它实现了用户友好的界面和可视化,供用户定义和管理其任务。OpenBox背后的模块化设计有助于在现有系统中灵活部署。实验结果证明了OpenBox相对于现有系统的有效性和效率。OpenBox的源代码位于https://github.com/PKU-DAIR/open-box。 生成性对手排名网 http://jmlr.org/papers/v25/23-00461.html http://jmlr.org/papers/volume25/23-0461/23-0461.pdf 2024 姚英华、潘元刚、李静、曾荫权、姚欣 我们提出了一种新的对抗性训练框架——生成性对抗性排名网络(GARNet),用于从样本列表中的用户偏好中学习,从而生成满足用户特定标准的数据。生成器愚弄ranker,将生成的样本提升到顶部;而排名者学习在底部对生成的样本进行排序。同时,排名者通过训练收集真实样本的偏好,学习对感兴趣的属性进行排序。排名者和生成者之间的对抗性排名游戏使生成的数据分布和用户-推荐的数据分布之间保持一致,具有理论保证和经验验证。具体来说,我们首先证明了当对离散属性进行完全偏好训练时,GARNet的学习分布与基于用户偏好的给定得分向量指定的分布严格一致。然后将理论结果推广到离散属性的部分偏好,并进一步推广到连续属性的偏好。同时,大量实验表明,GARNet可以根据各种感兴趣的属性(即离散/连续属性、单个/多个属性)的全部/部分偏好来检索用户期望数据的分布。代码位于https://github.com/EvaFlower/GARNet。 弱监督下的预测推理 http://jmlr.org/papers/v25/23-0253.html http://jmlr.org/papers/volume25/23-0253/23-0254.pdf 2024 马克西姆·考奇斯(Maxime Cauchois)、苏亚什·古普塔(Suyash Gupta)、阿努尔·阿里(Alnur Ali)、约翰·杜奇(John C.Duchi) 在大规模统计机器学习中获取标签的费用使部分和弱标签数据具有吸引力,尽管如何利用这些数据进行模型拟合或验证并不总是显而易见的。我们提出了一种方法来弥合部分监督和验证之间的差距,开发了一个保角预测框架来提供有效的预测置信集,即使用弱标记数据,以规定的概率覆盖真实标签的集合,与潜在分布无关。为此,我们引入了覆盖和预测有效性的(必要的)新概念,然后开发了几个应用场景,为分类和几个大规模结构化预测问题提供了有效的算法。我们通过几个实验证实了这样一个假设,即新的覆盖定义允许更紧密、信息更丰富(但有效)的置信集。 具有平均平滑度的函数:结构、算法和学习 http://jmlr.org/papers/v25/23-0182.html http://jmlr.org/papers/volume25/23-0182/23-0172.pdf 2024 Yair Ashlagi、Lee-Ad Gottlieb、Aryeh Kontorovich 为了有效地学习度量空间上的实值函数,我们启动了一个平均平滑度分析程序。我们没有使用Lipschitz常数作为正则化器,而是在每个点定义了一个局部斜率,并将函数复杂性作为这些值的平均值进行度量。由于平均值可能大大小于最大值,因此这种复杂性度量可以产生更清晰的泛化边界——假设这些边界允许一种细化,其中Lipschitz常数被我们的平均局部斜率所取代。我们的第一个主要贡献是获得了这样的分布敏感边界。这需要克服一些技术挑战,其中最困难的可能是限制经验覆盖数字,这可能比环境数据更令人担忧。我们的组合结果伴随着有效的算法,用于平滑随机样本的标签,并保证从样本到整个空间的扩展将继续以较高的概率平均平滑。在这个过程中,我们在我们定义的函数类中发现了一个异常丰富的组合和分析结构。 通过潜在因素模型为混合类型数据发布不同的私有数据 http://jmlr.org/papers/v25/22-1324.html http://jmlr.org/papers/volume25/22-1324/22-1324.pdf 2024 张延庆、徐琦、汤念生、屈安妮·奎 差异隐私是一种特殊的数据隐私保护技术,它可以在发布合成数据或统计分析结果的同时,尽可能少地泄露个人记录中的隐私信息。隐私保护和效用保证之间的权衡一直是差异隐私技术的一个挑战,特别是对于合成数据生成来说。本文提出了一种基于潜在因子模型的混合型相关数据的差异私有数据合成算法。该方法可以在获取相关信息的同时,在给定的隐私保护级别下,为合成数据添加相对少量的噪声。此外,该算法可以生成与混合类型原始数据保持相同数据类型的合成数据,大大提高了合成数据的利用率。该方法的核心思想是扰动因子矩阵和因子加载矩阵以构建合成数据生成模型,并利用具有隐私保护的链接函数来确保合成数据类型与原始数据的一致性。即使原始数据是高维的,该方法也可以以较低的计算成本生成隐私保护的合成数据。理论上,我们建立了该方法的差异私有属性。我们的数值研究还表明,该方法在基于私密合成数据的统计分析的效用保证方面具有卓越的性能。 重叠群套索的非重叠统计逼近 http://jmlr.org/papers/v25/22-1105.html http://jmlr.org/papers/volume25/22-2105/21-105-pdf 2024 齐明宇、李天喜 群套索惩罚被广泛用于统计学习中引入结构化稀疏性,其特点是能够自动消除预定义的参数组。然而,当群体重叠时,由于群体的不可分割性,在高维设置中解决群体套索问题可能会非常耗时。这种计算挑战限制了重叠群套索惩罚在前沿领域的适用性,例如基因路径选择和图形模型估计。本文介绍了一种非重叠可分离罚函数,用于有效逼近重叠群套索罚函数。这种近似大大提高了优化的计算效率,特别是对于大规模和高维问题。我们证明了所提出的罚函数是$\ell{q_1}/\ell{q_2}$范数族中重叠群lasso范数的最紧可分离松弛。此外,从估计误差、支持度恢复和平方损失下的最小最大速率方面,由我们提出的范数导出的估计与由重叠群套索惩罚导出的估计在统计上是等价的。我们的方法的有效性通过广泛的模拟示例和癌症肿瘤的预测任务得到了证明。 差分私有随机凸优化的更快速度 http://jmlr.org/papers/v25/22-0079.html http://jmlr.org/papers/volumn5/22-0079/22-0079.pdf 2024 苏金燕、胡丽杰、王迪 在本文中,我们重新讨论了差分私有随机凸优化(DP-SCO)问题,并对一些比一般凸函数和强凸函数更快的特殊函数类提供了超额种群风险。在本文的第一部分中,我们研究了人口风险函数满足Tysbakov噪声条件(TNC)且某些参数$\theta>1$的情况。具体地说,我们首先证明了在损失函数的一些温和假设下,有一个算法的输出可以达到上界$\tilde{O}((frac{1}{\sqrt{n}}+\frac{d}{n\epsilon})^\frac{theta}{theta-1})$和$\tilde{O}((\frac{1}}{\scrt{n}+\frac{sqrt{d\log(1/delta)}}{n\ebsilon})^\frac{\theta}{\theta 1})$\epsilon$-DP和$(\epsilen,\delta)$-DP分别对应$\theta\geq 2$,其中$n$是样本大小,$d$是空间的维度。然后我们解决了效率低下的问题,通过$\text{Poly}(\logn)$factors改进了上界,并扩展到$\theta\geq\bar{\theta}>1$对于某些已知的$\bar{theta}$的情况。接下来,我们证明了满足TNC且参数为$\theta\geq2$的人口函数的超额人口风险总是由$\Omega((frac{d}{n\epsilon})^\frac{theta}{theta-1})$和$\Omega(([frac{sqrt{d\log(1/\delta)}}{n\ epsilon{)^\frac{theta{theta-1-})$\epsilon$-DP和$(\ epsilon,delta))分别为$-DP,这符合我们的上限。在第二部分中,我们重点讨论了人口风险函数强凸的一个特殊情况。与之前的研究不同,这里我们假设损失函数是非负的,并且人口风险的最优值足够小。在这些额外的假设下,我们提出了一种新的方法,对于任何$\tau>1$的$(epsilon,delta)$-DP和$\epsilon$-DP模型,该方法的输出都可以达到$O(frac{d\log(1/delta)}{n^2\epsilon^2}+\frac{1}})$的上界。如果样本大小$n$足够大。对于一般强凸函数,这些结果绕过了(Feldman等人,2020)中相应的下限。最后,我们在真实数据上对我们的新方法进行了实验。实验结果也为现有理论提供了新的见解。 非凸优化局部条件下随机梯度哈密顿蒙特卡罗的非渐近分析 http://jmlr.org/papers/v25/21-1423.html http://jmlr.org/papers/volume25/21-1423/21-1423.pdf 2024 O.Deniz Akyildiz,Sotirios Sabanis公司 我们对随机梯度哈密顿蒙特卡罗(SGHMC)在Wasserstein-2距离下收敛到目标测度的非辛性进行了分析,并没有假设对数压缩性。我们的分析量化了SGHMC在当地条件下作为取样器的关键理论特性,这大大改进了先前结果的发现。特别地,我们证明了目标与SGHMC定律之间的Wasserstein-2距离是由算法的步长均匀控制的,因此证明了SGHMC可以在迭代次数上均匀地提供高精度结果。该分析还允许我们在局部条件下获得非凸优化问题的非共振界,并表明当SGHMC被视为非凸优化器时,它以已知的速率收敛到全局最小值。我们应用我们的结果获得了可伸缩贝叶斯推理的非共鸣界和非共鸣推广界。 全球非平稳多臂强盗的有限时间分析 http://jmlr.org/papers/v25/21-0916.html http://jmlr.org/papers/volume25/21-0916/21-0916.pdf 2024 Junpei Komiyama、Edouard Fouché、Junya Honda 我们考虑武器模型参数随时间变化的非平稳多武器强盗问题。我们介绍了自适应重置土匪(ADR-bandit),这是一个土匪算法类,它利用了数据流文献中的自适应窗口技术。我们首先对自适应窗口技术产生的估计器的质量提供了新的保证,这些技术是独立的。此外,我们对两种典型环境中的ADR谱进行了有限时间分析:突变环境中的变化是瞬时发生的,而渐变环境中的改变是渐进发生的。我们证明,当以我们称之为全球变化的协调方式发生突变或渐进变化时,ADR-银行具有近乎最佳的绩效。我们证明,当我们假设这样的全球变化时,强制勘探是不必要的。与现有的非平稳盗贼算法不同,ADR-bandit在平稳环境和具有全局变化的非平稳环境中都具有最佳性能。我们的实验表明,在合成和实际环境中,所提出的算法优于现有的方法。 概率ODE解算器的稳定实现 http://jmlr.org/papers/v25/20-1423.html http://jmlr.org/papers/volume25/20-1423/20-1423.pdf 2024 尼古拉斯·克雷默(Nicholas Krämer)、菲利普·亨尼格(Philipp Hennig) 常微分方程(ODE)的概率解算器可有效量化与动力学系统模拟相关的数值不确定性。越来越多的理论分析已经确定了它们的收敛速度。然而,当以高阶或小步长运行时,这些算法会受到数值不稳定性的影响,也就是说,正是在它们达到最高精度的情况下。目前的工作提出并审查了这个问题的解决方案。它包括三个部分:精确初始化、使数值稳定性与步长无关的坐标变化预处理器,以及平方根实现。使用这三种技术可以用高达11阶的算法对常微分方程的概率解进行数值计算,正如一组具有挑战性的测试问题所证明的那样。结果表明,快速收敛与高阶、最先进的经典方法相比具有竞争力。因此,有效地消除了分析概率ODE解算器和将其应用于有趣的机器学习问题之间的障碍。 更多PAC-Bayes界限:从有界损失到具有一般尾部行为的损失,再到任何时候的有效性 http://jmlr.org/papers/v25/23-1360.html http://jmlr.org/papers/volume25/23-1360/23-1360.pdf 2024 博尔贾·罗德里格斯·加尔维斯(Borja Rodríguez-Gálvez)、拉格纳尔·托巴本(Ragnar Thobaben)、米凯尔·斯科格隆德(Mikael Skoglund) 在本文中,我们针对不同类型的损失提出了新的高概率PAC-Bayes界。首先,对于有界范围的损失,我们恢复了对所有参数值一致成立的强化型Catoni界。这导致了新的快速率和混合速率边界,这些边界可以解释,并且比文献中以前的边界更严格。特别是,快速利率边界等价于Seeger-Langford边界。其次,对于具有更一般尾部行为的损失,我们引入了两个新的无参数界:当损失的累积生成函数有界时的PAC-Bayes-Chernoff模拟,以及当损失的二阶矩有界时。对于“概率内”参数优化问题,这两个界是使用基于可能事件空间离散化的新技术获得的。与之前在参数空间网格上进行优化的方法相比,该技术既简单又通用。最后,使用一种适用于任何现有边界的简单技术,我们将以前的所有结果扩展到任何时间有效边界。 神经希尔伯特阶梯:函数空间中的多层神经网络 http://jmlr.org/papers/v25/23-1225.html http://jmlr.org/papers/volume25/23-1225/23-1225.pdf 2024 陈正道 刻画神经网络所探索的函数空间是学习理论的一个重要方面。在这项工作中,注意到多层NN隐式生成再生核Hilbert空间(RKHS)的层次结构,称为神经Hilbert阶梯(NHL),我们将函数空间定义为RKHSs的无限并集,这推广了现有的双层NN的Barron空间理论。然后我们建立了新空间的几个理论性质。首先,我们证明了由L层NN表示的函数与属于L层NHL的函数之间的对应关系。其次,我们证明了使用受控复杂性度量学习NHL的泛化保证。第三,我们导出了一个随机场的非马尔可夫动力学,它控制由多层NN在无限宽平均场极限下的训练所诱导的NHL的演化。第四,我们展示了在ReLU激活函数下NHL中深度分离的示例。最后,我们通过NHL镜头进行了数值实验来说明神经网络训练的特征学习方面。 QDax:一个具有硬件加速的质量多样性和基于群体的算法库 http://jmlr.org/papers/v25/23-1027.html http://jmlr.org/papers/volume25/23-1027/23-1027.pdf 2024 费利克斯·沙卢缪、布莱恩·利姆、拉斐尔·博伊格、马克西姆·阿拉德、卢卡·格里洛蒂、马农·弗拉盖特、瓦伦汀·麦切、纪尧姆·理查德、亚瑟·弗拉乔莱、托马斯·皮埃罗、安托万·卡利 QDax是一个开放源码库,具有针对Jax中质量多样性(QD)优化算法的流线型和模块化API。该库是用于优化目的的通用工具,从黑盒优化到连续控制。QDax提供了流行的QD、Neuroevolution和强化学习(RL)算法的实现,这些算法得到了各种示例的支持。所有实现都可以使用Jax及时编译,从而促进跨多个加速器(包括GPU和TPU)的高效执行。这些实现有效地展示了框架的灵活性和用户友好性,简化了用于研究目的的实验。此外,该库有完整的文档记录,测试覆盖率为93%。 具有随机对象的随机森林加权局部Fr{{\ee}}chet回归 http://jmlr.org/papers/v25/23-0811.html http://jmlr.org/papers/volume25/23-0811/23-0811.pdf 2024 芮秋、周瑜、朱若青 统计分析越来越面临来自度量空间的复杂数据。Petersen和Müller(2019)建立了具有复杂度量空间值响应和欧几里德预测因子的Fréchet回归的一般范式。然而,其中的局部方法涉及非参数核平滑,并且受到维数灾难的影响。为了解决这个问题,我们在本文中提出了一种新的随机森林加权局部Fréchet回归范式。我们方法的主要机制依赖于随机森林生成的局部自适应内核。我们的第一种方法使用这些权重作为局部平均值来求解条件Fréchet均值,而第二种方法执行局部线性Fré)chet回归,这两种方法都显著改进了现有的Fré的回归方法。基于无穷阶U-过程理论和无穷阶$M_{M_n}$-估计,我们建立了局部常数估计的相合性、收敛速度和渐近正态性,它涵盖了当前随机森林的大样本理论,其中欧氏响应是一个特例。数值研究表明,对于几种常见的响应类型,如分布函数、对称正定矩阵和球面数据,我们的方法具有优越性。通过对纽约出租车数据和人类死亡率数据的应用,也证明了我们建议的实际优点。 PhAST:用于加速催化剂设计的物理感知、可扩展和特定于任务的GNN http://jmlr.org/papers/v25/23-0680.html http://jmlr.org/papers/volume25/23-0680/23-06802.pdf 2024 亚历山大·杜瓦尔、维克托·施密特、圣地亚哥·米雷特、约舒亚·本吉奥、亚历克斯·埃尔南德斯·加西亚、大卫·罗尔尼克 缓解气候危机需要快速过渡到低碳能源。催化剂材料在许多关键工业过程中涉及的电化学反应中发挥着关键作用,如可再生能源储存和电燃料合成。为了减少在这些活动上花费的能量,我们必须迅速发现更有效的催化剂来驱动电化学反应。机器学习(ML)具有从大量数据中高效建模材料特性的潜力,加速了电催化剂的设计。Open Catalyst Project OC20数据集就是为此而构建的。然而,在OC20上训练的ML模型对于实际应用来说,仍然不够可伸缩,也不够准确。在本文中,我们提出了适用于大多数架构的特定任务创新,提高了计算效率和准确性。这包括(1)图形创建步骤、(2)原子表示、(3)能量预测头和(4)力预测头的改进。我们描述了这些贡献,称为PhAST,并在多个架构上对其进行了全面评估。总的来说,PhAST将能量MAE提高了4到42%,同时根据目标任务/模型将计算时间除以3到8倍。PhAST还支持CPU训练,在高度并行的设置中可以实现40倍的加速。Python包:https://phast.readthedocs.io。 现实世界数据的无监督异常检测算法:我们需要多少? http://jmlr.org/papers/v25/23-0570.html http://jmlr.org/papers/volume25/23-0570/23-0507.pdf 2024 罗尔·鲍曼(Roel Bouman)、扎哈拉·布赫什(Zaharah Bukhsh)、汤姆·赫斯克斯(Tom Heskes) 在本研究中,我们对52个现实世界多元表格数据集上的33种无监督异常检测算法进行了评估,对迄今为止最大的无监督异常探测算法进行了比较。在这组数据集上,EIF(扩展隔离林)算法明显优于大多数其他算法。通过对所有数据集上所考虑算法的相对性能进行可视化并进行聚类,我们确定了两个清晰的聚类:一个具有“本地”数据集,另一个具有”全局“数据集。与附近样本相比,“局部”异常占据低密度区域,而“全局”异常占据特征空间中的整体低密度区域。在本地数据集上,$k$NN($k$-最近邻)算法位于顶部。在全局数据集上,EIF(扩展隔离林)算法表现最佳。此外,考虑到算法的计算复杂性,一个包含这两种无监督异常检测算法的工具箱足以在这个具有代表性的多元数据集集合中发现异常。通过提供对代码和数据集的访问,我们的研究可以很容易地用更多的算法和/或数据集进行复制和扩展。 具有部分标记数据的多数投票分类器的多类概率界 http://jmlr.org/papers/v25/23-0121.html http://jmlr.org/papers/volume25/23-0121/23-0121.pdf 2024 瓦西里·费奥法诺夫(Vasilii Feofanov)、艾米莉·德维伊弗(Emilie Devijver)、马西·雷扎·阿米尼(Massih-Reza Amini) 在本文中,我们提出了一个概率框架,用于分析训练数据部分标记的情况下的多类多数投票分类器。首先,我们基于分类器在每个类上的投票分布,导出了大多数投票分类器风险的多类传递界。然后,我们引入一个错误标记错误模型来分析伪标记训练数据情况下多数票分类器的错误。考虑到预测裕度的均值和方差,在给定不完美标签的情况下,我们导出了多数投票误差的泛化界。最后,我们演示了导出的自训练传递界的应用,以自动找到用于确定伪标记未标记示例的置信阈值。不同数据集上的实证结果表明,与几种最先进的半监督方法相比,我们的框架是有效的。 信息处理均衡与信息风险桥梁 http://jmlr.org/papers/v25/22-988.html http://jmlr.org/papers/volume25/22-2988/20-988.pdf 2024 罗伯特·威廉姆森(Robert C.Williamson),扎克·克兰科(Zac Cranko) 我们为统计实验引入了两类新的信息度量,它们推广并包含了φ-发散、积分概率度量、N距离(MMD)和两个或多个分布之间的(f,Γ)发散。这使我们能够导出统计决策问题的信息度量和贝叶斯风险之间的简单几何关系,从而以完全对称的方式将变分φ-散度表示扩展到多个分布。新的散度族在马尔可夫算子的作用下闭合,从而得到一个信息处理等式,这是对经典信息处理不等式的改进和推广。这一等式揭示了在经典风险最小化中选择假设类的重要性。 三维点云学习中的非参数回归 http://jmlr.org/papers/v25/22-0735.html http://jmlr.org/papers/volume25/22-0735/22-0735.pdf 2024 李欣怡、余珊、王月莹、王冠南、王丽、赖明军 近年来,在各个地区收集到的具有不规则形状的点云数量呈指数级增长。基于点云实体建模的重要性,我们开发了一种基于三角剖分的多元样条函数的新型高效平滑工具,以提取潜在信号并从点云中建立三维实体模型。该方法可以有效地对点云进行去噪或去模糊,提供实际信号的多分辨率重建,并处理稀疏和不规则分布的点云以恢复潜在轨迹。此外,我们的方法提供了一种自然的数字数据缩减方法。我们建立了该方法的理论保证,包括估计量的收敛速度和渐近正态性,并证明了收敛速度达到了最优非参数收敛。我们还引入了一种bootstrap方法来量化估计器的不确定性。通过大量的仿真研究和一个实际数据示例,我们证明了该方法在估计精度和数据约简效率方面优于传统的平滑方法。 AMLB:AutoML基准 http://jmlr.org/papers/v25/22-0493.html http://jmlr.org/papers/volume25/22-0493/22-0493。pdf 2024 彼得·吉斯贝尔斯(Pieter Gijsbers)、马科斯·普·布埃诺(Marcos L.P.Bueno)、斯特凡·库尔斯(Stefan Coors)、艾琳·勒戴尔(Erin LeDell)、塞巴斯蒂安·波里埃(Sébastien Poirier)、珍妮克·托马斯(Janek Thomas)、伯恩德·比施 比较不同的AutoML框架是出了名的挑战,而且常常做得不正确。我们引入了一个开放和可扩展的基准测试,它遵循最佳实践,避免了比较AutoML框架时的常见错误。我们在71个分类和33个回归任务中对9个著名的AutoML框架进行了彻底的比较。AutoML框架之间的差异通过多方面的分析进行了探讨,评估了模型准确性、推理时间的权衡以及框架故障。我们还使用Bradley-Terry树来发现相对AutoML框架排名不同的任务子集。该基准测试附带了一个开源工具,该工具与许多AutoML框架集成,并自动化了端到端的经验评估过程:从框架安装和资源分配到深入评估。该基准使用公共数据集,可以很容易地与其他AutoML框架和任务一起扩展,并且有一个包含最新结果的网站。 使用Max K-Armed Bandit发现材料 http://jmlr.org/papers/v25/22-0186.html http://jmlr.org/papers/volume25/22-0186/22-0166.pdf 2024 大野浩史,信川 针对盗贼问题的搜索算法适用于材料发现。然而,传统盗贼问题的目标与材料发现的目标不同。传统的盗贼问题旨在使总回报最大化,而材料发现则旨在实现材料属性的突破。最大$K$武装土匪(MKB)问题旨在获得单一最佳奖励,与传统土匪相比,它与发现任务更匹配。然而,由于一些困难,典型的MKB算法并不直接适用于材料发现。典型的算法有很多超参数,并且在直接实现材料发现方面存在一些困难。因此,我们提出了一种新的MKB算法,该算法使用了最佳报酬期望改进的置信上限。该方法保证了对贪婪预言的渐近性,而贪婪预言不依赖于时间范围。此外,与其他MKB算法相比,该算法只有一个超参数,有利于材料发现。我们使用蒙特卡罗树搜索将提出的算法应用于合成问题和分子设计演示。结果表明,在搜索过程的后期,该算法稳定地优于其他盗贼算法,除非在MKB和传统盗贼设置中,最优手臂一致。 无插补的分块缺失数据的半监督推理 http://jmlr.org/papers/v25/21-1504.html http://jmlr.org/papers/volume25/21-1504/21-1504.pdf 2024 宋珊珊、林元元、周勇 我们考虑在半监督设置下对高维线性模型中的单维或低维参数的统计推断,其中数据是相对较小尺寸的标记块缺失数据集和较大的未标记数据集的组合。该方法既利用了标记数据,也利用了未标记数据,而不需要插补或删除缺失的观测值。在正则性条件下,建立了估计量的渐近性质。还研究了低维系数的假设检验。为了检验理论结果,进行了广泛的模拟。该方法是根据阿尔茨海默病神经成像计划的数据进行评估的。 自适应与非静态:在线凸优化的问题相关动态后悔 http://jmlr.org/papers/v25/21-0748.html http://jmlr.org/papers/volume25/21-0748/21-07428.pdf 2024 赵鹏、张玉杰、张丽君、周志华 我们研究了非平稳环境下的在线凸优化问题,并选择动态后悔作为性能度量,定义为在线算法和任何可行比较序列的累积损失之间的差异。假设$T$是时间范围,$P_T$是基本反映环境非平稳性的路径长度,最先进的动态遗憾是$\mathcal{O}(\sqrt{T(1+P_T)})$。虽然这个界被证明是凸函数的极小极大最优,但在本文中,我们证明了对于一些简单的问题实例,特别是当在线函数是光滑的时,可以进一步增强保证。具体来说,我们引入了新的在线算法,该算法可以利用平滑性,并用问题相关量取代动态遗憾中对$T$的依赖:损失函数梯度的变化、比较器序列的累积损失以及这两个项的最小值。这些数量最多为$\mathcal{O}(T)$,而在良性环境中可能要小得多。因此,我们的结果与问题的固有困难相适应,因为对于简单问题,边界比现有结果更紧,同时在最坏情况下保持相同的速率。值得注意的是,我们提出的算法每次迭代只需一个梯度即可实现良好的动态遗憾,与静态遗憾最小化方法具有相同的梯度查询复杂度。为了实现这一点,我们引入了协作在线集成框架。该框架采用两层在线集成来处理非平稳性,并使用乐观的在线学习,进一步引入关键的校正项,以实现元数据库两层内的有效协作,从而获得自适应性。我们认为,该框架可以用于更广泛的问题。 将语音技术扩展到1000多种语言 http://jmlr.org/papers/v25/23-1318.html http://jmlr.org/papers/volume25/23-1318/23-1318.pdf 2024 Vineel Pratap、Andros Tjandra、Bowen Shi、Paden Tomasello、Arun Babu、Sayani Kundu、Ali Elkahky、Zhaoheng Ni、Apoorv Vyas、Maryam Fazel-Zarandi、Alexei Baevski、Yossi Adi、Xiaohui Zhang、Wei-Ning Hsu、Alexis Conneau、Michael Auli 扩大语音技术的语言覆盖面有可能提高更多人获取信息的能力。然而,目前的语音技术仅限于大约100种语言,这只是世界上7000多种语言中的一小部分。大规模多语言语音(MMS)项目将支持的语言数量增加了10-40倍,具体取决于任务,同时与之前的工作相比提高了准确性。主要成分是基于公开宗教文本阅读的新数据集,并有效利用了自导学习。我们构建了涵盖1406种语言的预训练wav2vec 2.0模型,1107种语言的单一多语言自动语音识别模型,相同数量语言的语音合成模型,以及4017种语言识别模型。实验表明,在FLEURS基准的54种语言上,我们的多语言语音识别模型在对少量标记数据进行训练时,其单词错误率为Whisper的一半以上。 基于MAP和MLE的教学 http://jmlr.org/papers/v25/23-1086.html http://jmlr.org/papers/volume25/23-1086/23-1086.pdf 2024 Hans Ulrich Simon、Jan Arne Telle 想象一下,一个学习者$L$试图从一系列观察结果中推断出一个隐藏的概念。基于Ferri等人的工作,我们假设学习者由先验$P(c)$和$c$-条件似然$P(z|c)$参数化,其中$c$覆盖给定类$c$中的所有概念,$z$覆盖观察集$z$中的全部观察$如果L$将观测值的集合$S$视为随机样本,并返回具有最大后验概率的概念(即,最大化$S$的条件似然的概念),则L$被称为MAP学习器(即,MLE学习器)。取决于$L$是否假设$S$是从有序或无序采样响应中获得的~从有替换或无替换的采样中,我们可以区分四种不同的采样模式。给定c$中的目标概念$c^*\,MAP学习者$L$的老师旨在找到导致$L$返回$c^**$的最小观察集合。这种方法以一种自然的方式引出概念类$C$的MAP或MLE教学维度的各种概念。我们的主要结果如下。首先,我们证明了该教学模型具有一些令人满意的单调性。其次,我们澄清了四种采样模式之间的相互关系。对于(重要!)特殊情况,其中概念是域的子集,观察值是0,1标记的示例,我们获得了一些额外的结果。首先,我们从理论上描述了与最优参数化MAP学习器图相关的MAP和MLE教学维度。从这个中心结果中,很容易得出其他一些结果。例如,研究表明,MLE教学维度要么等于MAP教学维度,要么超过后者$1$。进一步表明,这些维数可以由所谓的反链数、VC-维数和相关的组合参数从上面限定。此外,它们可以在多项式时间内计算。 基于内核的测试分析的通用框架 http://jmlr.org/papers/v25/23-0985.html http://jmlr.org/papers/volume25/23-0985/23-0988.pdf 2024 塔玛拉·费尔南德斯(Tamara Fernández)、尼科拉·里维拉(Nicolás Rivera) 基于核的测试提供了一个简单而有效的框架,它使用再生核希尔伯特空间理论来设计非参数测试程序。在本文中,我们提出了新的理论工具,可用于研究基于核的测试在各种数据场景和不同测试问题中的渐近行为。与当前的方法不同,我们的方法避免使用U和V统计展开式,这通常会导致冗长乏味的计算和渐近近似。相反,我们直接使用希尔伯特空间上的随机泛函来分析基于核的测试。通过利用随机函数,我们的框架可以实现更清晰的分析,减少了繁琐的计算。此外,由于应用程序中考虑的许多随机函数都是已被全面研究过的已知统计数据,因此它提供了容纳有关测试统计的现有知识的优势。为了证明我们的方法的有效性,我们彻底检查了两类内核测试,以及三个具体的内核测试示例,包括用于条件独立性测试的新内核测试。 超参数多层神经网络:神经切线核的均匀集中和随机梯度下降的收敛性 http://jmlr.org/papers/v25/23-0740.html http://jmlr.org/papers/volume25/23-0740/23-0740.pdf 2024 徐嘉明、朱汉静 通过神经切线核(NTK)透镜,在理解超参数神经网络中梯度下降(GD)和随机梯度下降(SGD)的收敛性方面取得了令人兴奋的进展。然而,理论和实践之间仍存在两个重大差距。首先,现有的收敛理论只考虑了来自最后一个隐藏层的NTK的贡献,而在实践中,中间层也起到了辅助作用。其次,大多数现有的工作都假设训练数据是先验批提供的,而很少关注训练数据流到达的重要设置。在本文中,我们弥合了这两个差距。我们首先证明,随着神经元数量趋于无穷大,在随机初始化的情况下,NTK函数在所有层中一致收敛到某个确定性函数。然后,我们应用一致收敛结果进一步证明了在流数据设置下,SGD下多层神经网络的预测误差在预期范围内收敛。我们证明的一个关键要素是显示宽度为$m$的$L$层神经网络的激活模式数仅为$m$$的多项式,尽管总共有$mL$个神经元。 再生核Banach空间中学习的稀疏表示定理 http://jmlr.org/papers/v25/23-0645.html http://jmlr.org/papers/volume25/23-0645/23-0644.pdf 2024 王瑞、徐月生、闫明松 学习解决方案的稀疏性是机器学习的一个理想特性。某些再生核巴拿赫空间(RKBS)是稀疏学习方法的合适假设空间。本文的目的是了解什么样的RKBS可以促进学习解决方案的稀疏性。我们考虑RKBS中的两个典型学习模型:最小范数插值(MNI)问题和正则化问题。我们首先建立了这些问题解的显式表示定理,该定理通过次微分集的极点与范数函数的极点的线性组合来表示解集的极值点,这与数据相关。然后,我们提出了RKB上的充分条件,可以将解的显式表示转换为具有少于观测数据数量的项的稀疏核表示。在所提出的充分条件下,我们研究了正则化参数对正则化解稀疏性的作用。我们进一步证明了序列空间$\ell_1(\mathbb{N})$和测度空间这两个特定的RKB对于MNI和正则化模型都可以具有稀疏表示定理。 成对数据高斯图形模型搜索空间的探讨 http://jmlr.org/papers/v25/23-0295.html http://jmlr.org/papers/volume25/23-0295/23-02950.pdf 2024 Alberto Roverato,Dung Ngoc Nguyen 我们考虑在观测值来自共享相同变量的两个相依组的情况下学习高斯图形模型的问题。我们将重点放在一系列特别适用于成对数据问题的彩色高斯图形模型上。通常,图形模型是按子模型关系排序的,因此搜索空间是一个格,称为模型包含格。我们在模型之间引入了一种新的秩序,称为双秩序。我们证明,嵌入此阶的模型空间是一个与模型包含格不同的分布格。此外,我们还提供了计算模型邻域的相关规则。后者比模型包含格中的相同操作更有效,然后被利用来实现对搜索空间的更有效探索。这些结果可以用于提高贪婪和贝叶斯模型搜索过程的效率。在这里,我们实现了一个逐步向后消除过程,并评估了它在合成数据和真实数据上的性能。 数据增强的好的、坏的和丑陋的一面:隐式谱正则化的观点 http://jmlr.org/papers/v25/22-1312.html http://jmlr.org/papers/volume25/22-1312/22-1312.pdf 2024 Chi-Heng Lin、Chiraag Kaushik、Eva L.Dyer、Vidya Muthukumar 数据增强(DA)是支持现代机器学习性能的强大工具。传统上认为,计算机视觉中的特定增强(如平移和缩放)可以通过从相同的分布中生成新的(人工)数据来改进泛化。然而,这一传统观点并不能解释现代机器学习中普遍采用的增强方法(例如随机掩蔽、剪切、混合)的成功,这些方法极大地改变了训练数据的分布。在这项工作中,我们开发了一个新的理论框架来表征一类DA对低参数和高参数线性模型泛化的影响。我们的框架表明,DA通过两种不同效果的组合诱导隐式谱正则化:a)以训练数据相关的方式操纵数据协方差矩阵特征值的相对比例,以及b)通过岭回归均匀地提升数据协方差阵的整个谱。当这些效应应用于流行的增强时,会产生各种各样的现象,包括超参数和低参数状态之间的泛化差异,以及回归和分类任务之间的差异。我们的框架强调了DA对泛化的细微影响,有时甚至令人惊讶,并为新的增强设计提供了测试平台。 决策相关分布的随机逼近:渐近正态性和最优性 http://jmlr.org/papers/v25/22-0832.html http://jmlr.org/papers/volume25/22-0832/22-0832.pdf 2024 Joshua Cutler、Mateo Díaz、Dmitriy Drusvyatskiy 我们分析了一种用于决策相关问题的随机近似算法,其中该算法使用的数据分布沿迭代序列演化。此类问题的主要示例出现在性能预测及其多层扩展中。我们表明,在温和的假设下,算法的平均迭代次数与解之间的偏差是渐近正态的,具有协方差,可以清楚地解耦梯度噪声和分布偏移的影响。此外,基于Hájek和Le Cam的工作,我们证明了带平均的算法的渐近性能是局部极小极大最优的。 高维随机镶嵌森林的最小最大速率 http://jmlr.org/papers/v25/22-0673.html http://jmlr.org/papers/volume25/22-0673/22-0673。pdf 2024 伊丽莎·奥莱利(Eliza O'Reilly),Ngoc Mai Tran 随机森林是一种流行的用于回归和分类的算法。Breiman于2001年引入的算法及其许多变体是由特征空间的轴对齐分区构建的随机决策树的集合。其中一种变体被称为蒙德里安森林(Mondrian forests),用于处理在线设置,它是第一类随机森林,可在任意维中获得最小最大最优速率。然而,对轴对齐分割的限制无法捕获特征之间的依赖性,使用斜分割的随机森林在许多任务中表现出了改进的经验性能。这项工作表明,一大类具有一般分裂方向的随机森林在任意维上也能达到最小最大最优速率。这一类包括STIT森林,蒙德里安森林到任意分裂方向的推广,以及从泊松超平面镶嵌衍生的随机森林。这是第一个结果,表明具有斜劈的随机森林变量可以在任意维上获得极大极小最优性。我们的证明技术依赖于随机几何中平稳随机细分理论在统计学习理论中的新应用。 深度ReQU神经网络非交叉分位数回归过程的非参数估计 http://jmlr.org/papers/v25/22-0488.html http://jmlr.org/papers/volume25/22-0488/22-0488.pdf 2024 沈国浩、焦玉玲、林元元、乔尔·霍洛维茨、黄健 我们提出了一种惩罚非参数方法,使用整流器二次单元(ReQU)激活的深度神经网络估计不可分离模型中的分位数回归过程(QRP),并引入了一种新的惩罚函数来强制分位数回归曲线不交叉。我们建立了估计QRP的非渐近超额风险界,并在适度光滑性和正则性条件下导出了估计QRP的平均积分平方误差。为了建立这些非渐近风险和估计误差界,我们还开发了一个新的误差界,用于使用ReQU激活的神经网络逼近$s>1$的$C^s$光滑函数及其导数。这是ReQU网络的一个新的近似结果,具有独立的意义,在其他问题中可能有用。我们的数值实验表明,所提出的方法与现有的两种方法具有竞争力或优于现有的两种方法,包括使用再生核和随机森林进行非参数分位数回归的方法。 一般贝叶斯多元模型的空间网格划分 http://jmlr.org/papers/v25/22-0083.html http://jmlr.org/papers/volume25/22-0083/22-0083.pdf 2024 米歇尔·佩鲁齐(Michele Peruzzi)、大卫·B·邓森(David B.Dunson) 通过贝叶斯层次模型中的空间随机效应,可以量化不同类型的多元地理定位数据中的空间和/或时间关联,但当空间相关性编码为潜在高斯过程(GP)时,会出现严重的计算瓶颈在我们关注的越来越常见的大规模数据设置中。在非高斯模型中,情况变得更糟,因为分析可处理性的降低会给计算效率带来更多障碍。在本文中,我们介绍了空间参考数据的贝叶斯模型,其中的可能性或潜在过程(或两者)不是高斯的。首先,我们利用了通过有向无环图构建的空间过程的优势,在这种情况下,空间节点进入贝叶斯层次,并通过常规马尔可夫链蒙特卡罗(MCMC)方法进行后验采样。其次,由于在我们关注的多元环境中流行的基于梯度的采样方法可能效率低下,我们引入了简化的流形预处理自适应(SiMPA)算法,该算法使用目标的二阶信息,但避免了昂贵的矩阵运算。我们利用数十万个空间位置的大规模数据和多达数十个结果,证明了我们的方法相对于替代方法在广泛的合成和现实世界遥感和社区生态学应用中的性能和效率改进。建议方法的软件是CRAN上可用的R包网格的一部分。 使用仪器变量对个体化剂量反应函数的半参数估计 http://jmlr.org/papers/v25/21-1181.html http://jmlr.org/papers/volume25/21-1181/21-1181.pdf 2024 魏洛、朱业英、张学奎、林林 在工具变量分析的应用中,在存在未测量混杂因素的情况下进行因果推断,往往存在无效的工具变量和弱的工具变量,使分析复杂化。本文提出了一种无模型降维方法,用于选择无效的工具变量并将其细化为低维线性组合。该程序还将弱的工具变量组合成几个最强的工具变量,以最好地浓缩其信息。然后,我们引入了将受试者个人特征纳入常规剂量反应函数的个性化剂量反应函数,并使用降维后的简化数据提出了一种新颖且易于实现的该函数的非参数估计。该方法适用于离散和连续处理变量,并且对数据的维数具有鲁棒性。ADNI-DoD研究的模拟研究和数据分析表明了它的有效性,研究了抑郁症和痴呆之间的因果关系。 利用Hessian分数和三角迁移学习非高斯图形模型 http://jmlr.org/papers/v25/21-0022.html http://jmlr.org/papers/volume25/21-0022/21-0022.pdf 2024 里卡多·巴普蒂斯塔(Ricardo Baptista)、丽贝卡·莫里森(Rebecca Morrison)、奥利维尔·扎姆(Olivier Zahm)、优素福·马尔佐克(Youssef Marzouk) 无向概率图形模型表示随机变量集合的条件依赖性或马尔可夫特性。了解这样一个图形模型的稀疏性对于建模多元分布和有效地执行推断很有价值。虽然对于某些参数分布族,从数据中学习图结构的问题已经得到了广泛的研究,但大多数现有方法都无法一致地恢复非高斯数据的图结构。在这里,我们提出了一种学习连续分布和非高斯分布的马尔可夫结构的算法。为了刻画条件独立性,我们从联合对数密度引入了一个基于积分Hessian信息的分数,并证明了该分数是一般分布类的条件互信息的上界。为了计算分数,我们的算法SING使用由三角形传输映射诱导的确定性耦合来估计密度,并迭代利用映射中的稀疏结构来揭示图中的稀疏性。对于某些非高斯数据集,我们表明,即使在有偏近似密度的情况下,我们的算法也可以恢复图形结构。在其他例子中,我们应用SING来学习具有局部相互作用的混沌动力系统的状态之间的依赖性。 论分布外检测的可学习性 http://jmlr.org/papers/v25/23-257.html http://jmlr.org/papers/volume25/23-1257/23-1257.pdf 2024 甄芳、李一轩、刘峰、韩波、陆杰 监督学习的目的是在假设训练数据和测试数据来自相同分布的情况下训练分类器。为了简化上述假设,研究人员研究了一个更现实的环境:分布外(OOD)检测,其中测试数据可能来自训练期间未知的课程(即OOD数据)。由于OOD数据的不可用性和多样性,良好的泛化能力对于有效的OOD检测算法至关重要,相应的学习理论仍然是一个有待解决的问题。为了研究OOD检测的泛化,本文研究了符合文献中常用评估指标的OOD检测可能近似正确(PAC)学习理论。首先,我们找到了OOD检测可学习性的必要条件。然后,利用这个条件,我们证明了在某些情况下OOD检测的可学习性的几个不可能性定理。虽然不可能性定理令人沮丧,但我们发现这些不可能性定理的某些条件在某些实际场景中可能不成立。基于这一观察,我们接下来给出了几个必要和充分的条件来表征OOD检测在一些实际场景中的可学习性。最后,我们基于OOD理论为具有代表性的OOD检测工作提供了理论支持。 获胜:重量-衰变集成Nesterov加速,加快网络训练 http://jmlr.org/papers/v25/23-1073.html http://jmlr.org/papers/volume25/23-1073/23-1073.pdf 2024 Pan Zhou、Xingyu Xie、Zhouchen Lin、Kim Chuan Toh、Yan水城 在大规模数据集上训练深层网络具有计算挑战性。本文探讨了“如何以通用方式加速自适应梯度算法”的问题,并提出了一种有效的加权积分Nesterov加速(Win)加速自适应算法。以AdamW和Adam为例,在每次迭代中,我们构造了一个动态损失,它结合了vanilla训练损失和受近点方法启发的动态正则化器,并分别最小化动态损失的一阶和二阶Taylor近似以更新变量。这将产生我们的Win加速,它使用保守步骤和积极步骤进行更新,并将这两个更新线性组合以实现加速。接下来,我们将Win扩展到Win2中,Win2使用多个积极的更新步骤来加快收敛。然后我们将Win和Win2应用于流行的LAMB和SGD优化器。我们的透明推导可以为其他加速方法及其集成到自适应算法中提供见解。此外,我们从理论上证明了Win和Win2加速的AdamW、Adam和LAMB与非加速的Adam、Adam、LAMB更快地收敛。实验结果表明,在视觉分类和语言建模任务中,我们的Win和Win2加速的AdamW、Adam、LAMB和SGD的收敛速度更快,性能也优于它们的普通版本。 定义在一般域上的一类神经网络相关核函数的特征值衰减率 http://jmlr.org/papers/v25/23-0866.html http://jmlr.org/papers/volume25/23-0866/23-0866。pdf 2024 李一成、于子雄、陈古翰、钱林 在本文中,我们提供了一种策略来确定定义在一般域而不是$\mathbb{S}^{d}$上的一大类核函数的特征值衰减率(EDR)。这类核函数包括但不限于与具有不同深度和不同激活函数的神经网络相关联的神经切线核。在证明了宽神经网络训练的动力学一致逼近一般域上的神经切线核回归的动力学之后,我们可以进一步说明宽神经网络的极小极大最优性,前提是[mathcal H{mathrm{NTK}]^{s}$中的地下真值函数$f\,与RKHS$\mathcal关联的插值空间{高}_{\mathrm{NTK}}$的NTK。我们还表明,过填充神经网络不能很好地泛化。我们相信,我们确定内核EDR的方法也可能具有独立的利益。 幂律谱条件下优化问题的紧收敛速度界 http://jmlr.org/papers/v25/23-0698.html http://jmlr.org/papers/volume25/23-0698/23-0698.pdf 2024 马克西姆·维利卡诺夫(Maksim Velikanov),德米特里·雅罗斯基(Dmitry Yarotsky) 二次型问题的优化性能敏感地取决于谱的低级部分。对于大型(有效的无限维)问题,这部分谱通常可以自然地用幂律分布表示或近似,从而使基于梯度算法的这些问题的迭代解具有幂律收敛速度。在本文中,我们提出了一个新的谱条件,为幂律优化轨迹问题提供了更紧的上界。我们使用这个条件来构建各种优化算法(梯度下降、最陡下降、重球和共轭梯度)的上界和下界的完整图像,重点是学习速率和动量的基本时间表。特别地,我们演示了如何以统一的方式获得给定频谱形状的最优加速方法、其时间表和收敛上界。此外,我们首次证明了一般指数谱幂律下最速下降和共轭梯度收敛速度的紧下界。我们的实验表明,所获得的收敛边界和加速策略不仅与精确的二次优化问题相关,而且在应用于神经网络训练时也相当准确。 ptwt-PyTorch小波工具箱 http://jmlr.org/papers/v25/23-0636.html http://jmlr.org/papers/volume25/23-0636/23-0636.pdf 2024 莫里茨·沃尔特(Moritz Wolter)、费利克斯·布兰克(Felix Blanke)、乔森·加克(Jochen Garcke)、查尔斯·塔普利·霍伊特(Charles Tapley Hoyt) 快速小波变换是信号处理中的一个重要工具。小波在空间域或时间域以及频域中都是局部的。此属性支持频域分析,同时保留一些时空信息。直到最近,小波很少出现在机器学习文献中。我们提供PyTorch小波工具箱,使深度学习社区更容易使用小波方法。我们的PyTorch小波工具箱有很好的文档记录。pip包可以用“pip install ptwt”安装。 在LDA模型中选择主题数——选择标准的蒙特卡罗比较 http://jmlr.org/papers/v25/23-0188.html http://jmlr.org/papers/volume25/23-0188/23-0189.pdf 2024 Victor Bystrov、Viktoria Naboka Krell、Anna Staszewska Bystrova、Peter Winker 在潜在狄利克雷分配(LDA)模型中选择主题数量被认为是一项困难的任务,为此提出了各种方法。本文评估了最近开发的奇异贝叶斯信息准则(sBIC)的性能,并将其与替代模型选择准则的性能进行了比较。sBIC是可应用于奇异统计模型的标准BIC的推广。该比较基于蒙特卡洛模拟,并针对几种不同的替代设置进行,根据主题数量、文档数量和语料库中文档的大小而有所不同。使用不同的标准来衡量性能,这些标准考虑了主题的正确数量,以及是否揭示了所考虑的数据生成过程(DGP)中的相关主题。导出了应用中LDA模型选择的实用建议。 函数有向非循环图 http://jmlr.org/papers/v25/22-1038.html http://jmlr.org/papers/volume25/22-1038/22-1038.pdf 2024 李光耀、李乐新、李兵 在本文中,我们介绍了一种从多元函数数据估计有向无环图(DAG)的新方法。我们建立在忠实的概念上,它将DAG与随机函数之间的一组条件独立性联系起来。我们发展了两个线性算子,条件协方差算子和偏相关算子,来刻画和评估条件独立性。基于这些算子,我们改进并扩展了PC-算法来估计函数有向图,因此计算时间取决于图的稀疏性而不是完整大小。我们研究了这两个算子的渐近性质,导出了它们的一致收敛速度,并建立了估计图的一致一致性,所有这些都是在允许图的大小随样本大小发散到无穷大时得到的。我们通过模拟和对时间进程蛋白质组数据集的应用证明了我们方法的有效性。 无标记主成分分析与矩阵补全 http://jmlr.org/papers/v25/22-0816.html http://jmlr.org/papers/volume25/22-0816/22-0816.pdf 2024 姚云珍、彭良祖、马诺利斯·C·察基里斯 我们从数据矩阵中引入稳健的主成分分析,其中列的条目已被排列损坏,称为未标记主成分分析(UPCA)。利用代数几何,我们证明了UPCA是一个定义明确的代数问题,因为我们证明了与给定数据一致的最小秩矩阵是作为多项式方程组的唯一解出现的基础矩阵的行置换。此外,我们为UPCA提出了一个有效的两阶段算法管道,适用于只有一部分数据被置换的实际相关情况。第一阶段采用离群点-粗差主成分分析方法估计地面-真实柱空间。第二阶段配备了柱状空间,采用最新的方法进行无标记传感,以恢复置换数据。UPCA中允许排列顶部的缺失项导致了未标记矩阵完成问题,为此我们导出了类似风格的理论和算法。对合成数据、人脸图像、教育和医疗记录的实验揭示了我们的算法在数据私有化和记录链接等应用中的潜力。 半监督广义线性模型的分布估计 http://jmlr.org/papers/v25/22-0670.html http://jmlr.org/papers/volumn5/22-0670/22-0670.pdf 2024 屠济源、刘卫东、毛晓军 半监督学习致力于使用未标记数据来提高机器学习算法的性能。本文研究了分布式环境下的半监督广义线性模型(GLM)。在单台或多台机器包含未标记数据的情况下,我们提出了两种基于分布式近似牛顿法的分布式半监督算法。当标记的局部样本较小时,我们的算法仍然给出了一致的估计,而完全监督的方法无法收敛。此外,我们从理论上证明了当存在足够的未标记数据时,收敛速度大大提高。因此,与完全监督的方法相比,该方法需要更少的通信轮次才能达到最佳速率。在线性模型的情况下,我们证明了经过一轮通信后的速率下限,这表明速率改进是必要的。最后,通过仿真分析和实际数据研究,验证了该方法的有效性。 机器翻译的可解释评价指标 http://jmlr.org/papers/v25/22-0416.html http://jmlr.org/papers/volume25/22-416/22-0416.pdf 2024 Christoph Leiter、Piyawat Lertvittayakumjorn、Marina Fomicheva、Wei Zhao、Yang Gao、Steffen Eger 与经典的词汇重叠度量(如BLEU)不同,目前大多数机器翻译的评估度量(例如COMET或BERTScore)都是基于黑盒大型语言模型。它们通常与人类的判断有很强的相关性,但最近的研究表明,低质量的经典指标仍然占主导地位,其中一个潜在的原因是它们的决策过程更加透明。为了促进新的高质量指标的更广泛接受,解释性因此变得至关重要。在这篇概念论文中,我们确定了可解释机器翻译度量的关键属性和关键目标,并对最新技术进行了综合,将其与我们的既定目标和属性联系起来。在此背景下,我们还讨论了基于生成模型(如ChatGPT和GPT4)的最新可解释度量方法。最后,我们提出了下一代方法的愿景,包括自然语言解释。我们希望我们的工作能够有助于促进和指导未来对可解释评估指标的研究,并为更好、更透明的机器翻译系统做出贡献。 线性回归中管理模型不确定性的不同私有方法 http://jmlr.org/papers/v25/21-1536.html http://jmlr.org/papers/volume25/21-1536/21-1536.pdf 2024 Víctor Peña,Andrés F.Barrientos 在本文中,我们为正态线性模型的假设检验、模型平均和模型选择提出了差异私有方法。我们提出了基于$g$-先验和基于似然比统计和信息准则的非贝叶斯方法的混合贝叶斯算法。这些过程是渐近一致的,并且易于在现有软件中实现。我们关注实际问题,例如调整临界值,使假设检验具有足够的I类错误率,并量化隐私保险机制引入的不确定性。 基于双层优化的数据汇总 http://jmlr.org/papers/v25/21-1132.html http://jmlr.org/papers/volume25/21-1132/21-1132.pdf 2024 扎兰·博索斯(Zalán Borsos)、莫杰米尔·穆滕(Mojmír Mutn)、马可·塔利亚萨奇(Marco Tagliasacchi)、安德烈亚斯·克劳斯(Andreas Krause) 海量数据集的可用性不断增加,给机器学习带来了各种挑战。其中最突出的是硬件或人力资源约束下的学习模式。在这种资源受限的设置中,一种简单但功能强大的方法是对数据的小子集进行操作。核心集是数据的加权子集,为优化目标提供近似保证。然而,现有的核心集构造是高度特定于模型的,并且仅限于简单模型,如线性回归、逻辑回归和k均值。在这项工作中,我们提出了一个通用的核心集构造框架,该框架将核心集选择公式化为一个基数约束的双层优化问题。与现有方法相比,我们的框架不需要特定于模型的调整,适用于任何二次可微模型,包括神经网络。我们展示了我们的框架在各种环境下对各种模型的有效性,包括在线培训非凸模型和批量主动学习。 帕累托平滑重要性抽样 http://jmlr.org/papers/v25/19-556.html http://jmlr.org/papers/volume25/19-556/19-556.pdf 2024 阿基·维塔里、丹尼尔·辛普森、安德鲁·盖尔曼、姚玉玲、乔纳·加布里 重要性加权是调整蒙特卡罗积分以说明从错误分布中提取的资金的一种通用方法,但当重要性比率具有严重的右尾时,所得到的估计值可能会有很大的变化。当目标分布的某些方面没有被近似分布很好地捕获时,通常会发生这种情况,在这种情况下,可以通过修改极端重要性比率来获得更稳定的估计。我们提出了一种新的稳定重要性权重的方法,该方法使用适合于模拟重要性比分布上端的广义Pareto分布。该方法在稳定重要性抽样估计方面的经验表现优于现有方法,包括稳定的有效样本量估计、蒙特卡罗误差估计和收敛诊断。所提出的Pareto$\hat{k}$有限样本收敛率诊断对于任何蒙特卡罗估计都是有用的。 对称和状态抽象下的策略梯度方法 http://jmlr.org/papers/v25/23-1415.html http://jmlr.org/papers/volume25/23-1415/23-1415.pdf 2024 Prakash Panangaden、Sahand Rezaei-Shoshtari、Rosie Zhao、David Meger、Doina Precup 高维复杂问题的强化学习依赖于抽象以提高效率和泛化能力。本文研究了连续控制环境中的抽象,并将马尔可夫决策过程同态的定义推广到连续状态和动作空间的环境中。对于随机策略和确定性策略,我们在抽象MDP上导出了一个策略梯度定理。我们的策略梯度结果允许利用环境的近似对称性进行策略优化。基于这些定理,我们提出了一系列actor-critic算法,它们能够使用lax互模拟度量同时学习策略和MDP同态映射。最后,我们介绍了一系列具有连续对称性的环境,以进一步证明我们的算法在存在此类对称性的情况下提取动作的能力。我们展示了我们的方法在我们的环境中的有效性,以及DeepMind control Suite在具有挑战性的视觉控制任务中的有效性。我们的方法能够利用MDP同态进行表示学习,从而提高了性能,并且潜在空间的可视化清楚地展示了学习抽象的结构。 缩放教学-微调语言模型 http://jmlr.org/papers/v25/23-0870.html http://jmlr.org/papers/volume25/23-0870/23-08700.pdf 2024 Hyung Won Chung、Le Hou、Shayne Longpre、Barret Zoph、Yi Tay、William Fedus、Yunxuan Li、Xuezhi Wang、Mostafa Dehghani、Siddhartha Brahma、Albert Webson、Shixiang Shane Gu、Zhuyun Dai、Mirac Suzgun、Xinun Chen、Aakansha Chowdhery、Alex Castro-Ros、Marie Pellat、Kevin Robinson、Dasha Valter、Sharan Narang、Gaurav Mishra、Adams Yu、Vince,黄燕萍、戴安杰、于洪坤、斯拉夫·彼得罗夫、埃德·池文浩、杰夫·迪恩、雅各布·德夫林、亚当·罗伯茨、周丹尼、郭文乐、杰森·韦 对一组以指令形式表示的数据集进行语言模型微调,可以提高模型性能和对看不见任务的泛化能力。在本文中,我们探讨了指令微调,特别关注(1)调整任务数量,(2)调整模型大小,以及(3)调整思想链数据。我们发现,使用上述方面进行的指令微调可以显著提高各种模型类(PaLM、T5、U-PaLM)的性能,并提示设置(零快照、少快照、CoT)和评估基准(MMLU、BBH、TyDiQA、MGSM、开放式生成、RealToxicityPrompts)。例如,在1.8K任务中,Flan-PaLM 540B指令集的性能大大优于PaLM 540 B(平均+9.4%)。Flan-PaLM 540B在几个基准(发布时)上实现了最先进的性能,例如在五次MMLU上达到了75.2%。我们还公开发布了Flan-T5检查点,1即使与更大的机型(如PaLM 62B)相比,该检查点也能实现强大的快照性能。总的来说,指令微调是提高预处理语言模型的性能和可用性的一种通用方法。 切向Wasserstein投影 http://jmlr.org/papers/v25/23-0708.html http://jmlr.org/papers/volume25/23-0708/23-0708.pdf 2024 Florian Gunsilius、Meng Hsuan Xieh、Myung Jin Lee 我们利用$2$-Wasserstein空间的几何特性发展了概率测度集之间的投影概念。与现有方法相比,它是为不需要正则的多元概率测度设计的,并且通过回归实现计算效率高。其想法是使用广义测地线研究Wasserstein空间的切线锥。其结构和计算特性使该方法适用于从因果推断到对象数据分析等概率测度不需要规则的各种情况。一个用于估计因果效应的应用程序对通过多元概率测度描述的具有一般异质性的系统的综合控制方法进行了推广。 线性Port-Hamilton系统的可学习性 http://jmlr.org/papers/v25/23-0450.html http://jmlr.org/papers/volume25/23-0450/23-0450.pdf 2024 Juan-Pablo Ortega,尹黛英 针对单输入单输出(SISO)线性端口哈密顿系统,提出了一种完整的结构保持学习方案。如果可能,构造基于这些系统的唯一识别问题的解决方案,以揭示控制理论中的经典概念与机器学习环境中的关键属性(如结构-保留和表达能力)之间的基本关系。在典型情况下,证明了{直到初始化,}唯一识别系统集可以显式地刻画为具有全局欧氏坐标的光滑流形,从而得出结论,动力学复制所需的参数复杂性仅为$\mathcal{O}(n)$,而不是$\mathcal{O{(n^2)$,正如这些系统的标准参数化所建议的那样。此外,还表明,线性端口哈密顿系统可以学习,同时对底层数据生成系统的维数保持不可知。数值实验表明,该方法可以有效地估计线性端口哈密顿系统的输入输出实现,本文的贡献是基于此模型范畴的显式表示的线性端口哈密顿系统的结构-保留机器学习范式的第一个示例。 多智能体强化学习中的非政策行为预测 http://jmlr.org/papers/v25/23-0413.html http://jmlr.org/papers/volume25/23-0413/23-0413.pdf 2024 Ariyan Bighashdel、Daan de Geus、Pavol Jancura、Gijs Dubbelman 多智能体强化学习(MARL)中的学习预期是一种推理范式,其中智能体预测其他智能体的学习步骤,以改善它们之间的合作。由于MARL使用基于梯度的优化,学习预期需要使用高阶梯度(HOG),即所谓的HOG方法。现有的HOG方法基于政策参数预测,即代理预测其他代理的政策参数变化。然而,目前这些现有的HOG方法只针对可微博弈或具有小状态空间的博弈开发。在这项工作中,我们证明了在具有大状态空间的不可微博弈的情况下,现有的HOG方法由于其与策略参数预期和多个采样阶段相关的固有局限性而表现不佳且效率低下。为了克服这些问题,我们提出了非政策行动预期(Off-Policy Action Precipition,OffPA2),这是一个新的框架,通过行动预期来处理学习预期,即代理通过非政策抽样来预测其他代理的行动变化。我们从理论上分析了我们提出的OffPA2,并将其用于开发适用于具有大状态空间的不可微博弈的多HOG方法。我们进行了大量实验,并证明了我们提出的HOG方法在效率和性能方面优于现有方法。 部分观测扩散的无偏估计 http://jmlr.org/papers/v25/23-0347.html http://jmlr.org/papers/volumn5/23-0347/23-0347.pdf 2024 Jeremy Heng、Jeremie Houssineau、Ajay Jasra 我们考虑一类具有有限维参数的扩散过程,并在离散时间实例中部分观测到。我们提出了一种基于参数和数据无偏估计扩散过程给定泛函期望值的方法。当在期望最大化算法或随机梯度方法中使用这些具有适当选择泛函的无偏估计量时,可以使用最大似然或贝叶斯框架进行统计推断。与现有方法相比,使用我们的无偏估计量可以消除任何时间离散化偏差和马尔可夫链蒙特卡罗老化偏差。我们方法的核心是多层次随机化方案和无偏马尔可夫链蒙特卡罗方法的一种新颖而自然的组合,以及多个条件粒子滤波器的新耦合的开发。我们假设我们的估计量是无偏的,并且方差是有限的。我们在Ornstein--Uhlenbeck模型、人口动力学的logistic扩散模型和网格单元的神经网络模型上说明了我们方法的各个方面。 通过学习激活函数改进Lipschitz约束神经网络 http://jmlr.org/papers/v25/22-1347.html http://jmlr.org/papers/volume25/22-1347/22-1347.pdf 2024 Stanislas Ducotterd、Alexis Goujon、Pakshal Bohra、Dimitris Perdios、Sebastian Neumayer、Michael Unser 与无约束神经网络相比,Lipschitz约束神经网络具有几个优点,可以应用于各种问题,使其成为深度学习社区关注的一个主题。不幸的是,理论和经验都表明,当配备ReLU激活功能时,它们的性能很差。相比之下,具有可学习1-Lipschitz线性样条的神经网络更具表现力。在本文中,我们证明了这种网络对应于一个约束函数优化问题的全局最优解,该问题由一个由1-Lipschitz线性层和1-Lipshitz自由形式激活函数组成的神经网络的训练以及二阶全变分正则化组成。此外,我们提出了一种有效的方法来训练这些神经网络。我们的数值实验表明,与现有的1-Lipschitz神经结构相比,我们训练的网络性能更好。 在线社交媒体审计的数学框架 http://jmlr.org/papers/v25/22-1112.html http://jmlr.org/papers/volume25/22-1112/22-1112.pdf 2024 Wasim Huleihel、Yehonathan Refael 社交媒体平台(SMP)利用算法过滤(AF)来选择构成用户提要的内容,目的是最大化他们的回报。与自然/公平的内容选择相比,选择性地选择要显示在用户提要上的内容可能会对用户的决策产生一定程度的影响,无论是轻微的还是重大的影响。正如我们在过去十年中所看到的那样,算法过滤可能会产生有害的副作用,从偏袒个人决策到塑造整个社会的决策,例如,转移用户的注意力,而不是关注是否接种新冠肺炎疫苗,或者诱导公众选择总统候选人。由于官僚主义、法律事务和财务方面的考虑,政府不断试图监管房颤的不利影响,这往往是复杂的。另一方面,SMP寻求监控自己的算法活动,以避免因超过允许的阈值而被罚款。在本文中,我们对该框架进行了数学形式化,并利用它构建了一个数据驱动的统计审计程序,以控制AF随着时间的推移而偏离用户的信念,以及样本复杂性的保证。作为外部监管机构的当局或SMP都可以使用这种最先进的算法进行自我审查。 一致多面体代理设计与分析的嵌入框架 http://jmlr.org/papers/v25/22-0743.html http://jmlr.org/papers/volume25/22-0743/22-0743。pdf 2024 杰西·菲诺奇亚罗(Jessie Finocchiaro)、拉斐尔·弗伦吉洛(Rafael M.Frongillo)、博·瓦格纳(Bo Waggoner) 我们形式化并研究了通过嵌入设计凸代理损失函数的自然方法,用于离散问题,如分类、排序或结构化预测。在这种方法中,将每个有限的预测(例如排名)嵌入$\mathbb{R}^d$中作为一个点,将原始损失值赋给这些点,并以某种方式“凸化”损失以获得代理。我们在这种方法和多面体(分段线性凸)替代损失之间建立了强有力的联系:每个离散损失都嵌入了一些多面体损失,每个多面体损失都嵌入了一些离散损失。此外,嵌入会产生一致的链接函数以及线性代理遗憾边界。我们的结果是建设性的,正如我们用几个例子说明的那样。特别是,我们的框架给出了现有多面体代理一致性或不一致性的简洁证明,对于不一致代理,它进一步揭示了这些代理一致的离散损失。我们接着展示了嵌入的其他结构,例如嵌入和匹配贝叶斯风险的等价性,以及各种非冗余概念的等价性。利用这些结果,我们确定了当使用多面体代理时,间接启发(一致性的必要条件)也足够了。 拉普拉斯方法的低秩变分贝叶斯修正 http://jmlr.org/papers/v25/21-1405.html http://jmlr.org/papers/volume25/21-1405/21-1405.pdf 2024 哈瓦德街Janet van Niekerk 当由于模型的复杂性或数据的丰富性,精确推断不可行时,拉普拉斯方法、拉普拉斯近似和变分方法等近似推理方法是流行的方法。在本文中,我们提出了一种称为低秩变分贝叶斯校正(VBC)的混合近似方法,该方法使用拉普拉斯方法,然后在较低维度上对联合后验均值进行变分贝叶斯校正。成本本质上是拉普拉斯方法的成本,它确保了该方法在模型复杂性和数据大小方面的可扩展性。对于模拟和实际例子,对于大小数据集,考虑了具有固定和未知超参数的模型。 用稀疏对偶算法缩放凸屏障 http://jmlr.org/papers/v25/21-0076.html http://jmlr.org/papers/volume25/21-0076/21-0076.pdf 2024 亚历山德罗·德·帕尔马(Alessandro De Palma)、哈基拉特·辛格·贝尔(Harkirat Singh Behl)、鲁迪·本内尔(Rudy Bunel)、菲利普·托尔(Philip H.S.Torr)、巴万·库马尔(M.Pawan 紧密有效的神经网络边界对神经网络验证系统的扩展至关重要。最近提出了许多有效的边界算法,但它们往往过于宽松,无法验证更具挑战性的属性。这是由于所采用的弛豫的弱点,弛豫通常是神经元数量线性的线性程序。虽然分段线性激活存在更严格的线性松弛,但它以指数级多个约束为代价,目前缺乏有效的自定义解算器。我们通过提出两种新的对偶算法来缓解这一不足:一种是对较小的活动对偶变量集操作次梯度方法,另一种是利用Frank-Wolfe型优化器的稀疏性,仅产生线性内存开销。这两种方法都恢复了新松弛的优势:紧密性和线性分离预言。同时,它们也分享了以前用于较弱松弛的双重方法的优点:大规模并行、GPU实现、每次迭代的低成本以及任何时候的有效边界。因此,我们可以在其运行时间的一小部分中获得比离线求解器更好的边界,从而实现显著的形式验证加速。 因果学习:Python中的因果发现 http://jmlr.org/papers/v25/23-0970.html http://jmlr.org/papers/volume25/23-0970/23-0930.pdf 2024 郑宇嘉、黄碧薇、陈伟、约瑟夫·拉姆齐、龚明明、蔡瑞初、清水秀、彼得·斯皮特斯、张坤 因果发现旨在从观测数据中揭示因果关系,这是科学和工程中的一项基本任务。我们描述了因果学习,这是一个用于因果发现的开源Python库。该图书馆致力于为从业者和研究人员提供一套全面的因果发现方法。它为非专业人士提供易于使用的API,为开发人员提供模块化构建块,为学习者提供详细的文档,并为所有人提供全面的方法。与以前的R或Java包不同,因果学习是完全用Python开发的,这可能更符合相关社区中编程语言最近的偏好转变。图书馆位于https://github.com/py-why/causal-learn。 用于学习神经动力学潜在成分的分解线性动力学系统(dLDS) http://jmlr.org/papers/v25/23-0777.html http://jmlr.org/papers/volume25/23-0777/23-077.7.pdf 2024 Noga Mudrik、Yenho Chen、Eva Yezerets、Christopher J.Rozell、Adam S.Charles 在群体水平上学习可解释的神经动力学表征是理解所观察到的神经活动如何与感知和行为相关的关键第一步。神经动力学模型通常侧重于神经活动的低维预测或学习随时间推移与神经状态明确相关的动力学系统。我们通过将动力系统视为低维流形上流动的代表来讨论这两种方法是如何相互关联的。基于这一概念,我们提出了一种新的分解动力学系统模型,该模型将时间序列数据的复杂非平稳和非线性动力学表示为更简单、更易于解释的组件的稀疏组合。我们的模型是通过字典学习过程进行训练的,在该过程中,我们利用最近的结果跟踪稀疏向量。对于给定数量的参数,动力学的分解性质比以前的切换方法更具表现力,并且能够对重叠和非平稳动力学进行建模。在连续时间和离散时间的教学示例中,我们证明了我们的模型有效地逼近了原始系统,学习了有效的表示,并捕捉了动态模式之间的平滑转换。此外,我们强调了我们的模型能够有效捕获和分离由多个独立子网生成的种群动态,这对于交换模型来说在计算上是不切实际的。最后,我们将我们的模型应用于秀丽线虫数据的神经“全脑”记录,说明了在划分为离散状态时被模糊的动力学的多样性。 二元分类中对手替代风险的存在性和极小极大定理 http://jmlr.org/papers/v25/23-0456.html http://jmlr.org/papers/volume25/23-0456/23-0465.pdf 2024 Natalie S.Frank、Jonathan Niles-Weed 我们证明了二进制分类中对抗代理风险的存在性、极小极大性和互补松弛性定理。这些结果扩展了最近建立对抗性分类风险的类似极大极小和存在性定理的工作。我们表明,对于一类非常普遍的替代损失,这种说法仍然成立;此外,我们消除了先前工作中存在的一些技术限制。我们的结果为传输攻击现象提供了解释,并为算法开发提供了新的方向。 卷积闭分布的数据细化 http://jmlr.org/papers/v25/23-446.html http://jmlr.org/papers/volume25/23-0046/23-0446.pdf 2024 Anna Neufeld、Ameer Dharamshi、Lucy L.Gao、Daniela Witten 我们提出了数据细化,这是一种将观测值拆分为两个或多个独立部分的方法,这些独立部分与原始观测值相加,并遵循与原始观测相同的分布,直至参数的(已知)缩放。这个非常一般的建议适用于任何卷积闭分布,这类分布包括高斯分布、泊松分布、负二项式分布、伽马分布和二项式分配等。数据细化在模型选择、评估和推断方面有许多应用。例如,通过数据细化进行交叉验证为通过样本分割进行交叉验证的常用方法提供了一种有吸引力的替代方法,尤其是在后者不适用的情况下。在模拟和单细胞RNA测序数据的应用中,我们表明,数据细化可以用于验证无监督学习方法的结果,例如k均值聚类和主成分分析,而传统的样本分割对这些方法没有吸引力或不可用。 一类具有强逼近正则性的非凸组合程序的投影半光滑牛顿法 http://jmlr.org/papers/v25/23-0371.html http://jmlr.org/papers/volume25/23-0371/23-0371。pdf 2024 姜虎、邓康康、吴嘉元、李全正 本文旨在开发一种求解一类非凸组合程序的Newton型方法。特别是,非光滑部分可能是非凸的。为了解决非凸性问题,我们提出了一个强近似正则性的概念,它与相关近端算子的单点性质和Lipschitz连续性有关,并在各类函数中进行了验证,包括弱凸函数、近光滑集的指示函数、,和两个特定的球相关非凸非光滑函数。在这种情况下,我们关心的问题类包括流形上的光滑优化问题和流形上某些组合优化问题。对于后者,所提出的算法是一阶二阶型方法。结合近端算子的半光滑性,我们设计了一种投影半光滑牛顿法来寻找由近端梯度法产生的自然残差的根。由于可行域可能是非凸的,因此在通常的半光滑牛顿步长上增加了一个额外的投影,并提出了投影半光滑牛顿步和近似步长之间切换的新准则。然后在强近似正则性下建立了全局收敛性。基于BD正则性条件,我们建立了局部超线性收敛。数值实验表明,与现有方法相比,本文提出的方法是有效的。 混合模型上绘制算子的RIP保证 http://jmlr.org/papers/v25/23-0044.html http://jmlr.org/papers/volume25/23-0044/23-0044.pdf 2024 雷米·格里波瓦尔(Rémi Gribonval),阿尤布·贝尔哈吉(Ayoub Belhadji) 在压缩混合建模的素描背景下,我们重新审视了关于某些混合模型的素描算子的限制等距性的现有证明。在检查了现有保证的缺点之后,我们提出了一种替代分析,该分析避免了在绘制随机傅里叶特征以构建随机草图操作符时假设重要性采样的需要。我们的分析基于受限等距常数的新的确定界限,该界限仅取决于用于定义草图操作符的频率集;然后我们利用这些边界为随机绘制操作符建立集中不等式,从而得到所需的RIP保证。我们的分析还为使用与快速随机线性算子相关的频率进行结构化草图绘制打开了理论保证之门。 正则化风险最小化下分布转移下的单调风险关系 http://jmlr.org/papers/v25/22-1197.html http://jmlr.org/papers/volume25/22-1197/22-1197.pdf 2024 Daniel LeJeune、Jiayu Liu、Reinhard Heckel 机器学习系统通常应用于从与训练分布不同的分布中提取的数据。最近的工作表明,对于各种分类和信号重建问题,分布外性能与分布内性能呈强线性相关。如果这种关系或者更普遍地说是一种单调的关系成立,那么它会产生重要的后果。例如,它允许在一个分发上优化性能,作为另一个分发的性能代理。在本文中,我们研究了模型在两个分布上的性能之间期望存在单调关系的条件。我们证明了协变位移下脊正则化一般线性模型平方误差的精确渐近线性关系和误分类误差的单调关系,以及线性反问题的近似线性关系。 多边形未调整Langevin算法:为神经网络创建稳定高效的自适应算法 http://jmlr.org/papers/v25/22-0796.html http://jmlr.org/papers/volume25/22-0796/22-07996.pdf 2024 Sotirios Sabanis的Dong Young Lim 我们提出了一类新的基于Langevin的算法,它克服了当前用于深度学习模型微调的流行自适应优化器的许多已知缺点。其基础理论依赖于具有单调系数的随机微分方程的Euler Krylov多边形近似的最新进展。因此,它继承了驯服算法的稳定性特性,同时解决了其他已知问题,例如深度学习中的消失梯度。特别地,我们对这个新类的算法的收敛性提供了非同调分析和充分的理论保证,我们将其命名为TH$\varepsilon$O POULA(或者,简单地说,TheoPouLa)。最后,用不同类型的深度学习模型进行了几个实验,表明TheoPouLa的性能优于许多流行的自适应优化算法。 结构因果模型中的公理效应传播 http://jmlr.org/papers/v25/22-0285.html http://jmlr.org/papers/volume25/22-0285/22-0258.pdf 2024 拉加夫·辛格尔(Raghav Singal)、乔治·米查利迪斯(George Michailidis) 我们研究因果有向非循环图(DAG)中的效应传播,目的是提供源变量变化导致的效应(即结果变量的变化)的基于流的分解。我们首先比较了关于因果关系的各种观点,以量化影响传播,如直接和间接影响、路径特定影响和责任程度。我们讨论了这些方法的缺点,并提出了一种基于流的方法,我们称之为递归Shapley值(RSV)。通过考虑比现有方法更广泛的反事实集,RSV遵守了四个理想的基于流的公理。此外,我们为定义在基础DAG上的任意非参数结构方程模型(SEM)提供了基于路径的RSV一般特征。有趣的是,对于一类特殊的线性SEM,RSV表现出简单易行的特征(因此,计算),它恢复了路径系数的经典方法,并等效于路径特定效应。对于非参数SEM,我们使用我们的一般特征来开发具有指数衰减样本复杂性的无偏Monte-Carlo估计程序。我们展示了RSV在两个具有挑战性的因果关系问题上的应用(因果过度决定和因果不公平)。 作为不等式函数的最优一阶算法 http://jmlr.org/papers/v25/21-1256.html http://jmlr.org/papers/volume25/21-1256/21-1256.pdf 2024 欧内斯特·K·琉·尚宇公园 在这项工作中,我们提出了一种新的算法设计方法,将最优算法作为不等式的函数进行求解。具体来说,我们将算法的收敛性分析限制为使用预先指定的不等式子集,而不是使用所有真不等式,并找到受此限制的最优算法。这种方法允许我们设计具有特定期望特征的算法。作为该方法的具体演示,我们发现了新的先进的加速一阶梯度方法,使用随机坐标更新和回溯线搜索。 嵌入式系统中的资源高效神经网络 http://jmlr.org/papers/v25/18-566.html http://jmlr.org/papers/volume25/18-566/18-566.pdf 2024 沃尔夫冈·罗斯(Wolfgang Roth)、格恩特·辛德勒(Günther Schindler)、伯恩哈德·克莱恩(Bernhard Klein)、罗伯特·佩哈兹(Robert Peharz)、塞巴斯蒂安·奇亚切克(Sebastian Tschiatschek)、霍尔格·弗罗宁(Holger Fröning)、弗兰兹·潘科夫( 虽然机器学习传统上是一项资源密集型任务,但嵌入式系统、自主导航和物联网的愿景激发了人们对资源高效方法的兴趣。这些方法旨在在计算和能量方面仔细选择性能和资源消耗之间的权衡。这些方法的发展是当前机器学习研究的主要挑战之一,也是确保机器学习技术从具有几乎无限计算资源的科学环境顺利过渡到日常应用的关键。在本文中,我们概述了机器学习技术的当前发展状况,以满足这些现实世界的需求。特别是,我们关注基于深度神经网络(DNNs)的资源效率推理,这是过去十年中主要的机器学习模型。我们对大量文献进行了全面综述,这些文献主要可分为三个非互斥类别:(i)量化神经网络,(ii)网络剪枝,以及(iii)结构效率。这些技术可以在训练期间或作为后处理加以应用,它们被广泛用于减少内存占用、推理速度和能源效率方面的计算需求。我们还简要讨论了DNN嵌入式硬件的不同概念及其与机器学习技术的兼容性,以及降低能量和延迟的潜力。我们通过对一组资源受限嵌入式系统(如CPU、GPU和FPGA)使用压缩技术(量化、修剪)的著名基准数据集的实验来证实我们的讨论。获得的结果突出了在资源效率和预测质量之间找到良好平衡点的困难。 受过训练的变形金刚在上下文中学习线性模型 http://jmlr.org/papers/v25/23-1042.html http://jmlr.org/papers/volume25/23-1042/23-1042.pdf 2024 张瑞琪(Ruiqi Zhang)、弗雷(Spencer Frei)、巴特利特(Peter L.Bartlett) 基于注意的神经网络(如变压器)已经证明了展示上下文学习(ICL)的显著能力:给定来自看不见任务的短提示序列,它们可以在不更新任何参数的情况下制定相关的per-token和next-oken预测。通过嵌入一系列标记的训练数据和未标记的测试数据作为提示,这使得变压器的行为类似于监督学习算法。事实上,最近的工作表明,当在线性回归问题的随机实例上训练变压器架构时,这些模型的预测模拟了普通最小二乘法的预测。为了理解这一现象背后的机制,我们研究了在线性回归任务中通过梯度流训练单个线性自关注层的变压器中ICL的动力学。我们证明,尽管没有凸性,但具有适当随机初始化的梯度流会找到目标函数的全局极小值。在这个全局最小值下,当给出来自新预测任务的标记示例的测试提示时,变换器在测试提示分布上实现了与最佳线性预测器竞争的预测误差。我们还描述了训练后的变压器对各种分布偏移的鲁棒性,并表明尽管可以容忍一些偏移,但提示的协变量分布中的偏移不会。基于此,我们考虑一个广义ICL设置,其中协变量分布可以在提示之间变化。我们表明,尽管梯度流在这种情况下成功地找到了一个全局最小值,但在轻微的协变量偏移下,经过训练的变压器仍然很脆弱。我们通过在大型非线性变压器结构上的实验来补充这一发现,我们表明,这些结构在协变量移位下更为稳健。 具有收敛保证的非光滑优化的Adam族方法 http://jmlr.org/papers/v25/23-0576.html http://jmlr.org/papers/volume25/23-0576/23-057.6.pdf 2024 肖纳川、胡晓音、刘欣、金传多 本文对Adam族非光滑优化方法的收敛性进行了全面的研究,特别是在非光滑神经网络的训练中。我们引入了一个新的双时间尺度框架,该框架采用了一个双时间尺度更新方案,并在温和的假设下证明了其收敛性。我们提出的框架包含了各种流行的Adam族方法,为这些方法在训练非光滑神经网络时提供了收敛保证。此外,我们还开发了随机次梯度方法,将梯度裁剪技术用于训练带有重尾噪声的非光滑神经网络。通过我们的框架,我们证明了我们提出的方法即使在评估噪声仅被假定为可积的情况下也收敛。大量的数值实验证明了我们提出的方法的高效性和鲁棒性。 多模态学习中的有效模态选择 http://jmlr.org/papers/v25/23-0439.html http://jmlr.org/papers/volume25/23-0439/23-0429.pdf 2024 何一飞、程润祥、加吉·巴拉萨布拉曼尼亚姆、蔡耀洪、韩照 多模态学习旨在通过融合来自不同来源的信息,从不同模态的数据中学习。虽然从更多的模式中学习是有益的,但在有限的计算资源下使用所有可用的模式通常是不可行的。当输入模式之间的信息重叠时,使用所有可用模式进行建模也可能效率低下且不必要。本文研究模态选择问题,其目的是在基数约束下选择最有用的模态子集进行学习。为此,我们提出了一个统一的理论框架来量化模式的学习效用,并且我们确定了依赖性假设来灵活地建模多模态数据的异质性,这也允许高效的算法设计。因此,我们通过子模块最大化推导出一种贪婪的模态选择算法,该算法选择最有用的模态,并对学习性能进行最优保证。我们还将基于边缘贡献的特征重要性得分(如Shapley值)从特征选择域连接到模态选择上下文,以有效计算单个模态的重要性。我们在不同范围的多模态数据的2个合成数据集和4个真实数据集上证明了我们的理论结果和模态选择算法的有效性。 一种用于近似最近邻搜索的多标签分类框架 http://jmlr.org/papers/v25/23-0286.html http://jmlr.org/papers/volume25/23-0286/23-0286.pdf 2024 Ville Hyvönen、Elias Jääsaari、Teemu Roos 为了学习用于近似最近邻(ANN)搜索的基于分区的索引结构,使用了监督和非监督机器学习算法。现有的监督算法选择与查询点属于同一分区元素的所有点作为最近邻候选点。因此,他们将学习任务表述为查找一个分区,在该分区中,查询点的最近邻居尽可能多地属于同一个分区元素。相反,我们将ANN搜索中的候选集选择直接公式化为多标签分类问题,其中标签对应于查询点的最近邻居。在该框架中,基于分区的索引结构被解释为用于解决此分类问题的分区分类器。实验结果表明,与早期的候选集选择方法相比,基于该框架的自然分类器与任何划分策略相结合,都能显著提高性能。我们还证明了用于ANN搜索的分区分类器一致性的充分条件,并通过对时序$k$-d树和(稠密和稀疏)随机投影树验证此条件来说明结果。 基于评分规则最小化的生成网络概率预测 http://jmlr.org/papers/v25/23-0038.html http://jmlr.org/papers/volume25/23-0038/23-0038.pdf 2024 Lorenzo Pacchiardi、Rilwan A.Adewoin、Peter Dueben、Ritabrata Dutta 概率预测依赖于过去的观察结果,为未来的结果提供概率分布,通常使用评分规则根据实现情况进行评估。在这里,我们使用生成神经网络进行概率预测,生成神经网络通过转换潜在变量的提取来参数化高维空间上的分布。生成性网络通常是在对抗性框架中训练的。相比之下,我们建议训练生成性网络,以最小化对所记录的感兴趣现象的时间序列的预测顺序(或前一顺序)评分规则,这很有吸引力,因为它与预测系统的常规评估方式相对应。对于某些评分规则,无对抗性最小化是可能的;因此,我们的框架避免了由于不稳定的对抗性训练而导致的繁琐的超参数调整和不确定性低估,从而解锁了生成网络在概率预测中的可靠使用。此外,我们证明了我们的目标的最小值与相关数据的一致性,而对抗训练假设独立。我们对两个混沌动力学模型和全球天气观测基准数据集进行了仿真研究;对于最后一个示例,我们通过借鉴相关文献来定义空间数据的评分规则。我们的方法优于最先进的对抗方法,尤其是在概率校准方面,同时需要较少的超参数调整。 多重随机特征模型中的多重下降 http://jmlr.org/papers/v25/22-1389.html http://jmlr.org/papers/volume25/22-1389/22-1389.pdf 2024 孟旭然、姚建峰、袁操 最近的研究表明,在过参数化学习中存在双重下降现象。尽管最近的工作已经对这一现象进行了研究,但在理论上还没有完全理解。本文研究了一类多分量预测模型中的多重下降现象。我们首先考虑连接两类随机特征的“双随机特征模型”(DRFM),并研究DRFM在岭回归中实现的超额风险。我们在高维框架下计算了超额风险的精确极限,其中训练样本大小、数据维数和随机特征维数成比例地趋于无穷大。基于计算,我们进一步从理论上证明了DRFM的风险曲线可以呈现三次下降。然后我们提供了一个彻底的实验研究来验证我们的理论。最后,我们将我们的研究扩展到了“多重随机特征模型”(MRFM),并证明了集合$K$类随机特征的MRFM可能表现出$(K+1)$倍的下降。我们的分析指出,在学习多分量预测模型时,通常存在具有特定下降次数的风险曲线。 重尾抽样离散Itó扩散的均方分析 http://jmlr.org/papers/v25/22-1198.html http://jmlr.org/papers/volume25/22-1198/22-1198.pdf 2024 Ye He、Tyler Farghly、Krishnakumar Balasubramanian、Murat A.Erdogdu 我们通过离散一类与加权Poincaré不等式相关的Itó扩散,分析了从一类重尾分布中采样的复杂性。基于均方分析,我们建立了用于获得分布接近Wasserstein-2度量中目标分布的$\epsilon$样本的迭代复杂性。在本文中,我们的结果使平均分析达到了极限,即我们总是只要求目标密度具有有限方差,这是平均分析的最低要求。为了获得明确的估计,我们在各种假设下计算与重尾目标相关的特定矩的上界。我们还提供了类似的迭代复杂性结果,在这种情况下,通过使用高斯平滑技术估计梯度,只有非正规化目标密度的函数评估可用。我们提供了基于多元$t$-分布的示例。 不变和等变雷诺网络 http://jmlr.org/papers/v25/22-0891.html http://jmlr.org/papers/volume25/22-0891/22-0891。pdf 2024 三奈明吉、川野诚、熊谷Wataru 各种数据显示出对称性,包括图和点云中的排列。利用这种对称性的机器学习方法取得了相当大的成功。在这项研究中,我们探索了表现出群体对称性的数据的学习模型。我们的重点是使用Reynolds操作符转换深层神经网络,这些操作符对组进行平均,以将函数转换为不变或等变形式。虽然基于Reynold操作符的学习方法已经很成熟,但它们通常面临计算复杂性挑战。为了解决这个问题,我们引入了两种新的方法来减少与雷诺算符相关的计算负担:(i)虽然雷诺算符传统上对整个组进行平均,但我们证明,通过对组的特定子集进行平均,可以有效地进行近似,称为雷诺设计。(ii)我们发现,预模型并不需要所有输入变量。相反,使用选定数量的部分输入(雷诺维数)足以实现普遍适用的模型。采用这些以雷诺设计和雷诺尺寸概念为基础的方法,可以构建具有可管理计算复杂性的通用模型。我们在基准数据上的实验表明,我们的方法比现有方法更有效。 个性化PCA:解耦共享和独特功能 http://jmlr.org/papers/v25/22-0810.html http://jmlr.org/papers/volume25/22-0810/22-0810.pdf 2024 Raed Al Kontar,Naichen Shi 在本文中,我们解决了主成分分析中的一个重大挑战:异质性。当数据是从具有异质趋势的不同来源收集的,同时仍然共享一些一致性时,在保留每个来源的独特特征的同时提取共享知识是至关重要的。为此,我们提出了个性化PCA(PerPCA),它使用相互正交的全局和局部主成分来编码唯一和共享特征。我们表明,在温和的条件下,即使协方差矩阵相差很大,也可以通过约束优化问题识别和恢复唯一特征和共享特征。同时,我们设计了一个受分布式Stiefel梯度下降启发的全联邦算法来解决这个问题。该算法引入了一组称为广义收缩的新操作来处理正交约束,并且只需要跨源共享全局PC。我们在适当的假设下证明了算法的线性收敛性。全面的数值实验突出了PerPCA在从异构数据集进行特征提取和预测方面的卓越性能。作为一种从异构数据集解耦共享和独特特征的系统方法,PerPCA在多个任务中找到了应用,包括视频分割、主题提取和特征聚类。 生存核:可扩展和可解释的具有准确性保证的深核生存分析 http://jmlr.org/papers/v25/22-0667.html http://jmlr.org/papers/volume25/22-0667/22-0677.pdf 2024 乔治·H·陈 核生存分析模型利用核函数估计个体生存分布,核函数测量任意两个数据点之间的相似性。这样的核函数可以使用深核生存模型学习。在本文中,我们提出了一种新的深核生存模型,称为生存核集,该模型以适合模型解释和理论分析的方式扩展到大型数据集。具体来说,基于最近开发的用于分类和回归的训练集压缩方案(称为核网),将训练数据划分为簇,我们将其扩展到生存分析设置。在测试时,每个数据点都表示为这些簇的加权组合,并且每个这样的簇都可以可视化。对于生存核集的一个特殊情况,我们在预测的生存分布上建立了一个有限样本误差界,即在对数因子范围内是最优的。虽然测试时的可伸缩性是使用上述内核网络压缩策略实现的,但训练期间的可伸缩度是通过基于树集合(如XGBoost)的预热启动过程和加速神经架构搜索的启发式方法实现的。在四个不同大小的标准生存分析数据集(大约300万个数据点)上,我们表明,与根据时间相关一致性指数测试的各种基线相比,生存核集具有高度的竞争力。我们的代码位于:https://github.com/georgehc/survival-kernets网站 连续控制下重尾策略搜索的样本复杂性和元稳定性 http://jmlr.org/papers/v25/21-1343.html http://jmlr.org/papers/volume25/21-1343/21-1343.pdf 2024 Amrit Singh Bedi、Anjaly Parayil、Junyu Zhang、Mengdi Wang、Alec Koppel 强化学习是一种交互式决策框架,在没有系统动力学模型的情况下,激励因素会随时间顺序显示。由于其可扩展到连续空间,我们将重点放在策略搜索上,其中一个策略通过随机策略梯度(PG)更新迭代改进参数化策略。在表马尔可夫决策问题(MDP)中,通过持续探索和适当的参数化,可以获得全局最优解。相比之下,在连续空间中,非凸性带来了病理学上的挑战,现有的收敛结果大多局限于平稳性或任意的局部极值。为了缩小这一差距,我们通过策略参数化在连续空间中实现持续探索,策略参数化由尾诱导参数$\alpha$定义的较重尾部分布定义,这增加了状态空间跳跃的可能性。这样做会使PG常用的得分函数的光滑性条件无效。因此,我们建立了收敛到平稳性的速度如何依赖于策略的尾部指数$\alpha$、Hölder连续性参数、可积性条件和这里首次引入的探索容限参数。此外,我们通过对适当定义的马尔可夫链的退出和过渡时间分析,刻画了局部最大值集对尾部指数的依赖性,确定了与较重尾部的Lévy过程相关的策略收敛到较宽的峰值。这一现象提高了监督学习中扰动的稳定性,我们也证实了这一点,这也体现在政策搜索性能的提高上,特别是当短视和远见的激励措施不一致时。 非凸ADMM的收敛性及其在CT成像中的应用 http://jmlr.org/papers/v25/21-0831.html http://jmlr.org/papers/volume25/21-0831/21-0831.pdf 2024 里娜·福伊格尔·巴伯(Rina Foygel Barber)、埃米尔·西德基(Emil Y.Sidky) 交替方向乘数法(ADMM)算法是一种强大而灵活的工具,用于求解形式为$\min\{f(x)+g(y):Ax+By=c\}$的复杂优化问题。ADMM在一系列具有挑战性的设置(包括目标函数$f$和$g$的非光滑性和非凸性)中表现出强大的经验性能,并为计算机断层扫描(CT)成像的图像重建逆问题提供了一种简单而自然的方法。从理论上看,现有的非凸收敛结果通常假定目标函数中至少有一个分量函数是光滑的。在这项工作中,我们的新理论结果在限制强凸性假设下提供了收敛保证,而不需要光滑性或可微性,同时仍然允许在需要时近似地处理可微项。我们通过一个模拟例子验证了这些理论结果,其中$f$和$g$都是不可微的,因此超出了现有理论的范围,同时也验证了一个模拟CT图像重建问题。 通信约束下的分布式高斯平均估计:最优速率和通信效率算法 http://jmlr.org/papers/v25/21-0316.html http://jmlr.org/papers/volume25/21-0316/21-0316.pdf 2024 T.Tony Cai、Hongji Wei 在决策理论框架下研究了通信约束下高斯平均值的分布式估计。在独立协议下,建立了表征通信成本和统计精度之间权衡的最小最大收敛速度。制定了高效沟通和统计优化程序。在单变量情况下,只要每台本地机器至少有一个比特,最优速率仅取决于总通信预算。然而,在多元情况下,最小最大速率取决于本地机器之间通信预算的具体分配。虽然在传统设置中,高斯平均值的最佳估计相对简单,但在通信约束条件下,无论是在最佳程序设计还是在下限参数方面,它都是相当复杂的。一个重要的步骤是将极大极小估计问题分解为两个阶段,即定位和细化。这种关键分解为下限分析和优化程序设计提供了一个框架。本文提出的优化结果和技术可用于解决分布式非参数函数估计和稀疏信号恢复等其他问题。 具有原型正则化的稀疏NMF:计算和稳健性特性 http://jmlr.org/papers/v25/21-0233.html http://jmlr.org/papers/volume25/21-0233/21-0233.pdf 2024 卡汉·贝丁(Kayhan Behdin,Rahul Mazumder) 我们考虑使用原型正则化的稀疏非负矩阵分解(NMF)问题。其目标是将数据点集合表示为几个非负稀疏因子的非负线性组合,这些稀疏因子具有诱人的几何特性,这些特性是由原型正则化的使用引起的。我们将Javadi和Montanari(2019)中研究的稳健性概念(无稀疏性)推广为(a)强稳健性的概念,这意味着每个估计的原型都接近于基础原型,以及(b)弱稳健性意味着至少存在一个与基础原型接近的恢复原型。我们关于稳健性的理论结果在对底层数据的最小假设下成立,并适用于底层原型不需要稀疏的环境。我们提供了理论结果和说明性示例,以加强对稳健性概念的理解。我们为优化问题提出了新的算法;并在合成数据集和实际数据集上进行数值实验,进一步深入了解我们提出的框架和理论发展。 深度网络逼近:超越ReLU到多样激活函数 http://jmlr.org/papers/v25/23-0912.html http://jmlr.org/papers/volume25/23-0912/23-0912.pdf 2024 张世军、陆建峰、赵洪凯 本文探讨了深层神经网络对各种激活函数的表达能力。激活函数集$\mathscr{A}$被定义为包含大多数常用的激活函数,例如$\mathtt{ReLU}$、$\mathtt{LeakyReLU}$\、$\mathtt{ReLU}^2$、$\tathtt{ELU}$、$\mathtt{CELU}$,$\tatt{SELU}$htt{Swish}$,$\mathtt{Mish}$,$\mathtt{Sigmoid}$,$\mathtt{Tanh}$、$\mathtt{Arctan}$、$\mathtt{Softsign}$、美元\mathtt1{dSiLU}$和美元\matghtt{SRS}$。我们证明了对于任何激活函数$\varrho\in\mathscr{A}$,宽度为$N$、深度为$L$的$\mathtt{ReLU}$网络可以通过任意有界集上宽度为$3N$、深为$2L$的激活网络近似到任意精度。这一发现使得使用$\mathtt{ReLU}$网络获得的大多数近似结果能够扩展到各种其他激活函数,尽管常数略有增加。值得注意的是,如果$\varrho$属于$\mathscr{a}$的特定子集,则(宽度、$\、$depth)缩放因子可以从$(3,2)$进一步减少到$(1,1)$。该子集包括激活函数,如$\mathtt{ELU}$、$\matghtt{CELU}$、$1\mathtt1{SELU}$,$\mathtt{Softplus}$、$\mathtt{GELU}$和$\matht{Mish}$。 政策概括的有效非变异机制 http://jmlr.org/papers/v25/23-0802.html http://jmlr.org/papers/volume25/23-0802/203-0802.pdf 2024 Sorawit Saengkyongam、Niklas Pfister、Predrag Klasnja、Susan Murphy、Jonas Peters 政策学习是许多现实世界学习系统的重要组成部分。政策学习中的一个主要挑战是如何有效地适应看不见的环境或任务。最近,有人建议利用不变的条件分布来学习能够更好地推广到未知环境的模型。然而,假设整个条件分布的不变性(我们称之为完全不变性)在实践中可能过于强大。在本文中,我们引入了一种称为效应方差(effect-invariance,简称e-不变性)的完全不变性松弛,并证明了在适当的假设下,它对于零快照策略推广是充分的。我们还讨论了一个扩展,当我们从测试环境中获得一个小样本时,该扩展利用了e-不变性,从而实现了少量的策略泛化。我们的工作没有假设潜在的因果图或数据是由结构因果模型生成的;相反,我们开发了测试程序来直接从数据测试e不变性。我们使用模拟数据和移动健康干预数据集展示了实证结果,以证明我们方法的有效性。 Pygmtools:Python图形匹配工具包 http://jmlr.org/papers/v25/23-0572.html http://jmlr.org/papers/volume25/23-0572/23-057.pdf 2024 王润忠、郭自超、潘文政、马家乐、张艺凯、杨楠、刘淇、魏龙轩、张汉雪、刘畅、蒋泽田、杨晓康、闫俊驰 图匹配的目的是在多个图之间找到点对点的匹配,这是一个基本而又具有挑战性的问题。为了促进科学研究和工业应用中的图形匹配,发布了pygmtools,这是一个Python图形匹配工具包,它实现了两个图形匹配和多个图形匹配解算器的综合集合,涵盖了无学习解算器和基于学习的神经图匹配解算机。我们的实现支持Numpy、PyTorch、Jittor、Paddle等数字后端,可以在Windows、MacOS和Linux上运行,并且易于安装和配置。涵盖初学者指南、API参考和示例的综合文档可在线获取。pygmtools是在Mulan PSL v2许可下开源的。 异构Agent强化学习 http://jmlr.org/papers/v25/23-0488.html http://jmlr.org/papers/volume25/23-0488/23-0488.pdf 2024 钟一凡、库巴、冯锡东、胡思怡、季嘉明、杨耀东 智能机器之间合作的必要性使协作多智能体强化学习(MARL)在人工智能研究中得到了广泛应用。然而,许多研究工作严重依赖于agent之间的参数共享,这使得它们仅限于同质agent设置,导致训练不稳定和缺乏收敛保证。为了在一般的异构代理环境中实现有效的协作,我们提出了解决上述问题的异构代理强化学习(HARL)算法。我们发现的核心是多智能体优势分解引理和顺序更新方案。在此基础上,我们发展了可证明正确的异构代理信任域学习(HATRL),并通过可处理的近似导出了HATRPO和HAPPO。此外,我们还发现了一个新的框架,称为异构代理镜像学习(HAML),它加强了HATRPO和HAPPO的理论保证,并为协作MARL算法设计提供了通用模板。我们证明了从HAML导出的所有算法内在地具有联合收益的单调改进和收敛到纳什均衡的特性。作为其自然结果,HAML除了验证HATRPO和HAPPO之外,还验证了更新颖的算法,包括HAA2C、HADDPG和HATD3,这些算法的性能通常优于其现有的MA计数器。我们在六个具有挑战性的基准上对HARL算法进行了全面测试,并与强大的基准(如MAPPO和QMIX)相比,证明了它们在协调异构代理方面的卓越有效性和稳定性。 有效样本的对抗性模仿学习 http://jmlr.org/papers/v25/23-0314.html http://jmlr.org/papers/volume25/23-0314/23-0314.pdf 2024 大亨·荣格、李显裕、孙高义 通过演示进行学习的模拟学习已经被研究并提出用于奖励函数未预先定义的顺序决策任务。然而,模仿学习方法仍然需要大量的专家示范样本才能成功模仿专家的行为。为了提高样本效率,我们使用了自监督表示学习,它可以从给定的数据中生成大量的训练信号。在本研究中,我们提出了一种基于自我监督表征的对抗性模仿学习方法,用于学习非图像控制任务中对各种失真和时间预测具有鲁棒性的状态和动作表征。特别是,与现有的表格数据自监督学习方法相比,我们提出了一种对不同失真鲁棒的状态和动作表示的不同腐败方法。我们从理论和实证上观察到,用较少的样本复杂度构造信息特征流形可以显著提高模仿学习的性能。在限制为100个专家状态-动作对的情况下,与MuJoCo上现有的对抗性模仿学习方法相比,该方法显示出39%的相对改进。此外,我们进行了全面的烧蚀和额外的实验,使用不同的优化演示来提供对一系列因素的见解。 随机修正流、平均场极限和随机梯度下降动力学 http://jmlr.org/papers/v25/23-0220.html http://jmlr.org/papers/volume25/23-0220/203-0220.pdf 2024 本杰明·盖斯(Benjamin Gess)、塞巴斯蒂安·卡辛(Sebastian Kassing)、维塔利·科纳罗夫斯基(Vitalii Konarovskyi) 我们提出了一种新的小学习率随机梯度下降的极限动力学,称为随机修正流。这些SDE由圆柱布朗运动驱动,并通过具有规则扩散系数和匹配多点统计来改进所谓的随机修正方程。作为第二个贡献,我们引入了依赖分布的随机修正流,我们证明了它描述了在小学习率-无限宽尺度范围内随机梯度下降的波动极限动力学。 生成性对抗网络密度估计的收敛速度 http://jmlr.org/papers/v25/23-0062.html http://jmlr.org/papers/volume25/23-0062/23-0062.pdf 2024 Nikita Puchkin、Sergey Samsonov、Denis Belomestny、Eric Moulines、Alexey Naumov 在这项工作中,我们对香草生成对抗网络(GAN)的非渐近性质进行了深入研究。我们证明了潜在密度$\mathsf{p}^*$和GAN估计之间Jensen-Shannon(JS)发散的一个预言不等式,与先前的已知结果相比,GAN估计具有更好的统计误差项。在应用于非参数密度估计时,我们的界的优点变得很明显。我们表明,GAN估计和$\mathsf{p}^*$之间的JS分歧衰减得快于$(\log{n}/n)^{2\beta/(2\beta+d)}$,其中$n$是样本大小,$\beta$决定$\mathsf{p}^*$的平滑度。这种收敛速度与所考虑的密度类别的最优最小值最大值一致(高达对数因子)。 一般状态空间模型后向变分推理中的加性平滑误差 http://jmlr.org/papers/v25/22-1392.html http://jmlr.org/papers/volume25/22-1392/22-1392.pdf 2024 Mathis Chagneux、Elisabeth Gassiat、Pierre Gloaguen、Sylvain Le Corff 我们利用变分推理研究一般状态空间模型中的状态估计问题。对于使用与实际联合平滑分布相同的后向分解定义的泛型变分族,我们在混合假设下建立了加性状态泛函期望的变分近似引起的误差,该误差在观测数中最多呈线性增长。这种保证与使用标准蒙特卡罗方法近似平滑分布的已知上界一致。我们使用基于反向参数化和基于使用正向分解的替代方案的最新变分解来说明我们的理论结果。该数值研究为状态空间模型中基于神经网络的变分推理提供了指导。 浅ReLU网络的最优凹凸函数:权重衰减、深度分离、维数校正 http://jmlr.org/papers/v25/22-1296.html http://jmlr.org/papers/volume25/22-1296/22-1296.pdf 2024 斯蒂芬·沃伊托维奇 在本注释中,我们研究了如果单位球内没有已知的标签,则具有单个隐藏层和ReLU激活的神经网络如何插值从径向对称分布中提取的数据,目标标签1位于原点,0位于单位球外。通过权值衰减正则化,在无限神经元、无限数据极限下,我们证明了一个唯一的径向对称极小值存在,其平均参数和Lipschitz常数分别增长为$d$和$\sqrt{d}$。我们进一步证明,如果标签$1$施加在半径为$\varepsilon$的球上,而不是仅施加在原点,则平均权重变量在$d$中呈指数增长。相比之下,具有两个隐藏层的神经网络可以在不遇到维数灾难的情况下逼近目标函数。 基于覆盖树最小分离的数值稳定稀疏高斯过程 http://jmlr.org/papers/v25/22-1170.html http://jmlr.org/papers/volume25/22-1170/22-1170.pdf 2024 Alexander Terenin、David R.Burt、Artem Artemev、Seth Flaxman、Mark van der Wilk、Carl Edward Rasmussen、Hong Ge 高斯过程经常被部署为大型机器学习和决策系统的一部分,例如在地理空间建模、贝叶斯优化或潜在高斯模型中。在系统中,高斯过程模型需要以稳定可靠的方式执行,以确保它与系统的其他部分正确交互。在这项工作中,我们研究了基于诱导点的可伸缩稀疏近似的数值稳定性。为此,我们首先回顾了数值稳定性,并举例说明高斯过程模型可能不稳定的典型情况。基于插值文献中最初发展的稳定性理论,我们推导了诱导点上的充分条件和在某些情况下的必要条件,以使计算在数值上稳定。对于低维任务,例如地理空间建模,我们提出了一种自动计算满足这些条件的诱导点的方法。这是通过修改独立关注的覆盖树数据结构来实现的。此外,我们还提出了一种替代的稀疏近似,用于高斯似然回归,该近似权衡了少量性能以进一步提高稳定性。我们提供了示例,说明了计算稳定性与空间任务诱导点方法的预测性能之间的关系。 损失函数分布的尾部衰减率估计 http://jmlr.org/papers/v25/22-0846.html http://jmlr.org/papers/volume25/22-0846/22-0846。pdf 2024 马可·洛伦齐(Marco Lorenzi)·埃特里特·哈克斯霍利(Etrit Haxholli) 损失函数分布的研究对于刻画模型在给定机器学习问题上的行为至关重要。虽然模型质量通常是通过测试集上评估的平均损失来衡量的,但这个数量并不能确定损失分布平均值的存在。相反,分布的统计矩的存在可以通过检查其尾部的厚度来验证。交叉验证方案确定了一系列以训练集为条件的测试损失分布。通过在训练集之间边缘化,我们可以恢复总体(边际)损失分布,我们旨在估计其尾部形状。小样本减少了经典尾部估计方法(如峰值-阈值以上)的可靠性和效率,我们证明,当估计由具有大量尾部变异性的条件分布组成的边际分布的尾部时,这种影响非常显著。我们通过利用一个结果来缓解这个问题,我们证明:在某些条件下,边际分布的尾形参数是边际下条件分布的最大尾形参数。我们将结果方法标记为“交叉尾估计(CTE)”。我们在一系列模拟和实际数据上测试了CTE,结果表明,与经典方法相比,尾部估计的鲁棒性和质量都有所提高。 无穷维空间间算子的深度非参数估计 http://jmlr.org/papers/v25/22-0719.html http://jmlr.org/papers/volume25/22-719/220-719.pdf 2024 刘浩、杨海照、陈敏硕、赵拓、廖文静 无穷维空间之间的算子学习是机器学习、成像科学、数学建模和仿真等领域中出现的一项重要学习任务。本文利用深度神经网络研究了Lipschitz算子的非参数估计。在适当选择的网络类上,导出了经验风险最小化器泛化误差的非症状上界。在目标算子呈现低维结构的假设下,我们的误差界随着训练样本大小的增加而衰减,并且根据估计中的内在维数,我们的估计具有吸引人的快速速度。我们的假设涵盖了实际应用中的大多数场景,并且我们的结果通过利用算子估计中的低维数据结构来提高速度。我们还研究了网络结构(例如,网络宽度、深度和稀疏性)对神经网络估计器泛化误差的影响,并对网络结构的选择提出了一般性建议,以定量地最大化学习效率。 常微分方程的正则化后置信带 http://jmlr.org/papers/v25/22-0487.html http://jmlr.org/papers/volume25/22-0487/22-048.pdf 2024 戴晓武、李乐信 常微分方程(ODE)是研究生物和物理过程系统的重要工具。ODE建模中的一个中心问题是推断一个信号变量对另一个变量的个别调节作用的重要性。然而,在监管关系未知的情况下,为ODE建立置信区间是一项挑战,这在很大程度上仍是一个悬而未决的问题。在本文中,我们构造了具有未知泛函和噪声数据观测值的ODE中单个调节函数的正则化后置信带。我们的提案是同类提案中的第一个,基于两种新颖的成分。第一种是一种新的局部核学习方法,它将再生核学习与局部泰勒近似相结合,第二种是一个新的去偏方法,它处理无穷维泛函和额外的测量误差。我们证明了所构造的置信带具有期望的渐近覆盖概率,并且恢复的监管网络以趋向于1的概率逼近真值。我们建立了当系统中变量的数量可以小于或大于采样时间点数量时的理论性质,并研究了寄存器切换现象。我们通过两个数据应用程序的仿真和插图证明了该方法的有效性。 关于动量随机梯度下降的推广 http://jmlr.org/papers/v25/22-0068.html http://jmlr.org/papers/volume25/22-0068/22-0068.pdf 2024 Ali Ramezani-Kebrya、Kimon Antonakopoulos、Volkan Cevher、Ashish Khisti、Ben Liang 虽然基于动量的随机梯度下降加速变量(SGD)在训练机器学习模型时得到了广泛的应用,但对于此类方法的泛化误差,理论上的了解很少。在这项工作中,我们首先证明了存在一个凸损失函数,对于该函数,具有标准重锤动量(SGDM)的SGD的多个时间段的稳定性缺口变得无界。然后,对于光滑的Lipschitz损失函数,我们分析了一种改进的基于动量的更新规则,即具有早期动量的SGDEM(SGDEM),它可以在保证泛化的前提下训练多个时间段的机器学习模型。最后,对于强凸损失函数的特殊情况,我们发现了一个动量范围,使得作为SGDEM的一种特殊形式的标准SGDM的多个时段也得到了推广。在推广我们的结果的基础上,我们还根据训练步骤的数量、样本大小和动量,建立了预期真实风险的上限。我们的实验评估验证了数值结果与理论界之间的一致性。SGDEM改进了在实际分布式环境下在ImageNet上训练ResNet-18时SGDM的泛化误差。 网络套索簇结构的追求:恢复条件和非凸扩展 http://jmlr.org/papers/v25/21-1190.html http://jmlr.org/papers/volume25/21-1190/21-1190.pdf 2024 佐田雅吉,Jun-ya Gotoh 网络套索(简称NL)是一种通过同时对数据样本进行聚类并对模型进行拟合来估计模型的技术。由于$\ell_2$范数之和的几何结构,它通常能够成功地形成簇,但由于正则化子的凸性,可能存在局限性。本文主要研究NL生成的聚类,并通过创建一个非凸扩展来加强它,称为网络修剪套索(简称NTL)。具体地说,我们在Sun等人(2021)关于凸聚类的结果的基础上,首先研究了一个充分条件,该条件保证NL潜在簇结构的恢复,这是NL对于普通聚类的一个特例。其次,我们将NL扩展到NTL,以包含基数(或,$\ell_0$-)约束并将用间断函数$\ell0$范数定义的约束优化问题重写为等价的无约束连续优化问题。我们开发了ADMM算法来求解NTL,并展示了它们的收敛结果。数值例子表明,当NL在不考虑相关参数的先验知识的情况下无法形成簇时,非凸扩展提供了更清晰的簇结构。 寻找最佳测试误差的迭代平均法 http://jmlr.org/papers/v25/21-1125.html http://jmlr.org/papers/volume25/21-1125/21-1125.pdf 2024 Diego Granziol、Nicholas P.Baskerville、Xingchen Wan、Samuel Albanie、Stephen Roberts 我们分析并解释了使用高斯过程扰动模型在高维二次曲面上的真实风险面和批量风险面之间迭代平均提高的泛化性能。我们从理论结果中得出了三个现象:(1)将迭代平均(IA)与大学习率和正则化相结合对改进泛化的重要性。(2) 降低平均频率的理由。(3) 我们期望自适应梯度方法与非自适应梯度方法相比,在迭代平均方面工作得同样好或更好。受这些结果的启发,结合对适当调节对迭代解多样性重要性的实证研究,我们提出了两种迭代平均自适应算法。与随机梯度下降(SGD)相比,这些方法具有更好的结果,需要较少的调整,不需要提前停止或验证集监控。我们展示了我们的方法在各种现代和经典网络架构上的CIFAR-10/100、ImageNet和Penn Treebank数据集上的有效性。 B比特量化下的非参数推断 http://jmlr.org/papers/v25/20-075.html http://jmlr.org/papers/volume25/20-075/20-075.pdf 2024 李克轩、刘瑞琪、徐刚、尚左凤 在信号/图像处理、医学图像存储、遥感、信号传输等研究领域,经常需要基于有损或不完整样本的统计推断。在本文中,我们提出了一种基于样本的非参数测试方法,该样本通过一种计算效率高的算法量化为$B$比特。在温和的技术条件下,我们建立了所提出的测试统计量的渐近性质,并研究了测试能力如何随着$B$的增加而变化。特别是,我们表明,如果$B$超过某个阈值,则所提出的非参数测试程序实现了样条模型的经典极大极小测试率(Shang和Cheng,2015)。我们进一步将理论研究扩展到非参数线性检验和自适应非参数检验,扩展了所提方法的适用性。广泛的模拟研究{连同实际数据分析}被用于证明所建议测试的有效性和有效性。 具有确定性目标的黑箱变分推理:更快、更准确、甚至更黑箱 http://jmlr.org/papers/v25/23-1015.html http://jmlr.org/papers/volume25/23-1015/23-015.pdf 2024 Ryan Giordano、Martin Ingram、Tamara Broderick 自动微分变分推理(ADVI)在多种现代概率编程语言中提供了快速且易于使用的后验近似。然而,其随机优化器缺乏明确的收敛准则,需要调整参数。此外,ADVI继承了平均场变分贝叶斯(MFVB)的较差后验不确定性估计。我们引入“确定性ADVI”(DADVI)来解决这些问题。DADVI用固定的蒙特卡罗近似代替了难以处理的MFVB目标,这是随机优化文献中称为“样本平均近似”(SAA)的技术。通过优化一个近似但确定性的目标,DADVI可以使用离机二阶优化,并且与标准平均场ADVI不同,它可以通过线性响应(LR)获得更精确的后验协方差。与现有的最坏情况理论相比,我们表明,对于某些常见的统计问题,DADVI和SAA可以在样本相对较少的情况下,甚至在非常高的维数下表现良好,尽管我们也表明,这种良好的结果不能扩展到相对于平均场ADVI表现力太强的变分近似。我们在各种现实问题上表明,DADVI可以可靠地找到使用默认设置的好解决方案(与ADVI不同),并且与LR协方差一起,通常比标准ADVI更快、更准确。 关于充分的图形模型 http://jmlr.org/papers/v25/23-0893.html http://jmlr.org/papers/volume25/23-0893/23-089.3.pdf 2024 李兵,金敬文 通过应用最近发展的非线性充分降维技术来评估条件独立性,我们引入了一个充分的图形模型。图形模型本质上是非参数的,因为它不做分布假设,如高斯或连接高斯假设。然而,与依赖高维核来表征条件独立性的完全非参数图形模型不同,我们的图形模型基于条件独立性,给出了一组维数大大降低的足够预测因子。这样我们就避免了高维内核带来的维数灾难。我们发展了我们估计的总体水平属性、收敛速度和变量选择的一致性。通过对DREAM 4 Challenge数据集的仿真比较和分析,我们证明了当违反高斯或copula高斯假设时,我们的方法优于现有方法,并且在高维环境下其性能仍然很好。 本地化借记机器学习:有效推断分位数处理效果及其以外 http://jmlr.org/papers/v25/23-0661.html http://jmlr.org/papers/volume25/23-0661/23-0661.pdf 2024 Nathan Kallus、Xiaojie Mao、Masatoshi Uehara 我们考虑在估计方程中估计低维参数,该方程涉及依赖于目标参数作为输入的高维干扰函数。一个中心示例是因果推断中(局部)分位数处理效应((L)QTE)的有效估计方程,其中涉及在待估计分位数处评估的协变量条件累积分布函数。现有的基于灵活估计干扰和插入估计值的方法,例如debased machine learning(DML),要求我们在所有可能的输入下学习干扰。对于(L)QTE,DML要求我们学习整个协变量条件累积分布函数。相反,我们提出了局部debiased machine learning(LDML),它避免了这一繁琐的步骤,只需对目标参数进行一次初始粗略猜测即可估计干扰。对于(L)QTE,LDML只学习两个回归函数,这是机器学习方法的标准任务。我们证明了在宽松速率条件下,我们的估计量与使用未知真扰动的不可行估计量具有相同的有利渐近行为。因此,正如我们在实证研究中所证明的那样,当我们必须控制许多协变量和/或灵活的关系时,LDML显著地实现了对因果推理中重要数量(如(L)QTE)的实际可行和理论基础上的有效估计。 关于初始化的影响:二层神经网络的缩放路径 http://jmlr.org/papers/v25/23-0549.html http://jmlr.org/papers/volume25/23-0549/23-0599.pdf 2024 塞巴斯蒂安·纽梅耶、莱纳伊克·奇扎特、迈克尔·昂瑟 在监督学习中,正则化路径有时被用作从零开始初始化的梯度下降优化路径的一种方便的理论代理。本文研究了在不同尺度下具有非零初始权值分布的无限宽2层ReLU神经网络的正则化路径的修正。通过利用非平衡最优传输理论的链接,我们表明,尽管2层网络训练是非凸的,但该问题仍然存在无穷维凸对应。我们提出了相应的泛函优化问题,并研究了其主要性质。特别是,我们表明,当初始化的范围在$0$和$+\infty$之间时,相关路径在所谓的内核和富状态之间连续插值。数值实验证实,在我们的设置中,缩放路径和优化路径的最终状态表现出相似的行为,甚至超出这些极限点。 用元学习优化改进物理信息神经网络 http://jmlr.org/papers/v25/23-0356.html http://jmlr.org/papers/volume25/23-0356/23-0356。pdf 2024 亚历克斯·比略 我们表明,如果使用元学习优化方法训练这些网络,而不是像传统方法那样使用固定的手工优化器,那么使用基于物理信息的神经网络求解微分方程可以大大减少误差。我们选择了一种基于浅层感知器的可学习优化方法,该感知器针对特定类别的微分方程进行了元训练。我们为数学物理中几个实际相关的方程(包括线性平流方程、泊松方程、Korteweg-de-Vries方程和Burgers方程)演示了元训练优化器。我们还说明元学习优化器具有迁移学习能力,在一个微分方程上的元训练优化器也可以成功地部署到另一个微分方程式上。 连续时间近似与随机梯度下降的比较 http://jmlr.org/papers/v25/23-0237.html http://jmlr.org/papers/volume25/23-0237/23-0237.pdf 2024 Stefan Ankirchner、Stefan Perko 应用随机梯度下降(SGD)方法最小化目标会产生估计参数值的离散时间过程。为了更好地理解估计值的动态,许多作者考虑了SGD的连续时间近似。对于非有限学习率,我们改进了一阶ODE和SDE逼近SGD的弱误差的现有结果。特别地,我们明确计算了梯度流及其两个随机对应项的误差展开中关于离散化参数$h$的线性项。在线性回归的例子中,我们证明了对于规模不太大的批次,确定性梯度流近似与随机梯度流近似相比的一般劣性。此外,我们还证明了对于高斯特征,具有状态相关噪声(CC)的SDE近似优先于使用状态依赖系数(NCC)。对于低峰度或大批量的特征,同样的比较也适用。然而,对于高度轻薄的特征或小批量,这种关系相反。 神经网络验证技术现状的批判性评估 http://jmlr.org/papers/v25/23-0119.html http://jmlr.org/papers/volume25/23-0119/23-0119.pdf 2024 Matthias König、Annelot W.Bosman、Holger H.Hoos、Jan N.van Rijn 最近的研究提出了各种方法来针对最小输入扰动正式验证神经网络;该验证任务也称为局部稳健性验证。局部稳健性验证的研究领域非常多样化,因为验证器依赖于多种技术,包括混合整数规划和可满足性模理论。同时,执行本地稳健性验证时遇到的问题实例因要验证的网络、要验证的属性和特定的网络输入而异。这就提出了一个问题,即哪种验证算法最适合解决局部稳健性验证问题的特定类型的实例。为了回答这个问题,我们对一些基于CPU和GPU的局部稳健性验证系统在一组新的精心组装的79个神经网络上进行了系统性能分析,其中我们验证了广泛的稳健性特性,同时采取从业者的观点——这是一种补充来自VNN竞赛等倡议的见解的观点,在该竞赛中,参与的工具由其开发人员根据给定的基准仔细调整。值得注意的是,我们表明没有一种最佳算法在所有验证问题实例中占据主导地位。相反,我们的结果揭示了验证器性能的互补性,并说明了利用算法组合进行更有效的局部稳健性验证的潜力。我们使用各种性能度量来量化这种互补性,例如Shapley值。此外,我们证实了这样一种观点,即大多数算法只支持基于ReLU的网络,而其他激活函数仍然不受支持。 被动设计下回归函数最小值和最小值的估计 http://jmlr.org/papers/v25/22-1396.html http://jmlr.org/papers/volume25/22-1396/22-1396.pdf 2024 Arya Akhavan、Davit Gogolashvili、Alexandre B.Tsybakov 我们提出了一种新的方法,从随机噪声污染的观测值中估计光滑强凸回归函数的极小值和极小值。我们的估价师$\boldsymbol{z} _n(n)极小值$\boldsymbol{x}^*$的$基于投影梯度下降的版本,梯度由正则化局部多项式算法估计。接下来,我们提出了估计回归函数$f$的最小值$f^*$的两阶段过程。在第一阶段,我们构造了$\boldsymbol{x}^*$的足够准确的估计量,例如,它可以是$\bolssymbol{z} _n(n)$. 在第二阶段,我们使用速率最优非参数过程估计第一阶段获得的点处的函数值。我们导出了$\boldsymbol的二次风险和优化风险的非渐近上界{z} _n(n)$,以及估计$f^*$的风险。我们建立了极大极小下界,表明在一定的参数选择下,所提出的算法在光滑和强凸函数类上达到了极大极小最优收敛速度。 具有异质互惠性的随机网络建模 http://jmlr.org/papers/v25/22-1317.html http://jmlr.org/papers/volume25/22-1317/22-1317.pdf 2024 Daniel Cirkovic,王田东 互惠性,即个人镜像行为的倾向,是描述社交网络中信息交换的一个关键指标。社交网络中的用户倾向于参与不同程度的互惠行为。这种行为的差异可能表明存在着以不同速率回报链接的社区。在这篇论文中,我们开发了一种方法来模拟不断增长的社交网络中的各种互惠行为。特别地,我们提出了一个具有异质互惠的偏好依恋模型,该模型模拟了用户对热门用户的吸引力,以及他们相互交换链接的异质性。我们比较了用于大型网络的贝叶斯和频率模型拟合技术,以及计算效率高的变分方案。社区数量已知和未知的情况都被考虑在内。我们将提出的方法应用于分析用户具有非一致互惠行为模式的Facebook和Reddit网络。拟合模型捕获了数据集中经验学位分布的重尾性质,并识别了多组用户,这些用户在回复和接收对墙贴和评论的回复方面存在不同的倾向。 勘探、开发和交战遗弃的多武器匪徒 http://jmlr.org/papers/v25/22-1251.html http://jmlr.org/papers/volume25/22-1251/22-1251.pdf 2024 杨紫仙、刘欣、雷英 推荐系统的传统多武装盗贼(MAB)模型假设用户在整个学习范围内都呆在系统中。在ALEKS等新的在线教育平台或TikTok等新的视频推荐系统中,用户在应用程序上花费的时间取决于推荐内容的吸引力。如果推荐的项目无法吸引用户,用户可以暂时离开系统。为了理解这些系统中的勘探、开发和参与,我们提出了一个新模型,称为MAB-a,其中“a”表示放弃,放弃概率取决于当前推荐的项目和用户的过去经验(称为状态)。我们提出了两种算法,ULCB和KL-ULCB,这两种算法都在用户喜欢之前推荐的项目时进行更多的探索(乐观),而在用户不喜欢之前推荐项目时进行更少的探索(悲观)。我们证明了ULCB和KL-ULCB都实现了对数后悔,$O(\log K)$,其中$K$是访问次数(或集数)。此外,KL-ULCB下的后悔约束是渐近尖锐的。我们还将所提出的算法扩展到一般状态设置。仿真结果表明,与传统的UCB和KL-UCB算法以及基于Q学习的算法相比,该算法的遗憾率显著降低。 混合模型中非参数极大似然估计的高效可扩展计算 http://jmlr.org/papers/v25/22-1120.html http://jmlr.org/papers/volume25/22-1210/21-120.pdf 2024 张杨静、崔莹、森菩萨、金传多 本文主要研究多元混合模型中非参数最大似然估计量的计算。我们的方法通过为NPMLE设置固定支持点并优化混合比例来离散这个无限维凸优化问题。我们提出了一种高效且可扩展的基于牛顿的增广拉格朗日方法(ALM)。我们的算法优于最先进的方法(Kim等人,2020;Koenker和Gu,2017),能够处理大约10^6$个数据点和大约10^4$个支持点。我们的方法的一个关键优势是它战略性地利用了解的稀疏性,从而在Hessian计算中实现了结构化稀疏性。因此,与mixsqp方法相比,我们的算法在$m$方面表现出更好的伸缩性(Kim等人,2020)。计算出的NPMLE可以直接应用于经验贝叶斯框架下的观测值去噪。在此背景下,我们提出了新的去噪估计及其一致性估计。为了说明ALM的效率,我们进行了大量的数值实验。特别是,我们使用我们的方法分析了两个天文学数据集:(i)Gaia-TGAS目录(Anderson等人,2018),其中包含大约1.4美元乘以10^6美元的二维数据点,以及(ii)APOGEE调查的数据集(Majewski等人,2017)大约2.7美元乘以10^4$数据点。 去相关变量重要性 http://jmlr.org/papers/v25/22-0801.html http://jmlr.org/papers/volume25/22-0801/22-0801-pdf 2024 伊莎贝拉·威尔迪内利(Isabella Verdinelli),拉里·瓦瑟曼(Larry Wasserman) 由于黑箱预测方法(如随机森林和神经网络)的广泛使用,人们对开发量化变量重要性的方法重新产生了兴趣,这是可解释预测更广泛目标的一部分。一种流行的方法是根据从回归模型中删除协变量来定义变量重要性参数,称为LOCO(遗漏COvariates)。这本质上是$R^2$的非参数版本。这个参数很一般,可以用非参数方法估计,但很难解释,因为它受到协变量之间相关性的影响。我们提出了一种通过定义LOCO的修改版本来减轻相关性影响的方法。这个新参数很难非参数估计,但我们展示了如何使用半参数模型估计它。 低库MDP中的无模型表示学习与探索 http://jmlr.org/papers/v25/22-0687.html http://jmlr.org/papers/volume25/22-0687/22-068.pdf 2024 Aditya Modi、Jinglin Chen、Akshay Krishnamurthy、Nan Jiang、Alekh Agarwal 低阶MDP已经成为研究表征学习和强化学习探索的重要模型。在已知的表示法下,存在几种无模型勘探策略。相反,用于未知表示设置的所有算法都是基于模型的,因此需要能够对整个动力学建模。在这项工作中,我们提出了第一个用于低阶MDP的无模型表示学习算法。关键的算法贡献是一个新的极小极大表示学习目标,为此我们提供了在统计和计算特性方面具有不同权衡的变体。我们将此表示学习步骤与探索策略交织在一起,以无报酬的方式覆盖状态空间。由此产生的算法具有可证明的采样效率,并且能够适应一般函数近似以适应复杂环境。 基于投影幂法的相关高斯-维格纳模型种子图匹配 http://jmlr.org/papers/v25/22-0402.html http://jmlr.org/papers/volume25/22-00402/22-00402.pdf 2024 Ernesto Araya、Guillaume Braun、Hemant Tyagi 在图匹配问题中,我们观察到两个图$G和H$,目标是在它们的顶点之间找到一个赋值(或匹配),从而使边缘一致性的某些度量达到最大。在这项工作中,我们假设观察到的对$G,H$是从相关高斯-维格纳(CGW)模型(一种流行的相关加权图模型)中得出的,其中$G$和$H$的邻接矩阵的项是独立的高斯数,并且$G$的每条边与$H$中的一条边相关(由未知匹配确定)用[0,1)$中的参数$\sigma描述边缘相关性。本文分析了投影幂法(PPM)作为种子图匹配算法的性能,其中给出了一个初始的部分正确匹配(称为种子)作为附带信息。我们证明,如果种子足够接近地-路匹配,那么PPM以较高的概率迭代改进种子并在$O(\logn)$迭代中恢复地-路(部分或完全)匹配。我们的结果证明,PPM即使在常数$\sigma$的情况下也能工作,从而将(Mao et al.,2023)中对稀疏相关Erdos-Renyi(CER)模型的分析扩展到(稠密)CGW模型。作为我们分析的副产品,我们看到PPM框架概括了一些最先进的种子图匹配算法。我们用合成数据的数值实验来支持和补充我们的理论发现。 具有熵正则化的竞争博弈的快速策略外梯度方法 http://jmlr.org/papers/v25/21-205.html http://jmlr.org/papers/volume25/21-2205/21-1205.pdf 2024 岑世聪、魏玉婷、池跃杰 本文研究了以两层零和对策形式计算竞争对策均衡的问题,这通常被建模为具有概率单纯形约束的约束鞍点优化问题。尽管最近在理解无约束环境下外梯度方法的最后一次收敛性方面做出了努力,但这些方法在约束环境下的理论基础,尤其是那些使用乘法更新的方法,仍然非常不足,即使目标函数是双线性的。基于熵正则化在单智能体强化学习和博弈论中的算法作用,我们开发了可证明有效的外梯度方法,以线性速率找到量子响应平衡(QRE),即具有熵正则化的零和双层矩阵博弈的解。提出的算法可以以分散的方式实现,其中每个玩家使用自己的收益迭代执行对称和乘法更新,而无需直接观察对手的行为。此外,通过控制熵正则化的旋钮,所提出的算法可以在不假设纳什均衡唯一的情况下,以次线性速率定位未正则化矩阵对策的近似纳什均衡。我们的方法还为以类似速率求解(熵正则化)零和马尔可夫博弈提供了有效的策略外梯度算法。我们所有的收敛速度几乎都是无量纲的,与状态空间和动作空间的大小以及对数因子无关,这突出了熵正则化对加速收敛的积极作用。 仿冒的力量:排名算法、增强设计和对称统计的影响 http://jmlr.org/papers/v25/21-1137.html http://jmlr.org/papers/volume25/21-1137/21-1137.pdf 2024 郑特蕾西·柯、刘军、马育聪 敲除滤波器是一种用于高维线性模型的最新错误发现率(FDR)控制方法。我们指出,仿冒有三个关键组成部分:排名算法、增强设计和对称统计,每个组成部分都允许多项选择。通过考虑这三种成分的不同组合,我们获得了一组仿冒变体。所有这些变量都保证了有限样本FDR控制,我们的目标是比较它们的能力。我们假设回归系数为稀有弱信号模型,并通过推导假阳性率和假阴性率的显式公式,比较不同敲除变体的功效。我们的结果为在目标水平上控制FDR时如何提高功率提供了新的见解。我们还比较了仿冒的威力及其propostype,该方法使用相同的排名算法,但可以达到理想的阈值。这一比较揭示了人们通过寻找数据驱动的阈值来控制FDR所付出的额外代价。 有限和优化问题的复杂度下限:结果和构造 http://jmlr.org/papers/v25/21-0264.html http://jmlr.org/papers/volume25/21-0264/21-0244.pdf 2024 韩玉泽、谢光增、张志华 本文研究了有限和优化问题的复杂度下限,其中目标是$n$个独立分量函数的平均值。我们考虑一种所谓的近端增量一阶预言(PIFO)算法,该算法利用PIFO提供的单个分量函数的梯度和近端信息来更新变量。为了合并无环方法,我们还允许PIFO算法偶尔获得完整的梯度。我们提出了一种构造硬实例的新方法,将经典实例的三对角矩阵划分为$n$组。这种构造对PIFO算法的分析很友好。基于这种构造,我们建立了有限和极小极大优化问题的复杂度下限,当目标是凸凹或非凸凹且分量函数类是$L$-平均光滑的。这些边界中的大多数几乎与现有的上限匹配,直到对数因子。我们还导出了在光滑性和平均光滑性假设下有限和最小化问题的类似下界。我们的下界意味着,用于平滑函数的近端神谕并不比梯度神谕强大多少。 监督分类中的真实性问题 http://jmlr.org/papers/v25/19-301.html http://jmlr.org/papers/volume25/19-301/19-301.pdf 2024 乔纳森·K·苏 理想的监督分类假设已知正确的标签,但在实践中可能会出现各种真实问题:噪声标签;样品的多个相互冲突的标签;标签缺失;以及不同样品的不同贴标器组合。之前的工作引入了一个噪声-标签模型,该模型将观察到的噪声标签视为以未观察到的正确标签为条件的随机变量。它主要关注于估计噪声标签和类先验的条件分布,以及估计正确的标签或使用噪声标签进行训练。以一种互补的方式,在给定条件分布和类先验的情况下,我们将估计理论应用于分类器测试、训练和比较不同的标注器组合。首先,对于二元分类,我们构建了一个测试模型,并推导出准确度、精确度、召回率、误报概率和F分数的近似边际后验,以及ROC和精确度召回分析的联合后验。我们提出了最小均方误差(MMSE)测试,该测试使用经验贝叶斯算法估计测试模型参数,然后计算度量的最佳点估计和可信区域。我们将该方法扩展到多类分类,以获得准确度和单个混淆矩阵元素的最佳估计。其次,我们提出了一个统一的训练观点,涵盖概率(即区分性或生成性)和非概率模型。对于前者,我们调整了真实问题的最大似然或最大后验训练;对于后者,我们建议使用MMSE训练,以最小化MMSE对经验风险的估计。我们还描述了与现有基础设施兼容的次优培训。第三,我们观察到,相互信息可以让人将任何贴标器组合表示为等效的单个贴标器,这意味着多个平庸的贴标器可以像单个专家贴标器一样提供信息,也可以比单个专家贴牌器提供更多信息。实验证明了该方法的有效性并证实了其意义。