跳到内容

网络实验室/增强理论

存储库文件导航

了解数据增强

Lin,C.H.、Kaushik,C.、Dyer,E.L.和Muthukumar,V.(2022年)。数据增强的好的方面、坏的方面和丑陋的方面:隐式光谱正则化的观点。arXiv预打印arXiv:2210.05021。

为什么要增加数据?

数据增强(DA)是支持现代机器性能的强大工具学习。传统上,计算机视觉中的特定增强,如平移和缩放据信通过从相同分布生成新的(人工的)数据来提高泛化能力。然而,这一传统观点并不能解释普遍增援的成功在现代机器学习中(例如随机掩蔽、剪切、混合),这大大改变了训练数据分发。在这项工作中,我们开发了一个新的理论框架来描述一类DA对低参数和高参数线性模型的影响一般化。我们的框架揭示了DA通过一个两种不同效果的组合:a)操纵特征值的相对比例数据协方差矩阵以训练数据相关的方式,以及b)一致增强通过岭回归得到数据协方差矩阵的全谱。这些影响,当应用于流行的增强时,会产生各种各样的现象,包括过度参数化和欠参数化状态和回归和分类任务之间的差异。我们的框架强调了细微差别DA有时会对泛化产生令人惊讶的影响,并作为小说的试验台增强设计。

线性模型的数据增强效果

我们表明,DA对模型泛化产生了两个主要影响:1.强度等于训练样本数的L2正则化2.数据频谱操作在下图中,我们通过随机旋转增强显示了修改后的数据频谱,而在右侧,我们记录了三种不同增强的偏差/方差分布,从高斯噪声注入(N)、随机掩码(M)到随机旋转(R)。

修正的随机旋转谱 偏差/方差分布

新的泛化分解

与传统的经验风险最小化分析相比,泛化分析需要分析数据依赖正则化器。因此,我们建议将MSE分解为偏差-方差-近似误差,以便于泛化分析。近似误差来自于用确定性矩阵对数据增强引起的随机正则化子进行近似的误差。下图表明,与偏差和方差相比,近似误差的大小可以忽略不计。Bias-Var-Approx.Err分解概述

引用

如果您发现代码对您的研究有用,请考虑引用我们的工作:

@{临2021,title={数据增强的优点、缺点和缺点:隐式谱正则化视角},作者={Chi-Heng Lin、Chiraag Kaushik、Eva L.Dyer和Vidya Muthukumar},}

贡献者

该项目由开发池亨林,Chiraag Kaushik,伊娃·L·戴尔乔治亚理工学院的维迪亚·穆图库马尔。

关于

未提供描述、网站或主题。

资源

星星

观察者

叉子

发布

未发布版本

包装

未发布包