A survey on Image Data Augmentation for Deep Learning

Shorten, Connor; Khoshgoftaar, Taghi M.

doi:10.1186/s40537-019-0197-0

调查报告
开放式访问
出版：2019年7月6日

用于深度学习的图像数据增强研究综述

大数据杂志 体积 6，物品编号：60(2019)引用这篇文章

59.8万访问
9096引文
114海拔高度
韵律学细节

摘要

深度卷积神经网络在许多计算机视觉任务中表现得非常好。然而，这些网络严重依赖大数据来避免过拟合。过度拟合是指网络学习方差很高的函数，以便对训练数据进行完美建模的现象。不幸的是，许多应用领域无法访问大数据，例如医学图像分析。本调查的重点是数据增强，这是一种解决有限数据问题的数据空间解决方案。数据增强包括一系列技术，这些技术可以提高训练数据集的大小和质量，从而可以使用它们构建更好的深度学习模型。本综述中讨论的图像增强算法包括几何变换、颜色空间增强、核滤波器、混合图像、随机擦除、特征空间增强、对抗训练、生成性对抗网络、神经风格转移和元学习。基于GAN的增强方法的应用在本调查中有大量介绍。除了增强技术之外，本文还将简要讨论数据增强的其他特性，如测试时间增强、分辨率影响、最终数据集大小和课程学习。本调查将介绍数据增强的现有方法、有希望的发展以及实施数据增强的元级决策。读者将了解数据增强如何提高模型的性能，并扩展有限的数据集以利用大数据的功能。

介绍

深度学习模型在区分性任务方面取得了令人难以置信的进展。这得益于深度网络架构的进步、强大的计算和对大数据的访问。由于卷积神经网络（CNN）的发展，深度神经网络已成功应用于计算机视觉任务，如图像分类、目标检测和图像分割。这些神经网络利用参数化、稀疏连接的核来保持图像的空间特征。卷积层依次降低图像的空间分辨率，同时扩展其特征图的深度。这一系列的卷积变换可以创建比手工制作的图像更低维、更有用的图像表示。CNN的成功激发了人们对将深度学习应用于计算机视觉任务的兴趣和乐观情绪。

有许多研究分支希望通过将深度卷积网络应用于计算机视觉任务来改进当前的基准测试。提高这些模型的泛化能力是最困难的挑战之一。泛化性是指当根据之前看到的数据（训练数据）与从未看到的数据进行评估时，模型的性能差异（测试数据）。泛化能力差的模型过度提供了训练数据。发现过拟合的一种方法是在训练期间绘制每个阶段的训练和验证精度。下图描述了在训练阶段可视化这些精度时，过拟合可能会是什么样子（图1).

为了构建有用的深度学习模型，验证错误必须随着训练错误的增加而不断减少。数据增强是实现这一点的一种非常强大的方法。增加的数据将代表一组更全面的可能数据点，从而将训练集和验证集以及任何未来测试集之间的距离降至最低。

本次调查的重点是数据增强，它并不是唯一一种用于减少过拟合的技术。以下几段将介绍其他可用的解决方案，以避免深度学习模型中的过拟合。此列表旨在让读者更广泛地了解数据增强的上下文。

许多其他提高泛化性能的策略都关注模型的体系结构本身。这导致AlexNet的一系列越来越复杂的架构[1]至VGG-16[2]、ResNet[三]，Inception-V3[4]、和DenseNet[5].已经开发了诸如辍学正则化、批量规范化、转移学习和预训练等功能性解决方案，以尝试将深度学习扩展到较小数据集上的应用。下文简要介绍了这些过盈解决方案。Kukacka等人对深度学习中的正则化方法进行了全面调查[6].对这些过拟合解决方案的了解将使读者了解其他现有工具，从而构建数据增强和深度学习的高级上下文。

辍学[7]是一种正则化技术，在训练期间将随机选择的神经元的激活值归零。这种约束迫使网络学习更健壮的特征，而不是依赖网络中一小部分神经元的预测能力。Tompson等人[8]将此思想扩展到带有Spatial Dropout的卷积网络，该网络会删除整个特征映射，而不是单个神经元。
批量规范化[9]是另一种规范化层中激活集的正则化技术。归一化的工作原理是从每次激活中减去批次平均值，然后除以批次标准偏差。这种标准化技术与标准化一起，是像素值预处理的标准技术。
转移学习[10,11]是另一个防止过拟合的有趣范例。转移学习通过在大型数据集（如ImageNet）上训练网络来工作[12]然后使用这些权重作为新分类任务中的初始权重。通常，只复制卷积层中的权重，而不是复制包括完全连接层的整个网络。这是非常有效的，因为许多图像数据集共享低级空间特征，这些特征可以通过大数据更好地学习。理解传输的数据域之间的关系是一项正在进行的研究任务[13].Yosinski等人[14]发现迁移性主要受到高层神经元的专门化和分裂共适应神经元的困难的负面影响。
训练前[15]在概念上与迁移学习非常相似。在Pretraining中，定义网络体系结构，然后在大型数据集（如ImageNet）上进行训练[12].这与转移学习不同，因为在转移学习中，VGG-16等网络架构[2]或ResNet[三]必须转移重量。预训练支持使用大数据集初始化权重，同时仍支持网络架构设计的灵活性。
一次性和零次学习[16,17]算法代表了用极其有限的数据构建模型的另一种范式。一拍学习通常用于面部识别应用程序[18].一种一次性学习的方法是使用暹罗网络[19]学习距离函数，即使网络只在一个或几个实例上训练过，也可以进行图像分类。另一种非常流行的一次性学习方法是使用记忆增强网络[20].零击学习是一种更极端的范例，其中网络使用输入和输出向量嵌入，如Word2Vec[21]或GloVe[22]基于描述性属性对图像进行分类。

与上述技术相比，数据增强从问题的根源训练数据集着手处理过拟合问题。这是在假设通过增强可以从原始数据集中提取更多信息的情况下完成的。这些增强通过数据扭曲或过采样人为地增大了训练数据集的大小。数据扭曲增强会变换现有图像，从而保留其标签。这包括几何和颜色变换、随机擦除、对抗训练和神经风格转移等增强。过采样增强会创建合成实例并将其添加到训练集中。这包括混合图像、特征空间增强和生成性对抗网络（GAN）。过采样和数据扭曲增强并没有形成相互排斥的二分法。例如，可以使用随机裁剪来堆叠GAN样本，以进一步扩大数据集。有关最终数据集大小、测试时间增强、课程学习和分辨率影响的决策，请参见本调查“图像数据增强的设计考虑“第节。个人增强技术的描述将在“图像数据增强技术“第节。数据增强的快速分类如图所示2.

在讨论图像增强技术之前，最好先确定问题的背景，并考虑是什么使图像识别成为如此困难的任务。在经典的区分示例中，如猫与狗，图像识别软件必须克服视点、照明、遮挡、背景、比例等问题。数据增强的任务是将这些平移不变性烘焙到数据集中，以使生成的模型在面临这些挑战时仍能表现良好。

人们普遍认为，较大的数据集会产生更好的深度学习模型[23,24].然而，由于收集和标记数据的人工工作，组装巨大的数据集可能是一项非常艰巨的任务。有限的数据集是医学图像分析中一个特别普遍的挑战。鉴于大数据，深度卷积网络已被证明在医学图像分析任务中非常强大，如Esteva等人所证明的皮肤损伤分类[25].这启发了CNN在医学图像分析任务中的使用[26]如肝脏病变分类、脑部扫描分析、皮肤病变分类的持续研究等。研究的许多图像都来自计算机断层扫描（CT）和磁共振成像（MRI）扫描，这两种扫描都很昂贵，而且需要耗费大量人力。由于疾病罕见、患者隐私、医学专家对标签的要求以及进行医学成像过程所需的费用和人工努力，构建大型医学图像数据集尤其困难。这些障碍导致了从医学图像分类的应用角度对图像数据增强，特别是基于GAN的过采样进行了大量研究。

许多关于数据增强有效性的研究都利用流行的学术图像数据集来对结果进行基准测试。这些数据集包括MNIST手写数字识别、CIFAR-10/100、ImageNet、tiny-ImageNet-200、SVHN（街景门牌号）、Caltech-101/256、MIT地点、MIT-Adobe 5K数据集、Pascal VOC和Stanford Cars。最常讨论的数据集是CIFAR-10、CIFAR-100和ImageNet。开源数据集的扩展为研究人员提供了多种案例来比较数据增强技术的性能结果。像ImageNet这样的大多数数据集都会被归类为大数据。许多实验将自己限制在数据集的子集上，以模拟有限的数据问题。

除了关注有限的数据集之外，我们还将考虑类不平衡问题以及数据增强如何成为有用的过采样解决方案。类不平衡描述了一个大多数样本与少数样本的倾斜比率的数据集。Leevy等人[27]描述许多现有的解决方案，以解决跨数据类型的高级不平衡问题。我们的调查将展示如何使用数据增强实现图像数据中的类平衡过采样。

深度学习和神经网络模型的许多方面都与人类智能进行了比较。例如，在学习音乐的过程中，讲述了一个关于迁移学习的人类智慧轶事。如果两个人正在学习吉他，而其中一个人已经知道如何弹钢琴，那么钢琴演奏者很可能会更快地学会弹吉他。与学习音乐类似，一个能够对ImageNet图像进行分类的模型在CIFAR-10图像上的性能可能比具有随机权重的模型更好。

数据增强类似于想象或做梦。人类根据经验想象不同的场景。想象力帮助我们更好地了解我们的世界。数据增强方法（如GAN和神经风格转换）可以“想象”图像的变化，以便更好地理解图像。本文的其余部分安排如下：背景“旨在为读者提供数据增强和深度学习的历史背景。 “图像数据增强技术“详细讨论了每种图像增强技术以及实验结果。 “图像数据增强的设计考虑“讨论了增强的其他特性，如测试时增强和图像分辨率的影响。论文以“讨论“呈现材料的面积”未来的工作“、和”结论”.

背景

LeNet-5中可以找到数据扭曲形式的图像增强[28].这是CNN在手写数字分类中的首批应用之一。在过采样应用中也研究了数据增强。过采样是一种用于对不平衡的类分布重新采样的技术，这样模型就不会过分偏向于将实例标记为多数类类型。随机过采样（ROS）是一种简单的方法，它从少数类中随机复制图像，直到达到所需的类比率。智能过采样技术可以追溯到Chawla等人开发的SMOTE（合成少数民族过采样技术）[29].SMOTE与Borderline-SMOTE的扩展[30]通过k-Nearest Neighbors从现有实例中插入新点来创建新实例。该技术的主要重点是缓解由于类不平衡而导致的问题，SMOTE主要用于表格和矢量数据。

Krizhevsky等人开发的AlexNet CNN架构[1]通过将卷积网络应用于ImageNet数据集，彻底改变了图像分类。他们在实验中使用了数据增强，将数据集大小增加了2048个数量级。这是通过随机裁剪224来完成的 × 224 来自原始图像的面片，水平翻转它们，并使用PCA颜色增强更改RGB通道的强度。这种数据增强有助于减少深度神经网络训练时的过拟合。作者声称，他们的增强将模型的错误率降低了1%以上。

此后，GAN于2014年推出[31]，神经风格转换[32]2015年，以及神经架构搜索（NAS）[33]2017年。关于GAN扩展的各种工作，如DCGAN、CycleGAN和渐进生长GAN[34]分别于2015年、2017年和2017年出版。Johnson等人在《感知损失》一书中加快了神经风格转移的速度[35]2016年。将NAS中的元学习概念应用于数据增强已越来越受到神经增强等工作的欢迎[36]、智能增强[37]和自动增强[38]分别于2017年、2017年和2018年出版。

自2012年CNN如此流行以来，将深度学习应用于医学成像一直是CNN的热门应用。随着Esteva等人对皮肤科级别皮肤癌检测的演示，深度学习和医学成像越来越受欢迎[25]2017年。

Yi等人的一项调查充分证明了GAN在医学成像中的应用[39].本调查涵盖了GAN在重建中的应用，如CT去噪[40]，加速磁共振成像[41]、PET去噪[42]，以及超分辨率GAN在视网膜血管分割中的应用[43].此外，Yi等人[39]涵盖GAN图像合成在医学成像应用中的使用，如大脑MRI合成[44,45]，肺癌诊断[46]，高分辨率皮肤损伤合成[47]和胸片异常分类[48].Frid-Adar等人使用了基于GAN的图像合成数据增强[49]2018年进行肝脏病变分类。这将分类性能从使用经典增强的78.6%的灵敏度和88.4%的特异性提高到使用基于GAN的数据增强的85.7%的灵敏度和92.4%的特异性。

大多数增强功能都侧重于改进图像识别模型。图像识别是指模型在给定输入图像的情况下预测输出标签，如“狗”或“猫”。

然而，有可能将图像识别的结果扩展到其他计算机视觉任务，例如由YOLO算法领导的目标检测[50]，R-CNN[51]，快速R-CNN[52]和更快的R-CNN[53]或语义分割[54]包括U-Net等算法[55].

图像数据增强技术

最早显示数据增强有效性的演示来自简单的转换，如水平翻转、颜色空间增强和随机裁剪。这些变换对前面讨论的许多不变性进行编码，这些不变性给图像识别任务带来了挑战。本调查中列出的增强包括几何变换、颜色空间变换、核滤波器、混合图像、随机擦除、特征空间增强、对抗训练、基于GAN的增强、神经风格转移和元学习方案。本节将解释每个增强算法的工作原理，报告实验结果，并讨论增强技术的缺点。

基于基本图像处理的数据增强

几何变换

本节介绍了基于几何变换和许多其他图像处理功能的不同增强。下面讨论的增强类型的特点是易于实现。理解这些转换将为进一步研究数据增强技术提供有用的基础。

我们还将从应用的“安全性”方面描述不同的几何增强。数据增强方法的安全性是指其在转换后保留标签的可能性。例如，在ImageNet挑战（如猫对狗）中，旋转和翻转通常是安全的，但在数字识别任务（如6对9）中则不安全。非标签保留转换可能会增强模型输出响应的能力，表明它对其预测不自信。然而，实现这一点需要改进标签[56]后增强。如果非标签保留变换后的图像标签类似于[0.5 0.5]，则该模型可以学习更稳健的置信预测。然而，为每一个非安全数据增强构建精确的标签是一个计算昂贵的过程。

由于为增强后的数据构建精确标签的挑战，考虑增强的“安全性”非常重要。这在一定程度上取决于领域，为开发可推广的增强策略提供了挑战（请参阅AutoAugment[38]进一步探索寻找可推广的增强）。没有任何图像处理功能不能在某种失真程度上导致标签更改变换。这说明了增强的数据特定设计以及开发通用增强策略的挑战。这是关于下列几何增强的一个重要考虑因素。

翻转

水平轴翻转比垂直轴翻转更常见。此增强是最容易实现的增强之一，并且在CIFAR-10和ImageNet等数据集上证明非常有用。在涉及文本识别的数据集（如MNIST或SVHN）上，这不是一个标签保护转换。

色空间

数字图像数据通常编码为尺寸张量（高度×宽度×颜色通道）。在颜色通道空间中执行增强是另一种非常实用的策略。非常简单的颜色增强包括隔离单个颜色通道，如R、G或B。通过隔离该矩阵并从其他颜色通道中添加2个零矩阵，可以将图像快速转换为一个颜色通道中的表示。此外，可以使用简单的矩阵操作轻松地操纵RGB值，以增加或降低图像的亮度。更高级的颜色增强来自于导出描述图像的颜色直方图。更改这些直方图中的强度值会导致照明变化，例如照片编辑应用程序中使用的照明。

裁剪

裁剪图像可以作为高度和宽度维度混合的图像数据的实际处理步骤，方法是裁剪每个图像的中心块。此外，还可以使用随机裁剪来提供与翻译非常相似的效果。随机裁剪和平移之间的对比是，裁剪将减小输入的大小，例如（256256）→（224，224），而平移保留图像的空间维度。根据为种植选择的减少阈值，这可能不是一种标签保护转换。

旋转

旋转增强是通过在1°和359°之间的轴上向右或向左旋转图像来完成的。旋转度参数在很大程度上决定了旋转增强的安全性。轻微旋转，如1到20或− 1 至− 20 在诸如MNIST之类的数字识别任务中可能有用，但随着旋转度的增加，数据的标签在转换后不再保留。

翻译

向左、向右、向上或向下移动图像是一种非常有用的转换，可以避免数据中的位置偏差。例如，如果一个数据集中的所有图像都是居中的，这在人脸识别数据集中很常见，这就需要在完全居中的图像上测试模型。当原始图像沿某个方向平移时，剩余的空间可以用常数（如0 s或255 s）填充，也可以用随机或高斯噪声填充。此填充保留图像后增强的空间维度。

噪声注入

噪声注入包括注入通常从高斯分布中提取的随机值矩阵。Moreno-Beare等人对噪声注入进行了测试[57]UCI存储库中的九个数据集[58].向图像中添加噪声可以帮助CNN学习更健壮的特征。

对于训练数据中存在的位置偏差，几何变换是非常好的解决方案。有许多潜在的偏差来源，可能会将训练数据的分布与测试数据分开。如果存在位置偏差，例如在人脸识别数据集中，每个人脸都在框架中完美居中，那么几何变换是一个很好的解决方案。除了克服位置偏差的强大能力外，几何变换也很有用，因为它们很容易实现。有许多图像处理库可以使水平翻转和旋转等操作轻松开始。几何变换的一些缺点包括额外的内存、变换计算成本和额外的训练时间。必须手动观察一些几何变换，如平移或随机裁剪，以确保它们没有改变图像的标签。最后，在包括医学图像分析在内的许多应用领域中，使训练数据与测试数据保持距离的偏差比位置和平移方差更为复杂。因此，几何变换可以在何时何地应用的范围相对有限。

颜色空间变换

图像数据编码为3个堆叠矩阵，每个矩阵的大小和高度 × 宽度。这些矩阵表示单个RGB颜色值的像素值。照明偏差是图像识别问题中最常见的挑战之一。因此，颜色空间变换（也称为光度变换）的有效性概念化相当直观。对于过亮或过暗的图像，一个快速的解决方法是在图像中循环，并将像素值减少或增加一个恒定值。另一种快速的颜色空间操作是拼接出单个RGB颜色矩阵。另一种变换是将像素值限制为某个最小值或最大值。数字图像中颜色的内在表示有助于许多增强策略。

颜色空间变换也可以从图像编辑应用程序中派生出来。每个RGB颜色通道中的图像像素值被聚合以形成颜色直方图。可以操纵此直方图以应用过滤器来更改图像的颜色空间特征。

通过色彩空间的增强，创意有很大的自由度。改变图像的颜色分布可以很好地解决测试数据面临的照明挑战（图三,4).

通过将RGB矩阵转换为单个灰度图像，可以简化图像数据集的表示。这会产生较小的图像，高度×宽度×1，计算速度更快。然而，这已被证明会降低性能准确性。Chatifled等人[59]找到了~ 3% 灰度和RGB图像分类精度下降及其在ImageNet上的实验[12]和PASCAL[60]VOC数据集。除了RGB与灰度图像，还有许多其他表示数字颜色的方法，如HSV（色调、饱和度和值）。Jurio等人[61]探索图像分割在从RGB到YUV、CMY和HSV的许多不同颜色空间表示上的性能。

与几何变换类似，颜色空间变换的缺点是增加了内存、变换成本和训练时间。此外，颜色转换可能会丢弃重要的颜色信息，因此并不总是标签保护转换。例如，当减少图像的像素值以模拟较暗的环境时，可能无法看到图像中的对象。另一个非标签保存颜色转换的间接例子是图像情感分析[62].在此应用程序中，CNN尝试直观地预测图像的情绪得分，例如：高度负面、消极、中性、积极或高度积极。阴性/高度阴性图像的一个指标是有血。血的深红色是区分血与水或油漆的关键成分。如果颜色空间变换反复改变颜色空间，使模型无法识别绿色油漆中的红色血液，则模型在图像情感分析中的表现将很差。实际上，颜色空间转换将消除数据集中存在的颜色偏差，从而有利于空间特征。然而，对于某些任务，颜色是一个非常重要的独特特征。

几何变换与光度变换

Taylor和Nitschke[63]对几何变换和光度（颜色空间）变换的有效性进行了比较研究。研究的几何变换是翻转的 30°至30°旋转和裁剪。研究的颜色空间变换包括颜色抖动、（随机颜色操作）、边缘增强和PCA。他们在Caltech101数据集上对这些增强进行了4倍交叉验证，筛选出8421张256大小的图像 × 256 （表1).

表1 Taylor和Nitschke在Caltech101上的数据增强实验结果[63]

全尺寸桌子

内核过滤器

内核滤波器是图像处理中一种非常流行的锐化和模糊图像的技术。这些过滤器通过滑动n个 × n个使用高斯模糊过滤器或高对比度垂直或水平边缘过滤器对图像进行矩阵处理，从而使图像更加模糊。直观地说，用于数据增强的模糊图像可能会导致在测试期间对运动模糊有更高的抵抗力。此外，为数据增强而锐化图像可能会导致封装有关感兴趣对象的更多细节。

锐化和模糊是将核过滤器应用于图像的一些经典方法。Kang等人[64]使用一个独特的内核过滤器进行实验，该过滤器在n个 × n个滑动窗。他们称这种增强技术为补丁洗牌规则化。通过在不同的过滤器大小和每一步对像素进行洗牌的概率进行实验，他们在CIFAR-10上实现了5.66%的错误率，而在不使用PatchShuffle Regularization的情况下实现了6.33%的错误率。实现这一点的超参数设置包括2个 × 2 过滤器和0.05的交换概率。这些实验是使用ResNet完成的[三]CNN架构（图5,6).

对于数据增强，内核过滤器是一个相对尚未探索的领域。这种技术的一个缺点是，它与CNN的内部机制非常相似。CNN具有参数化内核，可以学习逐层表示图像的最佳方法。例如，PatchShuffle Regularization之类的功能可以通过卷积层实现。这可以通过修改标准卷积层参数来实现，使填充参数保持空间分辨率，而后续激活层将像素值保持在0到255之间，这与将像素映射到0到1之间的值的sigmoid激活不同。因此，内核过滤器可以更好地实现为网络层，而不是通过数据增强添加到数据集。

混合图像

通过平均图像的像素值将图像混合在一起是一种非常违反直觉的数据增强方法。这样做产生的图像对于人类观察者来说并不是一个有用的转换。然而，伊努伊[65]演示了如何将样本配对发展为有效的增强策略。在这个实验中，从256幅图像中随机裁剪出两幅图像 × 256 至224 × 224 并随机水平翻转。然后通过平均每个RGB通道的像素值来混合这些图像。这会产生一个用于训练分类模型的混合图像。分配给新图像的标签与第一个随机选择的图像相同（图7).

在CIFAR-10数据集上，Ionue报告称，使用SamplePairing Data Augmentation技术时，错误率从8.22降低到6.93%。研究人员发现，在测试一个缩小的数据集时，效果更好，将CIFAR-10的总样本减少到1000个，每个类100个。通过减小数据集的大小，SamplePairing将错误率从43.1%降低到31.0%。减少的CIFAR-10结果证明了SamplePairing技术在有限的数据应用中的有用性（图8).

研究中发现的另一个细节是，混合来自整个训练集的图像，而不是来自完全属于同一类的实例，可以获得更好的结果。从大小为N的训练集开始，SamplePairing生成大小为N² + 此外，样本配对可以叠加在其他增强技术之上。例如，如果使用Krizhevsky等人在AlexNet论文中演示的增强[1]，2048年 × 数据集的增加可以进一步扩展到（2048×否）².

Summers和Dinneen进一步研究了以非直观方式混合图像的概念[66].他们研究了如何使用非线性方法将图像组合到新的训练实例中。与基线模型相比，他们使用的所有方法都产生了更好的性能（图9).

在测试的这些非线性增强中，最佳技术使CIFAR-10的误差从5.4%降至3.8%，CIFAR-100的误差从23.6%降至19.7%。以同样的方式，Liang等人[67]使用GAN生成混合图像。他们发现，在训练数据中包含混合图像减少了训练时间，增加了GAN样本的多样性。高桥和松原[68]尝试另一种混合图像的方法，即随机裁剪图像并将裁剪的图像连接在一起以形成新图像，如下所示。他们的技术结果，以及样本配对和混合增强，证明了大数据与深度学习模型有时具有不合理的有效性（图10).

这种技术的一个明显缺点是，从人类的角度来看，它几乎没有意义。混合图像的性能提升很难理解或解释。对此的一种可能解释是，数据集大小的增加导致了低级特征（如线和边）的更健壮表示。与迁移学习和预训练方法相比，测试其性能是未来工作的一个有趣领域。迁移学习和预训练是学习细胞神经网络低水平特征的其他技术。此外，如果我们对训练数据进行分区，使前100个时间段使用原始图像和混合图像进行训练，而最后50个时间段仅使用原始图像，那么可以看到性能如何变化。这些策略将在与课程学习相关的数据增强设计考虑中进一步讨论[69].此外，本文还将介绍Lemley等人开发的元学习技术[37]它使用神经网络学习图像的最佳混合。

随机擦除

随机擦除[70]是Zhong等人开发的另一种有趣的数据增强技术。受丢失正则化机制的启发，随机擦除可以被视为类似于丢失，除了在输入数据空间中，而不是嵌入到网络结构中。这项技术是专门设计用来应对遮挡带来的图像识别挑战的。遮挡是指物体的某些部分不清楚。随机擦除将通过强制模型学习有关图像的更多描述性特征来阻止这种情况的发生，从而防止其过度拟合图像中的某个视觉特征。特别是，除了遮挡带来的视觉挑战外，随机擦除是一种很有前途的技术，可以确保网络关注整个图像，而不仅仅是其中的一个子集。

随机擦除通过随机选择n来工作 × m个图像补丁，并使用0s、255s、平均像素值或随机值对其进行掩蔽。在CIFAR-10数据集上，这导致错误率从5.17降低到4.31%。最佳补片方法为随机值。填充方法和掩码的大小是实现过程中需要手工设计的唯一参数（图11,12).

随机擦除是一种数据增强方法，旨在通过改变输入空间直接防止过拟合。通过删除某些输入补丁，模型被迫找到其他描述性特征。这种增强方法也可以叠加在其他增强技术（如水平翻转或颜色过滤器）之上。随机擦除在CIFAR-10数据集上产生了最高的精确度。德弗里斯和泰勒[71]进行了一项名为Cutout Regularization的类似研究。与随机擦除研究一样，他们对图像的随机掩蔽区域进行了试验（表2).

表2断流正则化结果[104]，plus表示使用传统的增强方法、水平翻转和裁剪

全尺寸桌子

Mikolajcyzk和Grochowski[72]提出了一个有趣的想法，将随机擦除与用于图像修复的GAN相结合。图像修复描述了填充图像中缺失部分的任务。使用不同的GAN修补器集合，随机擦除增强可以引发非常有趣的推断。看看擦除不同形状的补丁（如圆圈）是否能取得更好的效果，这将是一件有趣的事情n个 × 米矩形。该方法的一个扩展是参数化随机擦除补丁的几何结构，并学习最佳擦除配置。

随机擦除的一个缺点是，它并不总是一个保留标签的变换。在手写数字识别中，如果“8”的顶部随机裁剪出来，它与“6”没有任何不同。在许多细粒度任务中，如斯坦福汽车数据集[73]，随机删除图像的部分（徽标等）可能会使汽车品牌无法识别。因此，根据数据集和任务，可能需要进行一些手动干预。

关于组合增广的一个注记

在所讨论的增强中，几何变换、颜色空间变换、核滤波器、混合图像和随机擦除，几乎所有这些变换都带有相关的畸变幅度参数。此参数对45°旋转和30°旋转之间的畸变差异进行编码。有了大量潜在的增强列表和一个基本上连续的量级空间，很容易将增强搜索空间的巨大规模概念化。合并诸如裁剪、翻转、颜色偏移和随机擦除等增强操作可能会导致数据集大小大幅膨胀。然而，这并不能保证是有利的。在数据非常有限的域中，这可能会导致进一步的过拟合。因此，重要的是要考虑搜索算法，以获得用于训练深度学习模型的最佳扩充数据子集。关于这个主题的更多信息将在数据增强的设计考虑中讨论。

基于深度学习的数据增强

要素空间增强

上面讨论的所有增强方法都应用于输入空间中的图像。神经网络在将高维输入映射为低维表示方面具有难以置信的强大功能。这些网络可以将图像映射到二进制类或n个 × 1 扁平层中的向量。可以操纵神经网络的顺序处理，以便将中间表示从整个网络中分离出来。可以提取和隔离全连接层中图像数据的低维表示。Konno和Iwazume[74]通过操纵神经网络的模块性来隔离和优化训练后的各个层，可以将CIFAR-100的性能从66%提高到73%。CNN高层中的低维表示称为特征空间。德弗里斯和泰勒[75]提出了一篇有趣的论文，讨论了在这个特征空间中的增强。这为数据增强的许多矢量操作打开了机会。

SMOTE是一种流行的增强功能，用于缓解阶级不平衡问题。通过连接k个最近的邻居以形成新实例。DeVries和Taylor讨论了添加噪声、插值和外推作为特征空间增强的常见形式（图13,14).

自动编码器的使用对于对数据执行特征空间增强特别有用。自动编码器的工作原理是让一半网络（编码器）将图像映射为低维矢量表示，以便另一半网络（解码器）可以将这些矢量重新构建为原始图像。此编码表示用于特征空间增强。

德弗里斯和泰勒[75]通过在每个样本的3个最近邻域之间进行外推来生成新数据，并将其结果与输入空间中的外推以及在输入空间中使用仿射变换进行比较，从而测试了他们的特征空间增强技术（表三).

表3 MNIST和CIFAR-10上特征与输入空间外推的实验性能结果[75]

全尺寸桌子

如果需要将新实例重新构建回输入空间，可以使用自动编码器实现特征空间增强。也可以仅通过从CNN中分离向量表示来进行特征空间增强。这是通过切断网络的输出层来实现的，这样输出是一个低维向量，而不是类标签。然后通过训练一个CNN，然后通过截断的CNN传递训练集来找到向量表示。这些向量表示可用于从朴素贝叶斯（Naive Bayes）、支持向量机（Support vector machine）或返回到全连接多层网络的任何机器学习模型的训练。该技术的有效性是未来工作的主题。

特征空间增强的一个缺点是很难解释矢量数据。可以使用自动编码器网络将新矢量恢复为图像；然而，这需要复制正在训练的CNN的整个编码部分。对于深度CNN，这将导致大量的自动编码器，而这些编码器的训练非常困难且耗时。最后，Wong等人[76]发现当可以在数据空间中变换图像时，数据空间增强将优于特征空间增强。

对抗训练

搜索可能的增强空间的解决方案之一是对抗性训练。对抗训练是一种使用两个或多个网络的框架，其损失函数中编码了不同的目标。本节将讨论使用对抗训练作为搜索算法以及对抗攻击现象。对抗性攻击由一个对手网络组成，该网络学习对图像的增强，从而导致对手分类网络中的错误分类。从对手网络的角度来看，这些仅限于噪声注入的对抗性攻击取得了惊人的成功。这是令人惊讶的，因为它完全违背了关于这些模型如何表示图像的直觉。对抗性攻击表明，图像的表示远不如预期的健壮。Moosavi-Dezfuli等人很好地证明了这一点[77]使用DeepFool，这是一个网络，它可以找到导致错误分类所需的最小可能噪声注入。Su等人[78]结果表明，仅改变一个像素，70.97%的图像就会被误分类。Zajac等人[79]仅限于图像边界的敌对攻击会导致错误分类。随着图像分辨率的提高，对抗性攻击的成功尤其被夸大了。

对手攻击可以是有针对性的也可以是无针对性的，这是指对手网络试图造成错误分类的考虑。与标准分类度量相比，对手攻击可以更好地说明弱决策边界。

除了作为评估指标，防御对抗性攻击外，对抗性训练还可以是搜索增强的有效方法。

通过限制对手网络可用的增强和失真集，它可以学习生成导致错误分类的增强，从而形成有效的搜索算法。这些增强对于加强分类模型中的弱点很有价值。因此，对抗训练可以成为一种有效的数据增强搜索技术。这与前面描述的传统增强技术形成了强烈对比。对抗性增强可能不代表测试集中可能出现的示例，但它们可以改善学习决策边界中的弱点。

Engstrom等人[80]表明简单的转换，如旋转和翻译，很容易导致深度CNN模型的错误分类。最糟糕的随机转换将MNIST的准确性降低了26%，CIFAR10降低了72%，ImageNet（排名前1）降低了28%。Goodfellow等人[81]生成对抗性示例以提高MNIST分类任务的性能。使用一种称为“快速梯度符号法”（maxout network）的技术生成对抗性示例[82]对89.4%的对抗性例子进行了错误分类，平均置信度为97.6%。该测试在MNIST数据集上进行。通过对抗训练，对抗性示例的错误率从89.4%下降到17.9%（图15).

Li等人[83]用一种新的对抗训练方法进行实验，并在原始测试数据和对抗实例上比较性能。下面显示的结果显示了在训练过程中预测对手攻击会如何显著降低攻击的成功率。

如表所示4实验中的对抗训练并没有提高测试的准确性。然而，它确实显著提高了对抗性示例的测试准确性。对抗性防御是评估深度学习模型的安全性和健壮性的一个非常有趣的主题。改进快速梯度符号法，DeepFool，由Moosavi-Dezfouli等人开发[77]，使用神经网络找出可能导致错误分类的最小噪声扰动。

表4显示对抗训练影响的测试精度，clean指原始测试数据，FGSM指快速梯度符号法得出的对抗示例，PGD指投影梯度下降得出的对抗实例[83]

全尺寸桌子

另一个可以在对抗性训练环境中使用的有趣框架是让对手更改训练数据的标签。Xie等人[84]介绍了DisturbLabel，一种在每次迭代时随机替换标签的正则化技术。这是一个向损失层添加噪声的罕见示例，而讨论的大多数其他增强方法都会向输入层或隐藏表示层添加噪声。基于LeNet的MNIST数据集[28]CNN架构DisturbLabel产生了0.32%的错误率，而基线错误率为0.39%。与0.39%的基线相比，DisturbLabel与Dropout Regularization相结合产生了0.28%的错误率。为了将其转化为对抗训练的上下文，一个网络将分类器的训练数据作为输入，并学习要翻转哪些标签，以最大化分类网络的错误率。

以噪声或增强搜索形式进行对抗训练的有效性仍然是一个相对较新的概念，尚未得到广泛的测试和理解。对抗性搜索添加噪声可以提高对抗性示例的性能，但尚不清楚这是否有助于减少过拟合。未来的工作旨在扩展对抗性攻击的抵抗力与测试数据集的实际性能之间的关系。

基于GAN的数据增强

数据增强的另一个令人兴奋的策略是生成建模。生成性建模是指从数据集中创建人工实例的实践，以便它们保留与原始集相似的特征。上述对抗性训练的原则产生了一种非常有趣且广受欢迎的生成性建模框架，称为GAN。Bowles等人[85]将GAN描述为从数据集中“解锁”附加信息的一种方式。GAN并不是唯一存在的生成性建模技术；然而，它们在计算速度和结果质量方面显著领先。

生成建模的另一个有用策略是可变自动编码器。GAN框架可以扩展以提高使用可变自动编码器生成的样本的质量[86].可变自动编码器学习数据点的低维表示。在图像域中，这转换了大小为的图像张量高度 × 宽度 × 颜色通道向下转换为大小的矢量n个 × 1,与关于特征空间增强的讨论内容相同。向量表示中的低维约束将导致较差的表示，尽管这些约束更适合使用t-SNE等方法进行可视化[87].想象一个大小为5的向量表示 × 1 由自动编码器创建。这些自动编码器可以接收标记数据的分布并将其映射到该空间。这些类可以包括“头部向左”、“头部居中”和“头部向右”。自动编码器学习这些数据点的低维表示，以便可以使用加减等矢量操作来模拟新实例的前视图三维旋转。通过将可变自动编码器的输出输入到GAN中，可以进一步提高其输出[31].此外，通过使用双向GAN，可以对GAN的噪声矢量输入进行类似的矢量操作过程[88].

GAN令人印象深刻的性能使人们更加关注如何将其应用于数据增强任务。这些网络能够生成新的训练数据，从而产生性能更好的分类模型。由Ian Goodfellow首次提出的GAN架构[31]是通过对抗训练进行生成性建模的框架。了解GAN最好的轶事是将警察和造假者进行类比。造假者（发电机网络）接受某种形式的输入。这可以是一个随机向量、另一个图像、文本等。造假者学会了赚钱，以至于警察（鉴别器网络）无法辨别钱是真的还是假的。真实或虚假的二分法类似于生成的实例是来自训练集还是由生成器网络创建的（图16).

伪造者与盗贼的类比是在网络入侵检测背景下理解GAN的无缝桥梁。Lin等人[89]使用发电机网络学习如何愚弄黑盒检测系统。这突出了GANs最有趣的特征之一。源自博弈论的分析工具，如极小极大策略和纳什均衡[90]建议生成器最终愚弄鉴别器。生成器在克服鉴别器方面的成功使其在生成建模方面非常强大。GAN是用于数据增强的最有前途的生成性建模技术。

一般的GAN架构在生成器和鉴别器网络中使用多层感知器网络。这能够在简单的图像数据集（例如MNIST手写数字）上生成可接受的图像。然而，对于更高分辨率、更复杂的数据集，它无法产生高质量的结果。在MNIST数据集中，每个图像只有28个 × 28 × 1 总共784像素。应用于MNIST数据的GAN能够产生令人信服的结果。然而，由于类内方差和分辨率较低，MNIST图像比其他图像数据集的挑战性要小得多，举几个不同的例子。这与大多数学术性计算机视觉论文（如ImageNet或CIFAR-10）中研究的其他数据集形成了强烈对比。为了便于即时参考，ImageNet图像的分辨率为256 × 256 × 3,总计196608个像素，与MNIST相比，像素数增加了250倍。

已经发表了许多研究论文，通过不同的网络架构、损失函数、进化方法等来修改GAN框架。这项研究显著提高了GAN创建的样本的质量。为了扩展GAN的概念并生成更高分辨率的输出图像，已经提出了许多新的架构，其中许多超出了本文的范围。在这些新体系结构中，DCGAN、渐进生长GAN、CycleGAN和条件GAN似乎在数据增强中具有最大的应用潜力。

DCGAN[91]提出了一种结构来扩展生成器和鉴别器网络的内部复杂性。该架构将细胞神经网络用于生成器和鉴别器网络，而不是多层感知器。DCGAN经过测试，在LSUN室内卧室图像数据集上生成结果，每张图像为64张 × 64 × 3,总共12288像素（MNIST中为784像素）。DCGAN背后的想法是增加生成器网络的复杂性，将输入投影到高维张量中，然后添加反褶积层，从投影张量到输出图像。这些反褶积层将在空间维度上扩展，例如从14×14×6至28×28×1，而卷积层将降低空间维数，例如从14×14×32到7×7×64。DCGAN架构提出了一种在GAN框架中使用卷积层来产生更高分辨率图像的策略（图17,18).

Frid-Adar等人[49]测试了使用DCGAN生成肝脏病变医学图像的有效性。他们使用上图中的架构生成64个 × 64 × 1 肝脏病变CT扫描的大小图像。他们的原始数据集包含182个CT扫描（53个囊肿、64个转移瘤和65个血管瘤）。在使用经典扩增技术获得78.6%的敏感性和88.4%的特异性后，他们观察到，一旦添加DCGAN生成的样本，敏感性和特异性分别增加到85.7%和92.4%。

另一种有趣的架构称为渐进式成长型GAN[34].该体系结构训练了一系列具有渐进分辨率复杂性的网络。这些分辨率范围为4×4至8×8以此类推，直到输出大小为1024 × 1024 实现了。这是建立在GAN可以接受图像作为输入以及随机向量的概念上的。因此，该系列GAN的工作原理是将低分辨率GAN的样本传递给高分辨率GAN。这在面部图像上产生了非常惊人的结果。

除了提高GAN的分辨率大小之外，另一种提高输出质量的有趣架构是CycleGAN[92]CycleGAN引入了一个附加的Cycle-Consistency损失函数来帮助稳定GAN训练。这适用于图像到图像的转换。神经风格转换[32]（将在下面的部分中进一步讨论），学习单个图像到单个图像的转换。然而，CycleGAN学会了从一个图像域转换到另一个域，例如从马到斑马。这是通过向前和向后一致性丢失功能实现的。如前所述，生成器将马的图像输入，并学习将它们映射到斑马，这样鉴别器就无法判断它们是否是斑马集合的一部分。在此之后，从马图像生成的斑马将通过一个网络传递，该网络将它们转换回马。第二个鉴别器确定这个重新翻译的图像是否属于马集。将这两种鉴别器损失合并，形成循环一致性损失。

Zhu等人对CycleGANs的使用进行了测试[93]在情感分类任务中。使用情感识别数据集FER2013[94]面部表情识别数据库，他们建立了一个CNN分类器来识别7种不同的情绪：愤怒、厌恶、恐惧、高兴、悲伤、惊讶和中性。这些类是不平衡的，CycleGAN被用作智能过采样的方法。

CycleGANs学会了域之间的非成对图像到图像转换。这个问题中的域的一个例子是中性到令人厌恶。CycleGAN学习将表示中性图像的图像转换为表示厌恶情绪的图像（图19,20).

使用CycleGANs将其他7个类的图像转换为少数类，对于提高CNN模型在情感识别方面的性能非常有效。采用这些技术，准确率提高了5-10%。为了进一步了解添加GAN生成的实例的有效性，使用了t-SNE可视化。t-SNE公司[87]是一种可视化技术，它学习将高维向量映射到低维空间，以便于可视化决策边界（图21).

用于数据增强的另一个有趣的GAN架构是条件GAN[95].条件GAN向生成器和鉴别器添加条件向量，以缓解模式崩溃问题。除了输入随机向量z（z）到生成器，条件GAN也输入年向量，它可能类似于一个热编码的类标签，例如[0 0 0 1 0]。这个类标签针对生成器和鉴别器的特定类（图22).

Lucic等人[96]试图比较新开发的GAN损失函数。他们进行了一系列测试，确定大多数损失函数可以通过足够的超参数优化和随机重启达到类似的分数。这表明，与生成器与鉴别器损失函数中的算法更改相比，增加的计算能力是一个更有希望的关注领域。

将GAN应用于数据增强并报告由此产生的分类性能的大部分研究都是在生物医学图像分析中进行的[39].这些论文展示了改进的分类边界，这些边界是通过使用来自GAN模型的真实数据和生成数据进行训练得到的。此外，一些论文通过可视化图灵测试来衡量GAN输出的质量。在这些测试中，该研究要求两位专家在医学图像任务中区分真实图像和人造图像，例如皮肤病变分类和肝癌检测。表5结果显示，第一和第二位专家只能正确地将62.5%和58.6%的GAN生成的肝脏病变图像标记为假图像。将图像标记为伪图像是指其来源于生成器，而不是实际的肝脏病变图像（表6；图23).

表5 Frid-Adar等人对DCGAN生成的肝脏病变图像进行的“视觉图灵测试”结果[139]

全尺寸桌子

表6不同DCGAN和WGAN的“视觉图灵测试”结果[104]-生成的脑肿瘤MR图像由Han等人提供[140]

全尺寸桌子

GAN样本可以作为一种过采样技术来解决类不平衡问题。Lim等人[97]显示如何使用GAN样本进行无监督异常检测。通过对概率较小的罕见正常样本进行过采样，GAN能够降低异常检测的假阳性率。他们使用Makhzani等人提出的对手自动编码器框架来实现这一点[98]（图24).

尽管GAN的潜力令人兴奋，但要从当前的尖端架构中获得高分辨率输出是非常困难的。增加生成器生成的图像的输出大小可能会导致训练不稳定和不收敛。GAN的另一个缺点是，它们需要大量数据进行训练。因此，根据初始数据集的限制程度，GAN可能不是一个实用的解决方案。Salimans等人[99]提供培训GAN的问题的更完整描述。

神经风格转换

神经风格转换[32]是深度学习能力最华丽的演示之一。总体思路是操作CNN中创建的图像的表示。神经风格转换（Neural Style Transfer）可能因其艺术应用而广为人知，但它也是数据增强的一个很好的工具。该算法通过操纵CNN上的顺序表示来工作，使得一张图像的风格可以转移到另一张图像，同时保留其原始内容。Li等人对支持神经风格转换的gram矩阵运算进行了更详细的解释[100]（图25).

重要的是，还要认识到Gatys等人提出的原始算法的进步，即快速风格转换[35].该算法将损失函数从像素损失扩展到感知损失，并使用前馈网络对图像进行风格化。这种感知损失是通过使用另一个预处理网络来解释的。在超分辨率应用中，感知损失超过像素损失的应用也显示出巨大的前景[101]以及风格转换。这种损失函数增强使样式转换运行得更快，增加了对实际应用程序的兴趣。此外，Ulyanov等人[102]发现将批规范化替换为实例规范化可以显著改进快速样式化（图26).

出于数据增强的目的，这有点类似于颜色空间照明变换。神经风格转换扩展了照明变化，并支持不同纹理和艺术风格的编码。这就使得数据增强的实践者在通过神经风格传输获取新图像时，需要决定从哪些风格中进行采样。

选择要采样的样式可能是一项具有挑战性的任务。对于自动驾驶汽车等应用程序，可以很直观地将训练数据转换为夜间到夏季或雨天到晴天的范围。然而，在其他应用程序域中，要转换到的样式集并不那么明显。为了便于实现，可以通过选择一组k个样式并将其应用于训练集中的所有图像。风格增强工作[103]，通过从79433幅艺术图像的分布中随机导出风格，避免了在数据集中引入新形式的风格偏见。在从模拟环境到真实世界的过渡过程中，测试了训练数据中的传输方式。这对于使用强化学习的机器人操作任务非常有用，因为在现实世界中进行训练时可能会损坏硬件。在物理模拟训练和实际应用中，许多约束（如低分辨率相机）导致这些模型的泛化能力较差。

Tobin等人[104]探索在训练模拟中使用不同风格的有效性，并在真实世界中实现目标定位任务的1.5cm精度。他们的实验将要在模拟中检测到的物体的位置和纹理以及背景中的纹理、照明、灯光数量和随机噪声随机化。他们发现，如果训练数据风格具有足够的可变性，那么现实世界只是模型的另一种变体。有趣的是，他们发现风格的多样性比在尽可能真实的环境中进行模拟更有效。这与Shrivastava等人的工作形成了对比[105]使用GAN使模拟数据尽可能真实（图27).

使用模拟数据建立计算机视觉模型已经得到了大量研究。这方面的一个例子来自Richter等人[106].他们使用现代开放式游戏（如《侠盗猎车手》）中的计算机图形来生成语义分割数据集。作者强调了构建这些像素级数据集所需的手动注释成本的轶事。他们提到了CamVid数据集[107]每个图像需要60分钟才能手动注释，Cityscapes数据集[108]每张图像需要90分钟。这种高人力和时间成本激励了合成数据集的使用和开发。神经风格转移是一种非常有趣的策略，可以提高模拟数据集的泛化能力。

神经风格传输数据增强的一个缺点是需要努力选择将图像传输到的风格。如果样式集太小，可能会在数据集中引入更多偏差。试图复制Tobin等人的实验[104]将需要大量额外的内存和计算来转换和存储每个图像中的79433个新图像。Gatys等人提出的原始算法[32]运行时间很慢，因此不适用于数据增强。约翰逊等人开发的算法[35]速度要快得多，但限制了向预先训练的一系列风格的转移。

元学习数据增强

深度学习研究中的元学习概念通常是指用神经网络优化神经网络的概念。自NAS发布以来，这种方法变得非常流行[33]来自佐夫和勒。Real等人[109,110]还展示了进化算法在架构搜索中的有效性。Salimans等人[111]直接比较进化策略和强化学习。强化学习的另一个有趣的替代方法是简单的随机搜索[112].使用进化和随机搜索算法是未来工作的一个有趣领域，但本调查中审查的元学习方案都是基于神经网络的梯度。

SIFT等特征工程的深度学习发展历史[113]和HOG[114]架构设计，如AlexNet[1]、VGGNet[2]和Inception-V3[4]，建议元架构设计是下一个范式转变。NAS采用了一种新的元学习体系结构方法，通过使用经过强化学习训练的循环网络来设计具有最佳准确性的体系结构。在CIFAR-10数据集上，这实现了3.65的错误率（图28).

本节将介绍三个使用元学习进行数据增强的实验。这些方法使用预处理的神经网络通过混合图像、神经风格转换和几何变换学习数据增强。

神经增强

神经风格传递算法需要两个参数来表示风格和内容损失的权重。Perez和Wang[36]提出了一种用于元学习的神经风格转换策略算法，称为神经增强。神经增强方法从同一类中提取两个随机图像。预先添加的增强网络通过5层CNN将它们映射为新图像，每层有16个通道，3个 × 3 过滤器和ReLU激活功能。然后，通过神经风格转换将从增强输出的图像与另一个随机图像进行转换。这种类型的传输通过CycleGAN执行[92]GAN的扩展[31]然后将这些图像输入到分类模型中，并将来自分类模型的误差反向传播以更新神经增强网络。神经增强网络使用此错误来学习不同图像之间内容和样式图像的最佳权重以及CNN中图像之间的映射（图29).

Perez和Wang在MNIST和Tiny-imagenet-200数据集上测试了他们的算法，以进行二进制分类任务，例如猫与狗的比较。Tiny-imagenet-200数据集用于模拟有限的数据。Tiny-imagenet-200数据集在每个类中仅包含500个图像，其中100个用于验证。此问题将此数据集限制为2个类。因此，只有800张图像用于训练。每个Tiny-imagenet-200图像都是64 × 64 × 3,MNIST图像为28 × 28 × 1. 实验比较了他们提出的神经增强[36]使用传统的增强技术（如裁剪和轮换）的方法，以及使用预先确定的一组风格（如夜间/白天和冬季/夏季）的风格转移方法。

传统的基线研究通过从一组图像中选择一个增强图像来变换图像（移位、放大/缩小、旋转、翻转、扭曲或着色）。重复此操作以将数据集大小从N增加到2 N。GAN风格的传输基线使用6种不同的风格转换图像（塞尚、增强、莫奈、浮世绘、梵高和温特）。测试的神经增强技术由基于增强网络损失函数设计的三个层次组成（内容损失、通过gram矩阵的风格损失和该层的无损失计算机）。所有实验均使用由3个卷积层组成的卷积网络进行测试，每个卷积层随后是最大池和批归一化，然后是2个完全连接的层。利用Adam优化技术，每个实验以0.0001的学习率运行40个小时（表7).

表7增加值比较结果[36]

全尺寸桌子

实验结果很有希望。神经增强技术在狗与金鱼的研究中表现明显更好，在狗与猫的研究中仅稍差。该技术对MNIST问题没有任何影响。本文建议，可能的最佳策略是将传统增强和神经增强相结合。

智能增强

智能增强[37]该方法使用了与上述神经增强技术类似的概念。然而，图像的组合完全是从预先准备好的CNN的学习参数中派生出来的，而不是使用神经风格转换算法。

智能增强是元学习增强的另一种方法。这是通过两个网络实现的，网络-A类和网络-B类.网络-A类是一个增强网络，它接收两个或多个输入图像，并将其映射为新图像或图像以进行训练网络-B类中错误率的变化网络-B类然后反向传播以进行更新网络-A类。此外，还将另一损失函数纳入网络-A类以确保其输出与类中的其他输出相似。网络-A类使用一系列卷积层来生成增强图像。概念框架网络-A类可以扩展为使用多个并行训练的网络。多个网络-作为对于通过元学习学习特定于类的增强可能非常有用（图30).

智能增强与SamplePairing类似[65]或混合示例，即现有示例的组合产生新的示例。然而，智能增强的机制要复杂得多，使用自适应CNN生成新图像，而不是平均像素或手动工程图像组合。

智能增强技术在性别识别任务中进行了测试。在Feret数据集上，准确率从83.52%提高到88.46%。观众数据集的反应是从70.02%提高到76.06%。最有趣的是，另一个人脸数据集的结果从88.15%增加到95.66%。与传统的增强技术相比，该技术的准确率从88.15%提高到89.08%。此外，当使用两个网络-作为在增强框架中网络-A类该实验表明，智能增强元学习策略显著提高了性能（图31).

自动增强

自动增强[38]由Cubuk等人开发的是一种与神经增强或智能增强截然不同的元学习方法。AutoAugment是一种强化学习算法[115]该算法在一组具有各种扭曲程度的受限几何变换中搜索最佳增强策略。例如，“translateX 20像素”可以是搜索空间中的转换之一（表8).

表8在缩减的CIFAR-10数据集上发现的AutoAugment增强策略[38]

全尺寸桌子

在强化学习算法中，策略类似于学习算法的策略。该政策决定了在特定州采取何种行动来实现某些目标。AutoAugment方法学习由许多子策略组成的策略，每个子策略由图像转换和转换幅度组成。因此，强化学习被用作增强的离散搜索算法。作者还建议，进化算法或随机搜索也将是有效的搜索算法。

AutoAugment发现在CIFAR-10上实现1.48%错误率的策略。AutoAugment在ImageNet数据集上也达到了83.54%的Top-1精度。非常有趣的是，当转移到斯坦福汽车公司和FGVC飞机公司的图像识别任务时，在ImageNet数据集上学习到的政策是成功的。在这种情况下，应用于这些其他数据集的ImageNet策略分别减少了1.16%和1.76%的错误率。

Geng等人[116]通过将强化学习搜索算法替换为增强随机搜索（ARS），对AutoAugment进行了扩展[112].作者指出，由于搜索空间离散，从AutoAugment中学习到的子策略存在固有缺陷。它们将增加的概率和幅度转换为连续空间，并使用ARS搜索子策略。这样，他们在CIFAR-10、CIFAR-100和ImageNet上实现了更低的错误率（表9).

表9连续空间上ARS的性能与离散空间上AutoAugment的性能[116]

全尺寸桌子

Minh等人[117]也尝试使用强化学习[115]搜索数据增强。他们进一步探索了单个实例而非整个数据集的学习转换的有效性。他们发现，在CIFAR-10数据集上，分类准确率差异为70.18%与74.42%，在狗与猫的分类问题上，分类准确率差异为74.61%与80.35%。此外，他们还探索了分类器在测试时间增强方面的鲁棒性，并发现用强化学习增强搜索训练的模型表现得更好。在CIFAR-10数据集上，当根据补充测试数据评估模型时，这导致了50.99%的准确率，而不是70.06%的准确率。

元学习的一个缺点是，它是一个相对较新的概念，尚未经过严格测试。此外，元学习方案可能很难实施，而且耗时。元学习的实践者必须首先解决梯度消失的问题[118]除其他外，培训这些网络。

比较增强

如图所示“图像数据增强的设计考虑“第节，数据增强的可能性。然而，没有太多的比较研究表明这些不同增强的性能差异。Shijie等人进行了一项这样的研究[119]它比较了CIFAR-10和ImageNet数据集上的GAN、WGAN、翻转、裁剪、移位、PCA抖动、颜色抖动、添加噪声、旋转以及一些组合。此外，比较研究涵盖了不同数据集的大小，小数据集由2k个样本组成，每个类200个样本，中数据集由10k个样本构成，每个类1k个样本，大数据集由50k个样本和每个类5k个样本。他们还测试了3个级别的增强，无增强，原始加上相同大小的生成样本，以及原始加上两倍大小的生成样品。他们发现，裁剪、翻转、WGAN和轮换通常表现得比其他方法更好。翻转的组合 + 裁剪和翻转 + WGAN是总体上最好的，在CIFAR-10上的分类性能提高了+3%和+3.5%，分别是。

图像数据增强的设计考虑

本节将简要描述与图像数据的数据增强技术有关的一些其他设计决策。

测试时增强

除了增强训练数据外，许多研究报告还表明了在测试时增强数据的有效性。这可以被视为类似于数据空间中的集成学习技术。通过获取测试图像并以与训练图像相同的方式对其进行增强，可以得到更稳健的预测。这需要根据所执行的增强来计算成本，并且可能会限制模型的速度。在需要实时预测的模型中，这可能是一个非常昂贵的瓶颈。然而，对于医学图像诊断等应用来说，测试时间增强是一种很有前景的实践。Radosavovic等人[120]将测试时增强表示为数据蒸馏，以描述使用集合预测来获得更好的图像表示。

Wang等人[121]寻求开发一个数学框架来制定测试时间增强。在医学图像分割的测试时间增强方案中，他们发现该方案优于单一预测基线和基于丢失的多个预测。他们还发现，当使用测试时间增强时，不确定性估计更好，减少了高度自信但不正确的预测。他们的测试时增强方法使用蒙特卡罗模拟，以获得不同增强的参数，如翻转、缩放、旋转和平移，以及噪声注入。

Alexnet论文中提供了测试时增强功能[1]，它将CNN应用于ImageNet数据集。在他们的实验中，他们对十个随机裁剪的补丁进行了平均预测。这些面片由从中心提取的一个、四个角裁剪以及水平翻转图像上的等效区域组成。对这些预测进行平均，以形成最终输出。He等人[三]使用相同的10-crop测试程序评估其ResNet CNN架构（图32).

佩雷斯等人[122]对多种增强技术的测试时增强效果进行了研究。这些增强测试包括颜色增强、旋转、剪切、缩放、翻转、随机裁剪、随机擦除、弹性、混合以及技术之间的组合。表9显示了增强测试图像和训练图像时获得的更高性能。Matsunaga等人[123]还证明了使用旋转、平移、缩放和翻转等几何变换进行测试时增强对皮肤损伤分类的有效性。

测试时间增加对分类精度的影响是衡量分类器鲁棒性的另一种机制。因此，鲁棒分类器被定义为在整个增强过程中预测的方差较低。例如，当同一图像旋转20°时，图像的预测应该不会有太大差异。在他们的实验中，Minh等人用强化学习寻找强化[117]通过以50%的概率扭曲测试图像，并将未增强数据与增强数据的准确性进行对比，来测量鲁棒性。在本研究中，当对增强测试图像进行评估时，基线模型的性能从74.61%下降到66.87%。

就速度的必要性而言，一些分类模型尚待考虑。这表明有望开发出能够逐步提高预测可信度的方法。这可以通过以下方式实现：首先输出一个带有少量或无测试时间增强的预测，然后逐步添加测试时间增强以增加预测的可信度。不同的计算机视觉任务需要对可以使用的测试时增强进行某些限制。例如，图像识别可以很容易地跨扭曲图像聚合预测。然而，在目标检测和语义分割中，很难对几何变换图像的预测进行聚合。

课程学习

除了对数据增强的研究外，许多研究人员一直在试图寻找一种策略来选择优于随机选择的训练数据。在数据增强的背景下，已经发表了研究，调查了跨训练时期原始数据和增强数据之间的关系。一些研究表明，虽然还没有明确的共识，但最好是最初仅使用原始数据进行训练，然后使用原始数据和增强数据完成训练。

在SamplePairing中[65]研究表明，在将混合图像数据添加到训练中之前，ImageNet上的一个历元和其他数据集上的100个历元都是在没有SamplePairing的情况下完成的。一旦将SamplePairing图像添加到训练集中，它们将在8:2个周期内运行，其中8个周期包含SamplePairing图像，2个周期不包含。Jaderberg等人[124]专门用合成数据训练自然场景文本识别。合成数据通过枚举不同的字体和增强来生成训练数据。这为大小为50k和90k的词典生成了一组训练图像。Mikolajczyk和Grochowski[72]从迁移学习中进行比较。他们建议，对增强数据进行训练以学习深度卷积网络的初始权重，类似于传输在其他数据集（如ImageNet）上训练的权重。然后，仅使用原始训练数据对这些权重进行微调。

课程学习决策对于像Schroff等人提出的FaceNet这样的One-Shot learning系统来说尤其重要[125].重要的是要找到与新面有点相似的面，这样学习的距离函数实际上是有用的。从这个意义上讲，课程学习的概念与对抗性搜索算法或只学习硬示例有许多相似之处。

课程学习，一个最初由Bengio等人发明的术语[126]是一个适用于所有深度学习模型的概念，而不仅仅是那些数据有限的模型。绘制不同初始训练子集的训练精度随时间的变化，有助于揭示数据中的模式，从而显著加快训练时间。数据增强从翻转、翻译和随机删除等组合中构造出大量膨胀的训练。此集合中很可能存在一个子集，这样训练将更快、更准确。

分辨率影响

关于图像中数据增强的另一个有趣的讨论是分辨率的影响。高分辨率图像，如HD（1920× 1080 × 3) 或4 K（3840× 2160 × 3) 需要更多的处理和内存来训练深层细胞神经网络。然而，根据直觉，下一代模型将在更高分辨率的图像上进行训练。许多当前模型从原始分辨率对图像进行降采样，以使分类问题在计算上更可行。然而，有时这种下采样会导致图像中的信息丢失，使图像识别更加困难（表10).

表10三个非常流行的开源图像数据集的分辨率比较

全尺寸桌子

研究这种下采样的性质以及由此产生的性能比较是很有趣的。Wu等人[127]比较将图像降采样到不同分辨率时精度和速度之间的折衷。研究人员发现，用高分辨率和低分辨率图像训练的模型组合比单独使用任何一个模型都表现得更好。这个集合预测是通过对softmax预测进行平均得到的。模特们接受了256次训练 × 256 图像和512 × 512 图像的前5位错误率分别为7.96%和7.42%。汇总后，他们的前5位错误率较低，为6.97%。因此，可以将不同的下采样图像视为另一种数据增强方案（图33).

随着Chong等人提出的超分辨率卷积神经网络的发展[128]或SRGANs，超分辨率生成对抗网络，由Ledig等人提出[129]，考虑将图像上采样到更高的分辨率是否会产生更好的模型是很有趣的。CIFAR-10图像的质量从偶数32个向上采样×32×3至64×64×3可以产生更好、更健壮的图像分类器。

解决方案也是GAN的一个非常重要的主题。由于训练稳定性和模式崩溃问题，从GAN生成高分辨率输出非常困难。许多较新的GAN架构，如StackGAN[130]和逐渐成长的GAN[34]被设计为产生更高分辨率的图像。除了这些架构之外，使用超分辨率网络（如SRGAN）可以有效地提高DCGAN的输出质量[91]模型。一旦可以从GAN样本中生成高分辨率输出，这些输出将对数据增强非常有用。

最终数据集大小

数据增强的一个必要组成部分是确定最终数据集大小。例如，如果水平翻转所有图像并将其添加到数据集中，则生成的数据集大小将从N变为2N。最终数据集大小的主要考虑因素之一是与增加数据相关的额外内存和计算约束。实践者可以选择在训练过程中使用动态转换数据的生成器，也可以选择预先转换数据并将其存储在内存中。动态转换数据可以节省内存，但会导致训练速度减慢。根据数据集大小膨胀的程度，将数据集存储在内存中可能会非常困难。在扩充大数据时，在内存中存储扩充数据集尤其困难。该决定通常分为在线或离线数据增强（在线增强指的是动态增强，离线增强指的则是编辑和存储磁盘上的数据）。

在大规模分布式训练系统的设计中，Chilimbi等人[131]在训练之前增加图像，以加快图像服务。通过提前增强图像，分布式系统能够请求和预缓存训练批。还可以在用于构建深度学习模型和促进快速区分的计算图中构建增强。这些增强在输入图像张量之后立即处理图像。

此外，探索膨胀数据的子集也很有意思，它将使整个训练集的性能更高或相似。这是一个与课程学习类似的概念，因为中心思想是找到训练数据的最佳顺序。这个想法还与最终数据集大小以及转换计算和存储增强图像的可用内存的考虑密切相关。

通过数据增强缓解班级不平衡

类不平衡是一个常见的问题，其中数据集主要由一个类的示例组成。这可能表现在二元分类问题中，从而存在明显的多数-少数类区别，或者表现在多类分类中，其中存在一个或多个多数类和一个或多个少数类。不平衡数据集是有害的，因为它们使模型偏向大多数类别的预测。不平衡的数据集还将准确性作为一种欺骗性的性能指标。Buda等人[132]提供一项系统研究，具体调查CNN处理图像数据时不平衡数据的影响。Leevy等人[27]涵盖了许多针对大数据中类不平衡的数据级和算法级解决方案。数据增强属于针对类不平衡的数据级解决方案，有许多不同的实现策略。

使用“数据增强”进行过采样的简单解决方案是使用小几何变换（例如30°旋转）进行简单的随机过采样。其他简单的图像操作，如颜色增强、混合图像、核过滤器和随机擦除，也可以像几何增强一样扩展到过采样数据。这对于易于实现和快速实验不同的类比率非常有用。使用基本图像变换进行过采样的一个问题是，它可能会导致对过采样的少数类进行过拟合。使用这些技术，少数群体中存在的偏见在抽样后更为普遍。

基于深度学习的过采样方法，如对抗训练、神经风格转移、GAN和元学习方案，也可以用作更智能的过采样策略。神经风格转换是一种创建新图像的有趣方法。这些新图像可以通过使用外来样式外推样式或在数据集中的实例之间插入样式来创建。使用GAN对数据进行过采样可能是另一种在保持外部分布的同时增加少数群体规模的有效方法。使用GAN进行过采样可以使用整个少数类作为“真实”示例，也可以使用少数类的子集作为GAN的输入。进化抽样的使用[133]找到这些子集以输入到GAN中进行类抽样是一个很有前途的领域。

讨论

增加图像数据的有趣方法分为两大类：数据扭曲和过采样。其中许多增强说明了如何改进图像分类器，而其他的则没有。很容易解释水平翻转或随机裁剪的好处。然而，尚不清楚为什么在PatchShuffle正则化或SamplePairing中将像素或整个图像混合在一起会如此有效。此外，对于基于GAN的增强、变分自动编码器和元学习，很难解释神经网络所学习的表示。CNN可视化由Yosinski等人领导[134]用他们的深度可视化方法。对卷积网络特征有一个人性化的理解可以极大地帮助指导增强过程。

操纵神经网络的表示能力正在以许多有趣的方式被用来推动增强技术的发展。传统的手工增强技术，如裁剪、翻转和改变颜色空间，正在通过使用GAN、神经风格转换和元学习搜索算法进行扩展。

图像到图像的转换在数据增强中有许多潜在的用途。神经风格转换使用神经层将图像转换为新的风格。这项技术不仅利用神经表示从图像中分离“风格”和“内容”，还利用神经变换将一幅图像的风格转换为另一幅图像。神经风格转换是一种比传统颜色空间增强更强大的增强技术，但即使这些方法也可以结合在一起。

这些增强方法的一个有趣的特点是它们能够结合在一起。例如，随机擦除技术可以叠加在任何这些增强方法之上。GAN框架具有递归的内在特性，这是非常有趣的。从GAN中采集的样本可以用传统的增强方法（如照明滤波器）进行增强，甚至可以用于智能增强或神经增强等神经网络增强策略，以创建更多样本。这些样本可以输入到更多的GAN中，并显著增加原始数据集的大小。GAN框架的可扩展性是深度学习研究人员如此感兴趣的众多原因之一。

测试时间增强类似于数据空间中的集成学习。我们不是聚合不同学习算法的预测，而是聚合增强图像的预测。我们甚至可以扩展求解算法来参数化来自不同增强的预测权重。这似乎是一个很好的解决方案，适用于需要获得非常高的性能分数的系统，而不是预测速度。通过主要探索测试时间几何变换和神经风格转换来确定测试时间增强的有效性是未来的一个工作领域。

对于实际的数据增强来说，一个有趣的问题是如何确定增强后的数据集大小。对于原始数据集大小与最终数据集大小的比率将产生最佳性能的模型，还没有达成共识。然而，想象一下只使用色彩增强。如果初始训练数据集由50只狗和50只猫组成，并且每个图像都用100个颜色过滤器进行了增强，以生成5000只狗和5000只猫，那么该数据集将严重偏向于原始50只狗与50只猫的空间特征。这种过度扩展的色彩增强数据将导致深度模型过盈，甚至比原始模型更糟。从这则轶事中，我们可以概念化后增强数据的最佳大小的存在。

此外，对于结合数据扭曲和过采样技术的最佳策略，目前还没有达成共识。一个重要的考虑因素是初始有限数据集中的固有偏差。现有的增强技术无法纠正与测试数据差异性很差的数据集。所有这些增强算法在假设训练数据和测试数据均来自同一分布的情况下表现最佳。如果这不是真的，这些方法就不太可能有用。

未来的工作

数据增强的未来工作将集中在许多不同的领域，例如建立增强技术的分类法，提高GAN样本的质量，学习将元学习与数据增强相结合的新方法，发现数据增强与分类器体系结构之间的关系，并将这些原则扩展到其他数据类型。我们感兴趣的是视频数据中的时间序列成分如何影响静态图像增强技术的使用。数据增强不仅限于图像领域，而且可以用于文本、生物信息学、表格记录等。

我们未来的工作旨在探索来自不同图像识别任务的几个数据集的几何和颜色空间增强的性能基准。这些数据集的大小将受到限制，以测试有限数据问题的有效性。Zhang等人[135]在50、80、100、200和500个训练实例的SVHN数据集上测试他们的新GAN增强技术。与这项工作类似，我们将进一步为不同水平的有限数据建立基准。

提高GAN样本的质量并在广泛的数据集上测试其有效性是未来工作的另一个非常重要的领域。我们希望进一步探索GAN样本与其他增强技术的组合，例如对GAN生成的样本应用一系列风格转移。

通过使用SRCNN、超分辨率卷积神经网络和SRCAN的超分辨率网络也是未来数据增强工作中非常有趣的领域。我们想探讨具有上采样映像（例如从32个扩展CIFAR-10映像）的体系结构之间的性能差异×32至64×64至128 × 128 GAN样本的主要困难之一是试图实现高分辨率输出。因此，我们将有兴趣了解如何使用超分辨率网络实现高分辨率，例如输入到SRCNN或SRGAN的DCGAN样本。该策略的结果将与逐步增长的GAN架构的性能进行比较。

测试时增强有可能对计算机视觉性能产生巨大影响，但尚未得到深入研究。我们想为不同的测试时间增强集成建立基准，并研究所使用的求解算法。目前，多数投票似乎是测试时间增强的主要解决方案。如果进一步参数化和学习每个增强图像预测的权重，则很可能进一步改进测试时增强。此外，我们将通过比较颜色空间增强和神经风格传递算法，探讨测试时间增强对目标检测的有效性。

元学习GAN架构是另一个令人兴奋的领域。在生成器和鉴别器架构上使用强化学习算法（如NAS）似乎很有前途。进一步研究的另一个有趣领域是使用进化方法通过并行化和集群计算加速GAN的训练。

将数据增强实际集成到深度学习工作流的另一个重要领域是软件工具的开发。类似于Tensorflow[136]系统自动执行梯度学习的后端过程，数据增强库将自动执行预处理功能。凯拉斯人[137]库提供了一个ImageDataGenerator类，极大地促进了几何增强的实现。Buslaev等人提出了另一个他们称为Albumentations的增强工具[138].神经风格传输、对抗训练、GAN和元学习API的开发将帮助工程师更快、更容易地利用高级数据增强技术的性能优势。

结论

本调查提出了一系列数据增强解决方案，以解决深度学习模型中由于数据有限而导致的过拟合问题。深度学习模型依赖大数据来避免过拟合。使用本调查中讨论的方法对数据集进行人工膨胀，可以在有限的数据域中获得大数据的好处。数据增强是构建更好数据集的一种非常有用的技术。已经提出了许多增强技术，通常可以分为数据扭曲或过采样技术。

数据增强的未来非常光明。结合数据扭曲和过采样方法的搜索算法的使用具有巨大的潜力。深层神经网络的分层结构为数据增强提供了许多机会。大多数被调查的增强操作都在输入层中进行。然而，有些是从隐藏层表示派生出来的，还有一种方法，DisturbLabel[28]甚至表现在输出层。中间表示空间和标签空间是数据增强的未开发领域，具有有趣的结果。本调查侧重于图像数据的应用，尽管其中许多技术和概念可以扩展到其他数据领域。

数据增强无法克服小数据集中存在的所有偏差。例如，在犬种分类任务中，如果只有斗牛犬而没有黄金猎犬实例，则没有讨论过从SamplePairing到AutoAugment再到GAN的增强方法，将创建黄金猎犬。然而，一些形式的偏差，如照明、遮挡、缩放、背景等等，都是可以预防的，或者至少可以通过数据增强大大减少。在获取大数据方面，过度拟合通常不是一个大问题。数据增强通过修改有限的数据集以具有大数据的特性来防止过拟合。

数据和材料的可用性

不适用。

缩写

GAN公司：: 生成性对抗网络
美国有线电视新闻网：: 卷积神经网络
DCGAN公司：: 深卷积生成对抗网络
NAS：: 神经结构搜索
SRCNN：: 超分辨率卷积神经网络
SRGAN公司：: 超分辨率生成对抗网络
计算机断层扫描：: 计算机断层扫描
核磁共振成像：: 磁共振成像
PET（聚酯）：: 正电子发射断层扫描
ROS公司：: 随机过采样
SMOTE公司：: 合成少子过采样技术
RGB（RGB）：: 红-绿-蓝
主成分分析：: 主成分分析
UCI：: 加州大学欧文分校
MNIST公司：: 修改后的国家标准与技术研究所
CIFAR公司：: 加拿大高等研究所
t-SNE：: t分布随机邻域嵌入

工具书类

Krizhevsky A，Sutskever I，Hinton GE。基于深度卷积神经网络的ImageNet分类。高级神经信息处理系统。 2012;25:1106–14.
谷歌学者
Karen S，Andrew Z。用于大规模图像识别的非常深卷积网络。arXiv电子打印。2014
Kaiming H，Xiangyu Z，Shaoqing R，Jian S.用于图像识别的深度残差学习。收件人：CVPR，2016年。
Christian S、Vincent V、Sergey I、Jon S、Zbigniew W。重新思考计算机视觉的初始架构。arXiv电子版，2015年。
高H，庄L，Laurens M，Kilian QW。紧密连接的卷积网络。arXiv预印本，2016年。
Jan K，Vladimir G，Daniel C.深度学习的正则化：一种分类学。arXiv预印本。2017。
Nitish S、Geoffrey H、Alex K、Ilya S、Ruslan S。辍学：防止神经网络过度拟合的简单方法。J Mach Learn Res.2014；15(1):1929–58.
数学科学网数学谷歌学者
Jonathan T，Ross G，Arjun J，Yann L，Christoph B.使用卷积网络进行有效的目标定位。In:CVPR’15。2015
Sergey I，Christan S.批量归一化：通过减少内部协变量偏移来加速深度网络训练。In:ICML；2015
Karl W，Taghi MK，DingDing W.迁移学习调查。J大数据。 2016;3:9.
第条谷歌学者
Shao L.视觉分类的迁移学习：一项调查。IEEE Trans Neural Netw学习系统。 2015;26(5):1019–34.
第条数学科学网谷歌学者
贾德、魏德、理查德·S、李佳丽、凯·L、李F-F.ImageNet：一个大规模的分层图像数据库。于：CVPR092009年。
Amir Z、Alexander S、William S、Leonidas G、Jitendra M、Silvio S、Taskonomy:解开任务转移学习。收录：CVPR’18。2018
Yosinski J、Clune J、Bengio Y、Lipson H。深度神经网络中的特征如何转移？高级神经信息处理系统。 2014;27:3320–8.
谷歌学者
Erhan D、Bengio Y、Courville A、Manzagol PA、Vincent P。为什么无监督的预培训有助于深度学习？J Mach Learn Res.2010；11:625–60.
数学科学网数学谷歌学者
Mark P、Dean P、Geoffrey H、Tom MM。使用语义输出代码进行零炮学习。In:NIPS；2009
Yongqin X、Christoph HL、Bernt S、Zeynep A.Zero-shot learning——对好、坏和丑的综合评价。arXiv预印本，2018年。
Yaniv T、Ming Y、Marc’AR、Lior W.DeepFace：缩小人脸验证中人因绩效的差距。In:CVPR’14；2014
Gregory K、Richard Z、Ruslan S.Siamese一次图像识别神经网络。In:ICML深度学习研讨会；2015
Adam S、Sergey B、Matthew B、Dean W、Timothy L.使用记忆增强型神经网络进行一次性学习。arXiv预印本，2016年。
Tomas M、Ilya S、Kai C、Greg C、Jeffrey D。单词和短语的分布式表示及其组成。接受NIPS 2013。
Jeffrey P、Richard S、Christopher DM。Globe：单词表示的全局向量。摘自：《自然语言处理经验方法学报》（EMNLP 2014）12。2014
Halevy A、Norvig P、Pereira F。数据的不合理有效性。IEEE智能系统。 2009;24:8–12.
第条谷歌学者
Chen S，Abhinav S，Saurabh S，Abhinav G。修改深度学习时代数据的不合理有效性。In:ICCV；2017第843-52页。
Esteva A、Kuprel B、Novoa RA、Ko J、Swetter SM、Blau HM、Thrun S.皮肤病学深度神经网络皮肤癌分级。自然。 2017;542:115–8.
第条谷歌学者
Geert L、Thijs K、Babak EB、Arnaud AAS、Francesco C、Mohsen G、Jeroen AWM、van Bram G、Clara IS。医学图像分析中的深度学习调查。医学图像分析。 2017;42:60–88.
第条谷歌学者
Joffrey LL、Taghi MK、Richard AB和Naeem S.关于解决大数据中高级不平衡问题的调查。施普林格大数据杂志。 2018;5:42.
第条谷歌学者
LeCun Y、Bottou L、Bengio Y、Haffner P.基于梯度的学习应用于文档识别。IEEE程序。 1998;86(11):2278–324.
第条谷歌学者
Nitesh VC、Kevin WB、Lawrence OH、Kegelmeyer W.SMOTE：合成少数人过采样技术。2002年《Artif Intellig Res.杂志》；16:321–57.
第条谷歌学者
惠H，文元W，炳环M.边界-SMOTE：非平衡数据集学习中的一种新的过采样方法。摘自：ICIC会议录，第3644卷，《计算机科学讲义》，纽约，2005年，第878-87页。
Ian JG、Jean PA、Mehdi M、Bing X、David WF、Sherjil O、Aaron C、Yoshua B。生成性对抗网。NIPS。2014
Leon AG、Alexander SE、Matthias B.艺术风格的神经算法。ArXiv公司。2015
巴雷特Z，Quoc VL。用强化学习进行神经结构搜索。参加：2017年学习代表国际会议。
Tero K、Timo A、Samuli L、Jaakko L。GAN的逐步生长可提高质量、稳定性和变异性。CoRR，abs/1710.101962017年。
Justin J、Alexandre A、Li FF。实时风格传输和超分辨率的感知损失。ECCV公司。 2016;2016:694–711.
谷歌学者
Luis P，Jason W。深度学习在图像分类中数据增强的有效性。摘自：斯坦福大学研究报告，2017年。
Lemley J、Barzrafkan S、Corcoran P.智能增强学习最佳数据增强策略。In:IEEE接入。2017
Ekin DC、Barret Z、Dandelion M、Vijay V、Quoc VL。自动增强：从数据中学习增强策略。ArXiv预印本，2018年。
Xin Y，Paul SB，Ekta W.医疗成像中的生成性对抗网络：综述。arXiv预印本，2018年。
Jelmer MW，Tim L，Max AV，Ivana I.低剂量CT降噪的生成对抗网络。收录：IEEE医学成像汇刊。2017
Ohad S，Tammy右后。对抗性神经网络的加速磁共振成像。In:DLMIA/MICCAI的ML-CDS, 2017.
Wang Y，Biting Y，Wang L，Chen Z，Lalush DS，Lin W，Xi W，Zhou J，Shen D，Zhou L.用于低剂量高质量PET图像估计的3D条件生成对抗性网络。神经影像。 2018;174:550–62.
第条谷歌学者
Dwarikanath M，Behzad B.使用局部显著图和生成对抗网络进行视网膜血管分割，以获得图像超分辨率。arXiv预印本。2017。
Francesco C、Aldo M、Claudio S、Giorgio T。使用生成性对抗神经网络进行生物医学数据增强。在：人工神经网络国际会议。柏林：施普林格；2017第626-34页。
Camilo B、Andrew JP、Larry TD、Allen TN、Susan MR、Bennett AL。通过深度学习学习内隐脑MRI流形。国际Soc光子学。 2018;10574:105741.
谷歌学者
Maria JMC、Sarfaraz H、Jeremy B、Ulas B。如何用生成性对抗网络愚弄放射科医生？用于肺癌诊断的视觉图灵测试。arXiv预印本。2017。
Baur C、Albarqouni S、Navab N.黑色素甘氨酸：甘氨酸的高分辨率皮肤损伤合成。arXiv预印本，2018年。
Madani A、Moradi M、Karargyris A、Syeda-Mahmood T。心血管异常分类的胸部x射线生成和数据增强。收录：2018年医学影像。图像处理2018；10574:105741.
Maayan F-A、Eyal K、Jacob G、Hayit G.基于GAN的数据增强用于改进肝脏病变分类。arXiv预印本，2018年。
Joseph R、Santosh D、Ross G、Ali F。你只看一次：统一的实时目标检测。包含：CVPR’16。2016
Ross G，Jeff D，Trevor D，Jitendra M。丰富的特征层次用于准确的对象检测和语义分割。In:CVPR’14。2014
罗斯·G·法斯特R-CNN。CoRR，abs/1504.08083。2015
Shaoqing R，Kaiming H，Ross G，Jian S.Faster R-CNN：利用区域提议网络实现实时目标检测。收录于：NIPS，2015年。
Jonathan L，Evan S，Trevor D.语义分割的完全卷积网络。CoRR，abs/1411.4038。2014
Olaf R，Philipp F，Thomas B.U-Net：用于生物医学图像分割的卷积网络。收件人：MICCAI。施普林格；2015年，第234-41页。
Hessam B、Maxwell H、Mohammad R、Ali F.标签精炼厂：通过标签进步改进图像网分类。arXiv预印本，2018年。
Francisco JM-B、Fiammeta S、Jose MJ、Daniel U、Leonardo F。数据增强的前向噪声调整方案。arXiv预印本。2018
Dua D，Karra TE。UCI机器学习库[http://archive.ics.uci.edu/ml].加利福尼亚州欧文：加利福尼亚大学信息与计算机科学学院；2017
Ken C、Karen S、Andrea V、Andrew Z。《细节中的魔鬼回归：深入研究卷积网》。摘自：BMVC会议记录。2014
Mark E、Luc VG、Christopher KIW、John W、Andrew Z。pascal可视对象类（VOC）挑战。http://www.pascal-network.org/challenges/VOC/voc2008/研讨会/. 2008.
Aranzazu J，Miguel P，Mikel G，Carlos L-M，Daniel P。基于聚类的图像分割中不同颜色空间的比较研究。IPMU；2010
Quanzeng Y，Jiebo L，Hailin J，Jianchao Y。使用逐步训练和域转移深度网络进行鲁棒图像情感分析。输入：AAAI。2015年，第381-8页。
Luke T，Geoff N.使用通用数据增强改进深度学习。arXiv预印本。2017。
郭亮K，玄毅D，梁Z，Yi Y.PatchShuffle正则化。arXiv预印本。2017。
Hiroshi I.通过配对样本进行图像分类的数据增强。ArXiv电子打印。2018
Cecilia S，Michael JD。改进了混合示例数据增强。ArXiv预印本，2018年。
李道军，冯毅，田姿，彼得·Y。了解混合训练方法。In：IEEE接入。2018第1页。
Ryo T，Takashi M.使用随机图像裁剪和深度CNN补丁进行数据增强。arXiv预印本。2018
Yoshua B、Jerome L、Ronan C、Jason W。课程学习。摘自：第26届机器学习国际年会论文集，ACM。2009年，第41-8页。
Zhun Z，Liang Z，Guoliang K，Shaozi L，Yi Y.随机擦除数据增强。ArXiv电子打印。2017
Terrance V，Graham WT。带截断的卷积神经网络的改进正则化。arXiv预印本。2017。
Agnieszka M，Michal G.用于改进图像分类问题中的深度学习的数据增强。参加：IEEE 2018国际跨学科博士研讨会，2018年。
Jonathan K，Michael S，Jia D，Li F-F.用于细粒度分类的3D对象表示。参见：2013年ICCV第四届IEEE三维表示与识别研讨会（3dRR-13）。澳大利亚悉尼。2013年12月8日。
Tomohiko K，Michiaki I。蛋糕上结冰：一种简单快速的学习后方法，你可以在深入学习后尝试。arXiv预印本。2018
Terrance V，Graham WT。要素空间中的数据集增强。摘自：机器学习国际会议（ICML）会议记录，车间轨道，2017年。
Sebastien CW，Adam G，Victor S，Mark DM。理解分类的数据增强：何时扭曲？CoRR，abs/1609.087642016年。
Seyed-Mohsen MD、Alhussein F、Pascal F.DeepFool：愚弄深层神经网络的简单而准确的方法。arXiv预印本，2016年。
Jiawei S、Danilo VV、Sakurai K。愚弄深层神经网络的单像素攻击。arXiv预印本。2018
Michal Z、Konrad Z、Negar R、Pedro OP。图像和视频分类的对抗性框架。arXiv预印本。2018
Logan E、Brandon T、Dimitris T、Ludwig S、Aleksander M。旋转和翻译就足够了：用简单的转换愚弄CNN。ArXiv预印本，2018年。
Goodfellow I，Shlens J，Szegedy C.解释和利用对抗性例子。2015年国际学习代表大会。
Ian JG、David W-F、Mehdi M、Aaron C、Yoshua B.Maxout networks。arXiv预印本，2013年。
L双涛，C元科，P燕林，B林。通过对抗性训练学习更强大的特征。ArXiv预印本。2018
Lingxi X、Jingdong W、Zhen W、Meng W、Qi T.DisturbLabel：在损失层上规范CNN。arXiv预印本，2016年。
Christopher B、Liang C、Ricardo GPB、Roger G、Alexander H、David AD、Maria VH、Joanna W、Daniel R.GAN增强：使用生成对抗性网络增强训练数据。arXiv预印本，2018年。
Doersch C.变体自动编码器教程。ArXiv电子打印。2016
Laurens M，Geoffrey H.使用t-SNE可视化数据。马赫学习研究杂志2008；9:2431–56.
数学科学网数学谷歌学者
Jeff D、Philipp K、Trevor D。对抗性特征学习。包含：CVPR’16。2016
Lin Z，Shi Y，Xue Z.IDSGAN：针对入侵检测的攻击生成生成对抗网络。arXiv预印本；2018
William F、Mihaela R、Balaji L、Andrew MD、Shakir M、Ian G。平衡的许多途径：GAN不需要在每一步都减少分歧。参加：学习代表国际会议；2017
Alec R，Luke M，Soumith C.使用深度卷积生成对抗网络的无监督表示学习。ICLR，2016年。
Jun-Yan Z、Taesung P、Phillip I、Alexei AE。使用循环一致的对抗网络进行未成对的图像到图像转换。参加：2017年国际人口愿景会议（ICCV）。
Xinyue Z，Yifan L，Zengchang Q，Jiahong L。使用生成性对抗网络进行数据增强的情感分类。CoRR，第abs/1711.00648卷。2017
Goodfellow IJ、Erhan D、Carrier PL、Courville A、Mirza M、Hamner B、Cukierski W、Tang Y、Thaler D、Lee DH等。表征学习的挑战：三次机器学习竞赛的报告。单位：NIPS。柏林：施普林格；2013第117-24页。
Mehdi M，Simon O。条件生成对抗网。arXiv预印本，2014年。
马里奥·L、卡罗尔·K、马辛·M、奥利维尔·B、西尔文·G。GAN生来平等吗？大规模研究。arXiv预印本，2018年。
Swee KL，Yi L，Ngoc Trung T，Ngai Man C，Gemma R，Yuval E.DOPING：使用GAN进行无监督异常检测的生成数据增强。arXiv预印本，2018年。
Alireza M、Jonathon S、Navdeep J、Ian G、Brendan F.对手自动编码器。arXiv预印本，2015年。
Tim S、Ian G、Wojciech Z、Vicki C、Alec R、Xi C。改进GAN训练技术。arXiv预印本，2016年。
杨浩L，奈燕W，嘉英L，小弟H。去雾神经风格转移。arXiv预印本。2017。
Khizar H.通过深度学习实现超分辨率。arXiv预印本。2017。
Dmitry U、Andrea V、Victor L.实例规范化：快速风格化的缺失要素。arXiv预印本，2016年。
Philip TJ、Amir AA、Stephen B、Toby B、Boguslaw O。风格增强：通过风格随机化进行数据增强。arXiv电子打印。2018
Josh T、Rachel F、Alex R、Jonas S、Wojciech Z、Pieter A.将深度神经网络从模拟转移到现实世界的领域随机化。arXiv预印本。2017。
Ashish S、Tomas P、Oncel T、Josh S、Wenda W、Russ W。通过对抗性训练从模拟和无监督图像中学习。参加：2017年计算机视觉和模式识别会议。
Stephan RR、Vibhav V、Stefan R、Vladlen K。数据游戏：电脑游戏的基本真相。In：欧洲计算机视觉会议（ECCV）；2016
布罗斯托·加布里埃尔J、福奎尔·朱利安、西波拉·罗伯托。视频中的语义对象类：高清地面真相数据库。图案识别信。 2008;30(2):88–97.
第条谷歌学者
Marius C、Mohamed O、Sebastian R、Timo R、Markus E、Rodrigo B、Uwe F、Stefan R、Bernt S。语义城市场景理解的城市景观数据集。In:CVPR；2016
Esteban R、Sherry M、Andrew S、Saurabh S、Yutaka LS、Jie T、Quoc VL、Alexey K。图像分类器的大尺度演化。摘自：第34届机器学习国际会议（ICML’17）会议记录。2017
Esteban R、Alok A、Yanping H、Quoc VL。用于图像分类器架构搜索的正则化进化。arXiv预印本，2018年。
Tim S、Jonathan H、Xi C、Szymon S、Ilya S。进化策略作为强化学习的可扩展替代方案。arXiv电子打印。2017
Horia M，Aurelia G，Benjamin R.简单随机搜索为强化学习提供了一种竞争性方法。In：神经信息处理系统（NIPS）的进展；2018
大卫·葛兰素。从尺度变化关键点中获得的独特图像特征。国际J计算视觉。 2004;2004:91–110.
谷歌学者
Navneet D，Bill T.人体检测定向梯度直方图。收录于：CVPR，2005年。
Sutton RS，钢筋股份公司。学习：简介。纽约：麻省理工学院出版社；1998
谷歌学者
Mingyang G，Kele X，Bo D，Huaimin W，Lei Z。使用增强随机搜索学习数据增强策略。arXiv预印本，2018年。
Tran NM，Mathieu S，Hoang TL，Martin W.使用深度强化学习进行自动图像数据预处理。arXiv预印本。2018
Hochreiter S.学习递归神经网络过程中的消失梯度问题及其解决方案。Int J不确定Fuzzin已知系统。 1998;6(02):107–16.
第条谷歌学者
贾S，王平，贾平，胡S.基于卷积神经网络的图像分类数据增强研究。2017年中国自动化大会（CAC），2017年。第4165-70页。
Ilija R、Piotr D、Ross G、Georgia G、Kaiming H。数据蒸馏：走向全监督学习。In:CVPR’18；2018
Guotai W，Michael A，Sebastien O，Wenqi L，Jan D，Tom V.基于深度学习的医学图像分割的不确定性估计测试时间增强。OpenReview.net。2018
Fabio P、Christina V、Sandra A、Eduardo V。皮肤损伤分析的数据增强。在：ISIC皮肤图像分析研讨会和挑战@MICCAI 2018。2018
Karzuhisa M，Akira H，Akane M，Hiroshi K。利用深度神经网络集成对黑色素瘤、痣和脂溢性角化病进行图像分类。2017年国际皮肤成像合作（ISIC）挑战生物医学成像国际研讨会（ISBI）。2017
Max J，Karen S，Andrea V，Andrew Z。用于自然场景文本识别的合成数据和人工神经网络。arXiv预印本，2014年。
Florian S、Dmitry K、James P.FaceNet：人脸识别和聚类的统一嵌入。摘自：CVPR’15。2015
徐东M，清L，浩然X，雷蒙德YKL，郑W，斯蒂芬PS。最小二乘生成性对抗网络。在：国际计算机视觉会议（ICCV），2017年。
任伟，申根Y，易S，青青D，刚S。深度图像：放大图像识别。CoRR，abs/1501.028762015年。
Chao D，Chen CL，Kaiming H，Ziaoou T。学习用于图像超分辨率的深度卷积网络。输入：ECCV。柏林：施普林格；2014第184-99页。
Christian L、Lucas T、Ferenc H、Jose C、Andrew C、Alejandro A、AndrewA、Alykhan T、Johannes T、Zehan W、Wenzhe S。使用生成性对抗网络的真实照片单图像超分辨率。arXiv预印本。2016。
Han Z，Tao X，Hongsheng L，Shaoting Z，Xiaogang W，Xiaolei H，Dimitris M.StackGAN：使用堆叠生成对抗网络进行文本到照片真实感图像合成。收件人：ICCV，2017年。
Trishul C、Yutaka S、Johnson A、Karthik K。亚当项目：构建高效、可扩展的深度学习培训系统。收录：OSDI会议记录。2014第571-82页。
Buda Mateusz，Maki Atsuto，Mazurowski Maciej A.卷积神经网络中类不平衡问题的系统研究。神经网络。 2018;106:249–59.
第条谷歌学者
Drown DJ、Khoshgoftaar TM、Seliya N.高保证系统的进化采样和软件质量建模。IEEE传输系统。 2009;39(5):1097–107.
谷歌学者
Jason Y、Jeff C、Anh N、Thomas F、Hod L。通过深度可视化了解神经网络。参加：欧洲计算机视觉会议（ECCV）。柏林：施普林格；2015第818-33页。
Xiaofeng Z，Zhangyang W，Dong L，Qing L.DADA：针对极低数据体制分类的深度对抗数据增强。arXiv预印本，2018年。
Martin A、Paul B、Jianmin C、Zhifeng C、Andy D、Jeffrey D、Matthieu D、Sanjay G、Geoffrey I、Michael I、Manjunath K、Josh L、Rajat M、Sherry M、Derek GM、Benoit S、Pauls T、Vijay V、Pete W、Matrin W、Yuan Y、Xiaoqiang Z。TensorFlow：一个用于大规模机器学习的系统。摘自：2016年第12届USENIX操作系统设计与实现研讨会（OSDI’16）会议记录。
凯拉斯https://keras.io网址/. 2015.
Alexander B、Alex P、Eugene K、Vladimir II、Alexandre AK。相册：快速灵活的图像增强。ArXiv预印本。2018
Maayan F-A、Idit D、Eyal K、Michal A、Jacob G、Hayit G.基于GAN的合成医学图像增强，以提高CNN在肝脏病变分类中的性能。arXiv预印本，2018年。
基于Changhee H、Hideaki H、Leonardo R、Ryosuke A、Wataru S、Shinichi M、Yujiro F、Giancarlo M、Hideki N.GAN的合成脑mr图像生成。2018年IEEE第15届生物医学成像国际研讨会（ISBI 2018）。IEEE，2011年。第734-8页。

下载参考资料

致谢

我们要感谢佛罗里达大西洋大学数据挖掘和机器学习实验室的审稿人。此外，我们感谢NSF的部分支持（CNS-1427536）。本文中的观点、发现、结论或建议仅为作者的观点，并不反映NSF的观点。

基金

不适用。

作者信息

作者和附属机构

美国博卡拉顿佛罗里达大西洋大学计算机、电气工程和计算机科学系
Connor Shorten和Taghi M.Khoshgoftaar

作者

康诺·肖滕
查看作者出版物
搜索作者：公共医学谷歌学者
塔吉·M·科什戈夫塔尔
查看作者出版物
搜索作者：公共医学谷歌学者

贡献

CS对这项工作进行了初步的文献审查和分析，并起草了手稿。TMK、JLL、RAB、RZ、KW、NS和RK与CS合作开发了文章的框架和重点。TMK向CS介绍了这一主题，并帮助完成并完成了这项工作。所有作者阅读并批准了最终稿。

通讯作者

与的通信康诺·肖滕.

道德声明

相互竞争的利益

作者声明，他们没有相互竞争的利益。

出版同意书

不适用。

道德批准和参与同意

不适用。

其他信息

出版商备注

Springer Nature在公布的地图和机构关联中的管辖权主张方面保持中立。

权利和权限

开放式访问本文根据Creative Commons Attribution 4.0 International License的条款分发(http://creativecommons.org/licenses/by/4.0/)，它允许在任何媒体上不受限制地使用、分发和复制，前提是您对原始作者和来源给予适当的信任，提供知识共享许可的链接，并指明是否进行了更改。

转载和许可

关于本文

引用这篇文章

Shorten，C.，Khoshgoftaar，T.M.《深度学习图像数据增强调查》。J大数据 6, 60 (2019). https://doi.org/10.1186/s40537-019-0197-0

下载引文

收到:2019年1月9日
认可的:2019年4月22日
出版:2019年7月6日
内政部:https://doi.org/10.1186/s40537-019-0197-0

用于深度学习的图像数据增强研究综述

摘要

介绍

背景

图像数据增强技术

基于基本图像处理的数据增强

几何变换

翻转

色空间

裁剪

旋转

翻译

噪声注入

颜色空间变换

几何变换与光度变换

内核过滤器

混合图像

随机擦除

关于组合增广的一个注记

基于深度学习的数据增强

要素空间增强

对抗训练

基于GAN的数据增强

神经风格转换

元学习数据增强

神经增强

智能增强

自动增强

比较增强

图像数据增强的设计考虑

测试时增强

课程学习

分辨率影响

最终数据集大小

通过数据增强缓解班级不平衡

讨论

未来的工作

结论

数据和材料的可用性

缩写

工具书类

致谢

基金

作者信息

作者和附属机构

贡献

通讯作者

道德声明

相互竞争的利益

出版同意书

道德批准和参与同意

其他信息

出版商备注

权利和权限

关于本文

引用这篇文章

分享这篇文章

关键词