SMOTE-Based Weighted Deep Rotation Forest for the Imbalanced Hyperspectral Data Classification

Quan, Yinghui; Zhong, Xian; Feng, Wei; Chan, Jonathan Cheung-Wai; Li, Qiang; Xing, Mengdao

doi:10.3390/rs13030464

开放式访问第条

基于SMOTE的加权深旋转森林用于非平衡高光谱数据分类

¹

西安710071西安西电大学电子工程学院遥感科学与技术系

²

比利时布鲁塞尔Vrije Universiteit Brussel，1050，电子和信息学系

^三

西北工业大学物理科学与技术学院，西安710071

⁴

西安西电大学高级跨学科研究院，710071

^*

信件应寄给的作者。

远程传感器。 2021,13(3), 464;https://doi.org/10.3390/rs13030464

收到的提交文件：2020年12月31日/修订日期：2021年1月22日/接受日期：2021年1月25日/发布时间：2021年1月28日

（本文属于特刊利用高光谱图像进行深度学习和特征挖掘)

下载

浏览地物

版本注释

摘要

:

传统的分类算法在平衡高光谱数据分类中取得了巨大的成功。然而，不平衡类分布是高光谱数据的一个基本问题，被视为分类任务中的一大挑战。为了解决这个问题，本文提出了一种基于非人工神经网络的深度学习方法，即基于SMOTE的加权深度旋转森林（SMOTE-WDRoF）。首先，在利用SMOTE算法创建空间信息和平衡数据集时，引入实例的相邻像素。其次，将这些数据集输入由旋转森林和多级级联随机森林组成的WDRoF模型。具体来说，旋转森林用于生成旋转特征向量，这些特征向量被输入到后续的级联森林中。此外，每一级的输出概率和原始数据被叠加为下一级的数据集。根据各层次分类结果构造的动态权重函数，自动调整样本权重。与传统的深度学习方法相比，该方法消耗的训练时间少得多。在四个公共高光谱数据上的实验结果表明，该方法在多类不平衡学习中的性能优于支持向量机、随机森林、旋转森林、SMOTE组合旋转森林、卷积神经网络和基于旋转的深层森林。

关键词：

深林;多类不平衡学习;高光谱图像;分类;SMOTE公司

1.简介

高光谱图像由遥感器在数十或数百个窄且连续的波长波段中同时获得[1,2,三,4,5]. 与传统的全色和多光谱遥感图像相比，高光谱图像携带了丰富的光谱信息，能够更准确地区分不同的物体。因此，近年来，高光谱图像在地球观测中的各种应用受到了广泛关注[1,6,7,8,9,10]例如城市测绘、精准农业和环境监测[11,12,13,14,15]. 高光谱图像分类是一个重要的研究课题，其核心是为像素指定类别标签。类别分布，即属于每个类别的样本的比例，在分类研究中起着极其重要的作用。一些传统的分类方法，如最大似然分类[16]，支持向量机（SVM）[17]和人工神经网络[18]，在平衡的高光谱数据上取得了令人满意的性能。

然而，由于高光谱图像场景通常包含许多不同大小的目标，并且在现实世界中样本标记困难，因此类不平衡是高光谱图像分类中的一个基本问题[19]. 通常，大多数类被定义为具有大量实例的类，而少数类是具有少量样本的类[9]. 因为将少数阶级错误分类的成本通常比多数阶级的成本高很多[20]. 在类分布倾斜的情况下，分类器倾向于预测输入实例属于大多数类，以保持较高的预测精度[20,21,22,23,24]. 这样的策略对于区分少数阶级是无效的，即使他们通常是感兴趣的前景阶级。因此，机器学习和遥感面临的最大挑战之一是如何对不平衡数据进行有效分类。

一般来说，不平衡学习的目的是努力获得一个分类器，该分类器可以为少数类提供高分类精度，而不会严重损害多数类的准确性[25,26,27]. 传统上，类不平衡问题是在数据级处理的[28,29,30]或在算法级别[31,32,33,34]. 数据层的重点是修改训练集中类的样本分布，以降低类不平衡的程度，使其适合于标准算法模型的分类预测。处理数据级不平衡问题的最常见方法是重采样，其主要优点是不需要修改分类器，并且平衡的数据可以在其他应用程序或分类任务中重用[35,36]. 重采样可以进一步分为两种类型：欠采样[37]和过采样[38].

欠采样方法：欠采样通过采样较小的多数类来改变训练集的大小，从而降低不平衡程度[37]并且易于执行，并且已经证明在不平衡问题中很有用[39,40,41,42]. 欠采样的主要优点是所有训练实例都是真实的[35]. 随机欠采样（RUS）是一种流行的方法，旨在通过随机消除大多数类实例来平衡类分布。然而，欠采样的主要缺点是它可能会忽略潜在的有用信息，而这些信息对诱导过程可能非常重要。
过采样方法：过采样算法通过从少数类中随机选择实例并将其附加到原始数据集或通过合成新实例来增加样本数[43]可以降低分配不平衡的程度。随机过采样只是复制少数类的样本，这很容易导致过拟合[44]对提高少数类的分类精度影响不大。合成少数过采样技术（SMOTE）是Chawla提出的一种强大的算法[29]并在各种应用中取得了巨大成功[45,46,47]. SMOTE将在第2.1节.

算法层的主要思想是结合实际数据分布情况，对现有的分类算法模型进行适当修改。典型的方法包括主动学习[48]，成本敏感型学习[49,50]，以及基于内核的学习[51].

主动学习方法：传统的主动学习方法被用来处理未标记训练数据集的问题。近年来，针对不平衡数据问题提出了各种主动学习算法[48,52,53]. 主动学习是一种从随机训练数据集中选择样本的学习策略。它可以选择更有价值的实例并丢弃信息较少的实例，从而提高分类性能。这些方法的主要缺点是对大型数据集计算量大[48].
成本敏感的学习方法：成本敏感学习通过使用不同的成本矩阵解决班级不平衡问题[50]. 目前，有三种常用的成本敏感战略。（1）成本敏感型样本权重：将误分类成本转换为原始数据集上的样本权重。（2）将成本敏感函数直接引入到现有的分类算法中，这将改进算法的内部结构。（3）成本敏感集成：将成本敏感因素集成到现有的分类方法中，并与集成学习相结合。然而，成本敏感的学习方法需要错误分类成本的知识，这在现实世界的数据集中很难获得[54,55].
基于内核的学习方法：基于内核的学习侧重于统计学习和Vapnik-Chervonenkis（VC）维度的理论[56]. 支持向量机（SVM）是一种典型的基于核的学习方法，对于不平衡数据集可以获得相对稳健的分类精度[51,57]. 已经提出了许多将采样和集成技术与SVM相结合的方法[58,59]并在类分布不均衡的情况下有效提高性能。例如，提出了一种新的集成方法，称为外推的Bagging Borderline-SMOTE SVM（BEBS），用于合并边界信息[60]. 然而，由于该方法是基于SVM的，因此很难在大型数据集中实现。

仅使用光谱信息的分类方法无法捕获数据感知到的关键空间变异性，这通常会导致性能降低，特别是对于高光谱数据[61]. 近年来，基于深度学习的光谱空间高光谱数据集分类方法得到了发展，并显示出其高效性和性能[61,62]. 深度学习是一种新兴的方法，在高光谱图像分类中取得了优异的性能，具有足够的良好标记数据集[63,64]. 一般来说，深度图结构包括由多个线性和非线性变换组成的层叠层。与传统的机器学习方法相比，深度学习方法可以通过一系列层次结构从原始高光谱数据集中自动提取信息特征[63]. 此外，与结构较浅的机器学习方法相比，深度学习具有更强的鲁棒性和更高的准确性。然而，大多数深度学习方法，如卷积神经网络（CNN），没有处理不平衡数据的算法策略[63,65,66]. 随着数据集的增长，班级不平衡对深度学习方法的不利影响也在增加。如前所述，在经典的机器学习方法中，对不平衡问题进行了全面的研究，然而，在深度学习的背景下，对它的关注较少[66]. 此外，传统深度学习方法的培训过程通常会耗费大量时间。基于轮作的深层森林[67]提出了一种新的深度学习方法，用于高光谱图像的分类，并以较少的训练时间获得了满意的结果。然而，这种方法并不能解决数据分布不平衡时的分类问题。

为了提高基于非人工神经网络的深度学习方法对非平衡高光谱数据集的分类能力，提出了一种基于SMOTE-based Weighted deep Rotation Forest（SMOTE-WDRoF）的新算法。首先，引入实例的相邻像素作为空间信息，利用SMOTE算法创建多个新的合成平衡数据集。然后，将这些数据集输入由旋转森林和多级级联随机森林组成的WDRoF模型。具体而言，利用旋转森林生成旋转特征向量，将其输入到后续的级联森林中。此外，每个级别的输出概率和原始数据被堆叠为下一级别的数据集。根据各层次分类结果构造的动态权重函数，自动调整样本权重。总之，该算法综合了SMOTE、空间信息和自适应样本权重的优点。本文的主要贡献如下：

(1): 提出的基于深度集成学习的SMOTE-WDRoF在内部结合了深度旋转森林和SMOTE。对于不平衡的高光谱数据，它可以获得更高的精度和更快的训练速度。
(2): 此外，引入自适应权值函数可以缓解SMOTE的缺陷，即SMOTE在合成新样本时会产生额外的噪声。

本文的其余部分总结如下。第2节介绍了相关工作。第3节提供了有关建议方法的详细信息。然后，第4节显示了结果和讨论。最后，得出的结论如下第5节.

2.相关工程

2.1. 合成少数派过采样技术（SMOTE）

SMOTE，由Chawla等人[29]是最流行的过采样方法，可以解决过拟合问题。其主要思想是在k个通过插值选择的最近邻域。需要注意的是，人工样本是在特征空间而不是数据空间中创建的。SMOTE的具体流程如下：

(1): 计算k个少数类样本的最近邻在每个少数类样本中的欧氏距离 ${x个}_{我}$ .
(2): 一个邻居 ${x个}_{j个}$ 从中随机选择k个的最近邻居 ${x个}_{我}$ .
(3): 创建新实例 ${x个}_{n个 e（电子） w个}$ 之间 ${x个}_{j个}$ 和 ${x个}_{我}$ :

${x个}_{n个 e（电子） w个} = {x个}_{我} + δ | {x个}_{我} - {x个}_{j个} |$

(1)

哪里 $δ$ 是介于0和1之间的随机数。

2.2. 随机森林（RF）

灵感来自装袋算法[68]，Breiman首次提出了随机森林[69]2001年。其主要思想是随机样本选择和随机特征选择。在RF中，所有树都是相互独立的，因此训练和测试过程是并行的。让我们假设一个数据集

{D类}_{米}

具有米样品

(X（X）, Y（Y）)

，其中

X（X） \in {R（右）}^{D类}

首先，n个实例是从原始数据集中随机选择的

{D类}_{米}

更换。这些实例用于构建当前决策树。第二，（f）特征(

（f） < D类

)首先从原件中随机选择D类特征。基于基尼杂质或均方误差（MSE）准则，建立了分类回归树（CART）。最后，根据多数投票准则得到分类结果。

2.3. 旋转森林（RoF）

Rodriguez在2006年基于RF的想法提出了RoF[70]. 该算法基于特征变换的思想，致力于提高基本分类器的差异性和准确性。RoF模型T型size是通过执行以下步骤构建的。

(1): 首先，特征空间 $F类$ 被拆分为K（K）不相交的特征集，并且每个子集包括 $N个 = F类 / K（K）$ 功能的数量。
(2): 其次，利用bootstrap算法随机选取75%的训练数据，得到一个新的训练集。
(3): 然后，系数 $一_{t吨, 克} (克 \leq G公司, t吨 \leq T型)$ 通过在每个子空间上使用主成分分析（PCA）获得 ${F类}_{t吨, 克} (克 \leq G公司, t吨 \leq T型)$ 所有子空间的系数都组织在一个稀疏的“旋转”矩阵中 ${R（右）}_{t吨} (t吨 \leq T型)$ .

${R（右）}_{t吨} = [\begin{matrix} {e（电子）}_{t吨, 1}^{1} & \dots & {e（电子）}_{t吨, 1}^{{N个}_{1}} & 0 & \dots & 0 \\ 0 & {e（电子）}_{t吨, 2}^{1} & \dots & {e（电子）}_{t吨, 2}^{{N个}_{2}} & \dots & 0 \\ ⋮ & ⋮ & ⋱ & ⋮ \\ 0 & 0 & {e（电子）}_{t吨, 克}^{1} & \dots & {e（电子）}_{t吨, 克}^{{N个}_{克}} \end{matrix}]$

(2)
(4): 的列 ${R（右）}_{t吨}$ 通过匹配原始特征的顺序重新排列F类建立旋转矩阵 ${R（右）}_{t吨}^{^{'}}$ 然后，构建新的训练集 ${S公司}_{t吨}^{^{'}} = [{S公司}_{t吨} {R（右）}_{t吨}^{^{'}}, {Y（Y）}_{t吨}]$ ，用于训练单个分类器。
(5): 对所有不同的训练集重复上述过程，并生成一系列单独的分类器。最后，根据多数投票规则得出结果。

2.4. 基于轮作的深层森林（RBDF）

作为一种简单的深度学习模型，基于旋转的深层森林（RBDF）包括L级随机森林，每个级别包含w个射频型号。该方法采用每一级的输出概率作为下一级的补充特征[67]. RBDF模型包含三个步骤。首先，通过滑动窗口提取训练样本的邻域像素来获取空间信息。其次，将训练样本及其相邻像素输入到RoF模型中。每个RoF将生成旋转矩阵并构造旋转特征向量。第三，将旋转特征向量输入到RF模型中，获得分类概率。然后，所有级别的分类概率向量我以获取平均概率向量，该平均概率向量被堆叠到原始数据集中作为下一级的输入数据。最后，通过求出最大分类概率来生成结果。

3.方法

在本节中，提出了SMOTE-WDRoF方法来处理高光谱不平衡数据。首先，引入实例的局部空间结构，利用SMOTE生成平衡数据集，从高光谱图像中获取更丰富的信息，缓解数据层面的类别不平衡。然后，利用多层次森林构造WDRoF模型，这是整个算法的关键组成部分。更具体地说，旋转森林用于生成旋转特征向量，这些特征向量被输入到后续的级联森林中。此外，每一层的输出概率和原始数据被叠加为下一层的数据集。根据各层次分类结果构造的动态权重函数，自动调整样本权重。算法的细节如下。

3.1. 空间信息提取与平衡数据集生成

图像中的对象通常包含一致的空间结构，即相邻像素可能具有相同的标签。因此，在分类时应该考虑空间上下文信息。该算法将空间邻域信息提取策略与SMOTE方法相结合，选择信息丰富的空间邻域，平衡数据集分布，提高分类精度。

首先，利用滑动窗口提取空间信息。让我们假设

X（X） \in {R（右）}^{M（M） \times N个 \times D类}

是高光谱图像，其中

M（M）, N个, D类

分别表示图像的高度、宽度和光谱带数。这个

一_{米, n个, d日}

表示位于直线上的像素值米，列n个和乐队d日为了获取高光谱数据集的光谱和空间信息，通过在一个大小为的窗口中提取像素来构建贴片

{w个}_{1} \times {w个}_{2} \times D类

和步长为1的中央像素。假设像素的光谱向量为

x个 \in {R（右）}^{D类}

、补丁

{A类}_{我}

可以定义为

{A类}_{我} = [\begin{matrix} 一_{({w个}_{1} - b条) ({w个}_{2} - b条)} & \dots & 一_{{w个}_{1} ({w个}_{2} - b条)} & \dots & 一_{({w个}_{1} + b条) ({w个}_{2} - b条)} \\ ⋮ & ⋱ & ⋮ & ⋱ & ⋮ \\ 一_{({w个}_{1} - b条) {w个}_{2}} & \dots & 一_{{w个}_{1} {w个}_{2}} & \dots & 一_{({w个}_{1} + b条) {w个}_{2}} \\ ⋮ & ⋱ & ⋮ & ⋱ & ⋮ \\ 一_{({w个}_{1} - b条) ({w个}_{2} + b条)} & \dots & 一_{{w个}_{1} ({w个}_{2} + b条)} & \dots & 一_{({w个}_{1} + b条) ({w个}_{2} + b条)} \end{matrix}]

(3)

哪里

{w个}_{1} = {w个}_{2} = 2 b条 + 1

,

1 \leq b条 \leq 米 我 n个 ({w个}_{1}, {w个}_{2}) / 2

,

我 \in (M（M） - {w个}_{1}) (N个 - {w个}_{2})

.扫描整个高光谱图像后，可以获得K（K）补丁，其中

K（K） = (M（M） - {w个}_{1}) (N个 - {w个}_{2})

.拿一个

三 \times 三 \times D类

例如，提取滑动窗口中的每个样本及其8个相邻像素，如所示图1a.由于空间相似性，每个实例通常与其空间相邻实例相同，并且材料分数彼此接近。因此，它们具有相同的标签。高光谱不平衡数据集

{秒_{1}, 秒_{2}, \dots, 秒_{9}}

表示为S公司通过提取所有面片中相应位置的像素并结合样本标签来形成Y（Y）.

其次，根据多数类实例与少数类实例的比例，SMOTE对每个不平衡数据进行过采样

秒_{w个} (w个 \in 9)

。如所示图1b、圆圈和星形分别代表多数类样本和少数类实例。假设新示例是根据示例创建的

{x个}_{我}

具有

T型 = 5

SMOTE将从少数群体及其最近的五个邻居中随机选择一个样本。假设样本

{x个}_{j个}

已选中。方形突出显示的新合成实例生成于

{x个}_{我}

和

{x个}_{j个}

通过方程式(1). 然后是平衡的数据集

{秒_{1}^{^{'}}, 秒_{2}^{^{'}}, \dots, 秒_{9}^{^{'}}}

表示

{S公司}^{^{'}}

可以获得。

3.2. 加权深轮伐林（WDRoF）

在这一部分中，我们提出了WDRoF算法，具体如图2该算法采用多级随机森林级联对高光谱数据集进行分类。随机森林的每一级都产生数据的分类概率和误分类信息，作为下一级的指导信息。更具体地说，分类概率形成一个类向量，与原始数据串联起来构成下一级的输入。每个层的分类概率将应用于所有后续层。此外，利用误分类概率自适应更新样本权重。当增加一个新级别时，将在测试集上评估此级别的性能。如果没有明显的绩效提升，培训程序将结束。因此，RF的电平数被自动识别。WDRoF的实施步骤如下。

(1): 数据集 ${秒_{1}^{^{'}}, 秒_{2}^{^{'}}, \dots, 秒_{W公司}^{^{'}}}$ SMOTE生成的数据被输入RoF模型，其中 $W公司 = {w个}_{1} \times {w个}_{2}$ . The $秒_{w个}^{^{'}} (w个 \in W公司)$ 可以写为 $秒_{w个}^{^{'}} = {X（X）, Y（Y）} = {({x个}_{1}, 年_{1}), ({x个}_{2}, 年_{2}), \dots, ({x个}_{K（K）}, 年_{K（K）})}$ ，其中K（K）表示实例数。在RoF中，我们将PCA应用于特征转换，这是一种将一组变量转换为一组无关变量的数学转换方法。其目标是获得投影矩阵 $问 = [{q个}_{1}, {q个}_{2}, \dots, {q个}_{K（K）}]$ :

$\begin{matrix} \underset{问}{最小值} t吨第页 (问^{T型} X（X） {X（X）}^{T型} 问) \\ 秒 . t吨 . 问^{T型} 问 = 我 \end{matrix}$

(4)

首先，自相关矩阵 $X（X）$ 计算结果为：

$c（c） o个五 (X（X）) = E类 [(X（X） - E类 [X（X）]) {(X（X） - E类 [X（X）])}^{T型}]$

(5)

哪里 $E类 [X（X）]$ 是预期的数量 $X（X）$ 和 ${[\cdot]}^{T型}$ 表示换位。其次，特征分解应用于 $c（c） o个五 (X（X）)$ 计算其特征值： $λ_{1}, λ_{2}, \dots, λ_{K（K）}$ 和相应的特征向量： $α_{1}, α_{2}, \dots, α_{K（K）}$ 最后，主成分系数可以通过以下公式计算：

$E类 = [{e（电子）}_{1}, {e（电子）}_{2}, \dots, {e（电子）}_{K（K）}] = {[α_{1}, α_{2}, \dots, α_{K（K）}]}^{T型} X（X）$

(6)

用方程构造旋转矩阵(2)然后生成旋转特征向量 ${{（f）}_{1}, {（f）}_{2}, \dots, {（f）}_{W公司}}$ 由RoF提供。
(2): 旋转特征向量 ${{（f）}_{1}, {（f）}_{2}, \dots, {（f）}_{W公司}}$ 被送入随机森林的第一级和样本的重量 $W公司 e（电子）我克小时 {t吨}_{w个, 我 - 1} ({x个}_{k个})$ 设置为1。在级别1中，每个RF将为数据集生成每个实例的分类概率和分类错误信息。所有分类概率向量 $P（P） = {{第页}_{1}, {第页}_{2}, \dots, {第页}_{W公司}}$ 对水平1的平均值进行计算，以获得稳健估计 $\bar{P（P）}$ :

$\begin{matrix} \bar{P（P）} & = \frac{1}{W公司} \sum_{w个 = 1}^{W公司} {第页}_{w个} \\ = \frac{1}{W公司} \sum_{w个 = 1}^{W公司} [\frac{1}{{N个}_{t吨第页 e（电子） e（电子）}} \sum_{我 = 1}^{{N个}_{t吨第页 e（电子） e（电子）}} 我 ({小时}_{我} (X（X）) = Y（Y）)] \end{matrix}$

(7)

哪里 ${小时}_{我}$ 代表我决策树输出和 ${N个}_{t吨第页 e（电子） e（电子）}$ 表示RF中决策树的数量。此外，根据分类误差，样本的权重 $({x个}_{k个}, 年_{k个})$ 可以计算

$\begin{matrix} W公司 e（电子）我克小时 {t吨}_{w个, 我} ({x个}_{k个}) = W公司 e（电子）我克小时 {t吨}_{w个, 我 - 1} ({x个}_{k个}) e（电子） x个第页 [\frac{1}{C类} \sum_{c（c） = 1, c（c） \neq 年_{k个}}^{C类} (五_{w个} ({x个}_{k个}, c（c）)] \end{matrix}$

(8)

哪里 $五_{w个} ({x个}_{k个}, c（c）)$ 是任何其他类别的票数w个第个RF模型。如果样本被上一级错误分类，则样本的权重会增加，这使得样本在下一级中发挥更重要的作用，并迫使分类器将注意力集中在错误分类的样本上。
(3): 在最后一级，计算平均概率向量后，通过求最大概率获得预测标签。

$年^{*} = 一第页克米一 x个 \sum_{w个 = 1}^{W公司} 我 (五_{w个} ({x个}_{k个}) = c（c）, c（c） \in 1, 2, \dots, C类)$

(9)

算法1总结了新的SMOTE-WDRoF方法的过程。

算法1：基于SMOTE的加权深轮伐林（SMOTE-WDRoF）
1	输入: $X（X） \in {R（右）}^{M（M） \times N个 \times D类}$ ：高光谱图像；M（M）：图像的高度；N个：图像的宽度；D类：图像的光谱带； $w个 1 \times {w个}_{2} \times D类$ ：滑动窗的尺寸； $W公司 = w个 1 \times {w个}_{2}$ ;
2	过程：
三	对于米=1:M做
4	对于 n个=1:N做
5	获取K（K）补丁 ${{A类}_{1}, \dots, {A类}_{K（K）}}$ 通过使用滑动扫描图像
	带有的窗口(三)
6	结束
7	结束
8	对于w个= 1: $W公司$ 做
9	获取不平衡数据 $秒_{w个}$ 通过提取相应的像素
	中的位置K（K）补丁
10	输入 $秒_{w个}$ 进入SMOTE算法
11	构建平衡数据 $秒_{w个}^{^{'}}$
12	结束
13	获取平衡的数据集 ${秒_{1}^{^{'}}, \dots, 秒_{w个}^{^{'}}, \dots, 秒_{W公司}^{^{'}}}$
	分类：
14	对于我= 1: $L（左）$ 做
15	对于 w个= 1: $W公司$ 做
16	构造旋转特征向量 ${（f）}_{w个}$ 利用RoF算法
17	训练RF模型 ${（f）}_{w个}$
18	更新每个样本重量： $W公司 e（电子）我克小时 {t吨}_{w个, 我} ({x个}_{k个}) \leftarrow W公司 e（电子）我克小时 {t吨}_{w个, 我 - 1} ({x个}_{k个})$ 带有(8)
19	计算分类概率 ${第页}_{w个}$
20	结束
21	获得平均概率向量 $\bar{P（P）}$ 带有(7)
22	连接 $\bar{P（P）}$ 用输入特征向量构成下一个输入
	水平
23	结束
24	输出：预测标签 $年^{*} = 一第页克米一 x个 \sum_{w个 = 1}^{W公司} 我 (五_{w个} ({x个}_{k个}) = c（c）, c（c） \in 1, 2, \dots, C类)$

4.实验结果

4.1. 数据集集合

四幅高光谱图像(http://www.ehu.eus/ccwintco/index.php？title=Hyperspectral_Remote_Sensing_Scenes)具有高不平衡比（IR），包括印度松AVRIS,肯尼迪航天中心（KSC）,萨利纳斯和帕维亚大学场景，用于评估拟议WDRoF的有效性。为了客观地评估分类算法的性能，训练数据和测试数据应该是独立的。对于印度松AVRIS和KSC公司每个类随机抽取30%的样本构建训练集，每个类剩余70%的样本构成测试集。对于萨利纳斯和帕维亚大学场景每个班选取5%的样本构建训练集，其余样本构成测试集。此外，如果某一类中的样本数小于100，则该类中的一半样本被选择用于训练，另一半用于测试。有关培训和测试实例数量的更多详细信息，请参见表1.

印度松AVRIS使用美国国家航空航天局的机载可见/红外成像光谱仪（AVIRIS）传感器获得，并于1992年6月在印第安纳州西北部的印第安松树试验场采集。作为高不平衡数据集，印度松AVRIS包括 $145 \times 145$ 像素和220个波段，覆盖范围从0.4到2.5 $μ$ m，空间分辨率为20m。原始地面实况中有16个不同的土地覆盖类别和10249个样本。随机选取30%的原始参考数据构成训练数据集，其余部分构成测试数据集。对于印度松AVRIS，如果样本数小于100，例如Oats，则随机选择一半的样本来构建训练集。训练集上的IR为73.6。
KSC公司于1996年3月23日被佛罗里达州肯尼迪航天中心（KSC）上空的机载可见/红外成像光谱仪所获取。图像包括 $512 \times 614$ 空间分辨率为18米的像素。去除噪声带后，使用176个光谱带进行分析。根据地面实况图，大约有5208个实例和13个类。与中的设置类似印度松AVRIS图像，每个类30%的像素被随机选择来构成训练集，其他像素被用来构建测试集。训练集上的IR为8.71。
萨利纳斯由AVIRIS传感器在加利福尼亚州萨利纳斯山谷采集，具有224个光谱带。此图像包括 $512 \times 217$ 像素，空间分辨率为20米。原始地面实景也有16类，主要包括蔬菜、葡萄园和裸地。训练集由从原始参考数据中随机选择的8%样本构成。培训集的IR为12.51。
帕维亚大学场景覆盖意大利帕维亚市的反射光学系统成像光谱仪传感器采集到的数据。数据集包括 $610 \times 340$ 像素覆盖范围为0.43至0.86 $μ$ m，空间分辨率为1.3 m。原始地面实况中有16类42776个实例。训练数据集由8%的样本组成，这些样本是从原始数据中随机选择的，没有进行替换。训练集上的IR为19.83。

4.2. 实验设置

为了证明所提出的SMOTE-WDRoF的优点，六种常用方法，SVM、RF、RoF、SMOTE组合旋转森林（SMOTE-RoF）、卷积神经网络（CNN）[71]，并将RBDF用于对比分析。下面介绍这六种方法的设置。（1）在SVM算法中，使用高斯函数。（2）对于RF，树的数量是20棵。（3） RoF采用PCA变换，包含5棵树。每个样本子集的特征维数设置为10，树的数量。（4）对于SMOTE-RoF，参数设置与RoF相同。（5） CNN的设置基于参考[71]. （6）对于RBDF，RoF的每个样本子集中有20个特征，每个RF包含20个树。（7）在所提出的SMOTE WDRoF中，每个RF还包含20个树，并且RoF的每个样本子集中包括20个特征。此外，对于印度松AVRIS和肯尼迪航天中心（KSC），的

7 \times 7

在RBDF和SMOTE-WDRoF中，利用邻域像素进行分类。对于萨利纳斯和帕维亚大学场景，这两种算法使用

5 \times 5

用于分类的邻域像素。所有程序都是使用Python语言实现的。结果是在配备Intel（R）Core（TM）i5-10200H 2.4 GHz CPU的PC上生成的。

4.3. 评估指标

由于整体准确度（OA）可以反映分类器的整体分类性能，因此通常采用它来评估传统的机器学习分类算法。然而，当数据类之间存在严重的不平衡时，分类模型可能会强烈偏向大多数类，从而导致对少数类的识别较差。因此，OA不是评估模型的最合适指标，因为它可能导致不准确的结论[72]. 因此，本文采用五个主要指标作为性能度量，包括精度、平均准确度、召回率、F度量和Kappa。

精度：精度是用来衡量不平衡数据中每个类别的分类精度。这个 $第页第页 e（电子） c（c）我秒我 o个 {n个}_{我}$ 仅测试类样本时测量预测率我

$第页第页 e（电子） c（c）我秒我 o个 {n个}_{我} = \frac{米_{我我}}{\sum_{我 = 1}^{C类} 米_{j个我}}$

(10)

哪里 $米_{我我}$ 和 $米_{j个我}$ 代表对我th类与错误预测我第个类进入我分别是第个类。
平均准确度（AA）：作为性能指标，AA为数据中的每个类提供相同的权重，而与它拥有的实例数无关。它可以定义为

$美国 = \frac{\sum_{我 = 1}^{C类} 第页第页 e（电子） c（c）我秒我 o个 {n个}_{我}}{C类}$

(11)
召回：真阳性率定义为召回率，表示正确分类的实例的百分比。召回特别适用于评估处理多类不平衡数据的分类算法[73]. 其计算公式如下：

$召回 = \frac{1}{C类} \sum_{我 = 1}^{C类} \frac{米_{我我}}{\sum_{我 = 1}^{C类} 米_{我 j个}}$

(12)

哪里 $米_{我 j个}$ 代表错误的预测我第个类进入j个第个类。
F-测量：F测度是一种综合精度和召回率的评价指标，在不平衡数据分类中得到了广泛的应用[55,74,75]. 在分类过程中，预计精度将尽可能高，召回率也将尽可能大。然而，事实上，这两个指标在某些情况下是负相关的。F-measure的引入综合了两者，F-measure越高，分类器的性能越好。F-measure可以计算为以下方程：

$F类 - 测量 = \frac{2}{C类} \frac{\sum_{我 = 1}^{C类} R（右） e（电子） c（c）一我我_{我} \sum_{我 = 1}^{C类} 第页第页 e（电子） c（c）我秒我 o个 {n个}_{我}}{\sum_{我 = 1}^{C类} R（右） e（电子） c（c）一我我_{我} + \sum_{我 = 1}^{C类} 第页第页 e（电子） c（c）我秒我 o个 {n个}_{我}}$

(13)

哪里 $R（右） e（电子） c（c）一我我_{我}$ 可以通过以下方式计算 $\frac{{n个}_{我我}}{\sum_{我 = 1}^{C类} {n个}_{我 j个}}$ .
卡帕：评估预测结果一致性的指标是Kappa，它检查一致性是否是偶然造成的。Kappa越高，分类器的性能越好，可以定义为

$卡帕 = \frac{O（运行） A类 - \sum_{我 = 1}^{C类} {第页}_{我} {\hat{第页}}_{我}}{1 - \sum_{我 = 1}^{C类} {第页}_{我} {\hat{第页}}_{我}}$

(14)

哪里 ${第页}_{我}$ 和 ${\hat{第页}}_{我}$ 代表班级的实际样本量我和类的预测样本量我分别是。

4.4. 性能比较分析

在实验中，根据精度、AA、召回、F-measure和Kappa获得的结果显示在表2,表3,表4和表5针对SVM、RF、RoF、SMOTE-RoF、CNN、RBDF和提议的SMOTE-WDRoF在四个非平衡高光谱数据集上的应用。每个高光谱数据集中的最佳结果以粗体突出显示。

4.4.1. 上的实验结果印度松AVRIS

七种算法的结果印度松AVRIS在中列出表2前16行是精度、AA、召回、F-measure和Kappa系数的结果，最后四行显示。在这七种方法中，SMOTE-WDRoF在大多数情况下都取得了最佳的分类性能。因为它不仅引入空间邻域像素并合成样本以增加样本大小和平衡数据集，而且还自适应地调整样本权重。该方法获得了91.55%的AA、91.67%的召回率、91.51%的F测度和88.64%的Kappa，是七种方法中最好的分类结果。与其他方法相比，SMOTE-WDRoF在AA、Recall、F-measure和Kappa中分别提高了2.61%、1.90%、3.30%和2.29%。此外，SMOTE-WDRoF算法在16个类中获得了10个最高的类精度。此外，对于训练样本数最少的类，即第9类，该算法的准确率达到96.39%，比其他方法至少高14.50%，最多高53.30%。该算法在少数类的精度和整体性能上都优于其他方法。图3显示了通过不同分类方法获得的分类图印度松AVRIS结果表明，所提出的SMOTE-WDRoF在印度松AVRIS数据集。

4.4.2. 上的实验结果KSC公司

对于KSC公司数据集，统计分类结果总结为表3，不同方法的分类结果如所示图4。可以在中观察到表3SMOTE-WDRoF通过生成平衡数据集和多级森林特征学习，优于其他六种比较方法。对于KSC公司包含13类数据的SMOTE-WDRoF在10类中获得了最高的分类精度，包括多个少数类，如Class 2、Class 4和Class 7。此外，在所有方法中，SMOTE WDRoF在AA、Recall、F-measure和Kappa方面获得了最好的统计结果，四个指标的准确性分别提高了至少3.63%、5.20%、4.54%和3.36%。尽管RF和RoF算法在第16类中实现了100.00%的准确率，但在其他性能方面，尤其是在少数类中，它们远不如SMOTE WDRoF有效。此外，尽管算法SMOTE-RoF通过合成新样本来平衡数据集，但其分类性能不如SMOTE-WDRoF。此外，值得注意的是，SVM算法表现最差，因为它不注意少数类的识别，并且它对第7类的分类精度为0。因此，本文提出的SMOTE-WDRoF在处理KSC数据集时具有最佳的分类性能。

4.4.3. 上的实验结果萨利纳斯

Salinas数据集上七种不同方法的分类结果如所示表4SMOTE-WDRoF优于其他六种比较方法，获得了95.92%的AA、96.05%的召回率、95.73%的F-measure和91.01%的Kappa。此外，SMOTE-WDRoF在萨利纳斯数据集。对于训练样本数最少的两个类，即第13类和第14类，SMOTE-WDRoF的精度分别达到97.92%和98.81%，证明其处理少数类的能力优于其他比较方法。尽管SMOTE-RF在这两个类中具有最高的精度，但它的其他类性能并不优越。数据集上的相应分类图如所示图5在该数据集上的实验结果表明，SMOTE-WDRoF在处理类不平衡数据时，表现出比传统方法更好的分类性能。

4.4.4. 上的实验结果帕维亚大学场景

提出的SMOTE-WDRoF和六种比较方法的结果Pavia ROSIS大学展出于表5与其他方法相比，SMOTE-WDRoF通过创建新样本来构建平衡数据集，并根据分类错误信息自动更新样本权重，从而提高了分类性能。拟议的SMOTE-WDRoF在召回、F-measure和Kappa方面超过RBDF 2.59%、2.21%和2.32%。尽管RDBF算法的AA略高于SMOTE-WDRoF，但其F度量（召回和AA的合成）明显低于SMOTE-WDRoF。在处理第5类和第7类等少数群体时，SMOTE-WDRoF的表现优于CNN、RDBF和其他四种传统方法。对于视觉比较，图6显示了所有这些方法的分类结果的分类图。发件人图6可以观察到，该方法以最小的噪声获得了最佳的结果。显然，SMOTE-WDRoF在Pavia ROSIS大学数据集上获得了最佳效果。

4.4.5. 不同深度学习方法的培训时间

CNN和SMOTE-WDRoF的培训时间如所示表6对于CNN，模型需要通过反向传播不断调整参数以获得良好的性能。因此，在耗时的训练过程中需要计算大量的参数。与传统的需要反向传播的深度学习方法不同，SMOTE-WDRoF需要更少的训练时间。对于印度松AVRISCNN的训练时间为30830秒，而该算法的训练时间仅为3942秒KSC公司，所提出的算法的训练时间仅为CNN的四分之一。对于萨利纳斯和Pavia ROSIS大学SMOTE-WDRoF的培训时间分别是CNN的六分之一和十二分之一。

4.5. 模型参数对分类性能的影响

4.5.1. 水平的影响

为了研究水平对SMOTE-WDRoF的影响，我们提出图7AA的演变和召回印度松AVRIS,KSC公司,萨利纳斯和Pavia ROSIS大学与传统的深度模型类似，SMOTE-WDRoF的深层森林结构对提高分类性能具有重要意义。当每个级别的输出被用作特征并与原始特征叠加作为下一级别的输入时，样本权重被相应地调整。因此，分类精度随着级别的增加而提高。从中可以看出图7a、当水平从1增加到3时，四个高光谱数据集的AA显著增加。当水平为4时，AA的生长速度逐渐减慢。当水平数超过5时，四个数据集的AA达到一个稳定值。对于印度松AVRIS,KSC公司,萨利纳斯和Pavia ROSIS大学稳定值分别为91.55%、91.87%、95.44%和88.37%。四个高光谱数据集的召回演变如所示图7b.可以观察到，最初的召回率大大提高。随着水平的增加，召回率变为相对稳定的值。当水平设置为5时，稳定值分别为91.67%、92.40%、96.05%和91.28%印度松AVRIS,KSC公司,萨利纳斯和Pavia ROSIS大学这些结果表明，当所提出的模型中存在太多层次时，最后几个层次的输出将无法再为分类提供有用的信息。因此，当L（左）等于5。在其他实验中，水平设置为5。

4.5.2. 窗口大小的影响

由于高光谱图像的空间同质性，相邻样本很可能属于同一类。因此，通过SMOTE WDRoF中的滑动窗口引入相邻像素作为局部空间信息。为了研究窗口大小对分类精度的影响，我们将此参数从

1 \times 1 \times D类

到

7 \times 7 \times D类

对于四个高光谱数据集引入不同数量的空间相邻像素。D类表示高光谱数据的波段数。对于印度松AVRIS,KSC公司,萨利纳斯和Pavia ROSIS大学,D类分别为220、176、224和103。不同窗口大小的结果如所示图8随着窗口大小的增加，分类精度也呈上升趋势。更具体地说，对于印度松AVRIS，AA、Recall、F-measure和Kappa分别从87.69%、71.27%、74.81%和85.05%增加到91.71%、91.12%、91.29%和88.41%

1 \times 1 \times 1 \times 220

到

7 \times 7 \times 220

.和最高精度的印度松AVRIS获取时间：

7 \times 7 \times 220

。对于KSC公司，召回、AA和F-measure这三个指标在

7 \times 7 \times 176

此外，Kappa值先升后降，在

5 \times 5 \times 176

。对于萨利纳斯，高精度是在

5 \times 5 \times 224

，然后精度几乎不再随着窗口大小的增加而增加。此外，SMOTE-WDRoF的窗口大小为

5 \times 5 \times 103

为提供最佳性能Pavia ROSIS大学。这种现象并不奇怪。相对较大的窗口可以引入更多有用的空间信息，这有利于提高分类性能。但是，如果窗口太大，则会提取与中心像素不属于同一类的样本，这将导致精确度降低。

5.结论

针对非平衡高光谱数据分类问题，提出了基于SMOTE的加权深旋转森林（SMOTE-WDRoF）算法。首先，提取样本的局部空间结构以丰富数据信息，并利用SMOTE构建平衡数据集。其次，RoF和多层级联RF形成了WDRoF模型，该模型利用每层的输出概率作为下一层的补充特征，并自适应地更新样本权重以提高分类性能。该方法在四个公共高光谱图像数据集上进行了验证。与传统的深度学习模型相比，SMOTE-WDRoF消耗的训练时间少得多。实验结果表明，所提出的SMOTE-WDRoF对于处理多类不平衡数据是有效的，显著优于SVM、RF、RoF、SMOTE-RoF、CNN和RBDF。此外，还进行了参数分析，结果表明了我们算法在准确性和鲁棒性方面的优势。

作者贡献

Y.Q.和W.F.构思并设计了实验；X.Z进行了实验并撰写了论文。J.C.-W.C.和Q.L.修订了论文。M.X.编辑了手稿。所有作者都已阅读并同意手稿的出版版本。

基金

本研究得到了国家自然科学基金（6177239712005169）、国家重点研发计划（2016YFE0200400）、数字地球科学重点实验室开放研究基金（2019LDE005）、陕西省科技创新团队（2019TD-02）的资助，中央高校基本科研业务费专项资金（XJS200205）、中央高校基本研究业务费专项基金和西电大学创新基金。

机构审查委员会声明

不适用。

知情同意书

不适用。

数据可用性声明

本研究分析了公开可用的数据集。此数据可在此处找到：[http://www.ehu.eus/ccwintco/index.php？title=Hyperspectral_Remote_Sensing_Scenes].

致谢

本工作得到了国家自然科学基金（6177239712005169）、国家重点研发计划（2016YFE0200400）、数字地球科学重点实验室开放研究基金（2019LDE005）、陕西省科技创新团队（2019TD-002）、，中央高校基本科研业务费专项资金（XJS200205）、中央高校基本研究业务费专项基金和西电大学创新基金。

利益冲突

作者声明没有利益冲突。

工具书类

张，M。；李伟（Li，W.）。；Du，Q.基于不同区域的CNN用于高光谱图像分类。IEEE传输。图像处理。 2018,27, 2623–2634. [谷歌学者] [交叉参考] [公共医学]
Landgrebe，D.高光谱图像数据分析。IEEE信号处理。美格。 2002,19, 17–28. [谷歌学者] [交叉参考]
李，H。；Song，Y。；Chen，C.P.基于多尺度空间信息融合的高光谱图像分类。IEEE传输。地质科学。远程传感器。 2017,55, 5302–5312. [谷歌学者] [交叉参考]
郑，X。；袁，Y。；Lu，X.通过选定波段的空间光谱保持降低维数。IEEE传输。地质科学。远程传感器。 2017,55, 5185–5197. [谷歌学者] [交叉参考]
林，L。；Song，X.使用CNN根据空间光谱信息对高光谱数据进行分类。高级智能。信息隐藏多媒体。信号处理。 2017,64, 61–68. [谷歌学者]
袁，Y。；Feng，Y。；Lu，X.基于投影的NMF用于高光谱分解。IEEE J.选择。顶部。申请。地球目标遥感。 2015,8, 2632–2643. [谷歌学者] [交叉参考]
冯·W。；黄，W。；Bao，W.采用基于SMOTE和带微分采样率的旋转森林的自适应集成方法进行非平衡高光谱图像分类。IEEE地质科学。遥感快报。 2019,16, 1879–1883. [谷歌学者] [交叉参考]
Quan，Y。；钟，X。；冯·W。；多芬·G。；Xing，M.利用多光谱数据进行森林灾害监测的一种新的特征扩展方法。远程传感器。 2020,12, 2261. [谷歌学者] [交叉参考]
江，M。；方，Y。；苏，Y。；蔡，G。；Han，G.用于高光谱图像分类的具有增强特征的随机子空间集成。IEEE地质科学。遥感快报。 2019,17, 1373–1377. [谷歌学者] [交叉参考]
赵（Q.Zhao）。；贾，S。；Li，Y.基于更紧密随机投影和最小类内方差算法的高光谱遥感图像分类。模式识别。 2020,111, 107635. [谷歌学者] [交叉参考]
Shi，T。；刘，H。；陈，Y。；Wang，J。；Wu，G.利用水稻高光谱植被指数估算农业土壤中的砷。J.危险。马特。 2016,308, 243–252. [谷歌学者] [交叉参考] [公共医学]
Obermeier，W.A。；Lehnert，L.W。；M.J.波尔。；吉亚诺尼，S.M。；席尔瓦，B。；塞伯特，R。；激光，H。；莫瑟，G。；米勒，C。；Luterbacher，J。；等人，《变化环境中的草地生态系统服务：高光谱监测的潜力》。遥感环境。 2019,232, 111273. [谷歌学者] [交叉参考]
张，M。；英语，D。；胡，C。；卡尔森，P。；F.E.穆勒·卡格尔（Muller-Karger）。；Toro-Farmer，G。；Herwitz，S.R.《浅水环境中遥感反射率的短期变化：重复航空高光谱测量的观测结果》。《国际遥感杂志》。 2016,37, 1620–1638. [谷歌学者] [交叉参考]
李强。；冯·W。；Quan，Y.H.中国新冠肺炎疫情的趋势和预测。J.感染。 2020,80, 469–496. [谷歌学者]
庞蒂乌斯，J。；哈纳文，R.P。；哈利特，R.A。；库克，B.D。；Corp，L.A.高空间分辨率光谱分解，用于绘制复杂城市环境中的火山灰物种。遥感环境。 2017,199, 360–369. [谷歌学者] [交叉参考]
理查兹，J.A。；Jia，X.使用合适的邻域增强高光谱最大似然分类中的训练集。IEEE地质科学。遥感快报。 2008,5, 774–777. [谷歌学者] [交叉参考]
郭，X。；黄，X。；张，L。；张，L。；A广场。；Benediktsson，J.A.高光谱遥感图像分类的支持张量机。IEEE传输。地质科学。远程传感器。 2016,54, 3248–3264. [谷歌学者] [交叉参考]
Meher，S.K.高光谱遥感图像分类的知识编码颗粒神经网络。IEEE J.选择。顶部。申请。地球目标遥感。 2015,8, 2439–2446. [谷歌学者] [交叉参考]
李，J。；杜琪。；李毅。；Li，W.基于正交补码子空间投影的不平衡数据高光谱图像分类。IEEE传输。地质科学。远程传感器。 2018,56, 3838–3851. [谷歌学者] [交叉参考]
Mi，Y.基于主动学习SMOTE的不平衡分类。Res.J.应用。工程技术。 2013,5, 944–949. [谷歌学者] [交叉参考]
Taherkhani，A。；科斯马，G。；McGinnity，T.M.AdaBoost-CNN：卷积神经网络的自适应Boosting算法，用于使用传递学习对多类非平衡数据集进行分类。神经计算 2020,404, 351–366. [谷歌学者] [交叉参考]
张，X。；庄，Y。；Wang，W。；Pedrycz，W.使用合成实例进行类不平衡对象识别的传输增强。IEEE传输。赛博。 2016,48, 357–370. [谷歌学者] [交叉参考] [公共医学]
阿南德，A。；Pugalenthi，G。；福格尔，G.B。；Suganthan，P.N.使用加权和欠采样对高度不平衡数据进行分类的方法。氨基酸 2010,39, 1385–1391. [谷歌学者] [交叉参考] [公共医学]
林，M。；Tang，K。；Yao，X.训练神经网络进行多类不平衡分类的动态抽样方法。IEEE传输。神经网络。学习。系统。 2013,24, 647–660. [谷歌学者]
冯·W。；黄，W。；基于边缘理论的班级不平衡合奏学习。申请。科学。 2018,8, 815. [谷歌学者] [交叉参考] [绿色版本]
冯·W。；多芬·G。；黄，W。；Quan，Y。；Liao，W.改良随机森林中基于Margin的新子抽样迭代分类技术。知识。基于系统。 2019,182, 104845. [谷歌学者] [交叉参考]
冯·W。；Bao，W.用于高光谱图像分类的基于加权的旋转森林。IEEE地质科学。遥感快报。 2017,14, 2167–2171. [谷歌学者] [交叉参考]
F.J.卡斯特拉诺斯。；瓦莱罗·马斯，J.J。；Calvo-Zaragoza，J。；Rico-Juan，J.R.对字符串空间中的不平衡数据进行过采样。模式识别。莱特。 2018,103, 32–38. [谷歌学者] [交叉参考] [绿色版本]
Chawla，N.V.公司。；K.W.鲍耶。；洛杉矶霍尔。；Kegelmeyer，W.P.SMOTE：合成少数过采样技术。J.阿蒂夫。智力。物件。 2002,16, 321–357. [谷歌学者] [交叉参考]
Blaszczynski，J。；Stefanowski，J.袋装中不平衡数据的邻里抽样。神经计算 2015,150, 529–542. [谷歌学者] [交叉参考]
齐克。；Yang，H。；胡，Q。；Yang，D.一种新的基于改进支持向量机的高维自适应加权非平衡数据分类器。知识。基于系统。 2019,185, 104933. [谷歌学者] [交叉参考]
Zhou，Z.H。；Liu，X.Y.用解决班级不平衡问题的方法训练成本敏感型神经网络。IEEE传输。知识。数据工程。 2006,18, 63–77. [谷歌学者] [交叉参考]
Datta，A。；Ghosh，S。；Ghosh，A.高光谱图像无监督波段选择的聚类和排序技术组合。IEEE J.选择。顶部。申请。地球目标遥感。 2015,8, 2814–2823. [谷歌学者] [交叉参考]
Galar，M.《班级失衡问题的合奏综述：打包、助推和混合方法》（the Ensembles for the Class Imbalance Problem:Bagging，Boosting，and Hybrid Based Approachs）。IEEE传输。系统。人类网络。C部分申请。版次。 2012,42, 463–484. [谷歌学者] [交叉参考]
Ng、W.W.Y。；胡，J。；杨，D.S。；尹，S。；Roli，F.《不平衡分类问题的基于灵敏度的多样化欠采样》。IEEE传输。赛博。 2017,45, 2402–2412. [谷歌学者] [交叉参考]
Ming，G。；夏，H。；盛，C。；Harris，C.J.A将基于SMOTE和PSO的RBF分类器相结合，用于两类不平衡问题。神经计算 2011,74, 3456–3466. [谷歌学者]
刘X.Y。；吴杰。；Zhou，Z.H.班级平衡学习探索性抽样不足。IEEE传输。系统。人类网络。B部分Cybern。 2008,39, 539–550. [谷歌学者]
Barandela，R。；瓦尔多维诺斯，R.M。；桑切斯·加雷塔，J.S。；Ferri，F.J.不平衡训练样本问题：采样不足或过度。在IAPR模式识别（SPR）和结构与句法模式识别（SSPR）统计技术联合国际研讨会; 施普林格：柏林/海德堡，德国，2004年；第3138卷，第806-814页。[谷歌学者]
刘，B。；Tsoumakas，G.通过随机欠采样处理分类器链中的类不平衡。知识。基于系统。 2020,192, 105292.1–105292.13. [谷歌学者] [交叉参考]
Akkasi，A。；瓦罗卢，E。；Dimiller，N.平衡欠采样：一种新的基于句子的欠采样方法，用于改进化学和生物医学文本中命名实体的识别。申请。智力。 2017,48, 1–14. [谷歌学者] [交叉参考]
康（Kang，Q.）。；陈，X.S。；Li，S.S。；Zhou，M.C.不平衡分类的采样方案下的噪声滤波。IEEE传输。赛博。 2017,47, 4263–4274. [谷歌学者] [交叉参考]
Ng、W.W.Y。；徐，S。；张杰。；田，X。；Rong，T。；Kwong，S.Hashing基于欠采样集成的非平衡模式分类问题。IEEE传输。赛博。 2020, 1–11. [谷歌学者] [交叉参考] [公共医学]
De Morais，R.F.A.B。；Vasconcelos，G.C.通过对少数类进行欠采样来提高过采样算法的性能。神经计算 2019,343, 3–18. [谷歌学者] [交叉参考]
巴蒂斯塔，G.E.A.P.A。；R.C.普拉蒂。；Monard，M.C.关于平衡机器学习训练数据的几种方法行为的研究。ACM SIGKDD探索。新闻。 2004,6, 20–29. [谷歌学者] [交叉参考]
普鲁斯蒂，M.R。；Jayanthi，T。；Velusamy，K.Weighted-SMOTE：钠冷快堆事件分类SMOTE的修改。掠夺。编号。能源 2017,100, 355–364. [谷歌学者] [交叉参考]
杜扎斯，G。；巴考，F。；丰塞卡，J。；Khudinyan，M.《土地覆盖分类中的非平衡学习：使用几何SMOTE算法提高少数民族类的预测精度》。远程传感器。 2019,11, 3040. [谷歌学者] [交叉参考] [绿色版本]
Sun，J。；朗·J。；藤田，H。；Li，H.使用DTE-SBD进行不平衡企业信用评估：基于SMOTE和差异化采样率的装袋的决策树集成。信息科学。 2018,425, 76–91. [谷歌学者] [交叉参考]
埃尔特金，S。；黄，J。；博图，L。；Giles，C.L.《边界学习：不平衡数据分类中的主动学习》。2007年11月6日至10日在葡萄牙里斯本举行的第十六届ACM信息与知识管理会议记录；计算机协会：美国纽约州纽约市，2007年；第127–136页。[谷歌学者]
孙，Y。；卡梅尔，M.S。；Wong，A.K.C。；Wang，Y.非平衡数据分类的成本敏感增强。模式识别。 2007,40, 3358–3378. [谷歌学者] [交叉参考]
他，H。；Garcia，E.A.从不平衡数据中学习。IEEE传输。知识。数据工程。 2009,21, 1263–1284. [谷歌学者]
丁·S。；米尔扎，B。；林，Z。；曹，J。；Sepulveda，J.Kernel基于在线学习的不平衡多类分类。神经计算 2017,277, 139–148. [谷歌学者] [交叉参考]
Yu，H。；杨，X。；郑S。；Sun，C.从不平衡数据中主动学习：在线加权极端学习机的解决方案。IEEE传输。神经网络。学习。系统。 2019,30, 1088–1103. [谷歌学者] [交叉参考]
张，H。；刘伟。；Shan，J。；Liu，Q.概念漂移和课堂失衡的在线主动学习配对合奏。IEEE接入 2018,6, 73815–73828. [谷歌学者] [交叉参考]
Sun，T。；Jiao，L。；冯，J。；刘，F。；张欣。基于最大边缘的非平衡高光谱图像分类。IEEE地质科学。遥感快报。 2015,12, 522–526. [谷歌学者] [交叉参考]
冯·W。；多芬·G。；黄，W。；Quan，Y。；Bao，W。；吴，M。；Li，Q.非平衡高光谱数据分类的基于动态合成少数民族过采样技术的旋转森林。IEEE J.选择。顶部。申请。地球目标遥感。 2019,12, 2159–2169. [谷歌学者] [交叉参考]
瓦普尼克，V.N。统计学习理论的本质; 施普林格：德国柏林/海德堡，2013年。[谷歌学者]
贾普科维奇，N。；Stephen，S。阶级失衡问题：一项系统研究。智力。数据分析。 2002,6, 429–449. [谷歌学者] [交叉参考]
阿卡巴尼（Akbani，R.）。；Kwek，S.S.公司。；杰普科维奇，N。支持向量机在非平衡数据集中的应用; 施普林格：柏林/海德堡，德国，2004年；第39-50页。[谷歌学者]
Kang，P。；Cho，S.EUS SVM：用于数据不平衡问题的欠采样SVM的集合。在神经信息处理国际会议记录; 施普林格：德国柏林/海德堡，2006年；第837-846页。[谷歌学者]
齐，W。；罗，Z.H。；黄J.C。；Feng，Y.H。；Zhong，L.一种新的非平衡数据学习集成方法：外推打包-SMOTE SVM。计算。智力。神经科学。 2017,2017, 1827016. [谷歌学者]
Ying，L。；Haokui，Z。；Qiang，S.Spectral–使用3D卷积神经网络对高光谱图像进行空间分类。远程传感器。 2017,9, 67. [谷歌学者] [交叉参考] [绿色版本]
塞拉米，A。；阿贝斯，A.B。；巴拉，V。；Farah，I.R.融合了三维光谱空间深度神经网络和光谱聚类用于高光谱图像分类。模式识别。莱特。 2020,138, 594–600. [谷歌学者] [交叉参考]
李，S。；Song，W。；方，L。；陈，Y。；加米西，P。；Benediktsson，J.A.高光谱图像分类的深度学习：概述。IEEE传输。地质科学。远程传感器。 2019,57, 6690–6709. [谷歌学者] [交叉参考] [绿色版本]
陈，Y。；Wang，Y。；顾，Y。；何，X。；加米西，P。；Jia，X.高光谱图像分类深度学习集成。IEEE J.选择。顶部。申请。地球目标遥感。 2019,12, 1882–1897. [谷歌学者] [交叉参考]
李，S。；Song，W。；秦，H。；Hao，A.深度方差网络：针对不平衡训练数据集的迭代改进CNN框架。模式识别。J.模式识别。Soc公司。 2018,81, 294–308. [谷歌学者] [交叉参考]
布达，M。；Maki，A。；Mazurowski，M.A.卷积神经网络中类不平衡问题的系统研究。神经网络。Off.J.国际神经网络。Soc公司。 2018,106, 249–259. [谷歌学者] [交叉参考] [公共医学] [绿色版本]
曹，X。；Wen，L。；Ge，Y。；赵，J。；Jiao，L.基于旋转的深层森林高光谱图像分类。IEEE地质科学。遥感快报。 2019,16, 1105–1109. [谷歌学者] [交叉参考]
Breiman，L.Bagging预测。机器。学习。 1996,24, 123–140. [谷歌学者] [交叉参考] [绿色版本]
Breiman，L.随机森林。机器。学习。 2001,45, 5–32. [谷歌学者] [交叉参考] [绿色版本]
罗德里格斯，J.J。；L.I.Kuncheva。；Alonso，C.J.旋转森林：一种新的分类器集合方法。IEEE传输。模式分析。机器。智力。 2006,28, 1619–1630. [谷歌学者] [交叉参考] [公共医学]
胡，W。；黄，Y。；李伟（Li，W.）。；张，F。；Li，H.深卷积神经网络用于高光谱图像分类。J.传感器。 2015,2015, 1–12. [谷歌学者] [交叉参考] [绿色版本]
费尔南德斯，A。；洛佩兹，V。；加拉尔，M。；德尔·耶稣，M.J。；Herrera，F.用多类分析不平衡数据集的分类：二值化技术和特殊方法。知识。基于系统。 2013,42, 97–110. [谷歌学者] [交叉参考]
Sáez，J.A。；Krawczyk，B。；Woźniak，M.分析多类不平衡数据集中不同类别和类型示例的过采样。模式识别。 2016,57, 164–178. [谷歌学者] [交叉参考]
Xu，X。；Chen，W。；Sun，Y.非平衡数据分类的过采样算法。J.系统。电子工程。 2019,30, 1182–1191. [谷歌学者] [交叉参考]
Yan，Y。；刘，R。；丁，Z。；杜，X。；陈，J。；Zhang，Y.非平衡分类中SMOTE的无参数清洗方法。IEEE接入 2019,7, 23537–23548. [谷歌学者] [交叉参考]

图1。空间信息提取和平衡数据集生成流程图。

图2。WDRoF的流程图。

图3。SVM、RF、RoF、CNN、SMOTE-RoF、RBDF的地面真值（GT）和分类图，以及在高光谱数据上提出的SMOTE-WDRoF方法印度松AVRIS. (一)燃气轮机(b条)支持向量机。(c（c）)射频。(d日)RoF（世界其他地区）。(e（电子）)SMOTE-RoF。(（f）)美国有线电视新闻网。(克)RBDF。(小时)烟雾WDRoF。

图3。SVM、RF、RoF、CNN、SMOTE-RoF、RBDF的地面真值（GT）和分类图，以及在高光谱数据上提出的SMOTE-WDRoF方法印度松AVRIS. (一)燃气轮机(b条)支持向量机。(c（c）)射频。(d日)RoF（世界其他地区）。(e（电子）)SMOTE-RoF。(（f）)美国有线电视新闻网。(克)RBDF。(小时)SMOTE-WDRoF公司。

图4。SVM、RF、RoF、CNN、SMOTE-RoF、RBDF的地面真值（GT）和分类图，以及在高光谱数据上提出的SMOTE-WDRoF方法KSC公司. (一)燃气轮机(b条)支持向量机。(c（c）)射频。(d日)RoF（世界其他地区）。(e（电子）)SMOTE-RoF。(（f）)美国有线电视新闻网。(克)RBDF。(小时)SMOTE-WDRoF公司。

图4。SVM、RF、RoF、CNN、SMOTE-RoF、RBDF的地面真值（GT）和分类图，以及在高光谱数据上提出的SMOTE-WDRoF方法KSC公司. (一)GT之间(b条)支持向量机。(c（c）)射频。(d日)RoF（世界其他地区）。(e（电子）)SMOTE-RoF。(（f）)美国有线电视新闻网。(克)RBDF。(小时)SMOTE-WDRoF公司。

图5。SVM、RF、RoF、CNN、SMOTE-RoF、RBDF的地面真值（GT）和分类图，以及在高光谱数据上提出的SMOTE-WDRoF方法萨利纳斯. (一)GT之间(b条)支持向量机。(c（c）)射频。(d日)RoF（世界其他地区）。(e（电子）)SMOTE-RoF。(（f）)美国有线电视新闻网。(克)RBDF。(小时)SMOTE-WDRoF公司。

图5。SVM、RF、RoF、CNN、SMOTE-RoF、RBDF的地面真值（GT）和分类图，以及在高光谱数据上提出的SMOTE-WDRoF方法萨利纳斯. (一)燃气轮机(b条)支持向量机。(c（c）)射频。(d日)RoF（世界其他地区）。(e（电子）)SMOTE-RoF。(（f）)美国有线电视新闻网。(克)RBDF。(小时)SMOTE-WDRoF公司。

图6。SVM、RF、RoF、CNN、SMOTE-RoF、RBDF的地面真值（GT）和分类图，以及在高光谱数据上提出的SMOTE-WDRoF方法Pavia ROSIS大学. (一)燃气轮机(b条)支持向量机。(c（c）)射频。(d日)RoF公司。(e（电子）)SMOTE-RoF。(（f）)美国有线电视新闻网。(克)RBDF。(小时)SMOTE-WDRoF公司。

图6。SVM、RF、RoF、CNN、SMOTE-RoF、RBDF的地面真值（GT）和分类图，以及在高光谱数据上提出的SMOTE-WDRoF方法Pavia ROSIS大学. (一)燃气轮机(b条)支持向量机。(c（c）)射频。(d日)RoF（世界其他地区）。(e（电子）)SMOTE-RoF。(（f）)美国有线电视新闻网。(克)RBDF。(小时)SMOTE-WDRoF公司。

图7。(一)AA根据级别的演变。(b条)根据级别的召回演变。

图8。回顾四个高光谱图像数据集上具有不同窗口大小的SMOTE-WDRoF的AA、F-measure和Kappa。(一)印度松AVRIS, (b条)KSC公司, (c（c）)萨利纳斯和(d日)Pavia ROSIS大学.

表1。印度松AVRIS、Salinas、KSC和Pavia ROSIS大学的数据信息。

数据集	印度松树AVRIS			萨利纳斯
	类别编号。	列车	测试	类别编号。	列车	测试
1	紫花苜蓿	23	23	Brocoli_绿色_杂草_1	100	1909
2	玉米诺蒂尔	428	1000	西兰花_绿_杂草_2	186	3540
三	康明蒂尔	249	581	c休闲	98	1878
4	玉米	71	166	cFallow_rough_plow（休闲_道路_流量）	68	1325
5	草地-堡垒	144	339	法洛_平滑	133	2545
6	玉米树	219	511	存根	197	3762
7	修剪过的玉米	14	14	芹菜	178	3401
8	海文获奖者	143	335	葡萄_未经训练	563	10,708
9	燕麦	10	10	土壤_乙烯基_开发	310	5893
10	大豆-茴香	291	681	玉米种子绿杂草	163	3115
11	大豆薄荷糖	736	1719	生菜_域名_4周	53	1015
12	大豆-清洁	177	416	生菜_域名_5周	96	1831
13	小麦	61	144	生菜_域名_6周	45	871
14	伍兹	379	886	生菜_域名_7周	53	1017
15	建筑-草地-树木-河流	115	271	葡萄园_未经训练	363	6905
16	石铁塔	46	47	葡萄园_垂直_葡萄园	90	1717
总计		3106	7143		2697	51,432
数据集	KSC公司			Pavia ROSIS大学
	类别编号。	列车	测试	班级编号。	列车	测试
1	刷洗	229	532	沥青	331	6300
2	柳树沼泽	73	170	草地	932	17,717
三	椰菜火腿	80	179	砾石	104	1995
4	椰菜/橡木火腿	76	176	树	153	2911
5	湿地松	49	112	涂漆金属板	67	1278
6	橡木/阔叶火腿	69	160	裸土	251	4778
7	硬木沼泽	32	73	沥青	66	1264
8	禾本科沼泽	130	301	自封砖	184	3498
9	斯巴蒂纳沼泽	157	363	阴影	47	900
10	Cattail沼泽	122	282
11	盐沼	126	293
12	泥滩	151	352
13	水	279	648
总计		1573	3635		2135	40,641

表2。在不平衡率为73.6的情况下，分别通过SVM、RF、RoF、SMOTE-RoF、CNN、RBDF和建议的SMOTE-WDRoF获得印度松AVRIS图像的分类结果（%）。

红外：73.6	支持向量机	射频	RoF（RoF）	SMOTE-RoF公司	美国有线电视新闻网	RBDF银行	SMOTE-WDRoF公司
1	$67.70 \pm 6.36$	$85.88 \pm 8.14$	$67.97 \pm 9.16$	$66.86 \pm 8.69$	$70.37 \pm 16.15$	$83.46 \pm 2.46$	$96.88 \pm 2.28$
2	$75.48 \pm 1.55$	$73.78 \pm 0.94$	$72.49 \pm 0.82$	$71.84 \pm 0.98$	$83.60 \pm 11.93$	$83.39 \pm 0.46$	$86.46 \pm 0.61$
三	$70.27 \pm 1.06$	$77.12 \pm 2.10$	$70.32 \pm 0.97$	$72.07 \pm 1.41$	$80.45 \pm 6.33$	$85.69 \pm 0.42$	$82.97 \pm 0.64$
4	$67.79 \pm 3.93$	$60.64 \pm 3.12$	$61.11 \pm 2.20$	$62.58 \pm 2.96$	$64.50 \pm 11.29$	$78.65 \pm 1.52$	$81.18 \pm 0.49$
5	$91.15 \pm 1.58$	$92.97 \pm 0.57$	$91.61 \pm 1.20$	$87.89 \pm 0.84$	$88.33 \pm 6.12$	$95.72 \pm 0.28$	$94.30 \pm 0.46$
6	$92.88 \pm 0.97$	$88.05 \pm 0.75$	$92.09 \pm 0.63$	$91.52 \pm 1.42$	$96.35 \pm 3.53$	$95.16 \pm 0.36$	$96.77 \pm 0.08$
7	$85.36 \pm 5.16$	$93 \pm 10.95$	$74.91 \pm 10.83$	$93.71 \pm 10.05$	$81.25 \pm 8.37$	$93.12 \pm 1.77$	$93.29 \pm 4.19$
8	$98.56 \pm 0.90$	$95.71 \pm 0.82$	$98.78 \pm 0.36$	$98.25 \pm 0.39$	$99.39 \pm 0.66$	$97.95 \pm 0.27$	$98.67 \pm 0.06$
9	$43.09 \pm 6.20$	$73.57 \pm 10.28$	$79.64 \pm 16.58$	$57.75 \pm 12.67$	$47.06 \pm 6.56$	$81.89 \pm 5.93$	$96.39 \pm 1.33$
10	$76.41 \pm 0.90$	$75.85 \pm 1.70$	$79.13 \pm 0.54$	$78.09 \pm 1.51$	$78.17 \pm 7.79$	$84.89 \pm 0.46$	$84.20 \pm 0.34$
11	$78.89 \pm 0.43$	$76.07 \pm 0.63$	$81.42 \pm 0.69$	$83.03 \pm 3.23$	$78.17 \pm 4.26$	$84.28 \pm 0.32$	$90.54 \pm 0.22$
12	$81.32 \pm 1.94$	$73.21 \pm 1.01$	$77.49 \pm 2.78$	$77.39 \pm 3.80$	$80.25 \pm 7.90$	$84.54 \pm 0.30$	$84.84 \pm 0.40$
13	$94.53 \pm 3.06$	$91.93 \pm 1.78$	$94.34 \pm 2.84$	$87.68 \pm 12.42$	$95.30 \pm 2.29$	$95.26 \pm 0.40$	$98.95 \pm 0.15$
14	$93.96 \pm 1.37$	$91.16 \pm 0.75$	$92.16 \pm 0.70$	$92.55 \pm 0.90$	$97.15 \pm 2.69$	$95.99 \pm 0.11$	$97.51 \pm 0.13$
15	$72.87 \pm 2.73$	$76.75 \pm 1.40$	$76.28 \pm 2.93$	$75.57 \pm 2.16$	$72.52 \pm 12.45$	$86.23 \pm 0.51$	$82.35 \pm 0.32$
16	$95.71 \pm 3.26$	$99 \pm 2.23$	$98.64 \pm 1.23$	$97.36 \pm 0.95$	$93.75 \pm 1.81$	$96.84 \pm 0.48$	$99.48 \pm 0.56$
AA（%）	$80.37 \pm 0.54$	$82.80 \pm 0.40$	$81.77 \pm 1.26$	$80.88 \pm 1.24$	$81.66 \pm 0.91$	$88.94 \pm 0.44$	$91.55 \pm 0.44$
召回率（%）	$81.71 \pm 1.77$	$75.78 \pm 1.62$	$81.42 \pm 0.82$	$81.35 \pm 2.20$	$89.77 \pm 0.71$	$87.72 \pm 0.20$	$91.67 \pm 0.40$
F值（%）	$80.58 \pm 0.90$	$78.45 \pm 1.31$	$81.26 \pm 1.04$	$81.05 \pm 1.40$	$85.46 \pm 0.64$	$88.21 \pm 0.29$	$91.51 \pm 0.34$
Kappa（%）	$79.26 \pm 0.20$	$77.62 \pm 0.16$	$79.33 \pm 0.22$	$79.57 \pm 0.30$	$84.88 \pm 2.47$	$86.35 \pm 0.18$	$88.64 \pm 0.18$

表3。在不平衡率为8.71的情况下，分别使用SVM、RF、RoF、SMOTE-RoF、CNN、RBDF和建议的SMOTE-WDRoF获得KSC图像的分类结果（%）。

红外：8.71	支持向量机	射频	RoF（RoF）	SMOTE-RoF公司	美国有线电视新闻网	RBDF银行	SMOTE-WDRoF公司
1	$74.23 \pm 1.20$	$91.96 \pm 0.62$	$89.89 \pm 0.99$	$93.12 \pm 1.26$	$85.57 \pm 15.13$	$90.37 \pm 1.25$	$97.25 \pm 0.26$
2	$70.96 \pm 1.91$	$80.20 \pm 1.99$	$90.17 \pm 1.75$	$88.03 \pm 1.59$	$80.46 \pm 6.76$	$86.35 \pm 3.42$	$93.20 \pm 1.12$
三	$60.86 \pm 10.39$	$88.66 \pm 0.73$	$89.21 \pm 1$	$86.29 \pm 2.24$	$73.30 \pm 19.32$	$87.76 \pm 4.19$	$91.63 \pm 1.29$
4	$35.80 \pm 4.34$	$60.49 \pm 0.50$	$62.58 \pm 2.14$	$66.53 \pm 1.98$	$61.40 \pm 19.21$	$72.92 \pm 2.42$	$80.45 \pm 2.06$
5	$64.98 \pm 37.91$	$79.39 \pm 3.99$	$71.26 \pm 6.81$	$72.58 \pm 4.36$	$79.45 \pm 11.57$	$75.20 \pm 4.16$	$82.36 \pm 3.31$
6	$55.29 \pm 9.64$	$70.10 \pm 4.24$	$66.44 \pm 4.32$	$66.17 \pm 2.92$	$65.22 \pm 37.52$	$78.91 \pm 3.19$	$79.50 \pm 0.71$
7	$0 \pm 0$	$73.79 \pm 1.87$	$80.70 \pm 2.10$	$85.09 \pm 3.89$	$75 \pm 10.62$	$86.76 \pm 3.04$	$90.19 \pm 2.48$
8	$65.71 \pm 4.01$	$85.72 \pm 1.43$	$86.74 \pm 1.84$	$85.07 \pm 1.42$	$79.73 \pm 4.96$	$86.64 \pm 3.24$	$90.70 \pm 1.37$
9	$71.79 \pm 1.84$	$89.97 \pm 0.61$	$91.75 \pm 0.95$	$94.86 \pm 0.50$	$82.08 \pm 1.79$	$91.40 \pm 0.36$	$94.88 \pm 0.69$
10	$99.12 \pm 1.09$	$96.41 \pm 1.20$	$98.77 \pm 0.31$	$98.28 \pm 0.67$	$98.13 \pm 5.91$	$97.27 \pm 1.52$	$98.43 \pm 0.35$
11	$95.15 \pm 1.61$	$99.04 \pm 0.28$	$99.12 \pm 0.83$	$97.52 \pm 0.78$	$98.25 \pm 0.33$	$98.64 \pm 0.57$	$99.84 \pm 0.09$
12	$76.74 \pm 1.07$	$93.67 \pm 1.01$	$96.91 \pm 1.59$	$96.19 \pm 1.69$	$93.53 \pm 7.68$	$95 \pm 0.83$	$95.97 \pm 0.73$
13	$98.86 \pm 0.29$	$100 \pm 0$	$100 \pm 0$	$99.93 \pm 0.13$	$99.08 \pm 0.72$	$99.82 \pm 0.09$	$99.97 \pm 0.01$
AA（%）	$66.89 \pm 3.55$	$85.34 \pm 0.76$	$86.42 \pm 0.85$	$86.90 \pm 0.51$	$82.40 \pm 3.27$	$88.24 \pm 1.86$	$91.87 \pm 0.17$
召回率（%）	$63.69 \pm 1.73$	$85.43 \pm 2.66$	$85.31 \pm 0.55$	$86.20 \pm 0.38$	$80.43 \pm 4.60$	$87.20 \pm 1.84$	$92.40 \pm 0.18$
F值（%）	$62.58 \pm 2.42$	$84.47 \pm 0.46$	$85.68 \pm 0.64$	$86.41 \pm 0.33$	$80.47 \pm 4.26$	$87.59 \pm 1.87$	$92.13 \pm 0$
Kappa（%）	$74.71 \pm 1.09$	$88.63 \pm 0.31$	$89.50 \pm 0.49$	$90.17 \pm 0.55$	$85.37 \pm 3.12$	$90.42 \pm 1.39$	$93.78 \pm 0.13$

表4。在不平衡率为12.51的情况下，分别通过SVM、RF、RoF、SMOTE-RoF、CNN、RBDF和建议的SMOTE-WDRoF获得Salinas图像的分类结果（%）。

红外：12.51	支持向量机	射频	RoF（RoF）	烟雾RoF	美国有线电视新闻网	RBDF公司	SMOTE-WDRoF公司
1	$100 \pm 0$	$99.83 \pm 0.04$	$99.92 \pm 0.06$	$99.57 \pm 0.16$	$96.22 \pm 7.64$	$99.74 \pm 0.14$	$99.81 \pm 0.04$
2	$98.57 \pm 0.39$	$99.65 \pm 0.04$	$98.88 \pm 0.38$	$99.66 \pm 0.13$	$97.78 \pm 2.24$	$98.56 \pm 0.19$	$99.08 \pm 0.37$
三	$89.20 \pm 1.96$	$94.62 \pm 0.55$	$95.66 \pm 0.37$	$95.51 \pm 0.60$	$94.03 \pm 2.79$	$95.49 \pm 0.28$	$97.08 \pm 0.42$
4	$95.62 \pm 0.92$	$98.19 \pm 0.14$	$98.63 \pm 0.43$	$98.46 \pm 0.18$	$98.15 \pm 0.17$	$95.01 \pm 1.18$	$98.52 \pm 1.07$
5	$89.39 \pm 3.05$	$97.63 \pm 0.06$	$98.03 \pm 0.54$	$97.10 \pm 0.83$	$90.24 \pm 6.20$	$98.67 \pm 0.16$	$99.30 \pm 0.09$
6	$99.85 \pm 0.17$	$99.94 \pm 0.06$	$99.91 \pm 0.05$	$99.85 \pm 0.12$	$99.76 \pm 0.18$	$99.90 \pm 0.04$	$99.38 \pm 0.22$
7	$99.37 \pm 0.44$	$99.40 \pm 0.25$	$99.40 \pm 0.32$	$99.44 \pm 0.21$	$97.97 \pm 1.70$	$99.30 \pm 0.08$	$99.17 \pm 0.31$
8	$66.94 \pm 0.75$	$75.58 \pm 0.26$	$79.42 \pm 0.68$	$80.15 \pm 0.55$	$71.74 \pm 4.84$	$79.22 \pm 0.23$	$82.80 \pm 0.19$
9	$96.98 \pm 0.92$	$97.27 \pm 2.42$	$98.79 \pm 0.35$	$98.68 \pm 0.37$	$97.91 \pm 0.83$	$99.09 \pm 0.16$	$99.62 \pm 0.31$
10	$87.11 \pm 0.78$	$93.02 \pm 0.60$	$94.96 \pm 1.32$	$92.56 \pm 0.87$	$89.27 \pm 3.76$	$94.05 \pm 0.47$	$91.17 \pm 1.15$
11	$83.67 \pm 1.99$	$93.50 \pm 0.77$	$94.79 \pm 1.32$	$94.07 \pm 0.70$	$78.61 \pm 7.71$	$94.94 \pm 0.71$	$95.70 \pm 0.27$
12	$94.54 \pm 0.59$	$95.46 \pm 0.69$	$97.50 \pm 0.91$	$98.40 \pm 0.23$	$90.17 \pm 9$	$96.68 \pm 0.34$	$99.25 \pm 0.24$
13	$93.49 \pm 0.30$	$96.05 \pm 0.21$	$97.17 \pm 1.69$	$94.66 \pm 0.64$	$93.69 \pm 2.31$	$96.91 \pm 0.60$	$97.92 \pm 0.35$
14	$95.52 \pm 1.26$	$92.55 \pm 0.87$	$92.65 \pm 1.25$	$96.21 \pm 1.52$	$94.51 \pm 2.21$	$97.64 \pm 1.40$	$98.81 \pm 0.16$
15	$78.45 \pm 2.04$	$75.23 \pm 0.41$	$78.42 \pm 11.22$	$72.38 \pm 1.28$	$78.40 \pm 6.68$	$77.79 \pm 0.87$	$74.90 \pm 0.96$
16	$99.35 \pm 0.37$	$97.76 \pm 0.51$	$98.43 \pm 0.44$	$99.67 \pm 0.17$	$96.62 \pm 1.40$	$99.21 \pm 0.14$	$98.95 \pm 0.19$
AA（%）	$91.75 \pm 0.24$	$94.11 \pm 0.14$	$95.16 \pm 0.26$	$94.77 \pm 0.16$	$91.57 \pm 0.66$	$95.14 \pm 0.03$	$95.72 \pm 0.05$
召回率（%）	$90.18 \pm 0.22$	$93.98 \pm 0.27$	$94.75 \pm 0.15$	$94.87 \pm 0.17$	$91.61 \pm 1.09$	$95.11 \pm 0.05$	$96.05 \pm 0.04$
F值（%）	$90.22 \pm 0.20$	$93.99 \pm 0.09$	$94.03 \pm 1.85$	$94.89 \pm 0.16$	$91.09 \pm 0.93$	$95.07 \pm 0.02$	$95.73 \pm 0.05$
Kappa（%）	$84.90 \pm 0.98$	$88.83 \pm 0.09$	$89.86 \pm 0.12$	$90.04 \pm 0.62$	$85.40 \pm 1.43$	$90.44 \pm 0.05$	$91.01 \pm 0.05$

表5。在不平衡比为19.83的情况下，分别通过SVM、RF、RoF、SMOTE-RoF、CNN、RBDF和建议的SMOTE-WDRoF获得Pavia ROSIS大学图像的分类结果（%）。

红外：19.83	支持向量机	射频	RoF（RoF）	SMOTE-RoF公司	美国有线电视新闻网	RBDF银行	SMOTE-WDRoF公司
1	$76.73 \pm 1.01$	$91.13 \pm 0.40$	$88.96 \pm 0.32$	$89.58 \pm 0.31$	$96.12 \pm 1.57$	$90.51 \pm 0.94$	$95.68 \pm 0.16$
2	$84.25 \pm 0.48$	$90.18 \pm 0.21$	$91.87 \pm 0.57$	$92.32 \pm 0.28$	$93.09 \pm 1.66$	$88.68 \pm 0.35$	$96.09 \pm 0.17$
三	$81.64 \pm 3.97$	$69.90 \pm 1.12$	$76.30 \pm 8.67$	$73.55 \pm 0.93$	$79 \pm 7.55$	$72.97 \pm 1.78$	$76.73 \pm 0.64$
4	$91.77 \pm 2.88$	$87.63 \pm 0.78$	$90.06 \pm 1.06$	$90.71 \pm 0.84$	$73.99 \pm 5.34$	$95.07 \pm 0.84$	$88.35 \pm 0.43$
5	$99.04 \pm 0.47$	$96.06 \pm 0.45$	$99.22 \pm 0.32$	$99.55 \pm 0.26$	$98.78 \pm 0.12$	$99.10 \pm 0.10$	$99.71 \pm 0.11$
6	$92.96 \pm 1.48$	$76.64 \pm 0.75$	$79.96 \pm 0.76$	$78.66 \pm 1.22$	$73.97 \pm 9.20$	$88.50 \pm 0.37$	$75.09 \pm 0.95$
7	$0.87 \pm 1.94$	$82.89 \pm 1.28$	$85.45 \pm 0.33$	$82.31 \pm 1.32$	$74.49 \pm 10.90$	$88.05 \pm 0.81$	$88.50 \pm 1.47$
8	$71.08 \pm 4.04$	$79.64 \pm 0.65$	$82.47 \pm 0.65$	$82.70 \pm 0.40$	$80.93 \pm 6.64$	$84.33 \pm 1.15$	$88.60 \pm 0.18$
9	$99.97 \pm 0.04$	$99.86 \pm 0.04$	$100 \pm 0$	$99.89 \pm 0.13$	$99.91 \pm 0.04$	$98.44 \pm 1.19$	$86.63 \pm 0.63$
AA（%）	$77.59 \pm 0.79$	$85.99 \pm 0.23$	$88.25 \pm 0.20$	$87.70 \pm 0.22$	$85.59 \pm 1.46$	$89.52 \pm 0.07$	$88.38 \pm 0.28$
召回率（%）	$70.80 \pm 0.64$	$85.27 \pm 0.37$	$85.89 \pm 0.30$	$86.83 \pm 0.23$	$88.69 \pm 0.92$	$85.65 \pm 0.31$	$91.28 \pm 0.23$
F值（%）	$71.42 \pm 1.11$	$85.52 \pm 0.25$	$86.88 \pm 0.18$	$71.54 \pm 35.11$	$86.52 \pm 1.20$	$87.23 \pm 0.18$	$89.44 \pm 0.26$
Kappa（%）	$76.61 \pm 0.63$	$82.64 \pm 0.19$	$84.72 \pm 0.39$	$84.86 \pm 0.36$	$82.56 \pm 1.67$	$85 \pm 0.17$	$87.32 \pm 0.36$

表6。四个高光谱图像数据集的CNN和SMOTE-WDRoF训练时间（秒）。

数据	印度松树AVRIS	KSC公司	萨利纳斯	Pavia Scenes大学
美国有线电视新闻网	30,830	5958	11,430	21,030
SMOTE-WDRoF公司	3942	1389	1809	1752

出版商备注：MDPI对公布的地图和机构关联中的管辖权主张保持中立。

分享和引用

MDPI和ACS样式

Quan，Y。；钟，X。；冯，W。；Chan，J.C.-W。；李强。；邢，M。基于SMOTE的非平衡高光谱数据分类加权深旋转森林。远程传感器。 2021,13, 464.https://doi.org/10.3390/rs13030464

AMA风格

全Y、钟X、冯W、陈JC-W、李Q、邢M。基于SMOTE的非平衡高光谱数据分类加权深旋转森林。遥感. 2021; 13(3):464.https://doi.org/10.3390/rs13030464

芝加哥/图拉宾风格

泉、颖慧、冼忠、魏峰、乔纳森·昌伟、李强和邢梦道。2021.“基于SMOTE的加权深旋转森林用于非平衡高光谱数据分类”遥感13，编号3:464。https://doi.org/10.3390/rs13030464

请注意，从2016年第一期开始，该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章菜单