期刊上的下一篇文章
利用地面和卫星观测评估CMIP6模型中的地面向上长波辐射
期刊上的上一篇文章
将地球静止卫星观测与协调Landsat-8和Sentinel-2时间序列融合,用于监测实地尺度的地表物候
 
 
订购文章重印
字体类型:
宋体 佐治亚州 宋体,Verdana
字体大小:
Aa公司 Aa公司 Aa公司
行距:
列宽:
背景:
第条

使用不同数量的多时间数据对精度的影响:以丰云3C数据绘制非洲部分地区土地覆盖图为例

1
中国电子科技大学资源与环境学院,成都611731
2
中国电子科技大学长三角区域研究所(湖州),湖州313001
埃塞俄比亚亚的斯亚贝巴科技大学应用科学学院(AASTU)邮政信箱16417
4
中国气象局,国家卫星气象中心,北京100081
*
信件应寄给的作者。
远程传感器。 2021,13(21), 4461;https://doi.org/10.3390/rs13214461
收到的提交文件:2021年9月14日/修订日期:2021年10月26日/接受日期:2021年11月3日/发布日期:2021年11月6日

摘要

:
区域或大陆尺度的土地覆盖测绘需要不同数量的几个月的多时相卫星数据来采集植被的酚学变化,从而增强地表覆盖类型之间的可区分性并提高准确性。然而,关于获得最佳结果所需的月数/多时相图像数以及使用不同数量的这些数据对各个类别准确性的影响,却鲜有报道。本研究旨在通过使用随机森林分类器,利用一年内丰云-3C(FY-3C)时间序列的不同月份数据,对非洲部分地区的土地覆盖制图进行分析。研究区域覆盖了大约三分之一的非洲,包括非洲大陆的东部、中部和北部。FY-3C为期一年的10天合成图像由11个波段组成,每个波段的空间分辨率为1km,分为7个输入数据集,其中包括1个月、3个月、6个月、连续9个月、12个月的叠加图像,使用波段/特征重要性从12个月中选择的图像,以及选择的9个月的图像。在独立测试样本上对这些数据集进行的比较表明,总体准确度、kappa系数和各个类别的准确度通常随着数据/月数的增加而显著增加。然而,通过处理选定的9个月图像,获得了最高的精确度和kappa系数0.86和0.83。第二个最大精度和kappa(0.85和0.82)是通过操纵12个月的场景找到的,这与通过应用特征约简获得的结果相同。尽管通过处理3个月和6个月的数据,相对于1个月的图像,准确率分别提高了4%和5%,但在连续6个月和9个月数据之间,未观察到准确率的变化,两者的准确率和kappa值(0.84和0.81)均相同,表明信息冗余。总的来说,高精度结果表明FY-3C数据用于非洲土地覆盖制图的可行性。

1.简介

土地覆盖(LC),即地表元素的组成和特征,是关键的环境数据。它对于一些科学、资源规划和监管活动以及各种应用都至关重要[1]. 它是土地利用的重要决定因素,因此也是土地的社会价值。土地覆盖在不同的空间尺度上有所不同,从局部到全球,时间频率从几天到几千年不等。随着环境管理和规划重要性的增加,对土地覆盖信息的需求也在增加[2,]. 一般来说,土地覆盖,特别是大面积的土地覆盖,是影响和连接人类和自然环境不同方面的一个主要因素[4]; 关于其在区域和全球范围内分布的信息对于研究影响生态和气候系统的全球变化至关重要[5].
在绘制区域到全球土地覆盖图的过程中,使用由特定时期的时间序列数据组成的波段度量是一种常见的做法,以捕捉由各种因素(主要是季节性物候变化)引起的光谱变化[6,7]从而提高了精度。然而,月份长度存在不一致性,即编制最准确的土地覆盖图所考虑的月份数。例如,Cihlar等人[8]使用单季高级甚高分辨率辐射计(AVHRR)合成数据(1公里像素大小)绘制了北部环境的土地覆盖图。同样,Beaubien等人[2]仅处理了一季拼接Landsat专题制图器图像来绘制BOREAS区域地图。Campbell等人[9]然而,我们选择了两季、春季和夏季的Landsat-5专题制图场景来驱动俄勒冈州东北部的土地覆盖产品。另一方面,还使用延续几个季节以上的时间序列数据生成了若干土地覆盖产品。举几个例子,Friedl等人[6]根据12个月的中分辨率成像光谱仪(MODIS)波段1-7地表反射率图像和增强植被指数(EVI)生成了500米空间分辨率的全球土地覆盖图。同样,通过考虑相同的时间范围,Loveland和Belward[10]操纵AVHRR仪器获得的12个月NDVI合成数据,空间分辨率为1km,并导出了一张称为IGBP-DISCover地图的全球土地覆盖图。最近,Smets等人[7]制作了一张中等分辨率的全球土地覆盖图,称为CGLS-LC100动态土地覆盖图(100),由270个指标组成,其中包括5天的PROBA-V 1亿年时间序列数据作为主要输入。此外,大多数区域到全球土地覆盖图都是使用某种类型的成像仪生成的,包括MODIS、AVHRR、Spot植被、ENVISAT和Landsat。
因此,在本研究中,我们旨在分析在使用机器学习算法生成非洲部分地区土地覆盖图时,处理不同月份的时间序列数据对总体和个别类别准确性的影响。为了实现我们的目标,我们从一年的风云3C(FY-3C)10天合成图像中获得了7个不同的叠加输入数据集,空间分辨率为1km,包括NDVI在内的11个波段。输入数据是通过系统划分考虑的年份生成的,即通过考虑每年的季节和使用特征选择技术。
FY-3C卫星是风云三号(FY-3,“风云”)系列卫星之一,是中国第二代极性、晨光、太阳同步气象卫星。它相对较新,于2013年9月23日推出[11]. 这颗现代成熟的卫星已达到稳定运行阶段[12]包括一种被称为中分辨率光谱成像仪(MERSI)的特殊光学成像仪器,该仪器每天覆盖整个地球表面,每次扫描时沿轨道(最低点)扫描2900公里×10公里[13]. 除了高时间分辨率(这是土地覆盖测绘和变化分析的关键质量)外,它还具有中等的空间分辨率(250 m)和高光谱分辨率(即20个通道/波段)。这些波段大多位于可见光和近红外(NIR)波段[11]这使我们能够区分具有细微变化的陆地表面特征,否则无法使用低光谱分辨率(如Landsat)进行分离。前五个通道1-5(4 VIS和1热红外)具有250米的空间分辨率,可用于创建白天自然色的地球高分辨率图像和夜间高分辨率热红外图像[14]; 其余波段(从6到20)的空间分辨率为1km。这些波段/通道使用0.4至14.4μm的波长[14]. 此外,Han等人[15]声称FY-3D与FY-3C是同一种仪器,但波段数、数据可以产生与MODIS和AVHRR相同或更好的结果。
因此,除了实现前面提到的目标外,本文还评估了FY-3C数据的性能,这些数据目前尚未用于非洲LC制图。

2.材料和方法

2.1. 研究区域

研究区域为灰色阴影区域,约占非洲大陆总面积的30%(图1). 它位于北纬11°58′31.71〃、北纬33°0′18.55〃和东经19°4′35.03〃、东经51°24′37.33〃之间。它包括大约18个国家,全部或部分位于非洲东部、中部和东北部。该地区有三种主要气候,如干旱、萨赫勒、热带和赤道气候;北部大部分地区干旱,包括世界上最大的沙漠撒哈拉沙漠,中部非洲以热带雨林覆盖而闻名。

2.2. 技术工作流程

采用了各种材料和技术来实现本研究的目标,如下所述,技术路线如所示图2.

2.3. 材料和/或资源

不同来源的两种卫星图像用于不同目的。FY-3C数据是从中国计量局(CMA)获得的主要输入数据。我们收集了2019年4月1日至2020年3月30日为期一年的10天合成图像,空间分辨率为1公里。然后,选择11个波段,包括可见光、红外(IR)和NDVI波段的最大值合成(MVC),用于预期目标(参见表1).
陆地卫星图像是用于收集参考数据的其他图像,其空间分辨率高于输入数据。为此,我们获得了为期一年的Landsat 8 Collection 1 Level-2图像,这些图像是经过大气校正的表面反射率图像,其间隔日期与输入数据相同。这些场景是从美国地质调查局(USGS)网站访问的[16]通过设置小于10%的云量标准并排除未知云量数据。一旦获得了图像,就可以手动选择最佳场景,以收集该特定位置的参考样本。
除陆地卫星数据外,2019年的现有地图,即100 m分辨率的哥白尼全球离散土地覆盖图(CGLS LC100离散地图)(https://lcviewer.vito.be/download(下载)谷歌地球专业版和/或谷歌地图也被用作补充和/或参考数据,同时收集培训和测试数据。
此外,为了对矢量和光栅数据进行各种预处理和后处理,使用了ENVI 5.3和ArcMap 10.7等软件。Python 3.8编程语言也被用于使用机器学习方法对图像进行处理和分类。为了操作数据,我们使用了某些Python库,例如包含NumPy和Matplotlib的Scikit学习库(https://scikit-learn.org/stable网站/,于2021年9月14日查阅);以及其他重要软件包,如osgeo、Geospatial Data Abstraction Library(gdal)、ogr、geopands等。

2.4. 随机森林分类器

机器学习算法是一种非参数监督技术,近年来已成为遥感技术的一个主要关注点和巨大成功,例如Pal和Mather[17]; Mountrakis等人[18]; 比利时和奥古特博士[19]; Maxwell等人[20]和Wulder等人[21]. 应用机器学习算法提供了显著的好处,包括能够建模复杂的类签名,接受各种输入预测数据,并且不受数据分布的影响[20]. 一些研究发现,与传统的参数算法相比,这些方法通常会产生更好的结果,特别是对于具有高维特征空间的复杂数据集,即多个估计特征或属性(例如Friedl和Brodley[22]; 汉森和里德[23]; Huang等人[24]; 朋友[25]; Pal和Mather[17]; Ghimire等人[26]; Otukei和Blaschke[27]).
随机森林(RF)是一种集合方法,由许多决策树组成,这些决策树是使用从随机选择的训练样本子集中随机选择的预测变量形成的,类别预测基于多数投票[19,28](请参见图3). 它是应用最广泛、最健壮的机器学习算法之一[19].
构造随机森林的方法通常是袋装法和随机子空间法的组合[29]. 树是通过替换(装袋方法,在这种情况下,可以以牺牲其他样本为代价重复选择同一样本)来绘制训练样本子集而形成的(图3A) ●●●●。大约三分之二的样本(称为袋内样本)用于训练树木。然而,剩下的三分之一(称为带外样本)用于内部交叉验证技术,以测试产生的RF模型执行的有效性,或用于误差估计,也称为带外(OOB)误差[28,30]. 每个决策树都是独立生成的,不需要进行任何修剪,每个节点都使用用户定义的随机选择的特征数(Mtry)进行拆分。通过将森林增加到用户定义的树数(Ntree),该算法创建的树具有高方差和低偏差[28]. 最后,该算法通过应用从多个估计量(树)中获得的多数票对新样本进行分类[30] (图3B) ●●●●。
两个参数显著影响RF分类器的性能:Ntree和Mtry[19,20]. 虽然各种研究表明,在影响分类结果方面,Mtry参数比Ntree更重要[31,32],为这两个参数设置适当的值对于找到更好的准确性至关重要。在这方面,比利时和奥古特博士[19]和Gislason等人[33]建议将500作为Ntree的默认值。然而,Guan等人[34]尽可能多地推荐Ntree的值,认为RF分类器计算效率高,不会过盈。关于Mtry参数,它主要被视为输入变量数量的平方根[19,33]. 另一方面,一些研究人员假设Mtry等于退出变量的总数(例如,Ghosh等人[31]). 然而,这种假设可能会降低计算效率,因为算法必须计算用于划分节点的所有特征所产生的信息增益[19].
文献中提到了应用RF算法的许多优点。RF提供高精度[19,35]甚至优于其他几种机器学习算法,包括判别分析、支持向量机和神经网络[30]并且对过度拟合非常稳健[19,28]. 与其他集成分类器(包括支持向量机和AdaBoot)不同,它的计算成本也很低。此外,它使我们能够选择重要的变量[35]这使我们能够删除最不重要的功能;它主要需要设置几个、两个参数,即Ntree和Mtry[19,20,30]RF的一个缺点是有许多树会降低可视化树的能力[28]. 因此,在本文中,我们通过设置Ntree=500和Mtry等于变量数的平方根来使用RF模型。

2.5. 选择参考数据位置和陆地卫星数据采集

通过创建多边形(参见图4)基于非洲生态区域、之前的非洲LC地图、哥白尼全球土地覆盖、全球覆盖和个人体验。如所示图4根据前面提到的标准,在研究区域内随机分布KMZ文件格式的白色多边形。然后,将KMZ文件(参考数据的位置)导入USGS网站,以选择和获取Landsat图像。

2.6. 类的命名

研究区域的土地覆盖类型分为八大类(表2)根据哥白尼全球土地运营第1部分所述的联合国土地覆盖分类系统(LCCS)[7].

2.7. 参考数据/ROI收集

研究表明,土地覆盖图的准确性主要取决于参考(培训和测试)数据的质量和数量。据Huang等人[24]训练数据可能比使用的分类器类型有更大的影响。然而,研究人员建议在训练数据的大小上使用相互矛盾的数字。例如Noi和Kappas[36]建议训练样本量应为整个研究区域的0.25%。詹森和卢拉[37]然而,建议的训练像素应该至少是分类模型中变量数量的十倍。另一方面,其他研究发现机器学习算法需要大量的训练数据才能获得更好的结果[33].
因此,对于这项工作,我们在整个研究区域收集了大量参考数据,91207个训练像素和27667个测试像素(参见图5)来自陆地卫星8号表面反射率图像。不同类别的训练和测试像素数根据土地覆盖的大小而不同,表3由于占据大片区域的类比占据小块区域的类需要更多的样本,因此每个类的训练样本按区域比例分布产生了最佳的分类结果[38].
在开始图像判读以收集土地覆盖示例之前,假彩色合成图像(主要是5、4、3)是从ENVI中的六个叠加波段(波段2至7)创建的,用于覆盖特定区域现有的哥白尼地图。然后,通过同时使用三种技术/参考资料,在合成Landsat图像上对各种土地覆盖类别进行识别和/或解释。
这些是:
  • 通过应用图像解释元素(如纹理、图案、联想、颜色、色调等)对图像进行解释。
  • 如果输入数据的最小绘图单位(1 km×1 km,即40×40 Landsat像素)的类别是同质的,则交叉检查之前的基础土地覆盖图,即哥白尼全球土地覆盖图(100 m)。
  • 最后,对更高分辨率的图像、谷歌地球专业版和谷歌地图进行了进一步的交叉检查/安慰。
通常,类命名是基于之前地图和谷歌地球Pro/Google地图辅助的Landsat图像的解释。然而,当这些参考之间出现差异/不一致时,就像经常发生的那样,类的命名是通过引用Google Earth Pro和/或地图来进行的,因为它们的分辨率高于其他两个参考。在确认土地覆盖类型的名称后,将样本注释为多边形XML文件,然后使用ENVI导出为形状文件。
最后,在ArcMap中合并来自不同场景的形状文件,以创建包含所有收集的参考数据的单个形状文件。然后,将合并的单个参考数据分为两部分(图5)使用ArcMap,分别从每个类的20个形状文件中随机选择5个样本多边形,并导出大约75/25个训练/独立测试数据。一旦选定的测试样本被导出为单独的形状文件,它们就会从包含训练数据和测试数据的合并数据中删除,使得剩余数据仅占样本(训练数据)的75%。
如中所述第2.1节考虑了总共一年(2019年4月1日至2020年3月30日)的10天复合数据,并在每年的季节之后系统地划分为不同的月份,以确定多时间数据月份数的变化如何影响土地覆盖分类的准确性。
因此,通过改变下面列出的前五个输入数据的连续月数,以及使用后两个输入数据中的特征选择/简化方法,从十一个光谱带(包括NDVI)中形成了七种不同类型的叠加图像。
  • 一个月堆叠图像(OMSI):这是由一个月(2019年4月)的10天合成图像创建的,它由三个合成图像组成,其中每个图像由10天场景组成。因此,一个月的堆叠图像共有33个频带/特征,这是由以下三个变量的乘积产生的:
    每月3张图像×1个月×11个波段=33个波段/特征
  • 三个月叠加图像(TMSI):由三个月(2019年4月、5月和6月)合成图像组成的叠加图像,共包含99个波段的图像。
  • 六个月叠加图像(SMSI):六个月(2019年4月、5月、6月、7月、8月、9月)的叠加合成图像,每波段198个特征。
  • 九个月叠加图像(NMSI):这是一个9个月(2019年4月、5月、6月、7月、8月、9月、10月、11月、12月)的叠加场景,共有297个频段/特征。
  • 一年堆叠图像(OYSI):包含最大特征/波段396,因为它是由2019年4月1日至2020年4月一日的一年合成图像构成的。
  • 从一年堆叠图像中选择的数据(SDFOYSI):顾名思义,数据是通过使用随机森林分类器的可变重要性的特征选择/约简方法生成的。使用随机森林分类器的优势之一是其特征/变量重要性算法,这是一种内置功能,有助于选择最重要的变量并删除最不重要的变量。使用该算法并通过设置95%的累积重要性,从OYSI的396个特征/波段中选择了337个特征/频带(参见图6). 暗示其余59个波段是最不重要的特征,对整体结果影响不大。
  • 选定的九个月堆叠图像(SNMSI):由选定的9个月图像(2019年4月、5月、6月、7月、8月、9月;以及2020年1月、2月和3月)组成的堆叠图像,这些图像是根据处理SMSI和NMSI获得的结果创建的。也就是说,它是通过删除三个月(2019年10月、11月、12月)的数据从一年期数据中形成的,因为处理SMSI和NMSI时观察到的精度没有变化,其中NMSI包含排除的月份。换句话说,它是通过系统特征选择技术获得的数据。

2.8. 模特培训

在Python3.8编程语言平台中执行数据处理,包括模型训练、分类和准确性评估。该软件由各种内置库组成,如Scikit-Learn(sklearn)、NumPy和Matplotlib,这些库使我们能够执行各种机器学习算法,包括随机森林。
因此,本文采用随机森林模型对数据进行分类。使用中讨论的七种不同输入数据类型训练算法第2.8条但使用的是由91207个训练像素组成的相同训练数据集。除Ntree(n_estimator)和随机状态外,模型参数被设置为sklearn库中给出的大多数参数的默认值,根据Gislason等人的建议,这些参数从100转换为500[33],Maxwell等人[20]比利时和奥古特博士[19],无至42。关于Mtry,我们使用了默认值,它等于变量数量的平方根;这是以前几部作品中应用最广、建议价值最高的一部。

2.9. 准确性评估

通过使用误差矩阵、最常用的精度评估技术、f-score和kappa系数评估通过改变输入数据集生成的各种模型的性能。误差矩阵也被称为混淆矩阵,因为它不仅识别每个类别的总体误差,而且还按类别识别错误分类(由于类别之间的混淆)。混淆矩阵允许评估用户的准确度或召回率(正确分类的像素数除以该类中预测的像素总数)和生产者的准确度,也称为精确度(正确分类像素数除以真正属于该类的像素总数。)对于每个类[39].

3.结果

由不同数量的叠加图像组成的所有七个输入数据集的性能由3到36个合成图像组成,其中每个包含11个波段(包括NDVI)的图像均使用相同的独立测试样本进行评估。然而,为不同类别收集的参考数据、训练和测试像素的数量因土地覆盖面积的大小而异。也就是说,具有较大面积覆盖的土地覆盖类型,例如裸地/稀疏植被、农田、灌木和森林,用大量像素表示;而少数民族类,如建筑群和草本湿地,则用较少的像素表示,与该类的流行程度成比例(参见图7表4). 该策略被证明具有最佳的准确性[38].
如中所述第2.9条进行精度测试,因此,误差矩阵(图7)同时采用了f1核和kappa系数。表4图7a–d表示总体准确度、kappa得分、准确度、召回率和f1-核心值通常随数据所含月份的增加而增加。OMSI和OYSI的总体准确度差异高达6%,个别类别准确度差异显著。准确性的这种变化/提高是由于月数和相关时间序列数据数量的增加。换句话说,与在较短时间间隔内获得的场景相比,在较长时间段内收集的图像获得了更重要的各类属性。数据涵盖的时间越长,与内在特征组成相关的土地覆盖类型属性就越多,这些特征决定了地表特定物体的光谱特征。季节变化也被称为物候特性和类的混合可以被记录,并加强类的区分。
因此,使用较长时间的连续数据可以记录不同因素引起的变化,从而很好地描述不同的土地覆盖类型;这可以帮助我们找到更好的分类精度。
然而,这种泛化并不一定意味着处理更多月份的多时相图像会比处理更少月份的图像更准确。例如,尽管SNMSI包含的数据比OYSI少3个月(参见表4图7e、 g);因此,这些数据被用于绘制研究区域的土地覆盖图(图8). 类似地,尽管OYSI包含最高的时间间隔/数据,但其结果为次佳,分别为0.85和0.82,精确度和kappa值,这与处理SDFOYSI得出的结果相似,但使用特征约简方法获得的数据较少(参见表4图7e、 f.不仅如此,NMSI还产生了与SMSI几乎相同的精度和kappa值(0.84和0.81),尽管它有3个月的更多信息。这表明存在冗余信息,如果删除这些冗余信息,对准确性几乎没有影响。

4.讨论

4.1. 特征选择/减少的影响

为了解决信息冗余和删除最不重要的数据,实现了两种特征选择技术。特征/波段缩减是一种在不显著改变最终产品的情况下删除最不重要的变量/波段的方法。换句话说,它是一种选择代表对象的最重要信息的方法[33]. 它也是一种最小化/避免过拟合的方法,从而增强分类器的泛化能力并降低计算成本。因此,本文采用了自动和手动两种特征选择方法。
在自动方法中,我们使用OYSI上由396个特征/波段组成的sklearn库(python 3.8)中随机森林的变量重要性模块来选择最重要的变量;因此,我们使用95%的累积重要性获得了337个特征/波段。分析选定的337条谱带,得出的准确度和kappa得分几乎与OYSI相同,分别为0.85和0.82,OYSI证明了不添加重要信息的数据冗余的合理性。这意味着其余59个波段是最不重要的特征,它们对整体结果的影响是微不足道的。
然而,在第二个场景中,我们通过从一年的图像中系统地选择9个月的图像SNMSI来手动创建数据。也就是说,它是在早期实验的基础上,通过省略包含冗余信息的连续三个月的图像而形成的。所选数据产生了最佳结果和最高准确度(0.86)、kappa得分(0.83)以及最佳准确度、召回率和f1分数(表4图7g) ●●●●。结果表明,合并几个具有相似信息的特征/变量会对整体准确性和单个类的准确性产生负面影响,因为这可能会导致过拟合,从而影响算法的泛化能力。换言之,与这些变量的子集相比,大量数据特征(即频带)可能产生更低的分类准确度,特别是如果子集中的变量以某种方式选择,以集中于那些与类别区分高度相关的变量[20].

4.2. 错误矩阵

图7显示水体和裸露/稀疏植被是最准确的分类类别,高于0.9,所有类型的输入数据的召回率和f1核心值变化不大。这些表明,这些类别具有不同的光谱特性,这些特性仅受处理的月数/时间数据变化的轻微影响;季节变化对其影响不大。另一方面,随着月数/时间数据的增加,农田、草本湿地、草本植被和灌木等四个植被类别的准确性(用户、生产者和f1-核心)至少提高了1%,这意味着地表覆盖类型中物候事件变化的显著影响。然而,建筑面积没有表现出月数变化的模式,因为它独立于季节变化。此外,它的分类准确率最低,仅略高于60%;它与农田高度混淆。这可能是由混合像素引起的,因为这两个类在空间上是相关的,并且在大多数情况下是混合的。在使用粗分辨率图像时,混合像素是影响土地覆盖精度的主要因素之一[2]. 另一个原因可能是它的尺寸。由于它是一个少数民族阶级,发现覆盖范围很小,很难收集大量的参考数据。同样,草本湿地和草本植被的制图精确度较低。前者是因为它的大小,是一个少数民族,并且表现出与水体、农田和森林相似的光谱特性;和/或它们具有这些类的混合像素。因此,它经常被错误地标记为这些类。关于草本植被,它大多被错误地归类为灌木和农田。除上述原因外,这还可能归因于类/图例定义。也就是说,根据定义,草本植被可以包含多达10%的树木和/或灌木,因此很可能将混合类错误分类,其中一类占主导地位,而另一类接近截止值。例如,在收集数据时,87%的草本植被和13%的树木/灌木覆盖的土地可能被误解为草本植被,因为收集信息的方法是一种目视检查,容易出错,最终导致混淆和错误分类。这也可能是将灌木误分类为森林和虎钳诗的主要原因。土地覆盖类别定义对准确性的影响也由[7].

5.结论

这项工作的目的是分析处理不同数量月的多时相卫星数据对土地覆盖分类准确性的影响,并使用最佳输入数据和机器学习、随机森林、分类器制作非洲部分地区的土地覆盖图。我们还旨在评估FY-3C中国计量卫星数据在绘制非洲土地覆盖图方面的有效性。
通过增加月数(即时间数据)进行逐步实验。我们从一个为期一个月的堆叠图像开始,该图像由三个10天的合成场景组成,每个场景有11个波段,包括平均最大NDVI和1公里的空间分辨率;然后将月数增加了三、六、九和十二。从2019年4月至2020年3月,这几个月将是连续的,并考虑到每年的四个季节。此外,通过波段选择/归约方法从一年期数据中生成了两个不同的输入数据集,使输入数据集总数达到7。对于所有输入数据集,使用从陆地卫星图像采集的相同训练样本(91207个训练像素)训练随机森林算法,但每个类的训练数量不同。最后,对所有输入数据进行测试,测试样本由27667个像素组成。
总体准确度、kappa系数和个别类别准确度通常随着连续时间序列数据/月数的增加而增加。然而,尽管包含最大月数/输入数据,但通过操纵一年的堆叠多时相数据并没有获得最佳结果。使用该数据仅产生第二最佳精度(0.85),该精度与对一年数据进行特征选择/缩减后获得的处理数据所产生的精度相同。对系统选择的9个月、三个季节的图像进行处理时,获得了最高的准确度,总体准确度(0.86)和kappa系数(0.83);因此,选择这些数据来创建研究区域的土地覆盖图。
在大面积土地覆盖测绘中,通过从一年多时相数据中系统地选择月份和/或特征,我们可以获得最佳结果。此外,使用一年期数据95%的累积重要性进行变量选择对总体准确性影响很小/没有影响,尽管显著带(59)被丢弃。
因此,在本研究中,尽管使用了FY-3C中的单一输入数据类型,但总体准确度较高,超过85%,表明FY-3数据非常有效,适合非洲土地覆盖分类。
最后,如果提高输入数据的空间分辨率并考虑其他辅助输入数据,则可以达到更好的分类精度。此外,增加空间分辨率会减少像素混合,从而增强类之间的可微性;特别是少数民族类可以以更好的精度进行映射。另一方面,如果主题分辨率(类数)增加,则总体准确性会降低[5,21].

作者贡献

概念化,T.A.、W.X.和J.F。;数据管理,T.A.和J.F。;形式分析。;调查,T.A。;方法论,T.A。;项目管理,W.X。;资源、T.A.、W.X.和J.F。;软件,T.A。;监督,W.X.和J.F。;验证,T.A。;可视化、T.A.、W.X.和J.F。;书面原稿,T.A。;Writing review&editing,T.A.所有作者均已阅读并同意手稿的出版版本。

基金

这项研究没有得到外部资助。

数据可用性声明

FY3C/VIRR数据可从CMA NSMC网站请求(http://satellite.nsmc.org.cn/,于2021年9月14日访问)和Landsat 8图像可从https://earthxplorer.usgs.gov,于2021年9月14日查阅。

利益冲突

作者声明没有利益冲突。

工具书类

  1. Tchuenté,A.T.K。;鲁让,J.-L。;De Jong,S.非洲大陆尺度GLC2000、GLOBCOVER、MODIS和ECOCLIMAP土地覆盖数据集的比较和相对质量评估。国际期刊申请。地球观测地理信息。 2011,13, 207–219. [谷歌学者] [交叉参考]
  2. Cihlar,J.《卫星大面积土地覆盖制图:现状和研究重点》。《国际遥感杂志》。 2000,21, 1093–1114. [谷歌学者] [交叉参考]
  3. 博宾,J。;Cihlar,J。;西马德,G。;Latifovic,R.使用新的增强分类方法从多个专题制图场景中获取土地覆盖。《地球物理学杂志》。Res.大气。 1999,104, 27909–27920. [谷歌学者] [交叉参考]
  4. Foody,G.M.土地覆盖分类准确性评估现状。遥感环境。 2002,80, 185–201. [谷歌学者] [交叉参考]
  5. Latifovic,R。;Olthof,I.利用卫星数据得出的全球土地覆盖产品的亚像素分数误差矩阵进行精度评估。远程。传感器环境。 2004,90, 153–165. [谷歌学者] [交叉参考]
  6. 弗里德尔,M。;McIver,D。;霍奇斯,J。;张,X。;Muchoney,D。;斯特拉勒,A。;Woodcock,C。;Gopal,S。;施耐德,A。;库珀,A。;等。MODIS全球土地覆盖图:算法和早期结果。遥感环境。 2002,83, 287–302. [谷歌学者] [交叉参考]
  7. Smets,B。;Buchhorn,M。;Lesiv,M。;东北部坦巴扎尔。哥白尼全球陆地业务“植被和能源”; 哥白尼:比利时布鲁塞尔,2017年;第1卷。[谷歌学者]
  8. Cihlar,J。;Ly,H。;Xiao,Q.用AVHRR多通道复合物对北部环境中的土地覆盖进行分类。遥感环境。 1996,58, 36–51. [谷歌学者] [交叉参考]
  9. 坎贝尔,M。;康加尔顿,R.G。;Hartter,J。;Ducey,M.使用陆地卫星图像在俄勒冈州东北部进行最佳土地覆盖测绘和变化分析。照片。工程远程。参议员。 2015,81, 37–47. [谷歌学者] [交叉参考] [绿色版本]
  10. 洛夫兰,T.R。;Belward,A.S.IGBP-DIS全球1km土地覆盖数据集,DISCover:首次结果。《国际遥感杂志》。 1997,18, 3289–3295. [谷歌学者] [交叉参考]
  11. 唐英秋。;Zhang,J.S。;Wang,J.S.FY-3气象卫星及其应用。中国空间科学杂志。 2014,34, 703–709. [谷歌学者]
  12. 杨,Z。;张,P。;顾,S。;胡,X。;唐,S。;Yang,L。;徐,N。;Zhen。;Wang,L。;吴琼。;等。风云3D卫星在地球系统观测中的能力。J.Meteorol公司。物件。 2019,33, 1113–1130. [谷歌学者] [交叉参考]
  13. 徐,N。;牛,X。;胡,X。;王,X。;Wu,R。;陈,S。;Chen,L。;Sun,L.公司。;丁·L。;杨,Z。;等。风云3D上先进MERSI II的发射前校准和辐射性能。IEEE传输。地质科学。远程传感器。 2018,56, 4866–4875. [谷歌学者] [交叉参考]
  14. 杨,Z。;卢,N。;史J。;张,P。;Dong,C。;Yang,J.FY-3有效载荷和地面应用系统概述。IEEE传输。地质科学。远程。参议员。 2012,50, 4846–4853. [谷歌学者] [交叉参考]
  15. 韩,X。;杨,J。;唐,S。;Han,Y.从风云3D中分辨率光谱成像仪II获得的植被产品。J.Meteorol公司。物件。 2020,34, 775–785. [谷歌学者] [交叉参考]
  16. 美国地质勘探局。在线可用:https://earthxplorer.usgs.gov/(2021年4月29日访问)。
  17. M.帕尔。;Mather,P.M.遥感分类支持向量机。国际J.远程。参议员。 2005,26, 1007–1011. [谷歌学者] [交叉参考]
  18. Mountrakis,G。;我,J。;Ogole,C.遥感中的支持向量机:综述。ISPRS摄影杂志。远程传感器。 2010,66, 247–259. [谷歌学者] [交叉参考]
  19. 比利时,M。;Augut博士,L.《遥感中的随机森林:应用综述和未来方向》。ISPRS摄影杂志。远程传感器。 2016,114, 24–31. [谷歌学者] [交叉参考]
  20. 麦克斯韦,A.E。;华纳公司。;Fang,F.遥感中机器学习分类的实施:应用综述。《国际遥感杂志》。 2018,39, 2784–2817. [谷歌学者] [交叉参考] [绿色版本]
  21. Wulder,文学硕士。;北卡罗来纳州库普斯。;罗伊,D.P。;怀特,J.C。;Hermosilla,T.土地覆盖率2.0。《国际遥感杂志》。 2018,39, 4254–4284. [谷歌学者] [交叉参考] [绿色版本]
  22. 弗里德尔,文学硕士。;Brodley,C.E.根据遥感数据对土地覆盖进行决策树分类。遥感环境。 1997,61, 399–409. [谷歌学者] [交叉参考]
  23. Hansen,M.C。;Reed,B.W.IGBP DISCover和马里兰大学1km全球土地覆盖产品的比较。《国际遥感杂志》。 2000,21, 1365–1373. [谷歌学者] [交叉参考]
  24. 黄,C。;戴维斯,L.S。;Townshend,J.R.G.土地覆盖分类的支持向量机评估。《国际遥感杂志》。 2002,23, 725–749. [谷歌学者] [交叉参考]
  25. Pal,M.遥感分类的随机森林分类器。《国际遥感杂志》。 2005,26, 217–222. [谷歌学者] [交叉参考]
  26. 吉米尔,B。;罗根,J。;罗德里格斯-加利亚诺,V.F。;潘迪,P。;Neeti,N.美国马萨诸塞州科德角陆地覆盖分类用袋装、增强和随机森林评估。地理科学。远程传感器。 2012,49, 623–643. [谷歌学者] [交叉参考]
  27. Otukei,J.R。;Blaschke,T.使用决策树、支持向量机和最大似然分类算法进行土地覆盖变化评估。国际期刊申请。地球观测地理信息。 2010,12秒,S27–S31。[谷歌学者] [交叉参考]
  28. Breiman,L.RandomForests。机器。学习。 2001,45, 5–32. [谷歌学者] [交叉参考] [绿色版本]
  29. Tso,B。;马瑟,P。遥感数据的分类方法; CRC出版社:博卡拉顿,佛罗里达州,美国,2009年;第367页。[谷歌学者]
  30. Liaw,A。;Wiener,M.通过randomForest进行分类和回归。R新闻 2002,2, 18–22. [谷歌学者]
  31. Ghosh,A。;法斯纳赫特,F.E。;乔希,P.K。;Koch,B.结合高光谱和激光雷达数据绘制树种地图的框架:选定分类器和传感器在三个空间尺度上的作用。国际期刊申请。地球观测地理信息。 2014,26, 49–63. [谷歌学者] [交叉参考]
  32. V.Y.Kulkarni。;Sinha,P.K.《随机森林分类器的修剪:调查和未来方向》。2012年7月18日至20日,印度喀拉拉邦,2012年国际数据科学与工程会议(ICDSE)会议记录。[谷歌学者]
  33. Gislason,邮政编码:。;Benediktsson,J.A。;Sveinsson,J.R.Random Forests,土地覆盖分类。模式识别。莱特。 2006,27, 294–300. [谷歌学者] [交叉参考]
  34. 关,H。;李,J。;查普曼,M。;邓,F。;季,Z。;Yang,X.使用随机森林进行基于对象的城市专题制图的正射影像和激光雷达数据集成。《国际遥感杂志》。 2013,34, 5166–5186. [谷歌学者] [交叉参考]
  35. 罗德里格斯-加利亚诺,V.F。;吉米尔,B。;罗根,J。;奥尔莫,M.C。;Rigol-Sanchez,J.P.对随机森林分类器在陆地覆盖分类中的有效性进行评估。ISPRS摄影杂志。远程传感器。 2012,67, 93–104. [谷歌学者] [交叉参考]
  36. Noi,P.T。;Kappas,M.使用Sentinel-2图像进行土地覆盖分类的随机森林、k-最近邻和支持向量机分类器的比较。传感器 2018,18, 18. [谷歌学者]
  37. Jensen,J.R。;Lulla,K.《数字图像处理入门:遥感视角》。Geocarto国际。 1987,2, 65. [谷歌学者] [交叉参考]
  38. Colditz,R.R.使用基于决策树的算法对离散和连续土地覆盖分类的不同训练样本分配方案进行评估。远程传感器。 2015,7, 9655–9681. [谷歌学者] [交叉参考] [绿色版本]
  39. 坎贝尔,J.B。;韦恩,R.H。遥感概论第5版。;吉尔福德出版社:美国纽约州纽约市,2011年;第718页。[谷歌学者]
图1。研究区域的地图,灰色阴影区域,以及它在非洲的位置。
图1。研究区域地图、灰色阴影区域及其在非洲的位置。
远程调校13 04461 g001
图2。技术工作流程。
图2。技术工作流程。
远程定位13 04461 g002
图3。随机森林分类器的训练和分类阶段:i=样本,j=变量,p=概率,c=类,s=数据,t=树的数量,d=要分类的新数据,value=变量j可以具有的不同值[19].
图3。随机森林分类器的训练和分类阶段:i=样本,j=变量,p=概率,c=类,s=数据,t=树的数量,d=要分类的新数据,value=变量j可以具有的不同值[19].
远程调校13 04461 g003
图4。陆地卫星图像(白色多边形)的位置和分布,用于参考数据收集。
图4。陆地卫星图像(白色多边形)的位置和分布,用于参考数据收集。
远程设置13 04461 g004
图5。培训和测试数据的分发。2.8。FY-3C 10天复合数据的预处理。
图5。培训和测试数据的分发。2.8。FY-3C 10天复合数据的预处理。
远程设置13 04461 g005
图6。波段重要性(左边)和95%的累积重要性(正确的).
图6。波段重要性(左边)和95%的累积重要性(正确的).
远程设置13 04461 g006
图7。各种月数的混淆矩阵。()OMSI的混淆矩阵;(b条)TMSI的混淆矩阵;(c(c))SMSI的混淆矩阵;(d日)NMSI的混淆矩阵;(电子)OYSI的混淆矩阵;((f))SDFOYSI的混淆矩阵;()SNMSI的混淆矩阵。
图7。不同月份数量的混淆矩阵。()OMSI的混淆矩阵;(b条)TMSI的混淆矩阵;(c(c))SMSI的混淆矩阵;(d日)NMSI的混淆矩阵;(电子)OYSI的混淆矩阵;((f))SDFOYSI的混淆矩阵;()SNMSI的混淆矩阵。
远程设置13 04461 g007a远程设置13 04461 g007b远程设置13 04461 g007c
图8。研究区域的土地覆盖图。
图8。研究区域的土地覆盖图。
远程设置13 04461 g008
表1。FY-3C 10天合成图像的选定波段列表。
表1。FY-3C 10天合成图像的选定波段列表。
波段编号。乐队名称波长范围(微米)
波段1FY-3C_VIRR日EV_RefSB0.58–0.68
波段2FY-3C_VIRR日EV_RefSB0.84–0.89
波段3FY-3C_VIRR日EV_RefSB1.55–1.64
波段4FY-3C_VIRR日EV_RefSB0.43–0.48
波段5FY-3C_VIRR日EV_RefSB0.48–0.53
波段6FY-3C_VIRR日EV_RefSB0.53–0.58
波段7FY-3C_VIRR日EV_RefSB1.325–1.395
波段8FY-3C_VIRR_日期_版本_发送3.55–3.93
波段9FY-3C_VIRR_日期_版本_发送10.3–11.3
波段10FY-3C_VIRR_日期_版本_发送11.5–12.5
波段11NDVI的MVC值-
表2。根据Smets等人[7].
表2。根据Smets等人[7].
土地覆盖等级基于UN-LCCS的类别定义
1.裸露/稀疏植被一年中任何时候植被覆盖率不超过10%的裸露地表或土地
2.建筑建筑物和其他人造结构覆盖的地表
3.农田断断续续种植作物、收获后荒芜的土地(例如,单作和复作制度)。根据定义,多年生木本作物将被归类为森林或灌木。
4.森林木本植物覆盖的土地,覆盖率超过15%,高度超过5米。例外情况:具有树木独特外貌特征的木本植物,即使其高度小于5米但大于3米,也可以归类为树木。
5.草本湿地被水和草本或木本植物的持久混合物覆盖的土地。盐、微咸或淡水中可能有植被。
6.草本植被缺乏明显的固体结构并且在表面以上没有持久的茎或芽的植物。它可能包含多达10%的树木和灌木。
7.灌木这些是多年生木本植物,具有宿存木质茎,高度不到5米,没有明显的主茎。灌木的叶子可以是常绿的,也可以是落叶的。
8.水体这些包括湖泊、水库和河流。水可以是新鲜的,也可以是咸的。
表3。每个类别的参考数据。
表3。每个类别的参考数据。
类别(名称)培训数据测试数据
每个类的像素数
1类(裸露/稀疏植被)205856424
2级(建筑)1620575
第3类(农田)154724246
4类(森林)113783101
5类(草本湿地)1686602
第6类(草本植被)123943641
第7类(灌木)189565283
第8类(水体)91163795
总像素数9120727667
表4。七种不同数量的时间序列数据的分类报告(a–g)。
表4。七种不同数量的时间序列数据的分类报告(a–g)。
输入数据类名称裸露/稀疏植被建筑农田森林草本湿地草本植物灌木水体
类ID1245678
像素数642457542463101602364152833795
(a) OMSI公司精度0.890.680.680.840.650.720.720.92
回忆0.930.550.790.880.480.590.710.90
f1-芯0.910.610.730.860.550.650.710.91
精确0.79
卡帕核0.75
(b) TMSI公司精度0.920.580.760.840.750.790.740.94
回忆0.920.520.780.890.570.650.790.97
f1-芯0.920.540.770.860.650.710.770.95
精确0.83
卡帕核0.79
(c) SMSI公司精度0.930.580.790.890.730.770.760.96
回忆0.930.560.800.880.660.700.810.97
f1-芯0.930.570.800.880.690.730.790.97
精确0.84
卡帕核0.81
(d) NMSI公司精度0.940.480.770.890.720.770.770.96
回忆0.920.540.820.860.670.700.800.97
f1-芯0.930.510.790.880.690.730.790.97
精确0.84
卡帕核0.81
(e) OYSI公司精度0.950.650.780.900.700.790.770.96
回忆0.940.570.830.850.670.710.820.98
f1-芯0.940.610.810.870.680.750.790.97
精确0.85
卡帕核0.82
(f) SDFOYSI公司精度0.950.480.780.900.700.790.770.96
回忆0.910.570.840.850.670.710.820.98
f1-芯0.930.520.810.880.690.750.800.97
精确0.85
卡帕核0.82
(g) SNMSI公司精度0.950.670.810.910.730.820.770.93
回忆0.920.580.870.850.700.720.830.98
f1-芯0.930.620.840.880.720.760.800.95
精确0.86
kappa_核心0.83
出版商备注:MDPI在公布的地图和机构隶属关系中对管辖权主张保持中立。

分享和引用

MDPI和ACS样式

Adugna,T。;徐伟(Xu,W.)。;J·范。使用不同数量的多时间数据对准确性的影响:以使用丰云3C数据绘制非洲部分地区土地覆盖图为例。远程传感器。 2021,13, 4461.https://doi.org/10.3390/rs13214461

AMA风格

Adugna T、Xu W、Fan J。使用不同数量的多时间数据对准确性的影响:以使用丰云3C数据绘制非洲部分地区土地覆盖图为例。遥感. 2021; 13(21):4461.https://doi.org/10.3390/rs13214461

芝加哥/图拉宾风格

Adugna、Tesfaye、Xu Wenbo和Fan Jinlong。2021.“使用不同数量的多时间数据对准确性的影响:以使用丰云3C数据绘制非洲部分地区土地覆盖图为例”遥感13,编号21:4461。https://doi.org/10.3390/rs13214461

请注意,从2016年第一期开始,该杂志使用文章编号而不是页码。请参阅更多详细信息在这里.

文章指标

返回页首顶部