杂志的下一篇文章
Montecito火灾后泥石流调查
期刊上的上一篇文章
地理教育的协作沉浸式虚拟环境
 
 
订购文章重印
字体类型:
宋体 佐治亚州 宋体,Verdana
字体大小:
澳大利亚 澳大利亚 澳大利亚
行距:
列宽:
背景:
第条

基于加权梯度提升决策树的三峡库区万州段滑坡敏感性制图

1
中国地质大学(武汉)地球物理与地球数学研究所,中国武汉430074
2
中国地质调查局中南地球科学创新中心,中国武汉430205
湖州大学信息工程学院,湖州313000
4
中国地质调查局武汉地质调查中心,中国武汉430205
5
中国地质环境监测研究所,北京100081
6
四川智途信息技术有限公司,中国成都610000
*
信件应寄给的作者。
这些作者为这项工作做出了同等贡献。
ISPRS国际地理信息杂志。 2019,8(1), 4;https://doi.org/10.3390/ijgi8010004
收到的提交文件:2018年10月31日/修订日期:2018年12月6日/接受日期:2018年12月17日/发布日期:2018年12月25日

摘要

:
本研究的主要目标是使用加权梯度提升决策树(加权GBDT)模型生成三峡库区万州段(中国)滑坡易感性图。根据目前对滑坡敏感性制图(LSM)的研究,GBDT方法很少用于LSM。此外,以往的研究很少考虑滑坡样本的不平衡性,而将LSM问题简单地视为二元分类问题。在本文中,我们将LSM视为一个非平衡学习问题,并使用加权GBDT方法获得了一个更好的预测模型。本文的创新点主要包括以下两点:将GBDT模型引入滑坡敏感性评价;采用加权GBDT方法处理滑坡样品不平衡问题。研究中还使用了logistic回归(LR)模型和梯度提升决策树(GBDT)模型与加权GBDT模型进行了比较。研究中使用了来自不同数据源的五种数据:地质、地形、水文、土地覆盖和触发因素(降雨、地震、土地利用等)。29个环境参数和233个滑坡被用作输入数据。使用受试者操作特征(ROC)曲线、ROC曲线下面积(AUC)值和召回值来评估加权GBDT模型、GBDT模式和LR模式的质量。结果表明,GBDT模型和加权GBDT模式的AUC值(0.977,0.976)高于LR模型(0.845);加权GBDT模型的AUC值(0.977)略高于GBDT模式(0.976);加权GBDT模型的召回值(0.823)高于GBDT模式(0.426)和LR模式(0.004)。考虑到AUC值和召回值,加权GBDT方法在处理不平衡滑坡数据的滑坡敏感性制图中具有最佳性能。

1.简介

滑坡是世界上最常见的地质灾害之一,发生频率高,分布范围广,灾害后果严重,每年造成多人伤亡[1,2]. 滑坡是一个复杂的非线性系统,滑坡敏感性制图是滑坡灾害管理和滑坡发生预测的重要方法之一[,4,5]. LSM旨在建立滑坡位置及其相关因素之间的关系,以识别在空间上容易发生的区域[]. 近10年来,随着地理信息系统(GIS)和遥感(RS)的发展,在LSM中提出了许多方法[,6]. 一般来说,这些方法可以分为知识驱动、数据驱动以及两者的组合。典型的知识驱动方法包括模糊逻辑[7,8,9,10,11,12,13,14,15]模糊综合评价层次分析法[16,17,18],和专家系统方法,而数据驱动模型主要包括信息值[19],逻辑回归[20,21,22,23,24,25,26,27],人工神经网络[28,29,30],支持向量机[31,32,33,34]和其他机器学习方法。中的研究[]发现logistic回归模型似乎是LSM中最流行的方法,这也用于本研究。
随着集成学习的发展,bagging和boosting方法越来越多地用于分类和回归。集成学习方法在许多机器学习比赛中也取得了优异的成绩。也有研究使用集成学习方法进行LSM[4,35]. 然而,与AdaBoost相比,GBDT方法很少用于LSM,随机森林(RF)是集成学习方法之一。此外,在给定的研究区域内,滑坡样品的数量通常远小于非滑坡样品的数目。在进行滑坡样品划分时,很少有研究关注滑坡样品不平衡的问题。通常的做法是随机重采样非滑坡样品,使滑坡样品与非滑坡样品具有相同的数量级,这往往导致非滑坡数据的浪费和预测能力低。因此,非滑坡样本数据往往被浪费,导致模型的预测能力较差。
由于当地气候的原因,研究区域遭受极端降雨事件的影响,中国三峡地区近年来受到滑坡灾害的严重影响,并经历了重大且广泛的滑坡事件[34]. 中的工作[36]采用信息价值法计算万州区滑坡的易感性。自组织映射网络方法用于[37]计算万州区的LSM。摘要采用加权信息值法对万州区滑坡易感性进行了计算[38]. 本文研究了GBDT方法在研究区域内用于LSM的性能。同时,考虑到滑坡样品的不平衡性,将成本矩阵应用于GBDT模型,即对滑坡样品和非滑坡样品赋予不同的权重,以尽可能地分离滑坡样品。最后,得到了具有较高召回值和AUC值的加权GBDT模型。

2.材料和方法

2.1. 研究区域

万州是中国重庆的一个地区,与四川省西北部和湖北省东南部接壤。它也是长江流域的主要港口城市之一,也是豫东地区重要的工业、文化、贸易和交通中心[39]. 万州区位于纬度之间 30 23 50 N和 31 0 18 N和经度 107 52 22 E和 108 53 52 E.研究区域(图1)属于万州区河岸段,面积552公里 2 沿长江分布,有202处历史滑坡。
从地质角度来看,该地区主要由三叠纪和侏罗纪地层组成,形成时间为2.3-1.37亿年前。当地还有2.85亿至2.3亿年前的古生代二叠纪地层,以及250万年前的新生代第四纪地层。图2显示了研究区域的地层分布,比例为1:50000[39].
万州区属于亚热带季风湿润区,气候温和,雨量充沛。年平均降水量为1191.3毫米,5月至9月几乎70%的年降水量[39].
万州区的主要地质灾害包括崩塌、滑坡和塌岸[38]. 根据美国地质调查局的滑坡分类(https://pubs.usgs.gov/fs/2004/3072/pdf/fs2004-3072.pdf)研究区滑坡以块体滑坡为主,小部分滑坡为泥石流。滑坡的成分主要是侏罗纪红石板、砾石和土壤。
使用分辨率为30×30 m的数字高程模型(DEM)生成一组地形因子,这些地形因子可从网址:http://www.gscloud.cn美国地质调查局(USGS)提供了2013年12月8日获取的陆地卫星8号卫星图像(下载自https://earthxplorer.usgs.gov/). 岩性数据是从当地国土资源局收集的。气象数据由气象局政府收集和汇编(下载自http://www.cma.gov.cn/). 对所有上述数据进行处理,并使用ArcGIS 10.2、QGIS 2.18.22和SAGA 7.0.0创建滑坡相关因素。sklearn支持logistic回归方法和GBDT方法[40],这是一个开源Python库。

2.2. 滑坡敏感性绘图过程

我们的总体工作流程可以在图3共有29个因素可分为5类(表1).
在滑坡易感性评价中,许多特征并不意味着效果良好[41]. 筛选滑坡因素,消除因素之间的多重共线性,降低特征维数,有助于提高模型的鲁棒性。
数据降维采用了多种方法。如确定性因子(CF)[42]主成分分析(PCA)、皮尔逊相关(PC)和递归特征消除(RFE)。
在本文中,我们使用主成分分析方法来降低数据的维数。选取8个解释方差较高的因子作为滑坡敏感性评价的输入因子。图4显示了八个滑坡因素的分布。
滑坡敏感性制图的主要思想是:采用8个评价因子作为条件属性;将滑坡样本作为决策属性;将条件属性和决策属性形成初始决策表;然后,将属性作为模型的输入特征集,训练三个模型;最后,实现了滑坡敏感性制图。具体步骤如下:
  • 划分模型单元:本研究采用网格单元作为模型单元。遥感图像数据和DEM数据的空间分辨率为30m,因此所有评价因子均重新采样至30m。研究区域划分为582486个单元,其中553172个为非滑坡,其余29313个为滑坡。非滑坡单元的数量约为滑坡单元数量的19倍。
  • 构建初始决策表:8个评价因子对应的条件属性和滑坡对应的决策属性(1代表滑坡,0代表非滑坡)形成二维表;每行描述一个对象,每列对应对象的一个属性。也就是说,二维表包含582486行和30列。
  • 二维表格被随机分为两部分:训练数据(70%)和测试数据(30%)。训练数据用于建立模型,测试数据用于进行预测。
  • 滑坡易发性评价:利用上述三个模型计算研究区内的所有模型单元,并输出属于每一类的每个模型单元的概率值,生成滑坡预测指数(LPI)图。
  • 重新分类LPI图:根据自然断点法将LPI图分为五类;它们是非常高、高、中、低和非常低,这意味着滑坡的易感性水平。
  • 结果分析。利用受试者操作特征(ROC)曲线、ROC曲线下面积(AUC)值和召回值对三种模型进行综合评估。本文还给出了不使用精度值的原因。

2.3. 对数几率回归

Logistic回归通常用于二分依赖或预测变量[43]. 与通常的线性回归模型相比,变量可以是连续的,也可以是离散的[44]. 滑坡发生(Y(Y))和滑坡因素( X(X) 1 , X(X) 2 , …, X(X) n个 )LR模型可用方程式(1)表示。
Y(Y) = 自然对数 ( 1 ) = β 0 + β 1 X(X) 1 + β 2 X(X) 2 + + β n个 X(X) n个
哪里 是的概率Y(Y)发生在某地, / ( 1 ) 是“比值比”或似然比,以及 β ( = 0 , 1 , 2 , , n个 ) 是LR模型的回归系数[19].
然后,我们可以得到位置的概率使用方程式(2)。
= 1 / ( 1 + e(电子) β 0 + β 1 X(X) 1 + β 2 X(X) 2 + + β n个 X(X) n个 )

2.4. 梯度推进决策树

为了解决传统决策树容易过度拟合的问题,学者们将决策树算法与集成学习算法(bagging和boosting)相结合。GBDT算法是boosting的代表性算法之一,也称为MART(多元加性回归树)或GBRT(梯度boosting回归树)。GBDT是传统机器学习算法中拟合真实分布的最佳算法之一,具有很强的泛化能力,可用于分类问题或回归问题。它还可以使用正则化函数来校正训练结果,降低过拟合程度。
梯度增强算法是斯坦福统计学教授弗里德曼于2001年提出的,是一种使用梯度下降法的近似方法[45].
GBDT方法是集成学习中boosting家族的一员。与AdaBoost方法不同,GBDT使用CART回归树作为弱分类器。

2.5. 非平衡样本问题与加权GBDT方法

样本不平衡问题意味着每个类别下数据集中的样本数量差异很大(数量差异)。例如,在本文的研究中,非滑坡样品的数量是滑坡样品数据的19倍。处理不平衡数据的通常做法是随机抽样非滑坡样品,以便滑坡样品与非滑坡样品具有相同的数量级。因此,非滑坡样本数据往往被浪费,导致模型的预测能力较差。对于样本不平衡问题,可以从数据和算法两个方面解决。
在数据层面,有可能对阳性样本(滑坡样本)进行过采样或对阴性样本(非滑坡样本)采样不足。当前流行的过采样方法是合成少数过采样技术(SMOTE)方法[46]. Borderline-SMOTE是SMOTE的一种改进算法,它可以解决SMOTE算法中的样本重叠问题[47]. 流行的欠采样技术是EasyEnsemble技术[48]. EasyEnsemble方法将负样本划分为多个子类;对所有子类进行训练,然后对训练得分进行综合分析,得到最终的分类结果。
在算法层,使用代价矩阵设置不同类别对应的权重,使负样本的误分类代价大于正样本的误归类代价。本文中使用的方法可能属于这一类。

2.6. 模型评估

在本研究中,我们使用了两个统计指标,即敏感性和特异性,来评估LSM模型的性能。敏感性和特异性分别是正确分类为滑坡发生的滑坡像素比例和正确分类为非滑坡的非滑坡像素比例[35],可使用以下公式计算:
S公司 e(电子) n个 t吨 v(v) t吨 = T型 P(P) T型 P(P) + F类 N个
S公司 e(电子) c(c) (f) c(c) t吨 = T型 N个 F类 P(P) + T型 N个
其中TP(真正)和TN(真负)是被正确分类的像素数量,而FP(假正)和FN(假负)是被错误分类的像素数量。
基于敏感性和特异性,我们使用接收算子特征(ROC)曲线、ROC下面积(AUC)和召回值作为评估指标来评估LSM模型的能力。ROC曲线通常用于评估诊断信号的性能,如土地变化[49,50]使用灵敏度作为Y轴,特异性作为X轴,具有不同的截止阈值[51]. AUC代表了模型预测滑坡和非滑坡单元的能力。AUC值1表示完美模型,0表示非信息模型[52]. 此外,我们还讨论了精度值在滑坡样品不平衡条件下的适用性。召回值和准确度值的计算公式如下:
R(右) e(电子) c(c) = T型 P(P) T型 P(P) + T型 N个
A类 c(c) c(c) u个 第页 c(c) = T型 P(P) + T型 N个 T型 P(P) + F类 N个 + T型 N个 + F类 P(P)
为了找到最佳权重,我们将非滑坡样品的权重设置为1,然后将滑坡样品的重量从1增加到30。为了找到合适的评价指标,我们引入了平衡准确度得分,这意味着不同类别样本的召回值的平均值。
类别权重的选择见图5.最佳权重使平衡准确度得分最大。我们还可以看到,随着滑坡样本权重的增加,召回值逐渐增加,而AUC值变化不大。
表2显示了本研究中使用的成本矩阵。
从表中可以看出,正确分类的惩罚系数为0,这意味着如果分类结果正确,则不会受到惩罚。将非滑坡样本划分为滑坡样本的惩罚系数为1。将滑坡划分为非滑坡样本的惩罚系数为17。这意味着非滑坡样品的误分类成本是滑坡样品误分类成本的17倍。

3.结果

3.1. 滑坡因素的重要性

在本研究中,我们使用了sklearn图书馆[40]计算滑坡因素的重要性。功能重要性见图6.
发件人图6可以发现,降雨对研究区滑坡发生的影响最大。地震强度和距离河流的距离产生了几乎相同的影响。降雨和河流分布对研究区滑坡的影响占很大比例。

3.2. 滑坡敏感性测绘结果

图7显示了使用从滑坡预测指数(LPI)分类的三个模型进行滑坡敏感性绘图的结果。LPI越高,发生滑坡的可能性越大。不平衡类也是不使用0.50决策阈值为三种模型分离类的原因。对于不平衡学习问题,截止值的值应考虑到班级的概率分布(http://www.svds.com/learning-inbalanced-classes(http://www.svds.com/learning-inbalanced-classes)/). 在本研究中,使用自然断点方法将LPI分为五类,其中考虑了概率分布的直方图进行分类。三种模型的磁化率图结果如所示图7a–c。
从中可以看出图7加权GBDT模型倾向于将更多区域划分为非常高的水平,而LR模型倾向于将更多区域分为低水平和非常低的水平,GBDT模式介于两者之间。对于单个图像,距离长江越近,滑坡的易感性越高。
图8显示了每个类别在每个模型中的比例。
通过加权GBDT预测出更多区域为易受影响区域的原因如下:对于加权GBDT-方法,滑坡样本的权重大大提高,因此在模型的训练过程中,滑坡样本比例也得到了提高。从而提高了模型对滑坡样本的预测能力。

3.3. 验证和比较

对于LR模型,LPI范围为0–0.783。使用自然断裂法,将滑坡敏感性图重新分类为五类,即极低(0-0.034)、低(0.034-0.09)、中等(0.09-0.167)、高(0.167-0.281)和极高(0.281-0.783)。
对于GBDT模型,LPI的范围为0-1。采用自然断裂法,将滑坡敏感性图重新划分为五类,即极低(0-0.055)、低(0.055–0.182)、中等(0.182–0.370)、高(0.370–0.609)和极高(0.609–1)。
对于加权GBDT模型,LPI范围为0-0.991。采用自然断裂法,将滑坡敏感性图重新划分为五类,即极低(0–0.113)、低(0.113–0.315)、中等(0.315–0.560)、高(0.560–0.808)和极高(0.808–0.991)。
选择ROC曲线和召回值来评估模型的预测能力。使用召回值的原因是ROC曲线不能完全描述模型预测能力的细节[53]. 使用混淆矩阵比较模型预测精度(表3). 发件人表3,我们发现三个模型的准确度得分非常接近,三个模型分别达到0.949(LR)、0.968(GBDT)和0.953(加权GBDT。从表面上看,这三种型号似乎都很好。然而,观察百分比列,我们可以发现LR模型只预测了23%的滑坡样本。这种现象是由于滑坡样本数据的不平衡造成的。本文中,滑坡样品与非滑坡样品的比例达到了1:19,因此即使所有滑坡样品都被误分类,滑坡样品的误分类率也只有0.05,这对准确度值不会产生很大影响。因此,准确度值不适合作为样本不平衡的评估指标。在本研究中,ROC曲线、ROC曲线下面积(AUC)和召回值被用作评估指标,如图9表4LR模型在召回值和AUC方面表现最低,分别为0.004和0.845。GBDT模型和加权GBDT模式的召回值和AUC值高于LR模型,GBDT和加权GBDT模型的召回值分别为0.426和0.823,GBDT和加权GBDD模型的AUC值分别为0.976和0.977。加权GBDT模型在三种模型中表现出最高的AUC值和召回值。因此,加权GBDT方法在滑坡敏感性制图中具有最佳的预测能力。
三个模型的实际滑坡位置验证可参见图10。可以从中看到图10a LR模型在区分真实滑坡方面不是很好。只有靠近长江的滑坡,如黄泥堡滑坡、康家坡滑坡、白玉沱滑坡和石桂梁滑坡,才能被确定为非常高的易发区和高易发区。大观村滑坡和关口滑坡被确定为低敏感区或极低敏感区,这与实际情况不符。
图10b显示了比LR模型更好的结果。大多数滑坡区分为高易感性和极高易感性区。然而,关口滑坡的大部分地区被划分为低敏感区。陶家坪滑坡、2号固体废物滑坡和3号固体废物滑坡(历史滑坡物质和固体废物的混合物)被划分为中度易发区。
图10c表示最佳分类结果。几乎所有的滑坡都被划分为高敏感区和非常高敏感区,这也证明了加权GBDT方法的有效性。

4.讨论

滑坡敏感性可以作为回归问题或分类问题进行分析。当被视为一个分类问题时,越来越多的机器学习方法被用作当前研究中的分类器。然而,在这些研究中,滑坡易感性评价问题往往被描述为一个正常的二元分类问题,而不是一个不平衡的学习问题。在前人研究的基础上,本文考虑了不平衡滑坡样本问题,并将LSM问题描述为一个不平衡学习问题。
在本研究中,我们分析了滑坡样本不平衡引起的问题,发现精度值不能很好地评估和区分模型的优缺点,因为精度值指示了模型的总体精度,包括滑坡样本和非滑坡样本。当非滑坡样本的数量远大于滑坡样本的数量时,滑坡样本错误分类的成本变得微不足道。根据精度计算方程(方程(6)),假设非滑坡数量无限,精度值的值无限接近1,而不是零,这证明了当样本不平衡时,精度值不适合滑坡敏感性评价。不平衡的样本数据可能会导致负类(即非滑坡类)的预测出现偏差。
因此,我们将召回价值引入模型的评估中,因为召回价值只关注正确区分多少阳性样本。同时,在滑坡易感性评价中,我们关注的焦点是准确预测了多少滑坡样本,这与召回值代表的含义相吻合。从召回值计算公式(式(5))可以看出,预测的滑坡样本越多,召回值越高。
LR模型显示出较高的准确度值(0.949)、中等的AUC值(0.845)和极低的召回值(0.004),这证明滑坡样本的误分类率非常大,而非滑坡样本的错分类率非常小。根据前面的分析,我们可以断言,在滑坡样本不平衡的情况下,LR模型不是一个好的模型。即使模型的精度值和AUC值也很高。
GBDT模型的准确度值(0.968)、AUC值(0.976)和召回值(0.426)均高于LR模型,表明GBDT的性能优于LR模型。这主要是因为集成学习方法使用多个弱分类器来分析和评估分类结果。
加权GBDT模型在三个模型中具有很高的准确度值(0.953)、最高AUC值(0.977)和召回值(0.823),这表明通过为不同类别设置不同的权重,可以提高模型的预测性能。召回值的显著增加也证明了加权GBDT方法在处理滑坡样本不平衡问题方面的良好性能,这意味着滑坡样本比其他两个模型能够更准确地进行区分。
加权GBDT方法的关键是样本权重的选择。然而,选择最佳样本权重需要迭代计算不同权重下的平衡精度得分值,这将花费大量时间。因此,快速搜索最佳权重仍有待研究。
值得注意的是,我们只讨论了在算法级别解决滑坡样本不平衡问题。数据层面的解决方案仍然值得探索和研究;例如,使用EasyEnsemble方法对非滑坡数据进行降采样,使用SMOTE方法对滑坡样本进行过采样等。此外,还需要考虑更多非平衡学习的评价指标,如精度、F1-score等。

5.结论

在本研究中,通过将LR模型、GBDT模型和加权GBDT模式应用于滑坡敏感性制图,我们可以得出以下结论:
提出了一种新的LSM模型,称为加权GBDT,它比LR模型和GBDT模型更适合于LSM模型。
与以往的研究相比,本文重点研究了滑坡样品不平衡引起的问题。滑坡易感性评价问题不再是一个普通的二元分类问题,而是一个不平衡的学习问题。在算法层面,使用加权GBDT方法处理和分析不平衡学习问题。最后,针对这种不平衡学习问题,用召回值代替准确度值作为评价指标。
在实践中的大多数情况下,滑坡样品的数量往往远远小于非滑坡样品,因此滑坡样品不平衡是一个常见的问题。本文提出的方法有望在滑坡灾害风险管理过程中发挥更大的作用。

作者贡献

概念化、Y.S.和R.N。;方法论,S.X。;软件,T.G。;验证,L.P。;调查,R.Y。;资源,S.X。;书面,原稿编制,Y.S。;写作、审查和编辑,S.X。;项目管理,S.L。;融资收购、R.Y.、L.P.和T.C。

基金

本研究由地质调查项目(No.0431203)、三峡地质灾害防治后续工作及研究项目(No.001212018CC60010,0001122012AC50021)、国家自然科学基金(No.41602362)和国家自然科学基础(No.61601418)共同资助。

致谢

感谢王振声和王吉庆在文章撰写过程中给予的帮助。我们使用了Python和以下包:matplotlib、numpy、pandays、hyperopt、scipy、sklearn和pickle。文本中的一些图像是使用matplotlib库绘制的;其他人被ArcGIS 10.2和Office 2016淹死。本文是使用VisualStudio代码中的Latex插件编写的。此外,我们还要感谢美国地质勘探局提供的Landsat-8图像数据和美国宇航局提供的ASTER-GDEM数据。

利益冲突

作者声明没有利益冲突。

缩写

本手稿中使用了以下缩写:
AUC公司ROC曲线下面积
汽车分类回归树
穿越火线确定性因子
数字高程模型数字高程模型
GBDT公司梯度增强决策树
地理信息系统地理信息系统
左后逻辑回归
LSM公司滑坡敏感性制图
液化石油气滑坡预测指数
NDVI公司归一化差异植被指数
NDWI公司归一化水指数
个人计算机皮尔逊相关
PCA公司主成分分析
射频随机森林
RFE公司递归特征消除
世界车王争霸赛接收机工作特性
RS系列遥感
RSI公司河流强度指数
RSP公司相对坡度位置
打击合成少数过采样技术
TCI公司地形收敛指数
THI公司地形湿度指数
TPI公司地形位置指数
地形粗糙度指数
TSC公司地形表面曲率
TST公司地形表面纹理
美国地质勘探局美国地质调查局
视频数据记录器与河流的垂直距离

工具书类

  1. Petley,D.滑坡造成生命损失的全球模式。地质学 2012,40, 927–930. [谷歌学者] [交叉参考]
  2. 斯坦利,T。;Kirschbaum,D.B.全球滑坡敏感性绘图的启发式方法。自然危害 2017,87, 145–164. [谷歌学者] [交叉参考] [绿色版本]
  3. Pourghasemi,H.R。;Yansari,Z.T。;Panagos,P。;Pradhan,B.《滑坡易感性分析与评估:2005-2016年(2005-2012年和2013-2016年)发表的文章综述》。阿拉伯的。《地质学杂志》。 2018,11, 193. [谷歌学者] [交叉参考]
  4. Bui,D.T。;Ho,T.C。;普拉丹,B。;Pham,B.T。;Nhu,V.H。;Revhaug,I.使用基于数据挖掘的功能树分类器和AdaBoost、Bagging和MultiBoost集成框架,基于GIS的降雨诱发滑坡建模。环境。地球科学。 2016,75, 1101. [谷歌学者]
  5. Trigila,A。;弗拉蒂尼,P。;卡萨利,N。;卡塔尼,F。;克罗斯塔,G。;埃斯波西托,C。;伊丹扎,C。;拉戈马西诺,D。;穆格诺扎,G.S。;Segoni,S.《国家级滑坡敏感性绘图:意大利案例研究》。滑坡科学与实践; 施普林格:德国柏林/海德堡,2015年。[谷歌学者]
  6. 曼佐,G。;托法尼,V。;Segoni,S。;Battistini,A。;Catani,F.区域尺度滑坡敏感性评估的GIS技术:西西里岛(意大利)案例研究。国际地质杂志。信息科学。 2013,27, 1433–1452. [谷歌学者] [交叉参考]
  7. 埃尔卡诺格鲁,M。;Gokceoglu,C.用模糊方法评估滑坡多发区(土耳其西北部Yenice北部)的滑坡敏感性。环境。地质。 2002,41, 720–730. [谷歌学者]
  8. 朱,A.X。;王,R。;乔,J。;秦,C.Z。;陈,Y。;刘杰。;杜,F。;Lin,Y。;Zhu,T.使用GIS和模糊逻辑绘制滑坡易感性图的专家知识方法。地貌学 2014,214, 128–138. [谷歌学者] [交叉参考]
  9. 朱,A。;王,R.X。;乔,J.P。;Chen,Y.B。;蔡庆国。;周,C.H。;陈,Y。;Takara,K。;Cluckie,身份证。;H.F.D.斯梅特。利用GIS、专家知识和模糊逻辑绘制三峡地区滑坡敏感性图; Iahs出版物:牛津郡,英国,2003年。[谷歌学者]
  10. Wu,C.2009年莫拉克台风后赤山流域基于滑坡率的滑坡敏感性模型与一般logistic回归滑坡敏感性模型的比较。2015年4月12日至17日,奥地利维也纳,EGU大会会议记录。[谷歌学者]
  11. R·王。基于专家知识的Gis和模糊逻辑滑坡易发性制图方法; 威斯康星大学麦迪逊分校:美国威斯康星州麦迪逊,2008年;第128–138页。[谷歌学者]
  12. 沙哈比,H。;哈希姆,M。;Ahmad,B.B.使用频率比、逻辑回归和模糊逻辑方法在伊朗扎布盆地中部进行基于遥感和地理信息系统的滑坡敏感性绘图。环境。地球科学。 2015,73, 1–22. [谷歌学者] [交叉参考]
  13. Pradhan,B.利用基于GIS的模糊逻辑关系及其交叉应用,在马来西亚的三个试验区绘制滑坡易发性地图。环境。地球科学。 2011,63, 329–349. [谷歌学者] [交叉参考]
  14. Pradhan,B.使用频率比、模糊逻辑和多元逻辑回归方法绘制集水区的滑坡敏感性图。J.印度社会遥感。 2010,38, 301–320. [谷歌学者] [交叉参考]
  15. Kayasta,P.模糊逻辑方法在尼泊尔东部Garuwa次级盆地滑坡敏感性制图中的应用。前面。地球科学。 2012,6, 420–432. [谷歌学者] [交叉参考]
  16. 卡亚斯塔,P。;希塔尔,M.R。;Smedt,F.D.层次分析法(AHP)在滑坡易感性绘图中的应用:尼泊尔西部Tinau流域的案例研究。计算。地质科学。 2013,52, 398–408. [谷歌学者] [交叉参考]
  17. 南帕克。;Choi,C。;Kim,B。;Kim,J.使用频率比、层次分析法、逻辑回归和人工神经网络方法绘制韩国Inje地区的滑坡敏感性图。环境。地球科学。 2013,68, 1443–1464. [谷歌学者] [交叉参考]
  18. Pourghasemi,H。;莫拉迪,H。;Aghda,S.F.通过二元逻辑回归、层次分析法和统计指数模型绘制滑坡敏感性图,并评估其性能。自然危害 2013,69, 749–779. [谷歌学者] [交叉参考]
  19. Chen,T。;纽·R。;Jia,X.利用GIS绘制滑坡易感性图中信息值和logistic回归模型的比较。环境。地球科学。 2016,75, 867. [谷歌学者] [交叉参考]
  20. Ozdemir,A。;海拔,T。滑坡易感性绘图的频率比、证据权重和逻辑回归方法的比较研究:土耳其西南部苏丹山脉。亚洲地球科学杂志。 2013,64, 180–197. [谷歌学者] [交叉参考]
  21. Solaimani,K。;密苏里州穆萨维。;Kavian,A.基于频率比和逻辑回归模型的滑坡易发性绘图。阿拉伯的。《地质学杂志》。 2013,6, 2557–2569. [谷歌学者] [交叉参考]
  22. Chauhan,S。;夏尔马,M。;Arora,M.K.,使用logistic回归模型对加瓦尔喜马拉雅山Chamoli地区的滑坡敏感性分区。山体滑坡 2010,7, 411–423. [谷歌学者] [交叉参考]
  23. Akgun,A.通过逻辑回归、多标准决策和似然比方法生成的滑坡敏感性图的比较:土耳其伊兹密尔的案例研究。山体滑坡 2012,9, 93–106. [谷歌学者] [交叉参考]
  24. Bai,S。;吕·G。;Wang,J。;周,P。;基于Ding,L.GIS的罕见事件logistic回归在中国连云港滑坡敏感性制图中的应用。环境。地球科学。 2011,62, 139–149. [谷歌学者] [交叉参考]
  25. 达斯,I。;Sahoo,S。;威斯汀,C.V。;斯坦因,A。;Hack,R.使用逻辑回归及其与岩体分类系统的比较,对喜马拉雅山北部(印度)路段沿线的滑坡敏感性进行评估。地貌学 2010,114, 627–637. [谷歌学者] [交叉参考]
  26. 马萨诸塞州费利西莫。医学硕士。;A.库亚特罗。;雷蒙多,J。;Quirós,E.用逻辑回归、多元自适应回归样条、分类和回归树以及最大熵方法绘制滑坡易感性图:比较研究。山体滑坡 2013,10, 175–189. [谷歌学者]
  27. Tsangaratos,P。;Ilia,I.滑坡敏感性评估中逻辑回归和朴素贝叶斯分类器的比较:模型复杂性和训练数据集大小的影响。卡特纳 2016,145, 164–179. [谷歌学者] [交叉参考]
  28. Gómez,H。;Kavzoglu,T.使用人工神经网络评估委内瑞拉Jabonosa河流域的浅层滑坡敏感性。工程地质。 2005,78, 11–27. [谷歌学者] [交叉参考]
  29. 埃尔米尼,L。;卡塔尼,F。;Casagli,N.人工神经网络应用于滑坡敏感性评估。地貌 2005,66, 327–343. [谷歌学者] [交叉参考]
  30. 普拉丹,B。;Lee,S.滑坡敏感性评估和因子效应分析:反向传播人工神经网络及其与频率比和双变量logistic回归建模的比较。环境。模型。柔和。 2010,25, 747–759. [谷歌学者] [交叉参考]
  31. 姚,X。;Zhang,Y。;周,N。;郭,C。;Yu,K。;Li,L.J.二类支持向量机在滑坡易感性制图中的应用。2013年9月24日至25日,中国北京,IAEG国际研讨会和第九届亚洲区域会议记录。[谷歌学者]
  32. Xian-Yu,Y.U。;游健,H.U。;牛瑞秋,基于RS-SVM模型的滑坡敏感性评价因子选取方法研究。地理。地理信息科学。 2016,13, 487. [谷歌学者]
  33. Marjanović,M。;科瓦切维奇,M。;巴贾特,B。;Voíenílek,V.使用SVM机器学习算法进行滑坡敏感性评估。工程地质。 2011,123, 225–234. [谷歌学者] [交叉参考]
  34. 彭,L。;纽·R。;黄,B。;吴,X。;Zhao,Y。;Ye,R.基于粗糙集理论和支持向量机的滑坡敏感性制图:以中国三峡地区为例。地貌学 2014,204, 287–301. [谷歌学者] [交叉参考]
  35. Hong,H。;刘杰。;Bui,D.T。;普拉丹,B。;阿查里亚,T.D。;Pham,B.T。;朱,A.X。;Chen,W。;Ahmad,B.B.使用J48决策树和AdaBoost、袋装和轮换森林集合绘制广昌地区(中国)的滑坡敏感性图。卡特纳 2018,163, 399–413. [谷歌学者] [交叉参考]
  36. 高,K。;崔,P。;赵,C。;基于GIS信息价值法的三峡库区万州市滑坡危险性评价。下巴。岩石力学杂志。工程师。 2006,25, 991–996. [谷歌学者]
  37. 黄,F。;尹,K。;Huang,J。;桂,L。;Wang,P.基于自组织映射网络和极端学习机的滑坡敏感性制图。工程地质。 2017,223, 11–22. [谷歌学者] [交叉参考]
  38. Wang,J。;尹,K。;基于GIS和加权信息值的肖磊滑坡敏感性评价——以三峡库区万州区为例。下巴。岩石力学杂志。工程师。 2014,33, 797–808. [谷歌学者]
  39. Yu,X。;Wang,Y。;纽·R。;Hu,Y.滑坡敏感性制图的地理加权回归、粒子群优化和支持向量机组合:以中国三峡地区万州为例。国际环境杂志。公共卫生研究 2016,13, 487. [谷歌学者] [交叉参考] [公共医学]
  40. 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A。;米歇尔,V。;蒂里昂,B。;O.格栅。;布隆德尔,M。;普雷滕霍弗,P。;韦斯,R。;杜堡,V。;等。Scikit-learn:Python中的机器学习。J.马赫。学习。物件。 2011,12, 2825–2830. [谷歌学者]
  41. Guzzetti,F。;卡拉拉,A。;卡迪纳利,M。;Reichenbach,P.《滑坡灾害评估:当前技术及其在多尺度研究中的应用综述》,意大利中部。地貌学 1999,31, 181–216. [谷歌学者] [交叉参考]
  42. 杜,J。;Tien,不列颠哥伦比亚省。;尤努斯,A.P。;贾凯。;宋,X。;Revhaug,I。;夏,H。;Zhu,Z.利用遥感和GIS数据优化日本新泻部分地区滑坡敏感性评价的成因。公共科学图书馆 2015,10,e0133262。[谷歌学者] [交叉参考] [公共医学] [绿色版本]
  43. 埃纳,A。;Düzgün,H.S.B.在More和Romsdal(挪威)的案例中,使用空间和全球回归方法改进统计滑坡敏感性绘图。山体滑坡 2010,7, 55–68. [谷歌学者] [交叉参考]
  44. Lee,S.logistic回归模型的应用及其在利用GIS和遥感数据绘制滑坡易感性图中的验证。《国际遥感杂志》。 2005,26, 1477–1491. [谷歌学者] [交叉参考]
  45. Friedman,J.H.随机梯度增强。计算。统计数据分析。 2002,38, 367–378. [谷歌学者] [交叉参考] [绿色版本]
  46. 动词,N。;雷蒙托,E。;科内利斯,C。;Herrera,F.使用SMOTE预处理带噪声的不平衡数据集,并使用模糊粗糙原型选择进行增强。申请。软计算。J。 2014,22, 511–517. [谷歌学者] [交叉参考]
  47. 胡,S。;梁,Y。;马,L。;He,Y.MSMOTE:在训练数据不平衡时提高分类性能。2009年第二届计算机科学与工程国际研讨会论文集,中国青岛,2010年10月28日至30日;第13-17页。[谷歌学者]
  48. 杨,P。;刘,W。;周,B.B。;Chawla,S。;Zomaya,A.Y.,《基于集成的特征选择和班级不平衡学习包装方法》。亚太知识发现和数据挖掘会议; 施普林格:德国柏林/海德堡,2013年;第7818卷,第544-555页。[谷歌学者]
  49. 小R.G.Pontius。;Schneider,L.C.美国马萨诸塞州伊普斯威奇流域用ROC方法验证土地覆盖变化模型。农业。生态系统。环境。 2001,85, 239–248. [谷歌学者] [交叉参考]
  50. 小R.G.Pontius。;Parmentier,B.使用相对工作特性(ROC)的建议。朗诗。经济。 2014,29, 367–382. [谷歌学者] [交叉参考]
  51. Chen,W。;谢,X。;Wang,J。;普拉丹,B。;Hong,H。;Bui,D.T。;段,Z。;Ma,J.滑坡敏感性空间预测的逻辑模型树、随机森林、分类和回归树模型的比较研究。卡特纳 2017,151, 147–160. [谷歌学者] [交叉参考]
  52. Bui,D.T。;Tuan,T.A。;Klempe,H。;普拉丹,B。;Revhaug,I.浅层滑坡灾害的空间预测模型:支持向量机、人工神经网络、核逻辑回归和逻辑模型树的功效的比较评估。山体滑坡 2016,13, 361–378. [谷歌学者]
  53. 杨,J。;宋,C。;Yang,Y。;徐,C。;郭,F。;Xie,L.空间logistic回归和GeoDetector支持的滑坡敏感性制图新方法:以中国四川省都汶公路盆地为例。地貌学 2018. [谷歌学者] [交叉参考]
图1。研究区域的位置。()中国。(b)三峡库区。(c(c))万州区;研究区的轮廓是黑色的。黄色边框表示验证区域。
图1。研究区域的位置。()中国。(b)三峡库区。(c(c))万州区;研究区的轮廓是黑色的。黄色边框表示验证区域。
伊吉08 00004 g001
图2。研究区域的地层图。
图2。研究区域的地层图。
伊吉08 00004 g002
图3。本研究的总体工作流程。
图3。本研究的总体工作流程。
伊吉08 00004 g003
图4。研究中使用的滑坡因素。()降雨量(mm/年)。(b)地震强度。(c(c))与河流的距离(m)。(d日)标高(m)。(e(电子))与河流的垂直距离(m)。((f))地形表面纹理。()山谷深度(m)。(小时)坡度。
图4。研究中使用的滑坡因素。()降雨量(毫米/年)。(b)地震强度。(c(c))与河流的距离(m)。(d日)标高(m)。(e(电子))与河流的垂直距离(m)。((f))地形表面纹理。()山谷深度(m)。(小时)坡度。
伊吉08 00004 g004
图5。使用不同的权重平衡准确度得分、召回得分和AUC得分。
图5。使用不同的权重平衡准确度得分、召回得分和AUC得分。
伊吉08 00004 g005
图6。滑坡因素的特征重要性。X27:降雨量;X28:地震烈度;X17:与河流的距离;X1:标高;X24:与河流的垂直距离;X6:地形表面纹理;X21:山谷深度;X3:坡度。
图6。滑坡因素的特征重要性。X27:降雨量;X28:地震烈度;X17:与河流的距离;X1:标高;X24:与河流的垂直距离;X6:地形表面纹理;X21:山谷深度;X3:坡度。
伊吉08 00004 g006
图7。三个模型的LSM结果。()使用LR模型的LSM。(b)使用GBDT模型的LSM。(c(c))使用加权GBDT模型的LSM。
图7。三个模型的LSM结果。()使用LR模型的LSM。(b)使用GBDT模型的LSM。(c(c))使用加权GBDT模型的LSM。
伊吉08 00004 g007
图8。LR、GBDT和加权GBDT模型的不同滑坡敏感性等级的分布比率。
图8。LR、GBDT和加权GBDT模型的不同滑坡易感等级的分布比率。
伊吉08 00004 g008
图9。三种LSM模型的ROC曲线。
图9。三种LSM模型的ROC曲线。
伊吉08 00004 g009
图10。三种模型的实际滑坡位置验证。()使用LR模型验证实际滑坡位置。(b)使用GBDT模型验证实际滑坡位置。(c(c))使用加权GBDT模型验证实际滑坡位置。
图10。三种模型的实际滑坡位置验证。()使用LR模型验证实际滑坡位置。(b)使用GBDT模型验证实际滑坡位置。(c(c))使用加权GBDT模型验证实际滑坡位置。
伊吉08 00004 g010
表1。输入变量的名称、描述和分类。
表1。输入变量的名称、描述和分类。
变量姓名数据描述等级
Y(Y)山崩是否发生滑坡山崩
X1型高程海拔高度地形
X2个坡度角从DEM中提取地形
X3型边坡坡向从DEM中提取地形
4个边坡高度从DEM中提取地形
X5系列边坡形式从DEM中提取地形
X6系列TST公司地形表面纹理地形
X7系列有毒化学物质排放清单地形粗糙度指数地形
X8个TPI公司地形位置索引地形
X9系列TSC公司地形表面曲率地形
X10个TCI公司地形收敛指数地形
X11号机组RSP公司相对坡度位置地形
X12号机组平面曲率从DEM中提取地形
X13号机组轮廓曲率从DEM中提取地形
X14号机组地形曲率从DEM中提取地形
X15英寸地质时间不同时代的岩石和地层地质学
X16型边坡结构斜坡的结构地质学
X17号机组河流与河流的距离水文学
X18号机组流域面积排水面积水文学
X19号机组流道长度流道长度水文学
X20型THI公司地形湿度指数水文学
X21个山谷深度山谷深度水文学
X22个流域坡度流域坡度水文学
X23个RSI公司河流强度指数水文学
X24个视频数据记录器与河流的垂直距离水文学
X25个NDVI公司归一化植被指数土地覆盖
X26个NDWI公司归一化水体指数土地覆盖
X27型降雨量年平均降雨量触发因素
第28页地震烈度区域调查强度触发因素
X29个土地使用土地使用类别触发因素
表2。本研究中使用的成本矩阵。
表2。本研究中使用的成本矩阵。
预测标签非滑坡山崩
True标签
非滑坡01
山崩170
表3。LR、GBDT和加权GBDT的混淆矩阵。
表3。LR、GBDT和加权GBDT的混淆矩阵。
方法True标签预测标签百分比准确性
是的
左后165,84111195%0.949
是的87603423%
GBDT公司165,38257097%0.968
是的5045374987%
加权GBDT133,04932,90395%0.953
是的34876076%
表4。三种LSM模型的AUC和召回值。
表4。三种LSM模型的AUC和召回值。
参数左后GBDT公司加权GBDT
AUC公司0.8450.9760.977
召回0.0040.4260.823

分享和引用

MDPI和ACS样式

Song,Y。;纽·R。;徐,S。;Ye,R。;彭,L。;郭,T。;李,S。;陈,T。基于加权梯度提升决策树的三峡库区万州段滑坡敏感性制图。ISPRS国际地理信息杂志。 2019,8, 4.https://doi.org/10.3390/ijgi8010004

AMA风格

宋毅,牛锐,徐S,叶锐,彭磊,郭T,李旭,陈T。基于加权梯度提升决策树的三峡库区万州段滑坡敏感性制图。ISPRS国际地理信息杂志. 2019; 8(1):4.https://doi.org/10.3390/ijgi8010004

芝加哥/图拉宾风格

宋英旭、牛瑞庆、徐士洛、叶润清、凌鹏、陶国、李世耀和陈涛。2019.“基于加权梯度提升决策树的三峡库区万州段滑坡敏感性制图(中国)”ISPRS国际地理信息杂志8,编号1:4。https://doi.org/10.3390/ijgi8010004

请注意,从2016年第一期开始,该杂志使用文章编号而不是页码。查看更多详细信息在这里.

文章指标

返回页首顶部