摘要

证据权重(WofE)和逻辑回归(LR)是两种对数线性的矿产潜力填图方法。这两种模型在应用中都受到各自基本假设的限制。理想情况下,WofE指标模式相对于待预测矿床的点模式具有条件独立性(CI)的性质;在LR中,假设点模式和两个或多个指示模式之间没有交互作用。如果满足CI假设,估计的LR系数将近似等于WofE对比度,并且两种方法产生类似的结果;此外,由于所有估计的后验概率之和变得近似等于观测到的离散事件的数量,因此避免了偏差。WofE允许构建输入层,其中除了已知的存在-缺失类型输入外,还将缺失数据作为单独的类别,而逻辑回归本身无法处理缺失数据。作为一种改进的基于LR的WofE模型,改进的证据权重(MWofE)继承了LR和WofE的优点,即消除了由于缺少CI而产生的偏差,并且可以处理丢失的数据。MWofE的像素或单位面积输入由模式存在与否的正负权重加上缺失数据的零组成。MWofE首先通过简单示例进行说明。接下来,根据地质和湖泊地球化学数据,将其应用于新斯科舍省西南部有20个已知金矿的研究区域,涉及四个输入层。假设研究区域北部的地球化学数据缺失,MWofE与WofE类似,但与LR不同,提供了整个区域的后验概率。

1.简介

关于证据权重(WofE)基本原则的介绍可以在阿特伯格(Agterberg)中找到[1],Bonham Carter等人[2]和Bonham Carter[]. 该方法已广泛应用于各个领域。读者可参考Lindsay等人[4],Chen等人[5]、秦和刘[6]最近的应用示例。此外,作为处理缺失数据的强大工具,WofE还用于开发用于矿产远景制图的空间加权logistic回归模型[7]. WofE建模的先决条件是,证据层与目标层之间存在近似的条件独立性(CI)[8]. 在实践中很难完全满足CI假设。已经开发了各种方法(1)来测试CI,(2)来克服其影响(如果存在)。成对--CI试验由Bonham-Carter等人提出[2]. 后来,综合测试[],新的综合测试[9,10]和Kolmogorov-Smirnov试验[11]被引入以测试CI假设。一般来说,可以通过将相互依赖的解释变量相互结合来减少CI的缺乏,或者可以通过使用不同的统计模型来规避条件依赖(CD)问题。阿特伯格[12]介绍了logistic回归(LR)的应用;日志[13]提出了由Krishnan等人改进的Tau模型[14],Caumon等人[15]、波利亚科娃和Journel[16]. Schaeben在综合审查文件中讨论了这些方法[17]. 此外,Zhang等人开发了几个加权WofE和逐步WofE模型[18],邓[19]阿特伯格[20,21]和Cheng[22——24]. 应记住,WofE和LR的目的是预测尚未观测到的点事件的可能位置。总的来说,研究区域内事件的真实总数仍然未知。如果未知事件与已知事件发生在相同的地质环境中,那么只有WofE中的先验概率会受到信息缺乏的影响。一般来说,WofE预测图仅在相对意义上有效,因为真实事件发生模式要么被高估,要么被低估。它们用于划定研究区域内无已知事件或已知事件很少的预期目标区域。这种使用整个研究区域的数据的方法不同于将研究区域的已勘探部分作为训练区域,用于目标区域的预测的方法(参见[25]).

证据权重和逻辑回归都属于对数线性模型家族(例如[26——31]). 它们基于不同的假设:(1)理想情况下,WofE指标模式相对于点模式是条件独立的,(2)在LR中,点模式和两个或多个指标模式之间没有相互作用[12]. 与WofE相比,LR可用于避免或削弱CD的影响,尽管它仍受三个或更多变量组之间的相互作用的影响;LR必然导致估计事件总数(=所有预测事件发生的后验概率之和)正好等于已知事件数[21,32]. 由于这些优势,阿格特伯格[20,21]和邓[19]独立提出使用LR来改进缺少CI的WofE结果。邓的模型并没有得出无偏估计,但它显著减少了偏差;在阿特伯格(Agterberg)举例说明的例子中[21]使用邓的方法时,与WofE结果相比,总偏差从估计事件总数的92%减少到31%。后来,Schaeben和van den Boogaart指出并详细描述了邓小平最初无偏假设中的理论错误[33]. 邓的模型减少了WofE结果中CI偏差的缺乏,但通常可以通过其他方法获得更好的结果,例如提高[22——24]或通过修正证据权重(MWofE),其中WofE和LR相互结合[21,34]. MWofE首先由阿特伯格提出[21]克服WofE建模中CI的不足。它使用正负权重代替1和0来估计LR中的系数,然后使用这些系数作为WofE中证据层权重的校正因子,因此它属于加权WofE模型[34]. 当解释变量为存在-缺失型并从地图上量化时,加权逻辑回归(WLR)通常比逻辑回归更可取,因为解释变量值相等的许多“观察值”必须相互结合,以形成“唯一条件”根据地图面积加权[12]. 术语“唯一条件”描述了所有解释变量具有相同值的单位面积或像素集。唯一条件下的地图区域可以直接测量,也可以通过计算所有地图模式具有相同值的像素来近似计算。WLR的优点是独特条件的数量()通常比像素数或单位面积小得多().例如,在一个方形的学习区,哪里可能高达数百万对于实际应用来说变得太大了。另一方面,是从不同输入模式的数量中导出的()具有.一般来说,,因此,在应用程序中使用迭代过程(包括连续反演)有助于估计logistic回归系数()而不是()矩阵假设在应用矩阵反演之前,所有变量的算术平均值都已校正。例如,如果对于1000×1000像素的正方形阵列数字化的7个二进制地图模式,解释变量的(256×256)WLR输入矩阵为65·106元素数少于对应的LR输入矩阵1012元素。一些软件包(例如,IBM SPSS的最新版本)允许以等效于WLR的方式对观测值进行加权。然而,在应用于非常大的数据集时,通过将所有后验概率之和与已知事件数进行比较来执行最终收敛检查可能是有利的。这两个量应该相等。如果存在显著差异,则应继续迭代,直到达到完全收敛[35]. 如果不考虑冻土精度,则WLR应获得与LR相同的结果。

当点模式与单个地图层相关时,WofE和LR产生相同的系数[36,37]但两种方法得到的这些系数的标准偏差是不同的。当点事件相对较少时,如果地图模式几乎是条件独立的,LR可能会产生比WofE对比度更小的系数方差。这是因为权重和对比度的WofE方差是基于最大似然估计量的渐近正态性假设[38],当观测点事件的数量相对较少时,不太可能满足这一条件。这里需要注意的是,WofE对比度衡量了点模式和指标模式之间的空间相关性强度。如果将WofE对比度标准化为[]区间,它成为Yule的二进制变量原始关联系数[38].

通常,可以使用-测试(参见[12]). 如果有地图图层,因为WofE和LR所得结果的差异近似地分布为X平方自由度。例如,如果,如果.什么时候?很大,迅速变大,可能会采用其他模型比较策略。例如,Agterberg等人[11]将新斯科舍省的一个金矿床模式与七种地图模式联系起来,这些地图模式在条件上几乎独立于点模式。在这种情况下,得到的logistic回归系数接近WofE对比([11],表1).

Logistic回归可防止在WofE不存在CI偏差的情况下出现CI偏差。然而,如果不满足CI条件,当对LR使用迭代打分(或任何其他)方法时,由于要反转的矩阵中存在近似奇异性,单个回归系数通常会获得较大的方差。与WofE权重相反,因此,LR系数不能单独用于解释或预测目的。这本身就是一个选择使用WofE的好理由。获得近似CI有许多不同的策略。例如,基于整个研究区域测量的地球化学元素的模式通常与矿床的产状有很强的相互作用。然后,通过多元回归分析(例如[39])或使用相关矩阵第一个主成分的得分(例如[40]; 另请参见第节5在本文中)。即使存在CD,只要模式数量不是很大,新的AdaBoost WofE方法仍然可以给出很好的近似值[24].

在下一节中,将讨论MWofE等同于LR。MWofE的一个主要优点是,与WofE一样,它可以比LR更好地处理丢失的数据。这一主题将在本文的剩余部分中讨论。

2.为什么修正的证据权重等同于一般Logistic回归

LR和Mwof E的等效性将通过两个应用示例进行审查和说明。在阿特伯格的研究中[20],指出MWofE基于最初引入GLADYS医学专家系统的方法[41]. GLADYS中的证据权重通常会导致有偏的后验概率。为此,Spiegelhalter和Knill-Jones对他们的存在-缺失数据进行了逻辑回归,并使用解释变量,其中存在/缺失数据被正负权重取代,以消除这种偏差。

Schaeben和van den Boogaart[33]说明了邓的[19]通过使用有三个解释变量的“虚构”数据集,调整后的WofE模型不会产生无偏结果(, ,)和二进制因变量().2在前四列中显示了这些变量的值。可能性()下一列显示了WofE获得的数据。它们与概率不同()在LR或MWofE获得的最后一列中,得出了相同的结果。在节中4,这将说明,对于Schaeben使用的“虚构训练数据集结果的实际示例”,也可以获得类似的结果[42].

阿特伯格已经说明了LR和MWOf E的等效性[20,21]对于一个约4.0km的相对较小的矩形研究区域2东太平洋海隆上有13个火山口,这些火山口与海平面以下的深度、裂缝、相对年龄和火山岩组成有关。该海底示例的输入如表的前五列所示。此表中的行用于25 = 32个独特的条件,其总面积(单位为10 m×10 m)在第六列中给出。表中海底示例中的因变量是否存在火山喷口。每种独特条件下的火山喷口数量在以下列中给出.本例中总共有39851个单位面积,由于第节中给出的原因,WLR优先于LR1当使用打分法估计logistic回归系数时。如表所示2,表的最后两列显示WofE()和MWofE()具有相同独特条件的(10m×10m)单位面积的概率。后者等于WLR获得的后验概率。在这个例子中,五个映射层有很强的条件依赖性[11]. 从表中所有(=39851)WofE后验概率之和(=24.8)可以看出显著超过MWofE概率的相应总和(=13.0)。可以通过估计所有WofE后验概率之和的方差,然后应用简单的-测试或-用于确定所有后验概率和已知事件总数之间的差异是否具有统计意义的测试[9].

3.大面积统计参数缺乏一致性

LR的缺点之一是,除非存在近似CI,否则估计的回归系数可能会有很大的方差。还有其他几个潜在的严重缺点,特别是如果该方法天真地应用于连续解释变量以进行预测。阿特伯格和博纳姆-卡特[43]在安大略省中部东部加拿大地盾Gowganda地区的金矿点与地质、地球化学和地球物理地图数据之间的关系的大量实验中,系统地比较了WofE和WLR预测。这些实验的结果清楚地表明,当使用逻辑回归时,离散化(将地图模式还原为二元或三元形式,然后将其用作解释变量)和整合矿产潜力评估研究中的训练和测试区域可以获得更好的预测。其原因是,数学模型应用的有效性的主要要求是整个研究区域内统计参数的恒定性。可以从培训区外推到地理位置不同于培训区的测试区,但必须做出特殊安排,以确保解释变量的统计参数大致相等(参见[25]).

由于地质现象具有广泛的独特性,在同一研究区域内可以快速变化,因此通常不存在具有恒定参数(如均值、方差和协方差)的单一目标人群。感兴趣的参数可以从一个地方到另一个地方有系统地变化,但可以使用方法来减少或消除感兴趣参数值的系统变化的影响。一些地质性质,如岩性成分或异常与背景的关系本质上是二元的。非二进制地球化学或地球物理变量的Heaviside(0或1)变换离散化可以稳定区域内的统计参数。统计参数稳定化的另一个例子是在区域趋势消除后用残差代替观测数据。

4.使用缺失数据映射模式

证据权重和逻辑回归最初由Good开发[44]施皮盖尔哈特(Spiegelhalter)和尼克尔·琼斯(Knill-Jones)[41],以及许多其他用于独立同分布观测的方法。马赛克类型的地图数据是消失的小单位面积或像素的数量,构成了一种非常不同的类型的观测。然而,WofE和WLR,包括Spiegelhalter的[45]GLADYS中处理缺失数据的细化可以成功地应用于马赛克数据。地球科学模式往往因不同原因而存在差距:地球化学湖泊或河流沉积物数据可能仅适用于研究区域的部分区域(显然,在没有湖泊或河流的分区中,这些数据缺失)。生物地球化学数据仅限于特定植物或树木出现的区域。可能是为了获取特定类型的数据,只绘制了一个区域的有限部分;例如,地球化学调查可能仅限于某一地区的部分地区。此外,基岩的暴露可能是不均匀的。在当地,可能不知道是否存在岩石类型。在这种类型的情况下,一个或多个解释变量的二元存在-缺失模式具有可单独量化的间隙,因此二元模式成为具有存在、缺失和未知的独立状态的三元模式。WofE和MWEE可以处理丢失或未知的数据,并将首先在下面的简单示例中进行说明。

桌子14显示具有方形研究区域的人工示例的结果([42],图1)它包含(10×10)个间隔规则的数据点,这些数据点位于正方形单元的中心,假设已知两种岩石类型的存在或不存在()以及关注点事件。这些数据如表所示4以及WofE和MWofE估计的发生概率。如表所示2,MWofE结果与LR获得的结果相同。这些概率与Schaeben之前报告的概率相同[42].

作为这个人工示例的变体,我们假设不完整,因为Schaeben图左侧30%的研究区域无法使用1。这意味着成为具有三种状态(是、否和缺失)的三元模式。将WofE和修改后的WofE应用于这个新的人工数据集,结果如表所示1在本应用程序中,Spiegelhalter的[45]处理缺失数据的方法被应用了两次:一次是为了获得WofE权重,另一次是在应用MWE时。

表的示例1说明了如何通过将“丢失”识别为需要特别考虑的单独状态来解决丢失数据问题。Agterberg和Bonham-Carter详细讨论了当预测变量缺少数据时应用LR的其他可能方法[46]. 在他们的论文中,将四种方法应用于前面提到的新斯科舍省金矿床示例:(1)删除缺失数据的变量;(2) 缺少的数据用零替换;(3) 删除所有缺少数据的多边形或子区域;(4)用已知研究区域内估计的相同变量的平均值替换缺失数据。得出的结论是,与方法(2)和(4)产生的模式相比,方法(1)和(3)产生的后验概率模式相对较差。开发MWofE的动机是提供一种更好的方法,可以像WofE一样修复丢失的数据问题[21].

5.加拿大新斯科舍省西南部金矿的案例历史研究

这个大规模的例子建立在Cheng最初发表的证据权重建模研究的基础上[8]. 地质、金矿产状和湖泊沉积物样品的位置如图所示1(之后[8],图1). 地球化学湖泊沉积物数据由罗杰斯等人(1987年)最初发布的671个样品组成,其中16种元素(Cu、Pb、Zn、Ag、F、Li、Nb、Rb、Sn、Zr、Ti、Au、Sb、As、Th和W)的浓度值。采样密度约为每5 km 1个样本2Cheng详细描述了主成分分析的结果以及高通和低通滤波在主成分得分中的应用[8].

最初,有四个二进制映射(参见[8],图2; 2)被用作WofE的输入。我们在当前研究中使用了相同的输入数据,尽管在选择二进制映射和分辨率方面略有不同。这里,我们使用了:(A)背斜痕迹的接近度;(B) 靠近Goldenville组和Halifax组之间的接触;(C) 应用于第一主成分得分的高通滤波器;和(D)应用于第一主成分分数的低通滤波器。显示了相同四个输入层的WofE结果与LR结果的比较。这些结果适用于五个实验中的实验1,其他四个实验将在后面介绍。我们的数字3(a)与Cheng早期的WofE地图略有不同(但并不显著)[8]. 图中的两张地图因为这20个金矿床的外观相似。然而,从图例中可以看出,图中金矿床的估计后验概率要大得多3(a)比图中的3(b)平均而言,WofE概率是LR概率的两倍以上。所有后验概率之和分别为46.9(WofE)和20(LR)。LR的结果是无偏的,因为这个总和正好等于所使用的金矿数量。由于违反了条件独立性(CI)假设,WofE结果系统性地过大。值得注意的是,即使由于缺乏CI,WofE会因偏差而进行修正,但由于未发现金矿床,这两个总数仍将过低。这种偏见可能是因为该地区的勘探强度差异很大。此外,未发现的金矿床可能不仅出现在该地区相对未勘探部分的基岩表面附近,而且可能在更深处的有利环境中到处都有。

学生的-测试(参见[38])可用于测量已知矿床和预测等值线之间的空间相关性强度,如图所示4.每个-图中的值4用于对比在如下两个子区域中。其中一个分区由一个或多个金矿床给定距离内的所有点组成。其面积如图所示4另一个分区仅用于表示研究区域剩余部分的补码。由于空间相关效应-这种类型的测试尚不确切。然而,对于单尾-显著性水平设置为0.05的检验表明,大于约1.645的值表明存款的点模式与WofE或LR的后验概率模式之间存在正的空间相关性。显然,金矿床的模式与图中所示的任何一个后验概率图之间都有较强的空间相关性.

结果如图所示用于实验1,这是一系列五个实验的结果,这些实验是为了比较本研究区20个金矿床的WofE、LR和修正证据权重(MWofE)。在其他四个实验中,根据图中的东西线将研究区域划分为两部分5显示了四个实验中使用的金矿床和成对的二元层。在该地区南部进行了2到4次实验()仅用于北部预测(),所有沉积物均用于实验5。

实验2和3的结果如图所示26这两个实验的不同之处在于,四个二进制层被用作整个研究区域的输入()用于图形6和来自分区仅适用于图形2WofE和LR均可用于实验2和3。它不能用于实验4和5中的LR,因为假设研究区域北半部的地球化学信息缺失。与LR相反,MWE可以用于实验4和5,因为与WofE一样,MWE可以处理缺失的数据。这两个实验中的地球化学输入层被假定为三元而非二元。建模中的不同之处在于,WofE会立即为两个二进制和两个三元输入层生成结果,但对于MWofE,在WofE输入层中使用的1和0会被所有四个独立变量的权重所取代,使用的信息尽可能多。与WofE中一样,零被用作分区MWofE中的证据权重假设两个地球化学输入层缺失。实验4和实验5的区别在于在实验5中被用作训练区,而该区域仅存在沉积物在实验4中使用。这两个实验的结果如图所示78分别是。

1显示了五个实验中所有模型的预期沉积量(EDN)。如果没有缺失数据,LR的后验概率之和正好等于存款数量,而WofE之和由于违反了条件独立性假设而更大。另一方面,对于MWofE(实验4和实验5),训练区内的预期矿床数量等于假定已知的该区域内的矿床数量。

桌子56如图所示,显示重量并与WofE结果的标准偏差进行对比7(a)8(a)然后是MWofE回归系数及其标准偏差。与实验1-3中一样,表中的WofE权重56由于缺乏条件独立性,与标准差的对应对比也太大。此外,对比度的标准偏差是由不一定满足的标准渐近公式导出的。Mwof E系数及其标准偏差可能更现实。

6.结束语

修正WofE和logistic回归的等价性在第节中进行了讨论2然而,考虑到此方法和逻辑回归对三个示例产生了相同的结果,可以问一下使用修改的WofE是否有优势(表2——4). 有三个潜在优势:(1)大多数现有LR计算机软件/程序,包括用不要为缺失数据提供令人满意的补救措施,因为它们需要所有数据点的解释变量的输入值,并且不允许存在数据缺口。问题是,如果在给定点缺少一个或多个模式的数据,那么在应用LR之前可能还必须删除其他数据。这是因为用于量化地图模式的单位面积或像素非常小。它们具有很强的空间相关性,这仅仅是因为它们可以被任意缩小,以便任何像素的相邻像素都可能属于相同的唯一条件。图中给出了缺失数据的示例,并对整个研究区域进行了预测,但未删除数据块78和表1,5——7.(2)logistic回归系数和后验概率的方差可能比WofE权重、对比度和后验可能性的方差更精确,因为后者基于最大似然估计量的正态假设,可能会提供较差的结果,尤其是当因变量的离散事件相对较少时。然而,这一优势的一个要求是,输入映射模式与离散事件模式几乎是条件独立的。否则,个体逻辑回归系数的方差可能会变得非常大,尽管后验概率的相应方差不会受到这种缺点的影响。这一潜在优势以及之前的优势还需要在其他实验和应用中进一步测试。(3)WofE很容易理解,MWofE保留了这一特性。虽然通过最大似然估计获得的LR系数在MWofE中用于调整所有证据层的正负权重[34]MWofE几乎保持了WofE的框架,这符合地质学家对矿产远景填图的直观理解。

利益冲突

提交人声明他们没有利益冲突。

致谢

本研究得到了国家自然科学基金项目(nos.41602336和71503200)、中国博士后科学基金(nos.2016M592840和2017T100773)、陕西省自然科学基金(no 2017JQ7010)、,中央高校基本科研业务费专项资金(no.2017RWYB08)。第一作者感谢前导师程秋明博士对空间权重的讨论,并提供了建设性的建议。