×

使用变量子集集合检测地球化学数据中的异常值。 (英语) Zbl 1406.86026号

概要:用于矿床地质解释和地质域识别的地球化学数据通常包含异常值。对异常值进行统计上合理且稳健的决策(例如,确定正在考虑的观测值是否属于给定的领域)可能是一项具有挑战性的任务。传统的统计程序往往不适合地球化学数据的噪声、本质上的多元和高维特性。本文提出了一种新的方法来稳健地检测大型多维地球化学数据中的异常值。该方法结合了一种特征选择方法,自动寻找化学比率的最佳子集,该子集与原始化学变量一起最能代表数据的固有特征。即使在高污染水平下,该方法也能有效区分异常值。实验结果表明,与以前的方法相比,所提出的特征选择算法具有优势使用位于西澳大利亚哈默斯利省布罗克曼铁矿组的铁矿床数据显示了异常值检测中使用的数据。

MSC公司:

86A32型 地理统计学
86A60型 地质问题
PDF格式BibTeX公司 XML格式引用
全文: DOI程序

参考文献:

[1] Aitchison J(1986)成分数据的统计分析。查普曼和霍尔,伦敦·Zbl 0688.62004号 ·doi:10.1007/978-94-009-4109-0
[2] Aristides G,Piotr I,Rajeev M(1999)通过散列进行高维相似性搜索。IN:第25届VLDB会议记录,爱丁堡,第518-529页
[3] Balamulthi M,Melkumyan A(2014)铁矿床中初始区域分配不明确的勘探分析地质区域的自动识别。摘自:第九届国际矿业地质会议论文集,阿德莱德,第99-106页
[4] Balamulthi M,Melkumyan A(2015),地球化学数据中的多变量离群值检测。国际数学地球科学协会第17届年会。弗莱堡国际数学地球科学协会·Zbl 1406.86026号
[5] Barnett V,Lewis T(1994)统计数据中的异常值。奇切斯特·威利。https://doi.org/10.1016/0169-270(95)00625-7 ·Zbl 0801.62001 ·doi:10.1016/0169-2070(95)00625-7
[6] Beckman RJ,Cook RD(1983)《异常值》。技术指标25:119-163·Zbl 0514.62041号
[7] Breiman L(1998)电弧分类器。(讨论文件)。Ann Stat 26(3):801-849。https://doi.org/10.1214/aos/1024691079 ·Zbl 0934.62064号 ·doi:10.1214/aos/1024691079
[8] Clout JMF(2006)西澳大利亚哈默斯利省的铁矿床。卡尔顿研究所和澳大利亚国际货币基金组织
[9] Egozcue,JJ;Pawlowsky-Glahn,V。;Pawlowsky-Glahn,V.(编辑);Mateu-Figueras,G.(编辑);Buccianti,A.(编辑),成分数据的简单几何,145-160(2006),伦敦·Zbl 1156.86307号
[10] Filzmoser,P。;赫隆,K。;Kuhnt,S.(编辑);Fried,R.(编辑);Becker,C.(编辑),成分数据的稳健性,117-131(2013),柏林-海德堡·doi:10.1007/978-3-642-35494-6_8
[11] Filzmoser P,Reimann C,Garrett RG(2003),勘探地球化学中的多变量异常值检测。维也纳理工大学统计系
[12] Gnanadesikan R,Kettering JR(1972),多响应数据的稳健估计、残差和离群值检测。生物计量学28:81-124·doi:10.2307/2528963
[13] Hampel FR、Rousseeuw PJ、Ronchetti EM、Strahel WA(1986)《稳健统计:基于影响函数的方法》。纽约威利·Zbl 0593.62027号
[14] Mitra P,Murthy CA,Pal SK(2002)使用特征相似性的无监督特征选择。IEEE Trans-Pattern Ana Mach Intell 24(3):301-312·doi:10.1109/34.990133
[15] Morris RC(1980)《西澳大利亚哈默斯利铁矿区铁矿石与带状铁成矿关系的结构和矿物学研究》。经济地理75:184-209·doi:10.2113/gsecondo.75.2.184
[16] Rencher AC(2002)《多元分析方法》,第2版。纽约威利,708页·Zbl 0995.62056号 ·doi:10.1002/0471271357
[17] 罗素,PJ;Grossmann,W.(编辑);Pflug,G.(编辑);Vincze,I.(编辑);Wertz,W.(编辑),《高分解点多元估计》,B期,283-297(1985),布达佩斯·Zbl 0609.62054号 ·文件编号:10.1007/978-94-009-5438-0_20
[18] Rousseuw PJ,Leroy AM(1987)稳健回归和异常值检测。纽约威利·兹比尔0711.62030 ·doi:10.1002/0471725382
[19] Rousseeuw PJ,Van Driessen K(1999)最小协方差行列式估计的快速算法。技术计量学。https://doi.org/10.1080/00401706。10485670
[20] Saeys Y,Inza I,Larrañaga P(2007)《生物信息学特征选择技术综述》。生物信息学23(19):2507-2517·doi:10.1093/bioinformatics/btm344
[21] Strehl A,Ghosh J(2003)《集群集成——用于组合多个分区的知识重用框架》。J Mach学习研究3:583-617·Zbl 1084.68759号
[22] 索恩,W。;哈格曼,S。;韦伯,A。;Clout,J。;Hagemannm,S.(编辑);Rosiere,C.(编辑);Gutzmer,J.(编辑);新泽西州比基斯(编辑),西澳大利亚哈默斯利省带状铁建造相关铁矿床,197-221(2008),利特尔顿
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。