×

采用错误发现率控制的单元异常检测。 (英语。法语摘要) Zbl 07759493号

摘要:本文关注的是检测大数据矩阵中的单元格异常值。我们引入了一种新的方法,能够充分利用变量之间的依赖结构,同时控制错误发现率(FDR)。我们将细胞离群值识别重新构建为高维变量选择范式,并构建用于数据筛选、估计和信息池的“二元参考”。利用二进制参考,该过程形成了一系列包含协方差信息的统计信息,并利用这些统计信息的全局对称性来近似错误发现比例。我们证明,在一些温和的条件下,该方法可以控制渐近FDR。大量的数值研究表明,与现有方法相比,我们的方法具有合理的FDR控制和令人满意的性能。
{©2021加拿大统计学会}

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Alqallaf,F.、Van Aelst,S.、Yohai,V.J.和Zamar,R.H.(2009年)。多元数据中异常值的传播。《统计年鉴》,37311-331·Zbl 1155.62043号
[2] Benjamini,Y.(2010年)。发现错误发现率。英国皇家统计学会杂志:B辑,72,405-416·Zbl 1411.62043号
[3] Benjamini,Y.和Hochberg,Y.(1995)。控制错误发现率:一种实用且强大的多重测试方法。英国皇家统计学会杂志:B辑,57289-300·Zbl 0809.62014号
[4] Benjamini,Y.和Yekutieli,D.(2001年)。依赖下多重测试中错误发现率的控制。《统计年鉴》,第29期,第1165-1188页·Zbl 1041.62061号
[5] Berk,R.、Brown,L.、Buja,A.、Zhang,K.和Zhao,L.(2013)。有效的选择后推断。统计年鉴,41802-837·Zbl 1267.62080号
[6] Bickel,P.J.&Levina,E.(2008)。大协方差矩阵的正则化估计。统计年鉴,36,199-227·Zbl 1132.62040号
[7] Bühlmann,P.和Mandozzi,J.(2014)。高维变量筛选和随后推断中的偏差,以及经验比较。计算统计学,29407-430·Zbl 1306.65035号
[8] Cai,T.、Liu,W.和Luo,X.(2011)。稀疏精度矩阵估计的约束L_1最小化方法。美国统计协会杂志,106594-607·Zbl 1232.62087号
[9] Cerioli,A.(2010年)。使用高分解估计器的多元异常值检测。美国统计协会杂志,105,147-156·Zbl 1397.62167号
[10] Efron,B.(2010年)。相关z值和大规模统计估计的准确性。美国统计协会杂志,105,1042-1055·Zbl 1390.62139号
[11] Fan,J.和Lv,J.(2008)。确保超高维特征空间的独立筛选。英国皇家统计学会杂志:B辑,70849-911·Zbl 1411.62187号
[12] Fan,J.和Lv,J.(2010年)。高维特征空间中变量选择的选择性概述。中国统计局,20,101·Zbl 1180.62080号
[13] Fan,Y.&Lv,J.(2016)。创新了超大高斯图形模型中的可扩展高效估计。《统计年鉴》,442098-2126·Zbl 1349.62206号
[14] Filzmoser,P.、Maronna,R.和Werner,M.(2008年)。高维异常识别。计算统计与数据分析,521694-1711·Zbl 1452.62370号
[15] Friedman,J.、Hastie,T.和Tibshirani,R.(2008)。用图形套索进行稀疏逆协方差估计。生物统计学,9432-441·Zbl 1143.62076号
[16] 弗里奇,V.,瓦罗佐,G.,蒂鲁,B.,波利恩,J.‐BThirion,B.使用正则化最小协方差行列式在高维神经成像数据集中检测边缘受试者。在医学图像计算和计算机辅助干预国际会议上,264-271。施普林格;2011
[17] Hall,P.&Jin,J.(2010年)。创新了对相关噪声中稀疏信号检测的更高批评。《统计年鉴》,第38期,1686-1732页·Zbl 1189.62080号
[18] Hardin,J.和Roke,D.M.(2005)。稳健距离的分布。计算与图形统计杂志,14928-946。
[19] 人类死亡率数据库(2015年)。人类死亡率数据库。加利福尼亚大学;马克斯·普朗克人口研究所,伯克利。网址:www.motality.org(2015年11月下载数据),第138页。
[20] Jin,J.(2012年)。注释:估计任意协方差依赖下的错误发现比例。美国统计协会杂志,1071042-1045·Zbl 1395.62222号
[21] Lee,J.D.、Sun,D.L.、Sun,Y.和Taylor,J.E.(2016)。精确的选择后推断,并应用于套索。《统计年鉴》,44907-927·兹比尔1341.62061
[22] Leek,J.T.和Storey,J.D.(2008)。多重测试依赖性的通用框架。《美利坚合众国国家科学院院刊》,第105期,第18718-18723页·Zbl 1359.62202号
[23] Li,R.,Zhong,W.,&Zhu,L.(2012)。通过距离相关学习进行特征筛选。美国统计协会杂志,1071129-1139·兹比尔1443.62184
[24] Loh,P.‐L.和Tan,X.L.(2018)。高维稳健精度矩阵估计:(ε)污染下的细胞损坏。《电子统计杂志》,第12期,1429-1467页·Zbl 1412.62057号
[25] Maronna,R.A.、Martin,R.D.和Yohai,V.J.(2006)。稳健统计学:理论与方法。John Wiley&Sons,纽约·邮编1094.62040
[26] Meinshausen,N.、Meier,L.和Bühlmann,P.(2009)。高维回归的P值。美国统计协会杂志,1041671-1681·Zbl 1205.62089号
[27] Øller,V.&Croux,C.稳健的高维精度矩阵估计。现代非参数、稳健和多元方法,Springer,Cham,325-350;2015
[28] Pan,W.,Wang,X.,Xiao,W.和Zhu,H.(2018)。通用的确定独立性筛选程序。美国统计协会杂志,114928-937·Zbl 1420.62146号
[29] Ro,K.,Zou,C.,Wang,Z.,&Yin,G.(2015)。高维数据的异常检测。生物特征,102,589-599·Zbl 1452.62378号
[30] Rousseeuw,P.J.和Bossche,W.V.D.(2018)。检测偏离的数据单元。技术计量学,60,135-145。
[31] Rousseeuw,P.J.&Leroy,A.M.(2005)。稳健回归和异常检测,第589卷。John Wiley&Sons,纽约。
[32] Storey,J.D.、Taylor,J.E.和Siegmund,D.(2004)。强控制、保守点估计和错误发现率的同时保守一致性:统一方法。英国皇家统计学会杂志:B辑,66187-205·兹比尔1061.62110
[33] Tibshirani,R.(1996年)。通过套索回归收缩和选择。英国皇家统计学会杂志:B辑,58267-288·Zbl 0850.62538号
[34] Van Aelst,S.、Vandervieren,E.和Willems,G.(2012年)。基于huberized outliness的Stahel-Donoho估计。计算统计与数据分析,56,531-542。
[35] Wasserman,L.和Roeder,K.(2009年)。高维变量选择。《统计年鉴》,3721788-2201·Zbl 1173.62054号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。