×

数据深度多元分析:描述性统计、图形和推理。(讨论并反驳)。 (英语) 兹比尔0984.62037

摘要:数据深度可用于测量给定多元样本相对于其潜在分布的“深度”或“离群性”。这导致样本点的自然中心向外排序。基于这种排序,引入了定量和图形方法来分析多元分布特征,如位置、规模、偏差、偏度和峰度,以及比较推理方法。所有图形都是平面上的一维曲线,易于可视化和解释。
“太阳爆发图”是作为箱形图的二元推广而提出的。提出了DD-(深度与深度)图,并将其作为图形推理工具进行了检验。介绍了一些检查多元正态性的新诊断工具。其中一个监测最大偏离平均值的准确增长率,而另一个则检查总体离散度与某个中心区域离散度的比率。数据深度的仿射不变性也为所提出的统计和方法提供了适当的不变性。

MSC公司:

62小时05 多元概率分布的表征与结构理论;连接线
62A09号 统计学中的图形方法
62-07 数据分析(统计)(MSC2010)
62J20型 诊断、线性推理和回归

软件:

AS 307标准
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 安德森,T.1984。多元统计分析导论。威利,纽约州·Zbl 0651.62041号
[2] 安德鲁斯,D.1972。高维数据的绘图。生物统计学28 125 136。Z.公司。
[3] ARCONES,M.、CHEN,Z.和GINE,E.,1994年。与U-过程相关的估计及其在多元中值中的应用:渐近正态性。安。统计师。22 1460 1477. ·Zbl 0827.62023号 ·doi:10.1214/aos/1176325637
[4] AVEROUS,J.和MESTE,M.1997年。多元分布的偏态:两种方法。“nn.”。统计师。25 1984 1997. Z.公司·Zbl 0882.62045号 ·doi:10.1214/aos/1069362381
[5] BARNETT,V.1976年。多元数据的排序。J.罗伊。统计师。Soc.序列号。A 139 319 354号。Z.JSTOR公司:·doi:10.2307/2344839
[6] 伯兰,R.1979。多元密度椭球对称性测试。安。统计师。7 150 162. Z.公司·Zbl 0406.62029号 ·doi:10.1214/aos/1176344561
[7] BERAN,R.和MILLAR,P.1997年。多元对称模型。为Lucien Le Z.Cam 13 42拍摄Festschrift。L.Le Cam,E.Torgersen和G.Yang,编辑Springer,纽约州·Zbl 0948.62039号
[8] BICKEL,P.和LEHMANN,E.1975a。非参数模型的描述性统计I.引言。安。统计师。3 1038 1044. Z.公司·Zbl 0321.62054号 ·doi:10.1214/aos/1176343239
[9] BICKEL,P.和LEHMANN,E.1975b。非参数模型的描述性统计II。位置。安。统计师。3 1045 1069. Z.公司·Zbl 0321.62055号 ·doi:10.1214/aos/1176343240
[10] BICKEL,P.和LEHMANN,E.,1976年。非参数模型的描述性统计III.离散性。安。统计师。4 1139 1158. Z.公司·兹比尔0351.62031 ·doi:10.1214/aos/1176343648
[11] BICKEL,P.和LEHMANN,E.,1979年。非参数模型的描述性统计IV.扩散。Z.《对统计的贡献》,《哈耶克纪念卷》J.Jureckova,第33 40版Ŕeidel,伦敦。Z.公司·Zbl 0415.62015号
[12] BROWN,B.和HETTMANSPERGER,T.1989年。符号测试的仿射不变双变量版本。J.罗伊。统计师。社会学学士51 117 125。Z.JSTOR公司:·Zbl 0675.62036号
[13] 查杜里,P.1996。关于多元数据的几何概念。J.艾默。统计师。协会90 862 872。Z.JSTOR公司:·Zbl 0869.62040号 ·doi:10.2307/2291681
[14] CHENG,A.,LIU,R.和LUXHOJ,J.,1999年。监测多元航空安全数据:控制图和阈值系统。IIE交易。显示Z。
[15] CHERNOFF,H.1973年。使用面以图形方式在k维中表示点。J.艾默。统计师。协会68 361 368。Z.公司。
[16] DONOHO,D.和GASKO,M.1992年。基于半空间深度和投影边距的位置估计的分解特性。安。统计师。20 1803 1827. Z.公司·Zbl 0776.62031号 ·doi:10.1214/aos/1176348890
[17] DUMBGEN,L.1992年。单纯深度的极限定理。统计师。普罗巴伯。莱特。14 119 128. \“Z·Zbl 0758.60030号 ·doi:10.1016/0167-7152(92)90075-G
[18] EASTON,G.和MCCULLOCH,R.1990年。分位数图的多元推广。J.艾默。统计师。协会85 376 386。Z.Z.公司。
[19] 艾迪,W.1982。凸面外壳剥落。在COMPSTAT H.Caussuite等人编辑的42 47中。《物理》,维也纳。Z.公司·Zbl 0493.62020号
[20] EINMAHL,J.和MASON,D.,1992年。广义分位数过程。安。统计师。20 1062 1078. Z.公司·Zbl 0757.60012号 ·doi:10.1214/aos/1176348670
[21] FRAIMAN,R.、LIU,R.和MELOCHE,J.,1997年。通过探测深度进行多元密度估计。在L-统计程序和相关主题415 430。IMS,加利福尼亚州海沃德·Zbl 0919.62050号 ·doi:10.1214/lnms/1215454155
[22] FRAIMAN,R.和MELOCHE,J.,1996年。多元L估计。预打印Z·Zbl 0942.62062号 ·doi:10.1007/BF02595872
[23] FRIEDMAN,J.和RAFSKY,L.1979年。Wald-Wolfowitz和Smirnov双样本检验的多元推广。安。统计师。7 697 717. Z轴·Zbl 0423.62034号 ·doi:10.1214/aos/1176344722
[24] FRIEDMAN,J.和RAFSKY,L.1981年。多元双样本问题的图形。评论。J.艾默。统计师。协会76 277 295。Z.公司·doi:10.2307/2287825
[25] GASTWIRTH,J.1971年。洛伦兹曲线的一般定义。《计量经济学》39 1037 1039。Z.公司·Zbl 0245.62082号
[26] GNANADESIKAN,R.1997年。《多元观测的统计数据分析方法》,第2版,威利出版社,纽约·Zbl 0403.62034号
[27] HE,X.和WANG,G.1997年。多元数据集深度轮廓的收敛性。安。统计师。25 495 504. Z.公司·Zbl 0873.62053号 ·doi:10.1214/aos/1031833661
[28] 赫特曼斯伯格,T.1984。基于等级的统计推断。威利,纽约州·Zbl 0592.62031号
[29] HETTMANSPERGER,T.、NYBLOM,J.和OJA,H.1992年。关于符号和秩的多元概念。Z.In L-1统计和相关方法Y.Dodge,ed.267 278。荷兰北部,阿姆斯特丹。Z.公司·Zbl 0763.62026号
[30] HETTMANSPERGER,T.和OJA,H.1994。仿射不变多元多样本符号检验。J.罗伊。统计师。Soc.序列号。乙56 235 249。Z.JSTOR公司:·Zbl 0795.62056号
[31] 霍奇斯,J.1955。双变量符号测试。安。数学。统计师。26 523 527. Z.公司·Zbl 0065.12401号 ·doi:10.1214/aoms/1177728498
[32] 胡贝尔,P.1972。稳健统计:综述。安。数学。统计师。43 1041 1067. Z.公司·Zbl 0254.62023号 ·doi:10.1214/oms/1177692459
[33] HUSLER,J.、LIU,R.和SINGH,K.,1999年。多元正态分布的尾部概率公式及其应用。
[34] KENDALL,K.,STUART,A.和ORD,J.K.,1987年。肯德尔的高级统计学理论1。牛津大学出版社。Z.公司·Zbl 0621.62001号
[35] KLEINER,B.和HARTIGAN,J.1981年。用树和Z城堡在多个维度上表示点,并添加注释。J.艾默。统计师。协会76 260 276。Z.JSTOR公司:·Zbl 0468.62053号 ·doi:10.2307/2287840
[36] KOLTCHINSKII,V.1997年。M估计、凸性和分位数。安。统计师。25 435 477。Z.公司·Zbl 0878.62037号 ·doi:10.1214/aos/1031833659
[37] LEHMANN,E.1991年。点估计理论。华兹华斯和布鲁克斯·科尔,加利福尼亚州贝尔蒙特·兹比尔0801.62025
[38] 刘,R.1990。基于随机单纯形的数据深度概念。安。统计师。18 405 414. Z.公司·Zbl 0701.62063号 ·doi:10.1214/aos/1176347507
[39] 刘,R.1992。数据深度和多元秩检验。在L-1统计和相关方法中,Z.Y.Dodge,第279 294版。荷兰北部,阿姆斯特丹。Z.公司·Zbl 0772.62031号 ·doi:10.2307/2290720
[40] 刘,R.1995。多变量过程的控制图。J.艾默。统计师。协会90 1380 1388。Z.JSTOR公司:·Zbl 0868.62075号 ·doi:10.2307/2291529
[41] LIU,R.和SINGH,K.,1993年。基于数据深度和多元秩检验的质量指数。J.艾默。统计师。协会88 257 260。Z.JSTOR公司:·Zbl 0772.62031号 ·doi:10.2307/2290720
[42] LIU,R.和SINGH,K.,1997年。基于数据深度和引导限制P值的概念。J.艾默。统计师。协会91 266 277。Z.JSTOR公司:·Zbl 0889.62010 ·doi:10.2307/2291471
[43] 洛伦兹,1905年。衡量财富集中度的方法。J.艾默。统计师。协会9 209 219.Z。
[44] 马哈拉诺比斯,P.C.1936。关于统计学中的广义距离。程序。美国国家科学院。科学。印度12 49 55。Z.公司·Zbl 0015.03302号
[45] MARDEN,J.1998年。二元qq-plot。统计师。中国8 813 826。Z.公司·Zbl 0915.62057号
[46] MARDIA,K.,KENT,J.和BIBBY,J.1979年。多元分析。学术出版社,纽约·Zbl 0432.62029号
[47] 缪尔黑德,R.1982。多元统计理论的各个方面。威利,纽约州·Zbl 0556.62028号
[48] 诺兰,D.1992。多元修剪的渐近性。随机过程。申请。42 157 169. Z.公司·Zbl 0763.62007号 ·doi:10.1016/0304-4149(92)90032-L
[49] OJA,H.1983年。多元分布的描述性统计。统计师。普罗巴伯。莱特。1 327 332. Z.公司·Zbl 0517.62051号 ·doi:10.1016/0167-7152(83)90054-8
[50] 帕雷利乌斯,J.1997。基于数据深度的多元分析。博士论文。新泽西州罗格斯大学统计系。Z.Z.公司。
[51] ROUSSEEUW,P.和HUBERT,M.,1999年。回归深度。进行讨论。J.艾默。统计师。协会4,388 433。Z.公司·Zbl 1070.62509号 ·doi:10.1006/jmva.1998.1804
[52] ROUSSEUW,P.J.和LEROY,A.M.1987年。稳健回归和异常检测。威利,纽约州·Zbl 0711.62030号
[53] ROUSSEUW,P.和RUTS,I.1996年。AS 307:双变量位置深度。申请。统计师。45 516 526. Z.公司·Zbl 0905.62002号
[54] ROUSSEEUW,P.和RUTS,I.1997年。bagplot:一个双变量的方框和胡须图。预印.Z。
[55] ROUSSEUW,P.和STRUYF,A.1998年。计算高维中的位置深度和回归深度。统计师。计算。8, 193 203. Z.公司。
[56] RUTS,I.和ROUSSEUW,P.1996。计算二元点云的深度轮廓。计算统计与数据分析23 153 168。Z.公司·Zbl 0900.62337号 ·doi:10.1016/S0167-9473(96)00027-8
[57] SINGH,K.,1991年。多数深度。未发表的手稿。Z.公司。
[58] SINGH,K.1998年。引导分位数的击穿理论。安。统计师。26 1719 1732. Z.公司·Zbl 0929.62053号 ·doi:10.1214/aos/1024691354
[59] TUKEY,J.1975年。数学和图像数据。1975年国际数学大会论文集2 523 531。Z.公司·Zbl 0347.6202号
[60] WEGMAN,E.1990年。使用平行坐标进行超维数据分析。J.艾默。统计师。协会85 664 675。Z.公司。
[61] YEH,A.和SINGH,K.,1997年。基于Tukey深度的平衡置信集。J.罗伊。统计师。Soc.序列号。B 3 639 652。JSTOR公司:·Zbl 1090.62539号 ·doi:10.1111/1467-9868.00088
[62] 纽约州纽约市希尔中心,邮编:10036,新泽西州皮斯卡塔韦罗格斯大学08854-8019,电子邮箱:rliu@stat.rutgers.edu kern@stat.rutgers.edu贝克尔,R.A.,克利夫兰,W.S.和威克斯,A.R.1987。数据分析用动态图形Z。统计师。科学。2 353 395. Z.公司。
[63] MOSTELLER,F.和TUKEY,J.W.,1977年。数据分析和回归。Addison-Wesley,马萨诸塞州雷丁。
[64] SCHERVISH,M.J.1987年。多变量分析与讨论。统计师。科学。2 396 433. Z.Z.公司·Zbl 0955.62590号 ·doi:10.1214/ss/117701111
[65] TUKEY,J.W.1962年。数据分析的未来。安。数学。统计师。33 1 67. 更正:V33 p812 Z·Zbl 0107.36401号 ·doi:10.1214/aoms/1177704711
[66] TUKEY,J.W.1977年。探索性数据分析。马萨诸塞州雷丁市Addison-Wesley·Zbl 0409.62003号
[67] 宾夕法尼亚州匹兹堡15213-3890电子邮件:bill@stat.cmu.edu德克萨斯州休斯顿市77005-1892电子邮件:scottdw@stat.rice.eduUCU T,其中p是广义方差,正交矩阵U包含特征向量,C是标准化特征值ZZ.Z.detC1的对角矩阵。与Bensmail和Celeux 1996中一样,我们对项目C和U使用术语scale、shape和orientation。如果z来自位置向量0和协方差矩阵I的球形分布,则y UC1 2 1 2z与位置向量、scale、形状C和orientment U椭圆对称。我们的计划是首先定义一个多元中心秩向量。这个向量在许多方面代表了单变量秩概念的扩展。此外,它还具有某些良好的仿射等方差性质。我们这里只提供Z.Z.草图;有关“”的详细信息,请参见Hettmansperger、Mottonen和Oja 1998或Oja 1999。然后我们考虑秩协方差矩阵RCM。Visuri、Koivunen Z.和Oja 1999表明,如果协方差矩阵的标准化特征值和特征向量是c c和u,。。。,u、 分别是1p1p,然后是c1c1和u,。。。,u是理论RCM的标准化特征值,1 p 1 p是特征向量。样本RCM比样本协方差矩阵更稳健,因此,可以稳健估计椭圆分布的基本形状和方向。这与Wilk广义方差的稳健估计一起,可用于稳健估计。然而,这里我们只使用标准化特征值和特征向量来定义深度的稳健版本。接下来,我们绘制了秩向量和相应样本RCM的构造。我们从p维数据x开始,。。。,x.由指数为i i的x和p观测向量确定的p变量单形中1的体积为1 p
[68] 、形状C或方向U。对数刻度便于比较中心附近的刻度。将Z图与本文中的图7a、b进行比较。作者讨论的另一个很好的应用是比较位置的多元估计值Z的散布;参见本文中的图8a、b、c。基于椭圆的比较在这里是很自然的,因为估计量通常具有多元正态极限分布。比较两种分布的尺度的另一种方法是查看两个样本的椭圆区域的PP图。本质上,它是由每个样本中的数据确定的椭圆区域的经验cdf图。Z.Z。图3显示了a与D.Z的PP-标度图。注意,超过0.5的椭圆区域的经验cdf,F u a Z.Z.F u,表明D比a散射更多或规模更大。曲线下的区域D可以提供测量值,因此,在椭圆情况下,尺度差异的渐近无分布检验。然后,测试统计是根据深度计算的Mann-Whitney-Wilcoxon U统计。在单变量情况下,这对应于基于中心观察值大小的秩检验。在图4的比较中,观察到的Z.p值单侧检验为0.22。
[69] BENSMAIL,H.和CELEUX,G.,1996年。通过特征值分解进行正则化高斯判别分析。J.艾默。统计师。协会91 1743 1749。Z.JSTOR公司:·Zbl 0885.62068号 ·doi:10.2307/2291604
[70] HETTMANSPERGER,T.P.,MOTTONEN,J.和OJA,H.1998年。仿射不变的多元秩\“多个样本的est。统计师。Sinica 8 785 800号。Z.公司·Zbl 0905.62062号
[71] OJA,H.1999年。仿射不变多元符号和秩检验及相应估计:Z。综述。扫描。J.统计。特邀论文。Z.公司·Zbl 0938.62063号 ·doi:10.1111/1467-9469.00152
[72] VISURI,S.、KOIVUNEN,V.和OJA,H.1999。符号和秩协方差矩阵。有条件地被J.Statist接受。计划。推理·Zbl 0965.62049号 ·doi:10.1016/S0378-3758(00)00199-3
[73] 宾夕法尼亚大学公园16802-2111电子邮件:tph@stat.psu.edu贝克,R.A.,克利夫兰,W.S.和威尔克斯,A.R.,1987年。数据分析用动态图形Z。统计师。科学。2 353 395. Z.公司。
[74] CHENG,A.,LIU,R.和LUXHOJ,J.,1999年。监测多元过程:控制图、罪责指数、一致性曲线和阈值系统。预印.Z。
[75] CHENG,A.和OUYANG,M.,1998年。关于计算简单深度的算法。预印.Z。
[76] GIL,J.、STEIGER,W.和WIGDERSON,A.1992年。几何中位数。离散数学。108 37 51. Z.公司·Zbl 0759.68087号 ·doi:10.1016/0012-365X(92)90658-3
[77] JOHNSON,T.、KWOK,I.和NG,R.1998年。快速计算二维深度轮廓。第四届知识发现和数据挖掘国际会议论文集。Z.Z.公司。
[78] ROUSSEUW,P.和HUBERT,M.,1999年。通过讨论回归深度。J.艾默。统计师。协会94 388 433.Z.JSTOR:·Zbl 1007.62060号 ·doi:10.2307/2670155
[79] ROUSSEUW,P.和RUTS,I.1996年。A5 307:双变量位置深度。申请。统计师。45 516 526. Z.公司·Zbl 0905.62002号
[80] ROUSSEUW,P.和STRUYF,A.1998年。在更高维度中计算位置深度和回归深度。统计师。计算。8 193 203. Z.Z.公司。
[81] SCHERVISH,M.J.1987年。多元分析与讨论。统计师。科学。2 396 433. Z.公司·Zbl 0955.62590号 ·doi:10.1214/ss/117701111
[82] 斯科特,D.1992。多元密度估计:理论、实践和可视化。威利,纽约州·Zbl 0850.62006号
[83] 滕,J.1999。通过数据深度进行回归和多元质量控制的新方法。博士论文。罗格斯大学统计学系。
[84] 新泽西州皮斯卡塔韦08854-8019电子邮箱:rliu@stat.rutgers.edu kesar@stat.rutgers.edu
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。