×

具有通用性能保证的最小距离直方图。 (英语) Zbl 1436.62123号

摘要:我们基于未知密度(f)的独立样本提出了一种数据自适应多元直方图估计方法。这种直方图基于称为规则铺层(RP)的二叉树。RP表示一类计算方便的简单函数,这些函数在加法和标量乘法下保持闭合。与其他密度估计方法(包括各种基于似然的正则化和贝叶斯方法)不同,对于给定的(n),无论潜在的(f)是什么,最小距离估计(MDE)都保证在距离(f)的(L_1)距离范围内,因此被称为具有通用性能保证[L.德夫罗伊G.卢戈西密度估计中的组合方法。纽约州纽约:施普林格(2001;Zbl 0964.62025号)]。使用一种带有RP的树矩阵算法,我们获得了MDE的第一个通用构造,证明了它具有通用的性能保证,并用模拟和实际数据证明了其性能。我们的主要贡献是构造性地实现了MDE直方图,该直方图可以使用基于树的分区来处理大型多元数据突发,该分区在计算上有助于后续的统计操作。

MSC公司:

62G07年 密度估算
62G05型 非参数估计
62小时12分 多元分析中的估计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Devroye,L.、Györfi,L.和Lugosi,G.(1996)。模式识别的概率理论。纽约:Springer-Verlag·Zbl 0853.68150号 ·doi:10.1007/978-1-4612-0711-5
[2] Devroye,L.和Lugosi,G.(2001)。密度估计中的组合方法。纽约:Springer-Verlag·兹比尔0964.62025 ·doi:10.1007/978-1-4613-0125-7
[3] Devroye,L.和Lugosi,G.(2004)。用组合方法在多元直方图中选择料仓宽度。测试,13(1),129-145·Zbl 1110.62049号 ·doi:10.1007/BF02603004
[4] 费舍尔,R.A.(1925年)。统计估计理论。剑桥哲学学会数学学报,22700-725·JFM 51.0385.01号 ·doi:10.1017/S0305004100009580
[5] Garcia,S.、Grill,M.、Stiborek,H.和Zunino,A.(2014)。僵尸网络检测方法的实证比较。《计算机与安全杂志》,4510-123·doi:10.1016/j.cose.2014.05.011
[6] Gray,A.G.和Moore,A.W.(2003)。非参数密度估计:面向计算可处理性。在SIAM国际数据挖掘会议上(第203-211页)。美国加利福尼亚州旧金山:SIAM。
[7] Harlow,J.、Sainudiin,R.和Tucker,W.(2012年)。映射规则铺面。可靠计算,16252-282。
[8] 基弗,M。;Jaulin,L。;Braems,I。;沃尔特·E。;Kraemer,W.(编辑);Gudenberg,J.(编辑),《带子存储的保证集计算》,167-178(2001),纽约·Zbl 1391.93005号 ·doi:10.1007/978-1-4757-6484-0_14
[9] Klemelä,J.(2009)。多元数据的平滑:密度估计和可视化。奇切斯特:威利·Zbl 1218.62027号 ·doi:10.1002/9780470425671
[10] Lu,L.,Jiang,H.,&Wong,W.H.(2013)。基于贝叶斯序列划分的多元密度估计。《美国统计协会杂志》,108(504),1402-1410。https://doi.org/10.1080/01621459.2013.813389。 ·兹比尔1283.62165 ·doi:10.1080/01621459.2013.813389
[11] Lugosi,G.和Nobel,A.(1996年)。用于密度估计和分类的数据驱动直方图方法的一致性。《统计年鉴》,24(2),687-706·Zbl 0859.62040号 ·doi:10.1214/aos/1032894460
[12] 马哈拉纳比斯,S。;斯特凡科维奇,D。;Servedio,RA(编辑);Zhang,T.(编辑),线性时间密度估计,503-512(2008),芬兰
[13] Mattarei,S.(2010年)。中心二项系数和加泰罗尼亚数部分和的渐近性。arXiv.0906.4290v3
[14] Meier,J.(2008年)。群、图和树:无限群的几何介绍。剑桥:剑桥大学出版社·Zbl 1276.20052号 ·doi:10.1017/CBO9781139167505
[15] Ramström,K.(2019年)。使用基于Word2Vec网络嵌入训练的Autoencoder的重构错误对流数据进行僵尸网络检测。乌普萨拉大学硕士论文
[16] Sainudiin,R.、Teng,G.、Harlow,J.和Lee,D.S.(2013年)。规则铺砌随机直方图的后验期望。ACM建模与计算机仿真汇刊,23(26),6:1-6:20·Zbl 1384.62129号
[17] Sainudiin,R.、York,T.、Harlow,J.、Teng,G.、Tucker,W.和George,D.(2008-2019年)。MRS 2.0是一个C++类库,用于统计数据集处理和计算机辅助证明。https://github.com/lamastex/mrs2
[18] Samet,H.(1990年)。空间数据结构的设计和分析。波士顿:Addison-Wesley Longman。
[19] Stanley,R.P.(1999)。枚举组合学。第2卷,剑桥高等数学研究,第62卷。剑桥大学出版社,剑桥。https://books.google.fr/books?id=zg5wDqT6T-UC&hl=fr&S源=gbs_book_other_versions·Zbl 0928.05001号
[20] Tukey,J.W.(1947)。非参数估计II。统计等效块和公差区域-连续情况。《数理统计年鉴》,18(4),529-539·Zbl 0029.15502号 ·doi:10.1214/aoms/1177730343
[21] Vapnik,V.N.和Chervonenkis,A.Y.(1971)。关于事件相对频率与其概率的一致收敛性。理论概率论应用,16264-280·Zbl 0247.60005号 ·数字对象标识代码:10.1137/1116025
[22] Yatracos,Y.G.(1985年)。最小距离估计和kolmogorov熵的收敛速度。《统计年鉴》,13(2),768-774·Zbl 0576.62057号 ·doi:10.1214/aos/1176349553
[23] Yatracos,Y.G.(1988年)。关于l1一致估计的注记。加拿大统计杂志,16(3),283-292·Zbl 0666.62040号 ·doi:10.2307/3314734
[24] Zaharia,M.、Xin,R.S.、Wendell,P.、Das,T.、Armbrust,M.和Dave,A.等人(2016年)。Apache spark:大数据处理的统一引擎。美国通信协会,59(11),56-65。https://doi.org/10.1145/2934664。 ·doi:10.1145/2934664
此参考列表基于出版商或数字数学图书馆提供的信息。它的项目与zbMATH标识符启发式匹配,并且可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。