×

河流和大型数据集中的分层水库采样算法。 (英语) Zbl 1524.62031号

摘要:在数据流挖掘中,流是一个具有连续传入元素的未知大小的数据集,这些元素通常足够大,以至于计算机处理它时没有足够的内存来保存它的全部内容,并且每个元素只能按顺序读取一次。传统的抽样方法,如简单随机抽样(SRS)、分层抽样和集群抽样,不能用于流数据,因为整个集合不是一次性可用的,并且数据不能重新读取。J.S.维特[ACM Trans.Math.Softw.11,37-57(1985;Zbl 0562.68028号)]算法R是一种水库采样方法,可用于从数据流中选择SRS。在本文中,我们提出了算法SR,它将算法R扩展到具有最优分配的分层水库采样方法。我们证明了该方法与经典分层随机抽样的最优分配渐近等价。实现结果表明,该方法有效,性能优于R算法。

MSC公司:

62D05型 抽样理论、抽样调查
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aggarwal,C.C.,《数据挖掘》(2015),Cham:Springer,Cham·Zbl 1311.68001号
[2] 贝恩,L.J。;Engelhardt,M.,《概率和数理统计导论》(2000年)
[3] Black,P.,《算法和数据结构词典》(2015),马里兰州盖瑟斯堡国家标准与技术研究所信息技术实验室软件与系统部
[4] Chao,M.T.,《通用不相等概率抽样计划》,Biometrika,69,3653-6(1982)·Zbl 0512.62018号 ·doi:10.2307/2336002
[5] Efraimdis,P.S。;Spirakis,P.G.,水库加权随机取样,《信息处理快报》,97,5,181-5(2006)·Zbl 1184.68620号 ·doi:10.1016/j.ipl.2005.11.003
[6] 风扇,C.T。;穆勒,M.E。;Rezucha,I.,使用顺序(逐项)选择技术和数字计算机制定抽样计划,美国统计协会杂志,57,298,387-402(1962)·Zbl 0102.14305号 ·doi:10.2307/2281647
[7] Gama,J.,《数据流中的知识发现》(2010),查普曼和霍尔/CRC·Zbl 1230.68017号
[8] Lohr,S.,《抽样:设计与分析》,(2010年),Cengage Learning·Zbl 1273.62010年
[9] Tillé,Y.,采样算法(2006),纽约:Springer,纽约·Zbl 1099.62009号
[10] Vitter,J.S.,《随机抽样的快速方法》,ACM通讯,27,7,703-18(1984)·Zbl 0595.65008号 ·doi:10.1145/358105.893
[11] Vitter,J.S.,水库随机取样,ACM数学软件汇刊,11,1,37-57(1985)·Zbl 0562.68028号 ·数字对象标识代码:10.1145/3147.3165
[12] 张刚(2007)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。