×

缩小数据流中的大数据:计算限制和回归。 (英语) Zbl 1454.62549号

摘要:我们考虑数据流的在线模型:数据点在队列中等待,可以通过特殊指令逐个访问。处理数据点时,它将被永久删除。假设数据流太长,无法完全存储在内存中:假设内存大小是数据维的多项式,而不是观察数。这是窄大数据的自然模型。首先,我们证明了一个否定定理,说明该模型会导致严重的局限性:我们证明了一些基本统计,例如样本分位数,不能在该模型中进行计算(证明基于Kolmogorov复杂性论证)。这就提出了一个关键问题,即哪些数据分析过程可以在流数据模型中实现,哪些数据分析程序根本无法执行,或者只能近似执行(会丢失一些信息)。在负面结果之后,我们将注意力转向使用窄大数据进行多元线性回归的几个积极结果。我们证明了基于最小二乘的估计量和回归诊断统计,如基于残差平方和的统计,可以在该模型中有效地计算。流数据模型中可有效计算的统计数据类别还包括涉及辅助回归的两阶段程序,如怀特的Breusch-Godfrey自相关检验的异方差检验(这可能令人惊讶,因为按照定义,程序似乎需要多次处理数据点)。计算是精确地完成的:我们不使用涉及信息丢失的数据压缩技术(例如采样或分组)的预处理步骤来减少数据集的大小。

MSC公司:

62兰特 大数据和数据科学的统计方面
62升12 序贯估计
68T09号 数据分析和大数据的计算方面

软件:

CMARS公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Aknouche,A。;Guerbyenne,H.,GARCH模型的递归估计,Commun。统计模拟。计算。,35, 925-938 (2006) ·Zbl 1105.62081号
[2] Antoch,J。;Jarušková,D.,《在线统计过程控制》(Lauro,C.;Antoch,J.;Vinzi,V.;Saporta,G.,《多元全面质量控制:基础与进展》(2002),《对统计学的贡献》,Physica Verlag HD),第87-124页·Zbl 1039.62111号
[3] Arora,S。;Barak,B.,《计算复杂性:现代方法》(2009),剑桥大学出版社·Zbl 1193.68112号
[4] 博登汉姆博士。;Adams,N.,使用自适应估计对数据流中的变化点进行连续监测,Stat.Comput。,27, 5, 1257-1270 (2017) ·Zbl 1505.62072号
[5] 曹,F。;埃斯特特,M。;钱,W。;Zhou,A.,带噪声的演化数据流上的密度案例聚类,(Ghost,J.;Lambert,D.;Skillicorn,D.;斯利瓦斯塔瓦,J.,SIAM数据挖掘会议论文集(2006),SIAM),328-339
[6] 曹,F。;黄J.Z。;Liang,J.,用概念改变方法对分类数据流进行趋势分析,信息科学。(纽约),276160-173(2014)
[7] Cipra,T。;Romera,R.,鲁棒卡尔曼滤波器及其在时间序列分析中的应用,Kybernetika,27481-494(1991)·Zbl 0745.62090号
[8] 杜马,M。;Mokkadem,A。;Pelletier,M.,随机审查下风险率的在线估计,J.Stat.计划推断。,196, 87-104 (2018) ·Zbl 1392.62294号
[9] 杜瓦尔,C。;Kappus,J.,分组数据的非参数自适应估计,J.Stat.Plan。推断,182,12-28(2017)·Zbl 1357.62163号
[10] Forestiero,A.,数据流中的自组织异常检测,信息科学。(纽约),373,321-336(2016)
[11] Garofalakis,M。;Gehrke,J。;Rastogi,R.,《数据流管理:处理高速数据流》,《数据中心系统与应用》(2016),斯宾格·弗拉格-柏林-海德堡出版社
[12] Hendrych,R。;Cipra,T.,GARCH模型的自加权递归估计,Commun。统计模拟。计算。,47, 2, 315-328 (2017) ·Zbl 1392.62310号
[13] 伊佩尔,L。;卡普斯坦,M。;Vermunt,J.,估计数据流上的随机概念模型,计算。统计数据分析,104,169-182(2016)·Zbl 1466.62108号
[14] 贾克,C。;Bera,A.,《观测值和回归残差的正态性检验》,《国际统计评论》,55,2,163-172(1987)·Zbl 0616.62092号
[15] Kární,M.,近似贝叶斯递归估计,《信息科学》。(纽约),285,100-111(2014)·兹比尔1355.68228
[16] 北卡罗来纳州昆巴。;Wegman,E.,几何量化数据压缩,(Akritas,M.;Politis,D.,非参数统计的最新进展和趋势(2003),爱思唯尔),35-46
[17] 科勒,M。;Krzyzak,A。;Walk,H.,非参数递归分位数估计,统计概率。莱特。,93, 102-107 (2014) ·Zbl 1463.62093号
[18] Kontorovich,L.,有界记忆的统计估计,统计计算。,22, 5, 1155-1164 (2012) ·Zbl 1252.62037号
[19] Laohakiat,S。;Phimoltares,S.公司。;Lursinsap,C.,基于LDA的无监督局部降维流数据聚类算法,Inf.Sci。(纽约),381,104-123(2017)
[20] 李,M。;Vitányi,P.,《Kolmogorov复杂性及其应用简介》,《计算机科学文本》(2008),施普林格出版社·Zbl 1185.68369号
[21] Lin,H。;Wu,S。;Hou,L。;新墨西哥州寇。;高,Y。;Lu,D.,《在数据流中发现最热门的项目》,《信息科学》。(纽约),430-431,314-330(2018)
[22] McGregor,A.,《图形流算法:一项调查》,ACM SIGMOD Record,43,1,9-20(2014)
[23] 奥兹曼,A。;Weber,G.W.,RMARS:多面体不确定性下多元自适应回归样条的稳健性,J.Compute。申请。数学。,259, 914-924 (2014) ·Zbl 1314.62120号
[24] 奥兹曼,A。;韦伯,G.W。;巴茨,I。;Kropat,E.,RCMARS:多面体不确定性集下不同场景下CMARS的鲁棒性,Commun。非线性科学。数字。模拟。,16, 12, 4780-4787 (2011) ·Zbl 1416.65169号
[25] Park,B.H。;奥斯特鲁乔夫,G。;Samatova,N.,《使用替换采样流数据》,计算。统计数据分析。,52, 2, 750-762 (2007) ·Zbl 1452.62107号
[26] Pesaran,M.H.,《时间序列和面板数据计量经济学》(2015),牛津大学出版社·Zbl 1336.91002号
[27] Sgall,J.,在线调度,Lect。注释计算。科学。,1442, 196-231 (1998)
[28] 斯坦纳,P。;Hudec,M.,通过充分EM对混合模型的大数据集进行分类,计算。统计数据分析。,51, 11, 5416-5428 (2007) ·Zbl 1445.62153号
[29] 蔡家卫。;赖,C.F。;赵,H.C。;Vasilakos,A.,《大数据分析:一项调查》,J.Big。数据,2,21,1-32(2015)
[30] Wang,H。;科尔马诺夫斯基,I.V。;Sun,J.,基于Zonotope的线性静态系统可行解集的递归估计,Automatica,95,236-245(2018)·兹比尔1402.93238
[31] 韦伯,G.W。;巴茨,I。;Köksal,G。;泰兰,P。;Yerlikaya,F.,CMARS:利用连续优化支持的多元自适应回归样条对非参数回归的新贡献,逆概率。科学。工程,20,3,371-400(2012)·Zbl 1254.65020号
[32] Worsley,K.,《两阶段多元回归测试》,《技术计量学》,25,35-42(1983)·Zbl 0508.62061号
[33] Zihayat,M。;An,A.,《在数据流上挖掘高效用模式》,《信息科学》。(纽约),285,138-161(2014)·Zbl 1355.68237号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。