×

用于数据流计算的增量核密度估计器。 (英语) Zbl 1506.62274号

小结:概率密度函数(p.d.f.公司。)估计在数据挖掘领域中起着非常重要的作用。核密度估计(KDE)是估计未知量最常用的技术p.d.f.公司。对于给定的数据集。现有KDE在处理p.d.f.公司。流数据的估计问题,因为必须根据当前数据和新数据的组合重新训练一个全新的KDE。这个过程增加了训练时间,浪费了计算资源。本文提出了一种增量核密度估计(I-KDE),它处理p.d.f.公司。数据流计算中的估计问题。I-KDE使用新数据动态、逐步地更新当前KDE,而不是使用当前数据和新数据的组合重新训练全新KDE。理论分析证明了I-KDE的收敛性p.d.f.公司。新数据的真实性p.d.f公司为了保证I-KDE的收敛性,提出了一种新的基于无偏交叉验证(UCV)方法的多元不动点迭代算法来确定KDE的最优带宽。对10个单变量和4个多变量概率分布的实验结果证明了I-KDE的可行性和有效性。

MSC公司:

62G07年 密度估算
62G05型 非参数估计
62甲12 多元分析中的估计
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Silverman,B.W.,《统计和数据分析密度估计》(1986),佛罗里达州博卡拉顿,美国:CRC出版社,佛罗里达州波卡拉顿·Zbl 0617.62042号
[2] 约翰,G.H。;Langley,P.,估计贝叶斯分类器中的连续分布,第十一届人工智能不确定性会议论文集
[3] 阿扎里尼,A。;Torelli,N.,通过非参数密度估计进行聚类,统计与计算,17,1,71-80(2007)·doi:10.1007/s11222-006-9010-y
[4] 彭,H.C。;长,F。;丁,C.,基于最大依赖、最大相关和最小冗余的互信息准则的特征选择,IEEE模式分析与机器智能学报,27,8,1226-1238(2005)·doi:10.1109/tpami.2005.159
[5] A.哈维。;Oryshchenko,V.,时间序列数据的核密度估计,国际预测杂志,28,1,3-14(2012)·doi:10.1016/j.ij预测2011.02.016
[6] 波佐斯,B。;熊,L。;萨瑟兰,D.J。;Schneider,J.,图像分类的非参数核估计,2012年IEEE计算机视觉和模式识别会议论文集
[7] Parzen,E.,关于概率密度函数和模式的估计,《数理统计年鉴》,33,3,1065-1076(1962)·Zbl 0116.11302号 ·doi:10.1214/aoms/1177704472
[8] Wand,M.P。;Jones,M.C.,Kernel Smoothing(1994),英国伦敦:查普曼和霍尔,英国伦敦
[9] Silverman,B.W.,《统计和数据分析密度估计》(2018年),英国阿宾顿:英国阿宾登劳特利奇·Zbl 0617.62042号
[10] Faraway,J.J。;Jhun,M.,密度估计中带宽的Bootstrap选择,美国统计协会杂志,85,412,1119-1122(1990)·doi:10.1080/01621459.1990.10474983
[11] Bowman,A.W.,密度估计平滑的交叉验证替代方法,Biometrika,71,2,353-360(1984)·doi:10.1093/biomet/71.2.353
[12] Sain,S.R。;巴格利,K.A。;Scott,D.W.,多元密度的交叉验证,美国统计协会杂志,89,427,807-817(1994)·Zbl 0805.62059号 ·doi:10.1080/01621459.1994.10476814
[13] L.A.Alexandre,一维数据核带宽选择的求解方程方法,2008,doi:10.1.1.309.4041
[14] Delaigle,A。;Gijbels,I.,从污染样本中估计核密度的Bootstrap带宽选择,统计数学研究所年鉴,56,1,19-47(2004)·Zbl 1050.62038号 ·doi:10.1007/bf02530523
[15] Duong,T。;Hazelton,M.L.,多元核密度估计的交叉验证带宽矩阵,《斯堪的纳维亚统计杂志》,32,3,485-506(2005)·Zbl 1089.62035号 ·doi:10.1111/j.1467-9469.2005.00445.x
[16] Wang,J.M。;Yang,R.U。;陈,Y。;Xu,Y.X.,求解基于余弦核函数的方程核密度估计方法,哈尔滨科技大学学报,21,114-117(2016)
[17] Nasereddin,H.H.,流数据挖掘,《国际Web应用杂志》,3,2,90-97(2011)
[18] He,H.B。;陈,S。;李凯。;Xu,X.,从流数据中进行增量学习,IEEE神经网络汇刊,22,121901-1914(2011)·doi:10.1109/tnn.2011.2169087
[19] 姜杰。;何永乐。;Dai,D.X。;Huang,J.Z.,基于数据集最小熵的新核密度估计,信息科学,491221-231(2019)·Zbl 1454.62118号 ·doi:10.1016/j.ins.2019.04.010
[20] Pérez-Cruz,F.,连续分布的Kullback-Leibler散度估计,2008年IEEE信息理论国际研讨会论文集
[21] Demšar,J.,多数据集上分类器的统计比较,机器学习研究杂志,7,1-30(2006)·Zbl 1222.68184号
[22] Salloum,S。;Huang,J.Z.,黄建中。;何毅,《随机样本划分:大数据分析的分布式数据模型》,IEEE工业信息学报,15,11,5846-5854(2019)·doi:10.1109/tii.2019.2912723
[23] Salloum,S。;Huang,J.Z.,黄建中。;何永乐。;Chen,X.J.,《大数据分析的渐进集成学习框架》,IEEE Access,73675-3693(2018)·doi:10.1109/access.2018.2889355
[24] 乌尔·雷赫曼,M.H。;Liew,C.S。;阿巴斯。;贾亚拉曼,P.P。;Wah,T.Y。;Khan,S.U.,《大数据缩减方法:调查》,数据科学与工程,1,4,265-284(2016)·doi:10.1007/s41019-016-0022-0
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。