×

利用最小生成树进行核密度估计的带宽选择。 (英语) Zbl 1466.62197号

摘要:核密度估计在分类、聚类、特征选择等多种机器学习应用中的使用是众所周知的。构建核密度估计的主要问题之一是带宽参数的调整。大多数带宽选择程序优化了平均积分平方或绝对误差,随着数据大小的增加,这需要大量的计算时间。这里,带宽被视为数据集点间距离的函数。它被定义为给定样本点的欧氏最小生成树长度的函数。文献中没有关于基于EMST的密度估计量的渐近性质的严格理论。对基于EMST的密度估计量的渐近性质进行了理论分析,证明了该估计量在其每个连续点处对原始密度渐近无偏。此外,还对一般核进行了理论分析。使用合成数据集和实际数据集进行实验,比较EMST带宽与传统交叉验证和插件带宽选择器的性能。结果表明,基于EMST的估计器与传统估计器相比,具有更简单、更快的性能。

MSC公司:

62-08 统计问题的计算方法
62G07年 密度估算
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 艾哈迈德,I.A。;Ran,I.S.,Kernel contrasts:非参数密度估计中选择平滑参数的基于数据的方法,J.Nonparametr。统计,16,5,671-707,(2004)·Zbl 1049.62033号
[2] Bache,K.,Lichman,M.,2013年。UCI机器学习库。网址:http://archive.ics.uci.edu/ml。
[3] Bowman,A.W.,密度估计平滑的交叉验证替代方法,Biometrika,71,2,353-360,(1984)
[4] 布雷曼,L。;梅塞尔,W。;Purcell,E.,多元密度的可变核估计,技术计量学,19,2,135-144,(1977)·Zbl 0379.62023号
[5] 布朗,G。;波科克,A。;赵明杰。;Luján,M.,条件似然最大化:信息论特征选择的统一框架,J.马赫。学习。研究,13,1,27-66,(2012)·Zbl 1283.68283号
[6] 布罗克斯,T。;罗森哈恩,B。;Cremers,D。;Seidel,H.-P.,人体运动跟踪中自适应各向异性核的非参数密度估计,(人体运动理解、建模、捕获和动画,(2007),Springer),152-165
[7] 伯德·R·H。;施纳贝尔(R.B.Schnabel)。;Shultz,G.A.,无约束优化的并行拟Newton方法,数学。程序。,42, 1-3, 273-306, (1988) ·Zbl 0665.90085号
[8] Cacoullos,T.,多元密度的估计,《Ann.Inst.Statist》。数学。,18, 1, 179-189, (1966) ·Zbl 0202.49603号
[9] Chacón,J。;Duong,T.,无约束导频带宽矩阵的多元插件带宽选择,TEST,19,2,375-398,(2010)·Zbl 1203.62054号
[10] 乔杜里,D。;乔杜里,B.B。;Murthy,C.,密度估计的数据驱动过程及其应用,模式识别。,29, 10, 1719-1736, (1996)
[11] Cheng,T.,Gao,J.,Zhang,X.,2014年。核密度估计中的半参数局部带宽选择。可从SSRN 2435478获取。
[12] 邓,Z。;钟,F.-L。;Wang,S.,FRSDE:使用最小包围球近似的快速约简集密度估计,模式识别。,41, 4, 1363-1372, (2008) ·Zbl 1131.68086号
[13] 杜达,R.O。;哈特,体育。;斯托克,D.G.,《模式分类》(1999),约翰·威利父子公司
[14] Duong,T.,2014年。ks:内核平滑,r包版本1.9.2。网址:http://CRAN.R-project.org/package=ks。
[15] 吉尔,体育。;默里,W。;Wright,M.H.,《实用优化》(1981),学术出版社·Zbl 0503.90062号
[16] Girolma,M。;He,C.,最佳压缩数据样本的概率密度估计,IEEE Trans。模式分析。机器。智力。,25, 10, 1253-1264, (2003)
[17] 北卡罗来纳州Golyandina。;佩佩利舍夫,A。;Steland,A.,非参数密度估计和平滑参数选择的新方法,计算。统计师。数据分析。,56, 7, 2206-2218, (2012) ·Zbl 1252.62039号
[18] Hall,P.,《关于可变带宽密度估计量的全局性质》,Ann.Statist。,762-778, (1992) ·兹比尔0785.62040
[19] 霍尔,P。;Marron,J。;Park,B.U.,平滑交叉验证,Probab。理论相关领域,92,1,1-20,(1992)·Zbl 0742.62042号
[20] Heidenreich,N.B。;辛德勒,A。;Sperlich,S.,《核密度估计的带宽选择:全自动选择器综述》,《高级统计分析》。,97, 4, 403-433, (2013) ·Zbl 1443.62083号
[21] Hinneburg,A。;Gabriel,H.-H.,Dencile 2.0:基于核密度估计的快速聚类,(智能数据分析进展VII,(2007),Springer),70-80
[22] 吉,P。;Zhao,N。;郝S。;蒋,J.,基于半监督流形核密度估计的图像自动标注,Inform。科学。,281, 648-660, (2014)
[23] 琼斯,M.J。;Rehg,J.M.,《皮肤检测应用的统计颜色模型》,国际计算机杂志。视觉。,46, 1, 81-96, (2002) ·Zbl 1012.68721号
[24] Kim,J。;Scott,C.D.,L2内核分类,IEEE Trans。模式分析。机器。智力。,32, 10, 1822-1831, (2010)
[25] 李,J。;Ray,S。;Lindsay,B.G.,《通过模式识别进行聚类的非参数统计方法》,J.Mach。学习。第8、8、1687-1723号决议(2007年)·Zbl 1222.62076号
[26] 廖,J。;Wu,Y。;Lin,Y.,《核密度估计中困难密度的改进鞘层和琼斯带宽选择器》,J.Nonparametr。《法律总汇》,22,1,105-114,(2010)·Zbl 1264.62029号
[27] 刘,Z。;沈,L。;韩,Z。;Zhang,Z.,一种基于核密度估计和马尔可夫随机场的新型视频目标跟踪方法,(图像处理,IEEE国际会议,第3卷,(2007),IEEE)
[28] Loftsgaarden,D.O。;Quesenberry,C.P.,多元密度函数的非参数估计,《数学年鉴》。统计人员。,36, 3, 1049-1051, (1965) ·Zbl 0132.38905号
[29] Mahapatruni,R.,Gray,A.G.,2011年。CAKE:凸自适应核密度估计。摘自:国际人工智能和统计会议,第498-506页。
[30] Mammen,E.,Miranda,M.D.M.,Nielsen,J.P.,Sperlich,S.,2012年。用于核密度估计的新的交叉验证带宽选择器的比较研究。ArXiv预打印。ArXiv:1209.4495。
[31] 3月,W.B。;公羊,P。;Gray,A.G.,《快速欧几里德最小生成树:算法、分析和应用》,(第16届ACM SIGKDD国际知识发现和数据挖掘会议论文集,(2010),ACM),603-612
[32] Menardi,G。;阿扎里尼,A.,《通过非参数密度估计进行聚类的进展》,统计计算。,24, 5, 753-767, (2014) ·Zbl 1322.62175号
[33] Parzen,E.,《关于概率密度函数和模式的估计》,《数学年鉴》。统计人员。,1065-1076, (1962) ·Zbl 0116.11302号
[34] Preparia,F.P。;Shamos,M.I.,《计算几何:导论》(1985年),施普林格-弗拉格出版社·Zbl 0759.68037号
[35] 拉莫尼,M。;Sebastiani,P.,稳健贝叶斯分类器,人工智能,125,1209-226,(2001)·Zbl 0969.68148号
[36] 雷卡尔,V.C。;杜拉伊斯瓦米,R。;赵L.H.,核估计的快速计算,J.Compute。图表。统计人员。,19, 1, 205-220, (2010)
[37] O.Y.Savchuk。;Hart,J.D。;Sheather,S.J.,密度估算的间接交叉验证,J.Amer。统计师。协会,105,489,415-423,(2010)·Zbl 1397.62141号
[38] Scott,D.W.,《多元密度估计:理论、实践和可视化》(2009),John Wiley&Sons
[39] 斯科特·D·W。;Sheather,S.J.,用装箱数据进行核密度估计,Comm.Statist。理论方法,14,6,1353-1359,(1985)
[40] 斯科特·D·W。;Terrell,G.R.,密度估计中的有偏和无偏交叉验证,J.Amer。统计师。协会,82,400,1131-1146,(1987)·Zbl 0648.62037号
[41] 萨莫斯,M.I。;Hoey,D.,最近点问题,(第16届计算机科学基础年度研讨会,1975年,(1975),IEEE),151-162
[42] Sheather,S.J。;Jones,M.C.,《用于核密度估计的可靠的基于数据的带宽选择方法》,J.R.Stat.Soc.Ser。B方法。,683-690, (1991) ·Zbl 0800.62219
[43] Silverman,B.W.,《统计和数据分析的密度估计》(1986),CRC出版社·Zbl 0617.62042号
[44] Stover,J.H。;Ulm,M.C.,多波段卫星数据最大后验陆地覆盖分类的超参数估计和插件核密度估计,计算。统计师。数据分析。,57,1,82-94,(2013)·Zbl 1365.62249号
[45] Tang,Y。;Browne,R.P。;McNicholas,P.D.,高维二进制数据的基于模型的聚类,计算。统计师。数据分析。,(2015) ·Zbl 1468.62191号
[46] 特雷尔,G.R。;Scott,D.W.,可变核密度估计,Ann.Statist。,1236-1265, (1992) ·Zbl 0763.62024号
[47] Wand,M。;Jones,M.,二元核密度估计中平滑参数化的比较,J.Amer。统计师。协会,88,422,520-528,(1993)·Zbl 0775.62105号
[48] Wand,M.P。;Jones,M.C.,《核平滑》,(1994),CRC出版社·Zbl 0854.62043号
[49] 王,S。;Wang,J。;Chung,F.,《大数据集中的核密度估计、核方法和快速学习》,IEEE Trans。赛博。,44, 1, 1-20, (2014)
[50] Yang,C.,Duraiswami,R.,Gumerov,N.A.,Davis,L.,2003年。改进的快速高斯变换和有效的核密度估计。摘自:《计算机视觉》,2003年。诉讼程序。第九届IEEE国际会议,第664-671页。
[51] 张,X。;金·M·L。;Hyndman,R.J.,多元核密度估计带宽选择的贝叶斯方法,计算。统计师。数据分析。,50, 11, 3009-3031, (2006) ·兹比尔1445.62077
[52] Zougab,N。;Adjabi,S。;Kokonendji,C.C.,多元核密度估计中自适应带宽矩阵的贝叶斯估计,计算。统计师。数据分析。,75, 28-38, (2014) ·Zbl 1506.62212号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。