×

数据驱动的密度导数估计,应用于非参数聚类和凹凸搜索。 (英语) Zbl 1337.62067号

摘要:关于多元数据集的重要信息,如簇和模态区域,包含在概率密度函数的导数中。尽管如此,密度函数高阶导数的非参数估计只得到了相对较少的关注。密度函数的核估计因其具有良好的理论和实际性质而被广泛应用,尽管由于带宽(或平滑参数)选择这一关键问题中的数学难解性,其对密度导数的推广进展较慢。本文提出了第一个用于多元核密度导数估值器的全自动、基于数据的带宽选择器。这是通过综合矩阵分析理论的最新进展来实现的,该理论允许对多元向量值函数的高阶导数进行数学和计算上易于处理的表示。研究了所提出选择器的理论渐近性质和有限样本行为。此外,我们详细探讨了新的数据驱动方法在其他两个统计问题上的应用:聚类和凹凸搜索。将引入的技术与均值漂移算法相结合,开发出新的自动非参数聚类程序,实践证明,该程序优于混合模型聚类分析和其他最近的非参数方法。此外,通过一个实际数据示例说明了使用为密度导数估计设计的平滑参数进行凹凸搜索特征显著性分析的优点。

MSC公司:

62G07年 密度估算
62G05型 非参数估计
62H30型 分类和区分;聚类分析(统计方面)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Azzalini,A.和Torelli,N.(2007)通过非参数密度估计进行聚类。统计计算,17 , 71-80.
[2] Bowman,A.W.(1984)密度估计值平滑的交叉验证替代方法。生物特征,71,353-360。
[3] Cao,R.、Cuevas,A.和González-Manteiga,W.(1994)密度估计中几种平滑方法的比较研究。计算。统计师。数据分析,17 , 153-176. ·Zbl 0937.62518号 ·doi:10.1016/0167-9473(92)00066-Z
[4] Chacón,J.E.(2009年)。核密度估计器平滑参数化的数据驱动选择。加拿大。J.统计。37 , 249-265. ·Zbl 1176.62028号 ·doi:10.1002/cjs.10016
[5] Chacón,J.E.和Duong,T.(2010)无约束导频带宽矩阵的多变量插件带宽选择。测试,19375-398·Zbl 1203.62054号 ·文件编号:10.1007/s11749-009-0168-4
[6] Chacón,J.E.和Duong,T.(2011)平滑交叉验证的无约束试点选择器。澳大利亚。新西兰统计杂志,53 , 331-351. ·Zbl 1334.62049号
[7] Chacón,J.E.和Duong,T.(2012)基于多元高斯密度高阶导数的泛函高效递归算法。正在准备中·Zbl 1332.62170号
[8] Chacón,J.E.,Duong,T.和Wand,M.P.(2011)一般多元核密度导数估计量的渐近性。《中国统计》,21807-840·Zbl 1214.62039号 ·doi:10.5705/ss.2011.036a
[9] Chaudhuri,P.和Marron,J.S.(1999)《SiZer曲线结构勘探》。J.艾默。统计师。协会,94807-823·Zbl 1072.62556号 ·doi:10.2307/2669996
[10] Cheng,Y.(1995)均值漂移、模式搜索和聚类。IEEE T.模式分析,17 , 790-799.
[11] Choi,E.和Hall,P.(1999)数据锐化是密度估计的前奏。生物特征,86941-947·Zbl 0942.62038号 ·doi:10.1093/biomet/86.4.941
[12] Comaniciu,D.(2003)数据驱动带宽选择算法。IEEE T.模式分析,25 , 281-288.
[13] Comaniciu,D.和Meer,P.(2002)《均值漂移:特征空间分析的稳健方法》。IEEE传输。模式分析,24 , 603-619.
[14] Comaniciu,D.、Ramesh,V.和Meer,P.(2003)基于内核的对象跟踪。IEEE传输。模式分析,25 , 564-577.
[15] Cuevas,A.、Febrero,M.和Fraiman,R.(2001)《聚类分析:基于密度估计的进一步方法》。计算。统计师。数据分析,36 , 441-459. ·Zbl 1053.62537号 ·doi:10.1016/S0167-9473(00)00052-9
[16] Dobrovidov,A.V.和Rud'ko,I.M.(2010)通过平滑交叉验证方法在密度导数的非参数估计中选择带宽。自动。遥控器,71,209-224·Zbl 1507.62243号
[17] Duong,T.(2007)ks:R.J.Statist中多元数据的核密度估计和核判别分析。软质,21(7) , 1-16.
[18] Duong,T.、Cowling,A.、Koch,I.和Wand,M.P.(2008)《多元核密度估计的特征重要性》。计算。统计数据分析,52 , 4225-4242. ·Zbl 1452.62265号
[19] Duong,T.和Hazelton,M.L.(2003)二元核密度估计的插件带宽矩阵。J.非参数。统计,15,17-30·兹比尔1019.62032 ·doi:10.1080/10485250306039
[20] Duong,T.和Hazelton,M.L.(2005a)多元核密度估计中无约束带宽矩阵选择器的收敛速度。《多元分析杂志》,93 , 417-433. ·Zbl 1066.62059号 ·doi:10.1016/j.jmva.2004.04.004
[21] Duong,T.和Hazelton,M.L.(2005b)多元核密度估计的交叉验证带宽矩阵。扫描。J.统计,32 , 485-506. ·Zbl 1089.62035号 ·doi:10.1111/j.1467-9469.2005.00445.x
[22] Forina M.、Armanino C.、Lanteri S.和Tiblispia E.(1983)根据脂肪酸组成对橄榄油进行分类。摘自:H.Martens和H.J.Russwurm(编辑),《食品研究和数据分析》,应用科学出版社,伦敦,第189-214页。
[23] Fraley,C.和Raftery,A.E.(2002)基于模型的聚类、判别分析和密度估计。J.艾默。统计师。协会,97,611-631·Zbl 1073.62545号 ·doi:10.1198/016214502760047131
[24] Frank,A.和Asuncion,A.(2010)UCI机器学习库[]。加州大学欧文分校信息与计算机科学学院。
[25] Fukunaga,K.(1990)《统计模式识别导论》,第二版。波士顿学术出版社·Zbl 0711.62052号
[26] Fukunaga,K.和Hostetler,L.D.(1975)密度函数梯度的估计及其在模式识别中的应用。IEEE T.通知。理论,21,32-40·Zbl 0297.62025号 ·doi:10.1109/TIT.1975.1055330
[27] Gel'fand,I.M.和Shilov,G.E.(1966)《广义函数》,第1卷:性质和运算。纽约学术出版社。
[28] Genovese,C.R,Perone-Pacifico,M.,Verdinelly,I.和Wasserman,L.(2009)《关于梯度场的路径密度》。安.统计师,37 , 3236-3271. ·Zbl 1191.62062号 ·doi:10.1214/08-AOS671
[29] Godtliebsen,F.、Marron,J.S.和Chaudhuri,P.(2002),二元密度估计在尺度空间中的重要性。J.计算。图表。统计人员,11 , 1-21.
[30] Godtliebsen,F.、Marron,J.S.和Chaudhuri,P.(2004)数字图像特征的统计意义。图像视觉计算,22 , 1093-1104.
[31] Grund,B.和Hall,P.(1995)关于模式估计中的(L^{P})误差最小化。安统计师,23 , 2264-2284. ·Zbl 0853.62029号 ·doi:10.1214/aos/1034713656
[32] Hall,P.(1983)密度估计中最小二乘交叉验证的大样本优化。安.统计师,11 , 1156-1174. ·Zbl 0599.62051号
[33] Hall,P.和Marron,J.S.(1987)在非参数密度估计中,最小二乘交叉验证将综合平方误差最小化的程度。普罗巴伯。理论相关领域,74567-581·Zbl 0588.62052号 ·doi:10.1007/BF00363516
[34] Hall,P.和Marron,J.S.(1991)密度估计中带宽选择的下限。普罗巴伯。理论相关领域,90,149-163·Zbl 0742.62041号 ·doi:10.1007/BF01192160
[35] Hall,P.、Marron,J.S.和Park,B.U.(1992)平滑交叉验证。普罗巴伯。理论相关领域,92,1-20·Zbl 0742.62042号 ·doi:10.1007/BF01205233
[36] Hall,P.和Minotte,M.C.(2002)用于密度估计的高阶数据锐化。J.R.统计社会服务。B统计方法,64 , 141-157. ·Zbl 1015.62031号
[37] Härdle,W.、Marron,J.S.和Wand,M.P.(1990)密度导数的带宽选择。J.R.统计社会服务。B统计方法,52 , 223-232. ·Zbl 0699.62036号
[38] Holmquist,B.(1985)直接积置换矩阵。线性多线性代数,17,117-141·Zbl 0566.15012号 ·网址:10.1080/03081088508817648
[39] Holmquist,B.(1996a)(d)-变量向量Hermite多项式(k)阶。线性代数应用,237/238 , 155-190. ·Zbl 0848.62027号 ·doi:10.1016/0024-3795(95)00595-1
[40] Holmquist,B.(1996b)正态变量中二次型乘积的期望。随机分析。申请,14 , 149-164. ·Zbl 0848.60019号 ·doi:10.1080/077362999608809431
[41] Horová,I.,Koláckek,J.和Vopatová,K.(2013)梯度核密度估计的全带宽矩阵选择器。计算。统计师。数据分析,57 , 364-376. ·兹比尔1365.62127
[42] Horová,I.和Vopatová,K.(2011)核密度梯度估计。《功能数据分析和相关主题的最新进展》(ed F.Ferraty),第177-182页,海德堡Physica Verlag出版社。
[43] Horton,P.和Nakai,K.(1996)预测蛋白质细胞定位位点的概率分类系统。分子生物学智能系统学报(ISMB-96),109-115。
[44] Hubert,L.和Arabie,P.(1985)比较分区。J.分类,2193-218·Zbl 0587.62128号
[45] Jones,M.C.(1991)ISE和MISE在密度估算中的作用。统计师。普罗巴伯。莱特,12 , 51-56.
[46] Jones,M.C.(1992)核密度估计变化中自动带宽选择的潜力。统计师。普罗巴伯。莱特,13 , 351-356.
[47] Jones,M.C.(1994)关于核密度导数估计。通信统计。理论方法,23,2133-2139·Zbl 0825.62208号 ·doi:10.1080/03610929408831377
[48] Jones,M.C.、Marron,J.S.和Park,B.U.(1991)一个简单的根带宽选择器。安.统计师,19 , 1919-1932. ·Zbl 0745.62033号 ·doi:10.1214/aos/1176348378
[49] Jones,M.C.、Marron,J.S.和Sheather,S.J.(1996)密度估计带宽选择的简要调查。J.艾默。统计师。协会,91,401-407·Zbl 0873.62040号 ·数字对象标识代码:10.2307/2291420
[50] Magnus,J.R.和Neudecker,H.(1979)交换矩阵:一些性质和应用。安.统计师,7 , 381-394. ·Zbl 0414.62040号 ·doi:10.1214/aos/1176344621
[51] Kollo,T.和von Rosen,D.(2005)《矩阵高级多元统计》。多德雷赫特·施普林格·Zbl 1079.62059号
[52] Li,J.、Ray,S.和Lindsay,B.G.(2007)通过模式识别进行聚类的非参数统计方法。《机器学习研究杂志》,81687-1723·Zbl 1222.62076号
[53] Magnus,J.R.和Neudecker,H.(1999)《矩阵微分学在统计学和计量经济学中的应用:修订版》。奇切斯特约翰·威利父子公司·Zbl 0912.15003号
[54] Mathai,A.M.和Provost,S.B.(1992)《随机变量中的二次型:理论与应用》。Marcel Dekker,纽约·Zbl 0792.62045号
[55] Milligan,G.W.和Cooper,M.C.(1986)关于层次聚类分析外部标准可比性的研究。多元行为。决议,21,441-458。
[56] Naumann,U.和Wand,M.P.(2009)高含量流式细胞术筛查的自动化。细胞计量学A,75A,789-797。
[57] Park,B.U.和Marron,J.S.(1990)数据驱动带宽选择器的比较。J.艾默。统计师。协会,85,66-72。
[58] Parzen,E.(1962)关于概率密度函数和模式的估计。安。数学。统计人员,33 , 1065-1076. ·Zbl 0116.11302号 ·doi:10.1214/网址/117704472
[59] Pawlowsky-Glahn,V.和Buccianti,A.(2011)《成分数据分析:理论与应用》。奇切斯特约翰·威利父子公司·Zbl 1103.62111号
[60] Pratt,J.P.,Zeng,Q.T.,Ravnic,D.,Huss,H.,Rawn,J.和Mentzer,S.J.(2009)非人类物种单克隆抗体反应性模式的层次聚类。细胞计量学A,75A,734-742。
[61] Rinaldo,A.和Wasserman,L.(2010)《广义密度聚类》,《统计年鉴》,38 , 2678-2722. ·Zbl 1200.62066号 ·doi:10.1214/10-AOS797
[62] Rudemo,M.(1982)直方图和核密度估计的经验选择。扫描。J.统计,9 , 65-78. ·Zbl 0501.62028号
[63] Schott,J.R.(2003)Kronecker积置换矩阵及其在正态分布矩矩阵中的应用。《多元分析杂志》,87 , 177-190. ·Zbl 1030.62043号 ·doi:10.1016/S0047-259X(03)00047-2
[64] Sheather,S.J.和Jones,M.C.(1991)用于核密度估计的可靠的基于数据的带宽选择方法。J.R.统计社会服务。B统计方法,53 , 683-690. ·Zbl 0800.62219
[65] Scott,D.W.(1992)《多变量密度估计:理论、实践和可视化》。John Wiley&Sons,纽约·Zbl 0850.62006号
[66] Simonoff,J.S.(1996)《统计学中的平滑方法》。柏林斯普林格·弗拉格·兹比尔0859.62035
[67] Stone,C.J.(1984)核密度估计的渐近最优窗口选择规则。安.统计师,12 , 1285-1297. ·Zbl 0599.62052号 ·doi:10.1214/aos/1176346792
[68] Stuetzle,W.(2003)通过分析样本的最小生成树来估计密度的聚类树。J.分类,20,25-47·Zbl 1055.62075号 ·doi:10.1007/s00357-003-0004-6
[69] Vieu,P.(1996)关于密度模式估计的注释。统计师。普罗巴伯。莱特,26 , 297-307. ·Zbl 0847.62024号 ·doi:10.1016/0167-7152(95)00024-0
[70] Wand,M.P.和Jones,M.C.(1993)二元核密度估计中平滑参数化的比较。J.艾默。统计师。协会,88,520-528·Zbl 0775.62105号 ·doi:10.2307/2290332
[71] Wand,M.P.和Jones,M.C.(1995年)。内核平滑,查普曼和霍尔·Zbl 0854.62043号
[72] Wang,X.,Qiu,W.和Zamar,R.H.(2007)CLUES:基于局部收缩的非参数聚类方法。计算。统计师。数据分析,52 , 286-298. ·Zbl 1452.62474号
[73] Wu,T.-J.(1997)密度导数核估计的根带宽选择器。J.艾默。统计师。协会,92,536-547·Zbl 1067.62528号 ·doi:10.2307/2965702
[74] Zeng,Q.T.,Pratt,J.P.,Pak,J.,Ravnic,D.,Huss,H.和Mentzer,S.J.(2007)多维流式细胞术数据集的特征引导聚类。生物医学信息学杂志,40325-331。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。