×

一系列无监督采样算法。 (英语) Zbl 1436.62041号

Ros,Frédéric(ed.)等人,《监督或非监督任务的取样技术》。查姆:斯普林格。无监督。半超级。学习。,45-81 (2020).
小结:本章结构如下。非监督采样方法概述见第节。3.2. 第节介绍了家族中算法共享的概念、fft、时间优化以及与核心集的关系。3.3. 然后,DIDES、DENDIS和ProTraS这三种算法分别在第。3.4. 使用合成数据说明了它们的共同特性和差异,并在第节中进行了分析。3.5.
最后,主要结论见第节。3.6.
关于整个系列,请参见[Zbl 1433.62016年].

MSC公司:

62D05型 抽样理论、抽样调查

关键词:

无监督抽样
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Agarwal,P.K.,Har-Peled,S.,Varadarajan,K.R.:点的近似范围度量。《美国医学会期刊》51(4),606-635(2004)。http://doi.acm.org/10.1145/1008731.1008736 ·Zbl 1204.68240号 ·数字对象标识代码:10.1145/1008731.1008736
[2] Al-Kateb,M.,Lee,B.:非均质数据流上的自适应分层油藏采样。信息系统。39(1),199-216(2014)·doi:10.1016/j.is.2012.03.005
[3] Al-Kateb,M.,Lee,B.S.,Wang,X.S.:数据流上的自适应水库采样。摘自:第19届国际科学和统计数据库管理会议,2007年SSBDM,第22-22页。IEEE,皮斯卡塔韦(2007)
[4] Arthur,D.,Vassilvitskii,S.:k的意思是++:谨慎播种的优势。摘自:第十八届ACM-SIAM离散算法年会论文集,第1027-1035页。费城工业和应用数学学会(2007年)·Zbl 1302.68273号
[5] Azzalini,A.,Torelli,N.:通过非参数密度估计进行聚类。统计计算。17(1), 71-80 (2007) ·doi:10.1007/s11222-006-9010-y
[6] Bezdek,J.C.:模糊目标函数算法的模式识别。纽约Plenum出版社(1981)·Zbl 0503.68069号 ·doi:10.1007/978-1-4757-0450-1
[7] Celebi,M.E.,Kingravi,H.A.,Vela,P.A.:k-means聚类算法有效初始化方法的比较研究。专家系统。申请。40(1), 200-210 (2013) ·doi:10.1016/j.eswa.2012.07.021
[8] Chaudhuri,S.、Das,G.、Narasayya,V.:近似查询处理的优化分层采样。ACM事务处理。数据库系统。32(2), 9 (2007) ·doi:10.1145/1242524.1242526
[9] Chehreghani,M.,Abolhassani,H.,Chehreghan,M.:改进基于密度的网页层次聚类方法。数据知识。工程67(1),30-50(2008)·doi:10.1016/j.datak.2008.06.006
[10] Chernoff,H.:基于观察值总和的假设检验的渐近效率度量。安。数学。《美国联邦法律大全》第23(4)卷,第493-507页(1952年)·Zbl 0048.11804号 ·doi:10.1214/aoms/1177729330
[11] Chernoff,H.:关于正态分布不等式的注记。安·普罗巴伯。9, 533-535 (1981) ·Zbl 0457.60014号 ·doi:10.1214/aop/1176994428
[12] Chiang,M.C.,Tsai,C.W.,Yang,C.S.:一种用于k-means聚类的高效模式简化算法。信息科学。181(4), 716-731 (2011) ·doi:10.1016/j.ins.2010.10.008
[13] Chiu,S.L.:基于聚类估计的模糊模型识别。J.智力。模糊系统。267-278(1994年)
[14] Dolnicar,S.,Leisch,F.:通过袋装集群细分市场。澳大利亚。作记号。J.12(1),51-65(2004)·doi:10.1016/S1441-3582(04)70088-9
[15] Efraimdis,P.S.,Spirakis,P.G.:水库加权随机采样。信息处理。莱特。97(5),181-185(2006)·Zbl 1184.68620号 ·doi:10.1016/j.ipl.2005.11.003
[16] Epanechnikov,V.A.:多元概率密度的非参数估计。理论问题。申请。14(1), 153-158 (1969) ·数字对象标识代码:10.1137/1114019
[17] Ester,M.、Kriegel,H.P.、Sander,J.、Xu,X.:一种基于密度的算法,用于在带有噪声的大型空间数据库中发现簇。载:《第二届知识发现和数据挖掘国际会议论文集》,第226-231页。AAAI出版社,门罗公园(1996)
[18] Feldman,D.,Faulkner,M.,Krause,A.:通过核心集对混合模型进行可缩放训练。摘自:《神经信息处理系统进展》,第2142-2150页(2011年)
[19] Gutmann,B.,Kersting,K.:分层梯度增强,用于条件随机场的快速训练。摘自:第六届多相关数据挖掘国际研讨会论文集,第56-68页(2007年)
[20] Har-Peled,S.,Mazumdar,S.:《关于k-means和k-median聚类的核心集》,摘自《第三十六届ACM计算理论研讨会论文集》,STOC'04,第291-300页。ACM,纽约(2004年)。https://doi.org/10.1145/1007352.1007400 ·Zbl 1192.68904号 ·数字对象标识代码:10.1145/1007352.1007400
[21] Hartigan,J.A.:聚类算法。威利,伦敦(1975)·Zbl 0372.62040号
[22] Hartigan,J.A.,Wong,M.:k均值聚类算法。申请。《统计》第28卷,第100-108页(1979年)·Zbl 0447.62062号 ·doi:10.2307/2346830
[23] Hatamlou,A.、Abdullah,S.、Nezamabadi-pour,H.:基于k-means和引力搜索算法的组合聚类方法。Swarm进化。计算。6, 47-52 (2012) ·doi:10.1016/j.swevo.2012.02.003
[24] Hochbaum,D.S.,Shmoys,D.B.:k中心问题的最佳启发式。数学。操作。第10(2)号决议,180-184(1985)·Zbl 0565.90015号 ·doi:10.1287/门.10.2180
[25] Hodge,V.J.,Austin,J.:异常值检测方法的调查。工件。智力。修订版22(2),85-126(2004)·Zbl 1101.68023号 ·doi:10.1023/B:AIRE.000045502.10941.a9
[26] Hoeffing,W.:有界随机变量和的概率不等式。《美国统计协会期刊》58(301),13-30(1963)·Zbl 0127.10602号 ·doi:10.1080/016214591963.10500830
[27] Ilango,M.R.,Mohan,V.:基于网格的聚类算法综述。国际工程科学杂志。Technol公司。2(8), 3441-3446 (2010)
[28] Jain,A.K.:数据聚类:超过K-means 50年。模式识别器。莱特。31(8), 651-666 (2010) ·doi:10.1016/j.patrec.2009.09.011
[29] Jiang,M.F.,Tseng,S.S.,Su,C.M.:异常值检测的两阶段聚类过程。模式识别器。莱特。22(6), 691-700 (2001) ·兹比尔1010.68908 ·doi:10.1016/S0167-8655(00)00131-8
[30] Kärkkäinen,I.,Fränti,P.:聚类问题的动态局部搜索算法。Joensu大学计算机科学系技术代表A-2002-6(2002)·Zbl 1118.68143号
[31] Karypis,G.,Han,E.H.,Kumar,V.:变色龙:使用动态建模的层次聚类。计算机32(8),68-75(1999)·数字对象标识代码:10.1109/2.781637
[32] Kaufman,L.,Rousseeuw,P.:通过medoids进行聚类。In:基于L1-Norm和相关方法的统计数据分析。荷兰北部,阿姆斯特丹(1987)·数字对象标识:https://scholar.google.com/scholar?q=Kaufman%2CL.%2C-Rousseeuw%2C-P.:通过medoids聚类。In:基于L1-Norm和相关方法的统计数据分析。北荷兰语%2C阿姆斯特丹(1987)
[33] Kerdprasop,K.,Kerdprasot,N.,Sattayatham,P.:基于储层采样的密度偏差聚类。摘自:第十六届数据库和专家系统应用国际研讨会论文集,第1122-1126页。IEEE,皮斯卡塔韦(2005)
[34] Khan,S.S.,Ahmad,A.:用于k模式聚类的聚类中心初始化算法。专家系统。申请。40(18), 7444-7456 (2013) ·doi:10.1016/j.eswa.2013.07.002
[35] Kollios,G.,Gunopulos,D.,Koudas,N.,Berchtold,S.:大数据集中近似聚类和离群值检测的有效有偏采样。IEEE传输。知识。数据工程15(5),1170-1187(2003)·doi:10.1109/TKDE.2003.1232271
[36] Krishnapuram,R.,Keller,J.M.:集群的可能性方法。IEEE Trans。模糊系统。(1), 98-110 (1993) ·doi:10.10109/912227387
[37] Leisch,F.,Dolnicar,S.:奥地利冬季旅游细分:使用袋装聚类技术确定稳定的度假风格。《J.Travel Res.41(3)》,281-292(2003)·doi:10.1177/0047287502239037
[38] Linde,Y.,Buzo,A.,Gray,R.:矢量量化器设计的算法。IEEE传输。Commun公司。28(1)、84-95(1980)中所述。https://doi.org/10.109/TCOM.1980.1094577 ·doi:10.1109/TCOM.1980.1094577
[39] Ling,R.F.:用于数据简化和对象分类的聚类分析算法。技术计量学23(4),417-418(1981)
[40] Lloyd,S.P.:PCM中的最小二乘量化。IEEE传输。《信息论》28(2),129-137(1982)·兹比尔0504.94015 ·doi:10.1109/TIT.1982.1056489
[41] Lv,Y.、Ma,T.、Tang,M.、Cao,J.、Tian,Y.,Al-Dhelaan,A.、Al-Rodhaan,M.:一种有效且可扩展的基于密度的复杂结构数据集聚类算法。神经计算171,9-22(2015)·doi:10.1016/j.neucom.2015.05.109
[42] Ma,X.,Pan,Z.,Li,Y.,Fang,J.:使用分组策略的矢量量化的高质量初始码本设计方法。IET图像处理。9, 986-992 (2015) ·doi:10.1049/iet-ipr.2015.0048
[43] Machová,K.,Puszta,M.,BaráK,F.,Bednár,P.:使用决策树分类器的装袋和提升方法的比较。计算。科学。信息系统。3(2), 57-72 (2006) ·doi:10.2298/CSIS0602057M
[44] Macqueen,J.:多元观测分类和分析的一些方法。摘自:第五届伯克利数理统计与概率研讨会,第281-297页(1967)·Zbl 0214.46201号
[45] Menardi,G.,Azzalini,A.:通过非参数密度估计进行聚类的进展。统计计算。24(5), 753-767 (2014) ·Zbl 1322.62175号 ·数字对象标识代码:10.1007/s11222-013-9400-x
[46] Mitra,P.,Murthy,C.,Pal,S.:基于密度的多尺度数据压缩。IEEE传输。模式分析。机器。智力。24(6), 734-747 (2002) ·doi:10.1109/TPAMI.2002.1008381
[47] Naldi,M.,Campello,R.:分布式进化k-means聚类算法的比较。神经计算163,78-93(2015)·doi:10.1016/j.neucom.2014.07.083
[48] Nanopoulos,A.,Manolopoulos,Y.,Theodoridis,Y.:密度偏差采样的高效算法。载:《第十一届信息和知识管理国际会议记录》,第398-404页(2002年)
[49] Nanopoulos,A.,Theodoridis,Y.,Manolopoulos,Y.:聚类应用的基于索引的密度偏差采样。数据知识。工程57(1),37-63(2006)·doi:10.1016/j.datak.2005.03.003
[50] Palmer,C.R.,Faloutsos,C.:密度偏差抽样:数据挖掘和聚类的改进方法。摘自:ACM SIGMOD国际数据管理会议,达拉斯,第82-92页(2000)
[51] Rahman,M.A.,Islam,M.Z:一种将新型遗传算法与k-均值相结合的混合聚类技术。知识-基于系统。71, 345-365 (2014) ·doi:10.1016/j.knosys.2014.08.011
[52] Ros,F.,Guillaume,S.:Dendis:一种新的基于密度的聚类算法采样。专家系统。申请。56, 349-359 (2016). https://doi.org/10.1016/j.eswa.2016.03.008 ·doi:10.1016/j.eswa.2016.03.008
[53] Ros,F.,Guillaume,S.:Dides:一种快速有效的聚类采样算法。知识。信息系统。50, 543-568 (2016). https://doi.org/10.1007/s10115-016-0946-8 ·doi:10.1007/s10115-016-0946-8
[54] Ros,F.,Guillaume,S.:Protras:概率遍历采样算法。专家系统。申请。105, 65-76 (2018). https://doi.org/10.1016/j.eswa.2018.03.052 ·doi:10.1016/j.eswa.2018.03.052
[55] Ros,F.、Pintore,M.、Deman,A.、Chrétien,J.:RBF神经网络的自动初始化。化学。智力。实验室系统。87(1), 26-32 (2007) ·doi:10.1016/j.chemolab.2006.01.008
[56] Rosenkrantz,D.J.,Stearns,R.E.,Lewis,P.M.II:对旅行推销员问题的几种启发式算法的分析。SIAM J.计算。6(3), 563-581 (1977) ·Zbl 0364.90104号 ·doi:10.1137/0206041
[57] Rousseeuw,P.J.:轮廓:用于解释和验证聚类分析的图形辅助工具。J.计算。申请。数学。20, 53-65 (1987) ·Zbl 0636.62059号 ·doi:10.1016/0377-0427(87)90125-7
[58] Sarma,T.、Viswanath,P.、Reddy,B.:加速内核k-means聚类方法:基于原型的混合方法。模式识别器。莱特。34(5), 564-573 (2013) ·doi:10.1016/j.patrec.2012.11.009
[59] Sarma,T.H.,Viswanath,P.,Reddy,B.E.:加速内核k-means聚类方法:基于原型的混合方法。模式识别器。莱特。34(5), 564-573 (2013) ·doi:10.1016/j.patrec.2012.11.009
[60] Tan,S.C.,Ting,K.M.,Teng,S.W.:自动聚类发现的通用随机聚类方法。模式识别器。44(10),2786-2799(2011)
[61] Tax,D.,Duin,R.:支持向量数据描述。机器。学习。54(1), 45-66 (2004) ·Zbl 1078.68728号 ·doi:10.1023/B:MACH.0000008084.60811.49
[62] Viswanath,P.,Sarma,T.,Reddy,B.:一种加速k均值聚类方法的混合方法。国际J·马赫。学习。赛博。4(2), 107-117 (2013) ·doi:10.1007/s13042-012-0079-7
[63] Vitter,J.S.:水库随机取样。ACM事务处理。数学。柔和。11(1), 37-57 (1985) ·Zbl 0562.68028号 ·数字对象标识代码:10.1145/3147.3165
[64] Wang,X.,Wang,X.,Wilkes,D.M.:基于最小生成树的聚类的分而治之方法。IEEE Trans。知识。数据工程21(7),945-958(2009)·doi:10.1109/TKDE.2009.37
[65] Xiao,Y.,Liu,B.,Hao,Z.,Cao,L.:一种基于k-farthest邻域的支持向量数据描述方法。申请。智力。41(1), 196-211 (2014) ·doi:10.1007/s10489-013-0502-0
[66] Yager,R.R.,Filev,D.P.:通过山聚类生成模糊规则。《情报学杂志》。模糊系统。2, 209-219 (1994)
[67] Yang,M.S.,Wu,K.L.:一种改进的山地聚类算法。模式分析。申请。8(1-2), 125-138 (2005) ·doi:10.1007/s10044-005-0250-9
[68] Zahra,S.、Ghazanfar,M.A.、Khalid,A.、Azam,M.A.,Naeem,U.、Prugel-Bennett,A.:kmeans基于聚类的推荐系统的新型质心选择方法。信息科学。320, 156-189 (2015) ·doi:10.1016/j.ins.2015.03.062
[69] 钟,C·Zbl 1360.68730号 ·doi:10.1016/j.ins.2014.10.12
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。