×

通过代表区域选择进行数据探索:公理和收敛性。 (英语) Zbl 1473.62104号

摘要:我们提出了一种新型的无监督学习问题,在该问题中,我们发现了一小部分具有代表性的区域,这些区域近似于一个较大的数据集。这些区域可能会与其他信息一起呈现给从业者,以帮助从业者探索数据集。这种方法的一个优点是它不依赖于数据的集群结构。我们正式定义了这个问题,并提出了度量代表质量的函数应该满足的公理。我们提供了一个满足所有这些公理的质量函数。利用这个质量函数,我们制定了两个用于寻找代表的优化问题。我们提供了一类一般方法的收敛结果,并表明这些结果适用于几种特定方法,包括从本文所述优化问题的解中导出的方法。我们提供了一个示例,说明如何使用具有代表性的区域来探索数据集。

MSC公司:

62G05型 非参数估计
62G07年 密度估算
6220国集团 非参数推理的渐近性质
62兰特 大数据和数据科学的统计方面
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] [1] Agarwal PK、Har-Peled S、Varadarajan KR(2005)《通过核集的几何近似》。Goodman JE,Pach J,Welzl E,eds.组合与计算几何,第52卷(英国剑桥大学出版社),1-30.谷歌学者·Zbl 1123.68141号
[2] [2] Bádoiu M,Har-Peled S,Indyk P(2002)通过核心集的近似聚类。Vitter JS、Spirakis P、Yannakakis M编辑。第34届ACM年度交响曲。理论计算。(纽约计算机协会),250-257。谷歌学者·Zbl 1192.68871号
[3] [3] Ben David S,Ackerman M(2009年)聚类质量的度量:聚类公理的工作集.Koller D、Schuurmans D、Bengio Y、Bottou L编辑,《神经信息处理系统进展》,第21卷(纽约州Red Hook市Curran Associates公司),121-128。谷歌学者
[4] [4] Bezdek JC,Hathaway RJ(2002)VAT:(集群)趋势可视化评估工具。Giles CL编辑程序。2002年国际。联合Conf.神经网络,第3卷(电气和电子工程师学会,新泽西州皮斯卡塔韦),2225-2230.谷歌学者
[5] [5] Biau G,Devroye L,Lugosi G(2008)随机森林和其他平均分类器的一致性。J.机器学习。物件。9:2015-2033谷歌学者·Zbl 1225.62081号
[6] [6] Borgelt C(2012)频繁项目集挖掘。WIRE数据挖掘知识发现2(6):437-456.谷歌学者
[7] [7] Burges CJC(2010)《尺寸缩减:导游》。已找到。趋势机器学习。2(4):275-365.谷歌学者·Zbl 1211.68126号
[8] [8] Burman P,Polonik W(2009)《多元模式搜索:具有显著性度量的数据分析工具》。《多元分析杂志》。100(6):1198-1218.谷歌学者·Zbl 1159.62032号
[9] [9] Carlsson G,Mémoli F(2010)层次聚类方法的特征、稳定性和收敛性。J.机器学习。物件。11:1425-1470.谷歌学者·Zbl 1242.62050
[10] [10] Caruso C,Colorni A,Aloi L(2003)支配,p中心问题的算法。欧洲药典。研究149(1):53-64.谷歌学者·Zbl 1035.90037号
[11] [11] Chen D,Chen R(2009)基于松弛的新算法,用于连续和离散p中心问题的最优解。计算。操作。研究36(5):1646-1655.谷歌学者·Zbl 1177.90246号
[12] [12] Clark RD(1997)OptiSim:寻找不同代表子集的扩展差异选择方法。J.化学信息。计算。科学。37(6):1181-1188.谷歌学者
[13] [13] Daszykowski M,Walczak B,Massart D(2002)代表子集选择。分析化学学报468(1):91-103.谷歌学者
[14] [14] DavidovićT,Ramljak D,ŠelmićM,TeodorovićD(2011)p中心问题的蜂群优化。计算。操作。研究38(10):1367-1376.谷歌学者·Zbl 1208.90103号
[15] [15] Elloumi S,LabbéM,Pochet Y(2004)p-中心问题的一种新的公式和求解方法。信息J.计算。16(1):84-94谷歌学者·Zbl 1239.90103号
[16] [16] Ester M、Kriegel HP、Sander J、Xu X(1996)用于发现簇的基于密度的算法用于发现带有噪声的大型空间数据库中的簇。Simoudis E、Han J、Fayyad U编辑。第二国际。Conf.知识发现数据挖掘(AAAI Press,Menlo Park,CA),226-231。谷歌学者
[17] [17] Estes A、Lovell DJ、Ball MO(2018)数据探索和空中交通管理计划应用的无监督原型简化。EURO J.运输物流。8(5):467-510.谷歌学者
[18] [18] Fahad A、Alshatri N、Tari Z、Alamri A、Khalil I、Zomaya AY、Foufou S、Bouras A(2014)大数据聚类算法调查:分类学和实证分析。IEEE传输。新兴主题计算。2(3):267-279.谷歌学者
[19] [19] Filippone M,Camastra F,Masulli F,Rovetta S(2008)《聚类的核方法和谱方法的调查》。模式识别41(1):176-190。谷歌学者·Zbl 1122.68530号
[20] [20] Fodor IK(2002)《降维技术调查》。技术报告UCRL-ID-148494,加利福尼亚州利弗莫尔劳伦斯利弗莫尔国家实验室,谷歌学者
[21] [21]Friedman JH,Fisher NI(1999),高维数据中的凹凸搜索。统计师。计算。9(2):123-143.谷歌学者
[22] [22]Gajek L(1986)关于改进非真实函数的密度估计。Ann.Statist公司。14(4):1612-1618.谷歌学者·Zbl 0623.62034号
[23] [23]Garcia S,Derrac J,Cano J,Herrera F(2012)最近邻分类的原型选择:分类学和实证研究。IEEE传输。模式分析。机器智能34(3):417-435.谷歌学者
[24] [24]Garey MR,Johnson DS(1990)计算机与难处理性:NP完全性理论指南(W.H.Freeman&Co.,纽约)。谷歌学者
[25] [25]Glad IK,Hjort NL,Ushakov NG(2003)非密度估计值的修正。斯堪的纳维亚统计学家。30(2):415-427.谷歌学者·Zbl 1051.60037号
[26] [26]Gonzalez TF(1985)聚类以最小化最大簇间距离。理论。计算。科学。38(附录C):293-306.谷歌学者·Zbl 0567.62048号
[27] [27]Gorripaty S,Liu Y,Hansen M,Pozdnukhov A(2017)确定空中交通管理的类似日期。J.空运管理65(10月):144-155.谷歌学者
[28] [28]Halkidi M,Batistakis Y,Vazirgiannis M(2001)关于聚类验证技术。J.智能信息。系统17(2):107-145.谷歌学者·Zbl 0998.68154号
[29] [29]Har Peled S,Mazumdar S(2004)关于k-均值和k-中值聚类的核集。Kleinberg J,ed.Proc。第36届ACM年度研讨会。理论计算。(纽约计算机械协会),291-300。谷歌学者·Zbl 1192.68904号
[30] [30]Hartigan JA(1981)高密度集群的单一链接一致性。J.Amer。统计师。协会76(374):388-394.谷歌学者·Zbl 0468.62053号
[31] [31]Hassin R,Levin A,Morad D(2003)词典局部搜索和p中心问题。欧洲药典。研究151(2):265-279.谷歌学者·Zbl 1053.90052号
[32] [32]Havens TC,Bezdek JC(2012)改进的聚类趋势视觉评估(iVAT)算法的有效公式。IEEE传输。知识数据工程24(5):813-822.谷歌学者
[33] [33]Haynes TW,Hedetniemi S,Slater P(1998)图的控制原理(CRC出版社,纽约)。谷歌学者·Zbl 0890.05002号
[34] [34]Hedetniemi S,Laskar R(1991)图的控制文献和控制参数的一些基本定义。Hedetniemi ST,主编《支配论》。离散数学年鉴,第48卷(Elsevier,阿姆斯特丹),257-277.谷歌学者·Zbl 0733.05076号
[35] [35]Ho CK,Singh YP,Ewe HT(2006)最小支配集问题的增强蚁群优化元启发式算法。应用人工智能20(10):881-903.谷歌学者
[36] [36]Hochbaum DS,Shmoys DB(1985)k中心问题的最佳启发式。数学。操作。研究10(2):180-184.谷歌学者·Zbl 0565.90015号
[37] [37]霍X,Ni XS,Smith AK(2008)基于流形的学习方法调查。Liao TW,Triantaphyllou E,eds.企业数据挖掘的最新进展:算法和应用(新加坡世界科学出版公司),691-746.Crossref,谷歌学者·doi:10.1142/9789812779861 _0015
[38] [38]Ilhan T,Øzsoy FA,Pinar M(2002)顶点p-中心问题的高效精确算法和不同集合覆盖子问题的计算实验。土耳其安卡拉比尔肯特大学工业工程系技术报告588。谷歌学者
[39] [39]Jones KS(2007)《自动总结:最新技术。信息》。处理管理43(6):1449-1481.谷歌学者
[40] [40]Kaluszka M(1998)关于修正密度估计量的Devroye-Györfi方法。统计师。普罗巴伯。莱特。37(3):249-257.谷歌学者·Zbl 1246.62098号
[41] [41]Kennard RW,Stone LA(1969),计算机辅助实验设计。技术指标11(1):137-148谷歌学者·兹比尔0165.53102
[42] [42]Kleinberg J(2002)《聚类的不可能性定理》。Becker S,Thrun S,Obermayer K,eds.Proc。第15届国际。Conf.神经信息。处理系统(麻省理工学院出版社,马萨诸塞州剑桥),463-470。谷歌学者
[43] [43]Kosorok MR(2007)《经验过程和半参数推断导论》(Springer,纽约)。谷歌学者
[44] [44]Kriegel HP,Kröger P,Zimek A(2009)《高维数据聚类:子空间聚类、基于模式的聚类和相关聚类的调查》。ACM Trans。知识发现数据3(1):1.谷歌学者
[45] [45]Lloret E,Palomar M(2012)《正在进行的文本总结:文献综述》。人工智能版本37(1):1-41.谷歌学者
[46] [46]Mampaey M,Vreeken J(2013)通过聚类属性总结分类数据。数据挖掘知识发现26(1):130-173.谷歌学者·Zbl 1260.68339号
[47] [47]Mampaey M,Vreeken J,Tatti N(2012)用信息量最大的项目集简明扼要地总结数据。ACM事务处理。知识发现数据6(4):16.谷歌学者
[48] [48]Meinshausen N(2006)分位数回归森林。J.机器学习。物件。7:983-999.谷歌学者·Zbl 1222.68262号
[49] [49]MihelićJ,RobićB(2003)《k中心问题的近似算法:实验评估》。Leopold-Wildburger U,Rendl F,Wäscher G,编辑:国际。确认操作。2002年研究(柏林施普林格),371-376.谷歌学者·Zbl 1162.90496号
[50] [50]Minieka E(1970)m中心问题。SIAM版本12(1):138-139。谷歌学者·Zbl 0193.24204号
[51] [51]MladenovićN,LabbéM,Hansen P(2003)用禁忌搜索和可变邻域搜索解决P中心问题。网络42(1):48-64.谷歌学者·Zbl 1036.90046号
[52] [52]Murtagh F,Contreras P(2017)《层次聚类算法:概述》,II。WIRE数据挖掘知识发现7(6):e1219.Google学者
[53] [53]Nenkova A,McKeown K(2011)《自动摘要》。已找到。趋势信息。检索5(23):103-233.谷歌学者
[54] [54]Parekh AK(1991)图中发现小支配集的贪婪启发式分析。通知。处理信函。39(5):237-240.谷歌学者·Zbl 0746.05061号
[55] [55]Pollard D(1981)k-均值聚类的强一致性。Ann.Statist。9(1):135-140谷歌学者·Zbl 0451.62048号
[56] [56]Puzicha J,Hofmann T,Buhmann JM(2000)基于邻近性的聚类理论:优化结构检测。模式识别33(4):617-634.谷歌学者
[57] [57]Ram P,Gray AG(2011)密度估算树。Ghosh J,Smyth P编辑,Proc。第17届ACM SIGKDD国际。Conf.知识发现数据挖掘(纽约计算机械协会),627-635.谷歌学者
[58] [58]RobićB,MihelićJ(2005)用支配集算法有效地解决k中心问题。J.计算。通知。技术。13(3):225-234.Crossref,谷歌学者·doi:10.2498/cit.2005.03.05
[59] [59]Sanchis LA(2002)支配集问题启发式算法的实验分析。算法33(1):3-18.谷歌学者·Zbl 0994.68092号
[60] [60]Schubert E、Sander J、Ester M、Kriegel HP、Xu X(2017)DBSCAN再次访问:为什么以及如何(仍然)使用DBSCAN。ACM事务处理。数据库系统42(3):19:1-19:21.谷歌学者
[61] [61]Scornet E,Biau G,Vert JP(2015)《随机森林的一致性》。Ann.Statist公司。43(4):1716-1741.谷歌学者·兹比尔1317.62028
[62] [62]Scott DW(2015)《多元密度估计:理论、实践和可视化》(John Wiley&Sons,纽约州纽约市)。谷歌学者·Zbl 1311.62004号
[63] [63]Sheather SJ(2004)密度估算。统计师。科学。19(4):588-597.谷歌学者·Zbl 1100.62558号
[64] [64]Shorack GR,Wellner JA(2009)《统计应用的经验过程》(工业和应用数学学会,费城)。谷歌学者
[65] [65]孙伟,王J,方Y(2012)高维数据的正则化k-均值聚类及其渐近一致性。电子J.统计。6:148-167.谷歌学者·Zbl 1335.62109号
[66] [66]Triguero I,Derrac J,Garcia S,Herrera F(2012)最近邻分类原型生成的分类和实验研究。IEEE传输。系统,人,控制论,C部分(应用修订版)42(1):86-100.谷歌学者
[67] [67]van Laarhoven T,Marchiori E(2014)《图聚类质量函数公理》。J.机器学习。物件。15(6):193-215.谷歌学者·Zbl 1318.62222号
[68] [68]Vapnik VN,Chervonenkis AY(2013)关于事件发生频率与其概率的一致收敛性。Schölkopf B,Luo Z,Vovk V,eds.经验推理:纪念弗拉基米尔·瓦普尼克的节日(柏林施普林格),7-12.Crossref,谷歌学者·Zbl 1325.60006号 ·doi:10.1007/978-3642-41136-62
[69] [69]von Luxburg U,Belkin M,Bousquet O(2008)光谱聚类的一致性。Ann.Statist。36(2):555-586.谷歌学者·Zbl 1133.62045号
[70] [70]Wang L,Nguyen UTV,Bezdek JC,Leckie CA,Ramamohanarao K(2010)iVAT和aVAT:增强的集群趋势评估可视化分析。Zaki MJ,Yu JX,Ravindran B,Pudi V,eds.《知识发现和数据挖掘进展》(柏林斯普林格出版社),16-27.谷歌学者
[71] [71]Ward JH Jr(1963)优化目标函数的分层分组。J.Amer。统计师。协会58(301):236-244.谷歌学者
[72] [72]Xu R,Wunsch D(2005)聚类算法综述。IEEE传输。神经网络16(3):645-678.谷歌学者
[73] [73]严X,程H,韩J,辛D(2005)《总结项目集模式:基于轮廓的方法》。Bayardo R、Bennett K编辑。第11届ACM SIGKDD国际。Conf.Knowledge Discovery Data Mining(纽约计算机械协会),314-323.谷歌学者
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。