×

不完全数据的广义密度吸引子聚类。 (英语) Zbl 1515.62064号

摘要:均值漂移是实现密度吸引子聚类(DAC)的一种流行且强大的聚类方法。然而,就不完整数据的建模定义和方法而言,DAC还不够成熟。由于DAC的重要性,解决这一常见问题至关重要。这项工作通过使DAC适用于不完整数据,使其更加通用:首先,使用形式化建模定义,我们提出了DAC的统一框架。其次,我们提出了新的方法来实现这些定义,并对不完整数据执行DAC,比其他方法更高效、更稳定。我们通过理论分析讨论并比较了我们的方法和最接近的竞争对手。我们使用具有已知结构的合成数据集和三种缺失值类型的实际业务数据来量化方法的性能。最后,我们分析了Stack Overflow的2021年调查,以提取来自印度和美国的程序员集群。实验验证了我们的方法优于六种替代方法。代码,数据: https://bit.ly/genDAC.

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62D10号 缺少数据
62G07年 密度估算
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Abdallah L,Shimshoni I(2014)缺失值数据的均值漂移聚类算法。摘自:数据仓库和知识发现国际会议,第8646卷。施普林格,pp 426-438
[2] Agamennoni G(2013)带离群值和缺失值的贝叶斯聚类。报告ACFR-TR-2013-001,澳大利亚野外机器人中心
[3] Bacher J,Pöge A,Wenzig K(2000),聚类分析3.A.:klassifikationsverfahren中的anwendungsorientierte einführung。奥尔登堡Wissenschaftsverlag
[4] 班纳吉,A。;迪尔隆,I。;Ghosh,J.,bregman联合聚类和矩阵近似的广义最大熵方法,J Mach Learn Res,81919-1986(2007)·Zbl 1222.68139号
[5] 比斯曼,F。;Rukat,T。;Schmidt,P.,Datawig:表格缺失值插补,J Mach Learn Res,20,175,1-6(2019)·Zbl 1436.62051号
[6] van Buuren,S。;Boshuizen,HC;Knook,DL,生存分析中缺失血压协变量的多重插补,统计医学,18,6,681-94(1999)·doi:10.1002/(SICI)1097-0258(19990330)18:6<681::AID-SIM71>3.0.CO;2-右
[7] Campello RJBB,Moulavi D,Sander J(2013),基于层次密度估计的基于密度的聚类。领域:知识发现和数据挖掘的进展。斯普林格,第160-172页
[8] Carreira Perpiñán MÁ(2015)聚类平均移位算法综述。载:CRC聚类分析手册。佛罗里达州博卡拉顿CRC出版社
[9] Chacón JE,Duong T(2020)多元核平滑及其应用,Monogr。统计应用程序。概率。,第160卷。查普曼和霍尔/CRC·Zbl 1402.62003号
[10] Chau VTN、Loc PH、Tran VTN(2015)有效聚类不完整教育数据的稳健均值漂移方法。In:高级计算和应用国际会议(ACOMP),第12-19页
[11] 科马尼丘,D。;Meer,P.,Mean shift:一种稳健的特征空间分析方法,IEEE Trans-Pattern Ana Mach Intell,24,5,603-619(2002)·doi:10.1109/34.1000236
[12] Dietterich,TG,比较监督分类学习算法的近似统计测试,神经计算,10,7,1895-1923(1998)·doi:10.1162/08997669830017197
[13] 法兴,M。;Tomasi,C.,Mean shift is a bound optimization,IEEE Trans-Pattern Ana Mach Intell,27,3,471-474(2005)·doi:10.1109/TPAMI.2005.59
[14] Fukunaga,K。;霍斯特勒,LD,密度函数梯度的估计及其在模式识别中的应用,IEEE Trans-Inf理论,21,1,32-40(1975)·Zbl 0297.62025号 ·doi:10.1109/TIT.1975.1055330
[15] Günnemann S,Müller E,Raubach S,et al.(2011)针对缺失值数据的灵活容错子空间聚类。摘自:第11届IEEE数据挖掘国际会议,第231-240页
[16] 哈撒韦,RJ;Bezdek,JC,不完全数据的模糊c均值聚类,IEEE Cybern,31,5,735-744(2001)
[17] 赫尔姆,MS;丹科维奇,TM;Mandad,S.,《突触后树突棘的大规模纳米显微镜和生物化学分析》,《国家神经科学》,241151-1162(2021)·doi:10.1038/s41593-021-00874-w
[18] Himmelspach L,Conrad S(2010)《缺失值数据的聚类方法:比较与评估》。参加:第五届数字信息管理国际会议(ICDIM)
[19] 休伯特,L。;Arabie,P.,比较分区,J Classif,2193-218(1985)·doi:10.1007/BF01908075
[20] 贾达夫,A。;Pramod,D。;Ramanathan,K.,《数值数据集数据插补方法的性能比较》,Appl Artif Intell,33,1,913-933(2019)·doi:10.1080/08839514.2019.1637138
[21] Jäger S,Allhorn A,Bießmann F(2021)数据插补方法的基准。大数据的前沿4
[22] Leibrandt K、Lorenz T、Nierhoff T等人(2013)在泳池中模拟人类游戏,并用拟人化机器人对抗。In:社交机器人。施普林格,第30-39页
[23] Leibrandt R,Günnemann S(2018)无需插补,使核密度估计对高度不完整多元数据中的缺失值具有鲁棒性。参加:SIAM国际数据挖掘会议
[24] Leibrandt R,Günnemann S(2020)高斯偏移:密度吸引子聚类速度快于平均偏移。收件人:Eur.Conf.Princ.Pract。知识。发现。数据库
[25] Liao L,Li K,Li K,et al.(2018)生物信息学中不完全数据集的多核密度聚类算法。BMC系统生物12(111)
[26] 加载器、CR、带宽选择:经典还是插件?,《Ann Stat》,27,2,415-438(1999)·Zbl 0938.62035号 ·doi:10.1214/aos/1018031201
[27] Muzellec B、Josse J、Boyer C等人(2020)使用最佳传输的缺失数据插补。机器学习国际会议PMLR,第7130-7140页
[28] 佩德雷戈萨,F。;瓦罗佐,G。;Gramfort,A.,Scikit-learn:Python中的机器学习,J Mach learn Res,12825-2830(2011)·Zbl 1280.68189号
[29] Poulos,J。;Valle,R.,《监督学习的缺失数据插补》,Appl Artif Intell,32,2,186-196(2018)·doi:10.1080/08839514.2018.1448143
[30] Romano S,Bailey J,Nguyen V,et al.(2014)聚类比较的标准化互信息:进一步调整机会。摘自:机器学习国际会议,第1143-1151页
[31] 罗曼诺,S。;维恩,西北部;Bailey,J.,《调整机会聚类比较方法》,J Mach Learn Res,17,134,1-32(2016)·Zbl 1392.62191号
[32] 罗宾,DB,《推断和缺失数据》,《生物特征》,63,3,581-592(1976)·Zbl 0344.62034号 ·doi:10.1093/biomet/63.3.581
[33] Schelter S、Rukat T、Biessmann F(2020)学习验证黑盒分类器对未发现数据的预测。摘自:ACM SIGMOD国际数据管理会议,第1289-1299页
[34] 施努普,P。;Leibrandt,U.,Expertensysteme:Nicht nur für Informatiker(1988),《施普林格指南针:施普林格,施普林格罗盘》·doi:10.1007/978-3-642-95565-5
[35] Shortiffe,裕利安怡;布坎南,BG,《医学中的不精确推理模型》,《数学生物科学》,23,3-4,351-379(1975)·doi:10.1016/0025-5564(75)90047-4
[36] Stack Overflow(2021)Stack Overflow开发者调查2021。https://insights.stackoverflow.com/survey网站
[37] 斯坦利,D。;布鲁斯科,MJ;Hubert,L.,调整后的随机指数的方差,心理方法,21,2,261-72(2016)·doi:10.1037/met0000049
[38] Timm H,Döring C,Kruse R(2002)部分缺失数据集的模糊聚类分析。In:Hybr.第二国际仓库。方法。用于Adap。系统。一、 第426-431页
[39] Wagstaff KL(2004)缺失值聚类:无需插补。In:会面。国际联邦分类。Soc.,第649-658页
[40] Wand M,Jones MC(1995)《内核平滑》。查普曼和霍尔/CRC·Zbl 0854.62043号
[41] 薛,Z。;Wang,H.,不完全数据的有效基于密度的聚类算法,大数据最小分析,4,3,183-194(2021)·doi:10.26599/BDMA.2021.9020001
[42] Yang L,Hou K(2018)基于密度峰值的不完全数据三元聚类方法。In:计算机辅助设计、制造、建模和仿真国际会议,p 020008
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。