×

基于Wasserstein-Procrustes度量的基于协方差的功能数据软聚类。 (英语) Zbl 07846685号

摘要:我们根据函数数据的协方差结构来考虑聚类问题。我们提出了一种基于Wasserstein-Procrustes距离的软聚类方法,其中簇间变异性受到与划分矩阵熵成比例的项的惩罚。这样,每个协方差算子可以部分地划分为多个组。这种软分类允许集群重叠,并且在所有或部分集群之间的分离没有明确定义的情况下自然会出现。我们还讨论了如何估计组的数量并测试是否存在任何集群结构。利用模拟数据和实际数据对算法进行了说明。R(右)附录S1中提供了实施方法。
©2023作者。斯堪的纳维亚统计杂志由John Wiley&Sons Ltd代表《斯堪的纳维亚统计杂志》基金会董事会出版。

MSC公司:

62至XX 统计
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agueh,M.和Carlier,G.(2011年)。瓦瑟斯坦空间的重心。工业和应用数学学会,43904-924·Zbl 1223.49045号
[2] Aneiros,G.、Horová,I.、Hušková、M.和Vieu,P.(2022)。关于功能数据分析和相关主题。多元分析杂志,189104861·Zbl 1520.62420号
[3] Arbelitz,O.、Gurrutxaga,I.、Muguerza,J.、Pérez,J.M.和Perona,I.(2013)。集群有效性指数的广泛比较研究。模式识别,46,243-256。
[4] Batool,F.和Hennig,C.(2021)。用平均轮廓宽度聚类。计算统计与数据分析,158107190·Zbl 1510.62273号
[5] Boente,G.、Rodriguez,D.和Sued,M.(2018年)。测试几个总体协方差算子之间的相等性。统计数学研究所年鉴,70919-950·Zbl 1398.62142号
[6] Cabassi,A.、Pigoli,D.、Secchi,P.和Carter,P.(2017)。函数数据协方差算子相等性的置换检验及其在进化生物学中的应用。电子统计杂志,113815-3840·Zbl 1402.62078号
[7] Capizzi,G.和Masarotto,G.(2018年)。使用R包dfphase1进行第一阶段无分布分析。S.Knoth(编辑)和W.Schmid(编辑),《统计质量控制的前沿》(第12卷,第3-19页)。施普林格国际出版社。
[8] Cebeci,Z.和Cebeci.C.(2018年)。模糊c‐均值聚类快速收敛的隶属度矩阵初始化。2018年国际人工智能与数据处理会议(IDAP)(第1-5页)。电气与电子工程师协会。
[9] Chamroukhi,F.和Nguyen,H.D.(2019年)。基于模型的功能数据聚类和分类。威利跨学科评论:数据挖掘和知识发现,9,e1298。
[10] Fletcher,P.T.和Joshi,S.(2007)。扩散张量数据统计分析的黎曼几何。信号处理,87,250-262·Zbl 1186.94126号
[11] Fraley,C.和Raftery,A.E.(2002年)。基于模型的聚类、判别分析和密度估计。美国统计协会杂志,97,611-631·Zbl 1073.62545号
[12] Fréchet,M.(1948年)。《自然之旅》(Leséléments aléatoires de nature quelconque dans un espace distancié)。《亨利·彭加莱年鉴》,10215-310·Zbl 0035.20802号
[13] Fremdt,S.、Steinebach,J.G.、Horváth,L.和Kokoszka,P.(2013)。测试函数样本中协方差算子的相等性。斯堪的纳维亚统计杂志,40,138-152·Zbl 1259.62031号
[14] Guo,J.、Zhou,B.和Zhang,J.‐T。(2019). 函数数据的几个协方差函数相等性的新测试。美国统计协会杂志,1141251-1263·Zbl 1428.62177号
[15] Ieva,F.、Paganoni,A.M.和Tarabelloni,N.(2016)。多变量和函数数据分析中基于协方差的聚类。机器学习研究杂志,17,1-21·兹比尔1392.62184
[16] Jacques,J.和Preda,C.(2014)。功能数据聚类:一项调查。数据分析和分类进展,8231-255·Zbl 1414.62018年
[17] Jiao,S.、Frostig,R.D.和Ombao,H.(2020年)。功能数据的变化模式分类。arXiv预打印。https://arxiv.org/abs/2004.00855
[18] Jiao,S.、Frostig,R.D.和Ombao,H.(2023)。功能协方差的断点检测。《斯堪的纳维亚统计杂志》,50477-512·兹比尔07748352
[19] Karcher,H.(1977)。黎曼质心和柔化平滑。纯粹数学与应用数学交流,30509-541·兹比尔0354.57005
[20] Kashlak,A.B.、Aston,J.A.和Nickl,R.(2019年)。通过集中不等式对协方差算子进行推断:通过Rademacher复杂性进行k样本检验、分类和聚类。Sankhya A,第81页,第214-243页·Zbl 1422.62128号
[21] Kaufman,L.和Rousseeuw,P.J.(2009年)。在数据中寻找群体:聚类分析简介。约翰·威利父子公司。
[22] Kraus,D.和Panaretos,V.M.(2012)。色散算子和抗二阶函数数据分析。生物特征,99813-832·Zbl 1452.62991号
[23] Lee,H.,Ahn,H.‐J。,金·K·R。,Kim,P.T.和Koo,J.‐Y。(2015). 协方差矩阵的测地聚类。统计应用和方法通讯,22,321-331。
[24] Masarotto,V.、Panaretos,V.M.和Zemel,Y.(2019年)。对协方差算子的度量和高斯过程的最优传输进行了研究。Sankhya A,第81页,第172-213页·Zbl 1420.60048号
[25] Masarotto,V.、Panaretos,V.M.和Zemel,Y.(2022)。协方差算子的基于运输的函数方差分析和主成分分析。arXiv预打印。https://arxiv.org/abs/2212.04797
[26] Panaretos,V.M.、Kraus,D.和Maddocks,J.H.(2010)。高斯随机函数和DNA小圆几何的二阶比较。美国统计协会杂志,105,670-682·Zbl 1392.62162号
[27] Peng,Q.,Rao,N.,&Zhao,R.(2018)。已知簇数的局部渐近自相似过程的聚类分析。arXiv预打印arXiv:1804.06234。
[28] Peng,Q.、Rao,N.和Zhao,R.(2019年)。基于协方差的差异性度量用于聚类广义平稳遍历过程。机器学习,108,2159-2195·Zbl 1446.62181号
[29] Pigoli,D.、Aston,J.A.、Dryden,I.L.和Secchi,P.(2014)。协方差算子的距离和推理。Biometrika,101,409-422·Zbl 1452.62994号
[30] Pigoli,D.、Hadjipantelis,P.Z.、Coleman,J.S.和Aston,J.A.(2018)。声学语音数据的统计分析:探索浪漫口语之间的差异。英国皇家统计学会杂志:C辑:应用统计学,671103-1145。
[31] Rousseeuw,P.J.(1987)。轮廓:用于解释和验证聚类分析的图形辅助工具。计算与应用数学杂志,20,53-65·Zbl 0636.62059号
[32] Srivastava,A.和Klassen,E.P.(2016)。功能和形状数据分析。斯普林格·Zbl 1376.62003年
[33] Tavakoli,S.和Panaretos,V.M.(2016)。检测和定位功能时间序列动力学的差异:分子生物物理学的一个案例研究。美国统计协会杂志,1111020-1035。
[34] Van der Laan,M.、Pollard,K.和Bryan,J.(2003)。一种新的基于medoids的分割算法。统计计算与模拟杂志,73575-584·Zbl 1054.62075号
[35] Vassilvitskii,S.和Arthur,D.(2006)。k‐means++:精心播种的优势【会议演示】,第十八届ACM‐SIAM离散算法年会论文集,1027-1035·Zbl 1302.68273号
[36] Verdinelli,I.和Wasserman,L.(2019年)。混合Wasserstein距离和快速分布聚类。电子统计杂志,13,5088-5119·Zbl 1435.62249号
[37] Xu,Y.,&Yin,W.(2013)。正则化多凸优化的块坐标下降法及其在非负张量分解和完备化中的应用。SIAM成像科学杂志,61758-1789·Zbl 1280.49042号
[38] Zemel,Y.和Panaretos,V.M.(2019年)。Wasserstein空间中的Fréchet均值和Procrustes分析。伯努利,25932-976·Zbl 1431.62132号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。