×

用于分析法国南部空气污染的多元函数数据的协聚类。 (英语) Zbl 1498.62282号

摘要:如今,空气污染是公共健康的主要威胁,与许多疾病,尤其是心血管疾病有着明显的关系。当政府和地方当局决定发布公共警报或制定新的城市政策以防止污染增加时,对污染的时空研究非常重要。这项工作的目的是研究公共机构AtmoSud在法国南部(南部地区)收集的环境数据的时空分布。这个想法是为了更好地理解在地理和城市化方面存在重大差异的大片领土上居民对污染物的暴露。数据收集了五个环境变量的每日测量记录,即三种污染物(PM10、NO\({}_2\)、O\({}_3\))和两种气象因素(压力和温度)。这些数据可以被视为多元函数数据:随着时间的推移,数量实体不断发展,对其进行总结和理解的方法的需求越来越大。为此,定义了一种新的多元函数数据联合聚类模型。该模型基于功能潜在块模型,该模型假设每个联合聚类的多元功能主成分得分具有概率分布。提出了一种嵌入吉布斯采样器的随机EM算法用于模型推理,并提出了选择协簇数量的模型选择标准。将拟议的联合聚类算法应用于南雷区的环境数据,可以将由357个区域组成的区域划分为六个常见污染的宏观区域。我们表明,污染状况随季节而变化,在研究的六年中,模式相似。地方当局可以利用这些结果制定具体计划,在宏观层面上减少污染,并确定一年中污染高峰期的特定时期,以便制定具体的健康预防计划。总的来说,所提出的联合聚类方法是分析多元函数数据的强大资源,以便识别内在数据结构并总结长期的变量概况。

MSC公司:

62页第12页 统计在环境和相关主题中的应用
62H30型 分类和区分;聚类分析(统计方面)
62H25个 因子分析和主成分;对应分析
62兰特 功能数据分析
62-08 统计问题的计算方法
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] AKAIKE,H.(1974)。统计模型识别的新视角。IEEE传输。自动化。控制9 716-723. ·Zbl 0314.62039号 ·doi:10.1109/tac.1974.1100705
[2] BANERJEE,A.、DHILLON,I.、GHOSH,J.、MERUGU,S.和MODHA,D.S.(2007年)。Bregman共聚类和矩阵近似的广义最大熵方法。J.马赫。学习。物件。8 1919-1986. ·Zbl 1222.68139号 ·doi:10.1145/1014052.1014111
[3] BEN SLIMEN,Y.、ALLIO,S.和JACKES,J.(2018年)。功能数据的基于模型的联合聚类。神经计算291 97-108.
[4] BENBRAHIM-TALLAA,L.、BAAN,R.、GROSSE,Y.、LAUBY-SECRETAN,B.、EL GHISSASSI,F.和BOUVARD,V.E.A.(2012年)。柴油发动机和汽油发动机排气和一些硝基芳烃的致癌性。柳叶刀Oncol。13 663-664.
[5] BHATIA,P.、IOVLEFF,S.和GOVAERT,G.(2017年)。blockcluster:基于模型的联合集群的R包。J.统计软件。9 1-24.
[6] Biernacki,C.、Celeux,G.和Govaert,G.(2000)。用综合完全似然法评估用于聚类的混合模型。IEEE传输。模式分析。机器。智力。22 719-725.
[7] Bouveyron,C.、Côme,E.和Jacques,J.(2015年)。用于自行车共享系统比较分析的区分功能混合模型。附录申请。斯达。9 1726-1760. ·Zbl 1397.62511号 ·doi:10.1214/15-AOAS861
[8] BOUVEYRON,C.、JACQUES,J.和SCHMUTZ,A.(2020年)。funLBM:基于模型的功能数据协同聚类。R包版本2.1。
[9] BOUVEYRON,C.、BOZZI,L.、JACQUES,J.和JOLLOIS,F.-X.(2018年)。耗电曲线联合聚类的功能潜在块模型。J.R.统计社会服务。C.申请。斯达。67 897-915. ·doi:10.1111/rssc.12260
[10] BOUVEYRON,C.、CELEUX,G.、MURPHY,T.B.和RAFTERY,A.E.(2019年)。基于模型的数据科学聚类与分类:R中的应用程序.剑桥统计与概率数学系列。剑桥大学出版社,剑桥·Zbl 1436.62006年 ·doi:10.1017/9781108644181
[11] BOUVEYRON,C.、JACQUES,J.、SCHMUTZ,A.、SIMÕES,F.和BOTTINI,S.(2022a)。补充“法国南部空气污染分析的多元功能数据的联合聚类”https://doi.org/10.1214/21-AOAS1547SUPA网站
[12] BOUVEYRON,C.、JACQUES,J.、SCHMUTZ,A.、SIMÕES,F.和BOTTINI,S.(2022b)。补充(数据和代码)“法国南部空气污染分析多元功能数据的协同聚类”https://doi.org/10.1214/21-AOAS1547SUPPB
[13] CHAMROUKHI,F.和BIERNACKI,C.(2017年)。多元函数数据的基于模型的联合聚类\(在ISI 2017-61中)第一届世界统计大会摩洛哥马拉喀什。
[14] CORNELI,M.、BOUVEYRON,C.和LATOUCHE,P.(2020年)。通过潜在的连续随机变量对有序数据进行共聚类,并且在随机条目中不丢失。J.计算。图表。统计师。29 771-785. ·Zbl 07500356号 ·doi:10.1080/10618600.2020.1739533
[15] DELAIGLE,A.和HALL,P.(2010年)。定义随机函数分布的概率密度。安。统计师。38 1171-1193. ·Zbl 1183.62061号 ·doi:10.1214/09-AOS741
[16] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法从不完整数据中获得最大似然。J.罗伊。统计师。Soc.序列号。B类39 1-38. ·Zbl 0364.62022号
[17] DI ORIO,J.和VANTINI,S.(2019)。funBI:功能数据的双聚类算法。
[18] GEORGE,T.和MERUGU,S.(2005年)。基于联合聚类的可扩展协同过滤框架数据挖掘,第五届IEEE国际会议IEEE,纽约。
[19] GOVAERT,G.和NADIF,M.(2013年)。协同聚类第1版,Wiley-IEEE出版社,纽约·兹比尔1181.68234
[20] HAMRA,G.、GUHA,N.、COHEN,A.、LADEN,F.、RAASCHOU-NIELSEN,O.、SAMET,J.等人(2014)。户外颗粒物暴露与肺癌:一项系统综述和荟萃分析。环境。健康展望。112 906-911.
[21] IARC(2016)。室外空气污染。第109卷,共页IARC专著。评估。致癌物。风险。嗯。
[22] IEVA,F.、PAGANONI,A.M.、PIGOLI,D.和VITELLI,V.(2013)。心电图曲线形态分析的多元功能聚类。J.R.统计社会服务。C.申请。斯达。62 401-418. ·文件编号:10.1111/j.1467-9876.2012.01062.x
[23] JACQUES,J.和BIERNACKI,C.(2018年)。有序数据的基于模型的联合聚类。计算。统计师。数据分析。123 101-115. ·Zbl 1469.62086号 ·doi:10.1016/j.csda.2018.01.014
[24] JACQUES,J.和PREDA,C.(2013年)。Funclust:一种使用函数随机变量密度近似的曲线聚类方法。神经计算112 164-171.
[25] JACQUES,J.和PREDA,C.(2014a)。功能数据聚类:一项调查。高级数据分析。分类。8 231-255. ·Zbl 1414.62018年 ·doi:10.1007/s11634-013-0158-y
[26] JACQUES,J.和PREDA,C.(2014b)。多元函数数据的基于模型的聚类。计算。统计师。数据分析。71 92-106. ·Zbl 1471.62096号 ·doi:10.1016/j.csda.2012.12.004
[27] KAYANO,M.、DOZONO,K.和KONISHI,S.(2010年)。基于正交高斯基展开的函数聚类分析及其应用。J.分类27 211-230. ·Zbl 1337.62134号 ·doi:10.1007/s00357-010-9054-8
[28] KERIBIN,C.、GOVAERT,G.和CELEUX,G.(2010年)。用SEM算法估计“非modèleáblocs潜伏期”。42《统计杂志》法国马赛。
[29] KERIBIN,C.、BRAULT,V.、CELEUX,G.和GOVAERT,G.(2015)。分类数据上潜在块模型的估计和选择。统计计算。25 1201-1216. ·Zbl 1331.62149号 ·doi:10.1007/s11222-014-9472-2
[30] LACLAU,C.、REDKO,I.、MATEI,B.、BENNANI,Y.和BRAULT,V.(2017年)。通过最佳传输实现协同集群。在34年第届国际机器学习大会.会议记录34第十届国际机器学习会议70 1955-1964. 《机器学习研究论文集》,澳大利亚悉尼。
[31] LELIEVELD,J.、EVANS,J.和FNAIS,M.E.A.(2015年)。室外空气污染源对全球过早死亡的贡献。自然525 367-371.
[32] 马丁·内兹·赫尔南德斯,I.和GENTON,M.G.(2020)。复杂和空间相关功能数据的最新发展。钎焊。J.概率。斯达。34 204-229. ·Zbl 07232926号 ·doi:10.1214/20-BJPS466
[33] MENUT,L.、BESSAGNET,B.、KHVOROSTYANOV,D.、BEEKMANN,M.、BLOND,N.、COLETTE,A.、COLL,I.、CURCI,G.、FORET,G.等人(2013年)。Chimere 2013:区域大气成分建模模型。地质科学。模型开发。6 981-1028.
[34] NADIF,M.和GOVAERT,G.(2008年)。基于模型的块高斯聚类算法会议记录2008国际数据挖掘会议\(2008年7月14日至17日,第2卷536-542),美国拉斯维加斯·Zbl 1452.62444号
[35] PASCAL,M.、DE CROUY CHANEL,P.、WAGNER,V.、CORSO,M.,TILLIER,C.、BENTAYEB,M.和BLANCHARD,M.以及COCHET,A.、PASCAL、L.等人(2016年)。法国细颗粒物对死亡率的影响。科学。总环境。571 416-425.
[36] Ramsay,J.O.和Silverman,B.W.(2005)。功能数据分析,第2版。统计学中的斯普林格系列纽约州施普林格·Zbl 1079.62006号
[37] Rand,W.M.(1971)。评价聚类方法的客观标准。J.Amer。统计师。协会。66 846-850.
[38] SCHMUTZ,A.、JACQUES,J.、BOUVEYRON,C.、CHE ZE,L.和MARTIN,P.(2020年)。在特定群的函数子空间中聚类多元函数数据。计算。统计师。35 1101-1131. ·兹比尔1505.62360 ·doi:10.1007/s00180-020-00958-4
[39] Schwarz,G.(1978年)。估算模型的维度。安。统计师。6 461-464. ·Zbl 0379.62005年
[40] SELOSSE,M.、JACKUES,J.和BIERNACKI,C.(2020)。混合类型数据的基于模型的联合聚类。计算。统计师。数据分析。144 106866. ·Zbl 1504.62084号 ·doi:10.1016/j.csda.2019.106866
[41] TOKUSHIGE,S.、YADOHISA,H.和INADA,K.(2007年)。多元函数数据的Crisp和模糊\(k\)均值聚类算法。计算。统计师。22 1-16. ·Zbl 1196.62089号 ·doi:10.1007/s00180-006-0013-0
[42] VANDEWALLE,V.、PREDA,C.和DABO-NIANG,S.(2020年)。聚类空间功能数据。地质统计功能数据分析:理论与方法(J.Mateu和R.Giraldo编辑)Wiley,Chichester。
[43] WANG,S.和HUANG,A.(2017)。联合聚类的惩罚非负矩阵三因子化。专家系统。申请。78 64-73.
[44] 世卫组织欧洲区域办事处(2013年)。审查空气污染-REVIHAAP项目健康方面的证据。技术报告,丹麦哥本哈根
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。