×

广义\(k)-指GLM中适用于美国新冠肺炎疫情的含义。 (英语) Zbl 1510.62324号

摘要:广义k均值可以与任何相似性或相异性度量相结合进行聚类。利用已知的似然比或F统计量作为相异性测度,提出了一种广义k均值方法来对指数族分布的广义线性模型进行分组。在给定聚类数k的情况下,通过统一的最强大无偏(UMPU)检验统计量建立了该方法,用于GLM之间的比较。如果(k)未知,则该方法可以与广义liformation准则(GIC)相结合,自动选择最佳的(k)进行聚类。AIC和BIC都是GIC的特例。理论和仿真结果表明,BIC可以正确识别聚类数,而AIC不能正确识别聚类数目。将该方法应用于美国州级每日COVID-19数据,识别出6个聚类。进一步的研究表明,集群之间的模型存在显著差异,这与6个集群的结果一致。

MSC公司:

62J12型 广义线性模型(逻辑模型)
62H30型 分类和区分;聚类分析(统计方面)
62页第10页 统计学在生物学和医学中的应用;元分析
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 亚瑟·D·。;Vassilvitskii,S.,K-means++:精心播种的优势,(第十八届ACM-SIAM离散算法年会论文集(2007),费城工业与应用数学学会:美国宾夕法尼亚州费城工业和应用数学学会),1027-1035·Zbl 1302.68273号
[2] Bai,D。;Choi,S。;Fujikoshi,AIC和BIC在高维主成分分析中估计重要成分数量的一致性,Ann.Statist。,46, 1050-1076 (2018) ·Zbl 1395.62119号
[3] Bock,H.,聚类分析中k-means算法的起源和扩展,电子,电子。J.历史。普罗巴伯。Stat.,4(2008),第14条·Zbl 1175.01030号
[4] Charikar,M。;Guha,S.,《(k)-中值问题的常数近似算法》,J.Compute。系统。科学。,65, 129-149 (2002) ·Zbl 1023.90037号
[5] 陈,Y。;艾扬格,R。;Ivengar,G.,联合分析中的多模式连续异质性建模——一种稀疏学习方法,Mark。Sci。,36, 140-156 (2016)
[6] 陈,N。;周,M。;董,X。;Qu,J。;龚,F。;韩,Y。;邱,Y。;Wang,J。;刘,Y。;魏毅。;夏,J。;Yu,T。;张,X。;Zhang,L.,中国武汉99例2019新型冠状病毒肺炎的流行病学和临床特征:一项描述性研究,《柳叶刀》,395507-513(2020)
[7] Chi,E.C。;Lange,K.,凸聚类的分裂方法,J.Compute。图表。统计学。,24, 994-1013 (2015)
[8] 多诺霍,D。;Jin,J.,检测稀疏异质混合物的更高批评,Ann.Statist。,32, 962-994 (2004) ·兹比尔1092.62051
[9] 杜琪。;Wong,T.W.,《MacQueen’s(k)的数值研究——计算质心Voronoi细分的算法》,计算。数学。申请。,44, 511-523 (2002) ·Zbl 1055.65032号
[10] 范,J。;郭,S。;Hao,N.,超高维回归中使用改装交叉验证进行方差估计,J.R.Stat.Soc.Ser。B、 74、37-55(2012)·Zbl 1411.62199号
[11] Feng,Z.,新型冠状病毒疫情的紧急研究议程:传播和非药物缓解策略,中国。流行病学杂志。,41, 135-138 (2020)
[12] Ferguson,T.S.,《大样本理论课程》(1996),CRC出版社:纽约CRC出版社·Zbl 0871.6202号
[13] Forgy,E.W.,《多元数据的聚类分析:分类的效率与可解释性》,生物统计学,21768-769(1965)
[14] 弗雷利,C。;Raftery,A.E.,基于模型的聚类、判别分析和密度估计,J.Amer。统计师。协会,97,611-631(2002)·Zbl 1073.62545号
[15] Gonzalez,T.F.,最小化最大簇间距离的聚类,Theoret。计算。科学。,38, 293-306 (1985) ·Zbl 0567.62048号
[16] 戈亚尔,M。;Aggarwal,S.,《(k)模式聚类算法综述》,Int.J.Adv.Res.Compute。科学。,8, 725-729 (2017)
[17] Green,P.J.,《迭代重加权最小二乘法用于最大似然估计》,以及一些稳健且有抵抗力的替代方法,J.R.Stat.Soc.Ser。B、 46、149-192(1984)·Zbl 0555.62028号
[18] Hartigan,J.A。;Wong,M.A.,A\(k\)-表示聚类算法,应用。《统计》,第28卷,第100-108页(1979年)·Zbl 0447.62062号
[19] Hocking,T.D.,Joulin,A.,Back,F.,Vert,J.P.,2011年。聚类路径:一种使用凸融合惩罚进行聚类的算法。摘自:第28届国际机器车床会议记录。ICML2011,第745-752页。
[20] 黄,C。;Wang,Y。;李,X。;任,L。;赵,J。;胡,Y。;Y、 年。;张,L。;风扇,G。;徐,J。;顾J。;X、 T。;郑,Z。;Yu,T。;夏,J。;魏毅。;Wu,W。;谢,X。;尹,W。;李,H。;刘,M。;Xiao,Y。;高,H。;郭,L。;谢军。;王,G。;江,R。;高,Z。;金,Q。;Wang,J。;曹,B.,中国武汉2019年新型冠状病毒感染患者的临床特征,《柳叶刀》,395497-506(2020)
[21] Hunt,A.G.,自2014年5月14日以来埃博拉疫情呈指数增长,复杂性,20,8-11(2014)
[22] 伊夫蒂米,S。;洛佩斯·阿兹科内,A.F。;瓦尔维尔杜,I。;Hernánde-Flix,S。;德·费雷尔,G。;帕拉,S。;埃尔南德斯·阿奎莱拉,A。;Riu,F。;Joven,J。;坎普斯,J。;Castro,A.,《第一波和第二波冠状病毒病:西班牙罗伊斯(2020年)住院患者的对比研究》,MedRxiv
[23] 约翰逊·R·A。;Wichern,D.W.,《应用多元统计分析》(2002),普伦蒂斯·霍尔:新泽西州普伦蒂斯霍尔
[24] Koepke,H。;Clarke,B.,《集群稳定性的贝叶斯准则》,《统计分析》。数据最小,6346-374(2013)·Zbl 07260373号
[25] Kriegel,H.P。;科尔格,P。;桑德,J。;Zimek,A.,基于密度的聚类,WIREs Data Min.Knowl。发现。,1, 231-240 (2001)
[26] 刘建伟。;Green,P.J.,基于贝叶斯模型的聚类程序,J.Compute。图表。统计学。,16, 526-558 (2007)
[27] Lindsten,F。;Ohisson,G。;Ljung,L.,放松下来,聚在一起!《(k)-意味着聚类技术报告》(2011),林雪平大学
[28] Lloyd,S.P.,PCM中的最小二乘量化,IEEE Trans。通知。理论,28128-137(1982)·Zbl 0504.94015号
[29] MacQueen,J.B.,《多元观测分类和分析的一些方法》(第五届伯克利数理统计与概率研讨会论文集(1967),加利福尼亚大学出版社),281-297·Zbl 0214.46201号
[30] Maier,B.F。;Brockmann,D.,《有效遏制解释了中国最近确诊的新型冠状病毒肺炎病例的次指数增长》,《科学》(2020年)·Zbl 1478.92209号
[31] McCullagh,P.,拟似然函数,Ann.Statist。,11, 59-67 (1983) ·兹比尔0507.62025
[32] 佩尤研究中心(Pew Research Center,P.),全世界超过十分之九的人生活在新冠肺炎期间有旅行限制的国家(2020年)
[33] 德皮科利,S。;Teixeira,J.J。;里贝罗,H.V。;马拉卡内,L.C。;多斯桑托斯,R.P。;dos Santos Mendes,R.,甲型H1N1流感大流行的传播模式,《公共科学图书馆综合》,第6期,文章e17823页(2011年)
[34] 秦立新。;Self,S.G.,回归模型的聚类方法及其在基因表达数据中的应用,生物统计学,62526-533(2006)·Zbl 1097.62134号
[35] Soheily-Khah,S。;Douzal-Chuakria,A。;Gaussie,E.,加权和核时间偏差下基于广义均值的时间数据聚类,模式识别。莱特。,75, 63-69 (2016)
[36] Sun,K。;陈,J。;Viboud,C.,《基于众包数据的2019年冠状病毒疫情早期流行病学分析:一项人群水平的观察研究》,《柳叶刀数字》。健康(2020年)
[37] Tibshirani,R。;沃尔特·G。;Hastie,T.,《通过间隙统计估算数据集中的簇数》,J.R.Stat.Soc.Ser。B统计方法。,63, 411-423 (2001) ·Zbl 0979.62046号
[38] 特劳瓦特,E。;考夫曼,L。;Rousseeuw,P.,基于最大似然原理的模糊聚类算法,模糊集与系统,42,213-227(1991)·Zbl 0741.62065号
[39] van der Vaart,A.W.,《渐进统计》(1998),剑桥大学出版社:剑桥大学出版社,英国剑桥·Zbl 0910.62001号
[40] Wang,J.,通过交叉验证一致选择簇数,Biometrika,97,893-904(2010)·Zbl 1204.62104号
[41] 世界卫生组织(WHO),J.,《为新冠肺炎做好工作场所准备》。2020年2月27日(2020年)
[42] Zhang,Y。;李,R。;Tsai,C.,通过广义信息准则选择正则化参数,J.Amer。统计师。协会,105,312-323(2010)·Zbl 1397.62262号
[43] Zhao,Y。;Karypis,G.,文档数据集的层次聚类算法,Data Min.Knowl。发现。,10, 141-168 (2005)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。