×

有限混合分布复杂性的估计:从已知到未知的方法。 (英语) Zbl 07595479号

摘要:混合模型出现在许多环境中,包括随机和固定效应模型、聚类、反褶积、经验贝叶斯问题和许多其他问题。它们通常用于对来自由几个同质子种群组成的异质种群的数据进行建模,因此很自然地就出现了寻找混合物中成分数量的良好估计值的问题。估计有限混合模型的阶数是一项艰巨的统计任务,已经提出了多种技术来解决它。我们将集中讨论几种尚未得到广泛应用但值得从业者注意的方法。这些工具可分为三类:基于混合分布的Hankel矩矩阵行列式的工具、最小距离估计工具、似然比检验工具。我们将讨论每种方法背后的理论支柱,提供一些有用的修改以提高其性能,并介绍在各种场景下进行的比较数值研究的结果。根据结果,没有一种方法被证明是“魔法丸”。结果揭示了这些技术的局限性,并为在特定条件下选择最合适的工具提供了实用提示。

MSC公司:

62Fxx公司 参数化推理
62Gxx公司 非参数推理
65立方厘米 概率方法,随机微分方程
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] 艾特金,M。;安德森,D。;Hinde,J.,《教学风格数据的统计建模》,J R Stat Soc Ser A(通用),144,4,419-448(1981)·doi:10.2307/2981826
[2] Akaike H(1998)信息理论和最大似然原理的扩展。收录:Hirotugu Akaike的论文选集,第199-213页。施普林格
[3] Aldrich,J.,Ra fisher和1912-1922年最大似然的确定,《统计科学》,12,3,162-176(1997)·Zbl 0955.62525号 ·doi:10.1214/ss/1030037906
[4] 阿德尔奇,A。;Bowman Adrian,W.,《旧忠实间歇泉的一些数据研究》,J R Stat Soc Ser C(应用统计),39,3,357-365(1990)·Zbl 0707.62186号 ·doi:10.2307/2347385
[5] 巴拉布达乌伊,F。;Butucea,C.,《带pólya频率分量的现场混音》,Stat Probab Lett,95,144-149(2014)·Zbl 1298.62059号 ·doi:10.1016/j.spl.2014.08.013
[6] Balabdaoui,F。;de Fornas-Labrosse,G.,完全单调pmf的最小二乘估计:从分析到统计,J Stat Plan Inference,204,55-71(2020)·Zbl 1421.62034号 ·doi:10.1016/j.jspi.2019.04.006
[7] Benaglia,T。;乔沃,D。;亨特,博士;Young,DS,mixtools:分析混合模型的r包,J Stat Softw,32,1-29(2010)
[8] Beran,R.,参数模型的最小hellinger距离估计,Ann Stat,5445-463(1977)·Zbl 0381.62028号
[9] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用于评估混合模型中簇数的nec标准的改进》,Pattern Recogn Lett,20,3,267-272(1999)·Zbl 0933.68117号 ·doi:10.1016/S0167-8655(98)00144-5
[10] 比尔纳基,C。;Celeux,G。;Govaert,G.,《用综合完全似然评估聚类的混合模型》,IEEE Trans-Pattern Ana Mach Intell,22,7,719-725(2000)·doi:10.1109/34.865189
[11] 克里斯托夫,B。;Gilles,C。;Gérard,G。;Florent,L.,使用mixmod软件进行基于模型的聚类和判别分析,《计算统计数据分析》,51,2,587-600(2006)·Zbl 1157.62431号 ·doi:10.1016/j.csda.2005.12.015
[12] Bishop,CM,模式识别神经网络(1995),牛津:牛津大学出版社,牛津·Zbl 0868.68096号
[13] Böhning,D。;迪茨,E。;Schaub,R。;施拉特曼,P。;Lindsay,BG,单参数指数族密度混合物的似然比分布,Ann Inst Stat Math,46,2,373-388(1994)·Zbl 0802.62017年 ·doi:10.1007/BF01720593
[14] 理查德·莫里森·卡西(Richard Morrison Cassie),《概率纸在尺寸-频率分布分析中的一些应用》(Some use of probability paper in the analysis of size frequency distributions),马尔·弗雷什研究,5,3,513-522(1954)·doi:10.1071/MF9540513
[15] Celeux,G。;Soromenho,G.,评估混合模型中簇数的熵准则,J Classif,13,2,195-212(1996)·Zbl 0861.62051号 ·doi:10.1007/BF01246098
[16] A.Chambaz。;Rousseau,J.,贝叶斯顺序识别的界限及其在混合物中的应用,Ann Stat,36,2,938-962(2008)·Zbl 1246.62083号 ·doi:10.1214/09053607000000857
[17] 陈,H。;陈,J。;Kalbfleisch,JD,有限混合模型同质性的改进似然比检验,J R Stat Soc Ser B(Stat Methodol),63,1,19-29(2001)·Zbl 0976.62011号 ·doi:10.1111/1467-9868.00273
[18] 陈,J。;Kalbfleisch,JD,有限混合模型中的惩罚最小距离估计,Can J Stat,24,2,167-175(1996)·Zbl 0858.62019号 ·doi:10.2307/3315623
[19] Crawford,SL,《拉普拉斯方法在有限混合分布中的应用》,美国统计学会杂志,89,425,259-267(1994)·Zbl 0795.62022号 ·doi:10.1080/016214519994.10476467
[20] 卡特勒,A。;Cordero-Brana,OI,有限混合模型的最小hellinger距离估计,美国统计协会,91,436,1716-1723(1996)·Zbl 0881.62035号 ·doi:10.1080/01621459.1996.10476743
[21] Dacuha Castelle博士。;Gassiat,E.,混合模型阶数的估计,Bernoulli(1997)·Zbl 0889.62012年 ·doi:10.2307/3318593
[22] Day,NE,估计正态分布混合的成分,生物统计学,56,3,463-474(1969)·Zbl 0183.48106号 ·doi:10.1093/biomet/56.3.463
[23] 阿联酋登普斯特;新墨西哥州莱尔德;Rubin,DB,通过em算法从不完整数据中获得最大似然,J R Stat Soc Ser B(Methodol),39,1,1-22(1977)·Zbl 0364.62022号
[24] 埃夫隆,B。;Thisted,R.,《估计看不见的物种的数量:莎士比亚知道多少单词?》?,《生物特征》,63、3、435-447(1976)·Zbl 0344.62088号
[25] 医学博士埃斯科瓦尔;West,M.,使用混合物的贝叶斯密度估计和推断,美国统计协会杂志,90,430,577-588(1995)·Zbl 0826.62021号 ·doi:10.1080/01621459.1995.10476550
[26] Ferguson,TS,大样本理论课程(2017),伦敦:劳特利奇,伦敦·doi:10.1201/9781315136288
[27] Figueiredo,MAT;Jain,AK,有限混合模型的无监督学习,IEEE Trans-Pattern Ana Mach Intell,24,3,381-396(2002)·doi:10.1109/34.990138
[28] Fisher,RA,Karl Pearson教授和矩量法,Ann Eugen,7,4,303-318(1937)·文件编号:10.1111/j.1469-1809.1937.tb02149.x
[29] Fisher,RA,《关于拟合频率曲线的绝对标准》,Stat Sci,12,1,39-41(1997)
[30] 弗雷利,C。;Raftery,AE,基于模型的聚类、判别分析和密度估计,美国国家统计协会,97458611-631(2002)·兹比尔1073.62545 ·doi:10.1198/016214502760047131
[31] 弗雷利,C。;Raftery,AE,正态混合估计和基于模型聚类的贝叶斯正则化,J Classif,24,2,155-181(2007)·Zbl 1159.62302号 ·doi:10.1007/s00357-007-0004-5
[32] 傅伟(Fu,W.)。;Perry,PO,使用交叉验证估算集群数量,J Compute Gr Stat,29,1,162-173(2020)·Zbl 07499280号 ·doi:10.1080/10618600.2019.1647846
[33] Groeneboom,P。;琼布罗德,G。;JA Wellner,《混合模型中计算非参数函数估计的支持约简算法》,Scand J Stat,35,3,385-399(2008)·Zbl 1199.65017号 ·doi:10.1111/j.1467-9469.2007.00588.x
[34] Harding,JP,《概率纸在多峰频率分布图形分析中的应用》,英国Mar Biol Assoc杂志,28,1,141-153(1949)·doi:10.1017/S0025315400055259
[35] 霍尔兹曼,H。;Munk,A。;Stratmann,B.,有限混合物的可识别性——应用于圆形分布,Sankhya Indian J Stat,5,440-449(2004)·Zbl 1192.62144号
[36] 霍尔兹曼,H。;Munk,A。;Gneiting,T.,椭圆分布有限混合的可识别性,Scand J Stat,33,4,753-763(2006)·兹比尔1164.62354 ·网址:10.1111/j.1467-9469.2006.00505.x
[37] 詹姆斯,LF;DJ Marchette;Priebe,CE,混合物复杂度的一致估计,Ann Stat,29,5,1281-1296(2001)·Zbl 1043.62023号 ·doi:10.1214/aos/1013203454
[38] Karlis,D。;Xekalaki,E.,《关于混合泊松模型中成分数量的测试》,《Ann Inst Stat Math》,51,1,149-162(1999)·Zbl 0928.62061号 ·doi:10.1023/A:1003839420071
[39] Kent,JT,定向数据有限混合的可识别性,Ann Stat,2984-988(1983)·Zbl 0515.62018号
[40] Keribin,C.,混合模型阶数的一致估计,Sankhya Indian J Stat Ser A,249-66(2000)·Zbl 1081.62516号
[41] Lehmann EL(2012)《检验假设理论的一些原则》。收录于:EL Lehmann作品选集,第139-164页。施普林格
[42] Leroux,BG,混合分布的一致估计,Ann Stat,21350-1360(1992)·Zbl 0763.62015号
[43] LINDSAY BG(1995)混合模型:理论、几何和应用。收录于:NSFCBMS概率与统计区域会议系列,第5卷。数理统计研究所·Zbl 1163.62326号
[44] 林赛,BG,《混合可能性的几何:一般理论》,《Ann Stat》,286-94(1983)·Zbl 0512.62005号
[45] 林赛,BG,《混合可能性的几何》,第二部分:指数族,《Ann Stat》,第11、3、783-792页(1983年)·Zbl 0534.62002号 ·doi:10.1214操作系统/1176346245
[46] Lindsay,BG,《矩矩阵:在混合物中的应用》,Ann Stat,17,2,722-740(1989)·Zbl 0672.62063号 ·doi:10.1214/aos/1176347138
[47] 刘,X。;Shao,Y.,《可识别性损失下似然比检验的渐近性》,《Ann Stat》,31,3,807-832(2003)·兹比尔1032.62014 ·doi:10.1214/aos/1056562463
[48] 麦克拉克伦,GJ;Krishnan,T.,《EM算法和扩展》(2007),伦敦:威利出版社,伦敦·Zbl 1165.62019号
[49] 麦克拉克伦,GJ;Peel,D.,有限混合模型(2004),伦敦:威利出版社,伦敦·Zbl 0963.62061号
[50] 梅利尼科夫,V。;Maitra,R.,有限混合模型和基于模型的聚类,Stat Surv,480-116(2010)·Zbl 1190.62121号 ·doi:10.1214/09-SS053
[51] 蒙格森,KL,《混合物测试:贝叶斯熵方法》,贝叶斯统计,3255-276(1996)
[52] 纽科姆,S.,为了获得最佳结果而组合观测的广义理论,《美国数学杂志》,2343-366(1886)·doi:10.307/2369392
[53] Nobile,A.,关于有限混合物中成分数量的后验分布,Ann Stat,32,5,2044-2073(2004)·Zbl 1056.62037号 ·doi:10.1214/009053604000000788
[54] O’Malley T、Bursztein E、Long J、Cholet F、Jin H、Invernizzi L等人(2019年)。https://github.com/keras-team/keras-tuner
[55] 潘·W。;Shen,X.,基于惩罚模型的聚类及其在变量选择中的应用,J Mach Learn Res,8,5,5528(2007)·Zbl 1222.68279号
[56] Pearson,K.,《对进化数学理论的贡献》,Philos Trans R Soc Lond A,185,71-110(1894)·doi:10.1098/rsta.1894.0003
[57] Pearson,K.,《矩量法和最大似然法》,《生物统计学》,28,1-2,34-59(1936)·Zbl 0014.02908号 ·doi:10.2307/2334123
[58] 普雷斯顿,EJ,《将统计分布分析为两个正态分量的图形方法》,《生物统计学》,40,3-4,460-464(1953)·兹比尔0051.10811 ·doi:10.2307/2333366
[59] Rao,CR,生物分类问题中多重测量的应用,J R Stat Soc Ser B(Methodol),10,2,159-203(1948)·Zbl 0034.07902号
[60] 理查森,S。;Green,PJ,关于成分数量未知的混合物的贝叶斯分析(讨论),J R Stat Soc Ser B(Stat Methodol),59,4,731-792(1997)·Zbl 0891.62020号 ·数字标识代码:10.1111/1467-9868.00095
[61] 罗德,K。;Wasserman,L.,使用混合正态分布的实用贝叶斯密度估计,美国统计协会杂志,92,439,894-902(1997)·兹比尔0889.62021 ·doi:10.1080/01621459.1997.10474044
[62] Schwarz,G.,估算模型的维数,Ann Stat,2461-464(1978)·Zbl 0379.62005年
[63] Scrucca,L。;Fop,M。;墨菲,TB;Raftery,AE,mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计,R J,8,1,289(2016)·doi:10.32614/RJ-2016-021
[64] 赛尔夫,SG;Liang,K-Y,非标准条件下最大似然估计量和似然比检验的渐近性质,美国统计学会杂志,82,398,605-610(1987)·Zbl 0639.62020号 ·doi:10.1080/01621459.1987.10478472
[65] Teicher,H.,混合物的可识别性,《数学统计年鉴》,32,1,244-248(1961)·兹比尔0146.39302 ·doi:10.1214/aoms/1177705155
[66] Teicher,H.,有限混合物的可识别性,《数学统计年鉴》,51265-1269(1963)·Zbl 0137.12704号 ·doi:10.1214/aoms/1177703862
[67] Thisted,RA,统计计算要素,数值计算,289(1996)
[68] Titterington,DM;Afm,S。;史密斯,AFM;Makov,UE,有限混合分布的统计分析(1985),伦敦:威利出版社,伦敦·兹伯利0646.62013
[69] Umashanger,T。;Sriram,TN,统计数据混合复杂性的L2e估计,《计算统计数据分析》,53,12,4243-4254(2009)·Zbl 1279.62079号 ·doi:10.1016/j.csda.2009.05.013
[70] Wang,Y.,关于混合分布的非参数最大似然估计的快速计算,J R Stat Soc Ser B(Stat Methodol),69,2,185-198(2007)·兹比尔1120.62022 ·文件编号:10.1111/j.1467-9868.2007.00583.x
[71] Wilks,SS,《检验复合假设的似然比的大样本分布》,《数学统计年鉴》,9,1,60-62(1938)·Zbl 0018.3203号 ·doi:10.1214/aoms/1177732360
[72] Wolfe JH(1965)类型最大似然分析的计算机程序。美国圣地亚哥海军人员研究活动技术报告
[73] Wolfe JH(1967)Normix:估计多元正态分布混合参数的计算方法。加州圣地亚哥海军人员研究活动技术报告
[74] 吴,M-J;Sriram,TN,混合物复杂性的稳健估计,美国国家统计协会,1014761475-1486(2006)·Zbl 1171.62322号 ·doi:10.1198/0162145000000555
[75] 吴,M-J;Sriram,TN,计数数据混合复杂性的稳健估计,计算统计数据分析,51,9,4379-4392(2007)·Zbl 1162.62321号 ·doi:10.1016/j.csda.2006.06.006
[76] 雅科维茨,SJ;Spragins,JD,《关于有限混合物的可识别性》,《数学统计年鉴》,39,1,209-214(1968)·Zbl 0155.25703号 ·doi:10.1214/aoms/1177698520
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。