×

通过基尼指数拟合高斯混合模型。 (英文) Zbl 1504.62082号

摘要:高斯分量的线性组合称为高斯混合模型。它广泛应用于数据挖掘和模式识别。本文提出了一种估计高斯混合模型给出的密度函数参数的方法。我们的建议基于基尼指数,这是一种测量两个概率分布之间不平等程度的方法,包括最小化数据的经验分布和高斯混合模型之间的基尼指数。我们将展示几个模拟示例和实际数据示例,观察所提方法的一些特性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G07年 密度估算
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Bassetti,F.、Bodini,A.和Regazzini,E.(2006年)。关于最小Kantorovich距离估计量,统计学和概率函76(12):1298-1302·1090.62030兹罗提
[2] 毕晓普,C.M.(2006)。模式识别和机器学习,纽约斯普林格·兹比尔1107.68072
[3] Dempster,A.P.、Laird,N.M.和Rubin,D.B.(1977年)。通过EM算法从不完整数据中获得最大似然,《皇家统计学会杂志:B辑(方法学)》39(1):1-22·Zbl 0364.62022号
[4] Elkan,C.(1997)。促进和天真的贝叶斯学习,《知识发现和数据挖掘国际会议论文集》,美国纽波特海滩。
[5] Flach,P.A.和Lachiche,N.(2004年)。结构化数据的朴素贝叶斯分类,机器学习57(3):233-269·Zbl 1079.68085号
[6] Giorgi,G.M.和Gigliarano,C.(2017年)。基尼集中指数:推理文献综述,《经济调查杂志》31(4):1130-1148。
[7] Greenspan,H.、Ruf,A.和Goldberger,J.(2006年)。MR脑图像自动分割的约束高斯混合模型框架,IEEE医学成像学报25(9):1233-1245。
[8] Kłopotek,R.、K \322]opotek,M.和Wierzchon,S.(2020年)。非欧几里德特征空间下的可行k-means核技巧,国际应用数学与计算机科学杂志30(4):703-715,DOI:10.34768/amcs-2020-0052·Zbl 1467.62089号
[9] Kulczycki,P.(2018年)。数据分析的核估计,M.Ram和J.P.Davim(编辑),《工程科学中的高级数学技术》,CRC/Taylor&Francis,Boca Raton,第177-202页。
[10] López-Lobato,A.L.和Avendaño-Garrido,M.L.(2020年)。将基尼指数用于高斯混合模型,见L.Martínez-Villaseñor等人(编辑),《计算智能进展》。MICAI 2020,《计算机科学讲义》,第12469卷,查姆斯普林格,第403-418页。
[11] Mao,C.,Lu,L.和Hu,B.(2020年)。贝叶斯分类的局部概率模型:广义局部分类模型,应用软计算93:106379。
[12] Meng,X.-L.和Rubin,D.B.(1994)。关于EM算法的全局和分量收敛速度,线性代数及其应用199(补充1):413-425·Zbl 0818.65153号
[13] Povey,D.、Burget,L.、Agarwal,M.、Akyazi,P.、Kai,F.、Ghoshal,A.、Glembek,O.、Goel,N.、Karafiát,M.,Rastrow,A.、Rose,R.、Schwarz,P.和Thomas,S.(2011年)。子空间高斯混合模型:语音识别的结构化模型,计算机语音与语言25(2):404-439。
[14] Rachev,S.、Klebanov,L.、Stoyanov,S.和Fabozzi,F.(2013)。《概率统计理论中的距离方法》,纽约斯普林格出版社,第659-663页·Zbl 1280.60005号
[15] Reynolds,D.A.(2009年)。高斯混合模型,收录于S.Z.Li(编辑),《生物统计学百科全书》,纽约斯普林格,第659-663页。
[16] Rubner,Y.、Tomasi,C.和Guibas,L.J.(2000年)。地球移动器距离作为图像检索的度量,国际计算机视觉杂志40(2):99-121·Zbl 1012.68705号
[17] Singh,R.、Pal,B.C.和Jabr,R.A.(2009年)。使用高斯混合模型的配电系统负荷统计表示,IEEE电力系统交易25(1):29-37。
[18] Torres-Carrasquillo,P.A.,Reynolds,D.A.和Deller,J.R.(2002)。使用高斯混合模型标记化的语言识别,2002年IEEE声学、语音和信号处理国际会议,美国奥兰多,第I-757页。
[19] Ultsch,A.和Lötsch,J.(2017)。基于数据科学的标准化基尼指数,作为洛伦兹优势保持分布不均的度量,PloS One12(8):e0181572。
[20] Vaida,F.(2005年)。EM和MM算法的参数收敛,《统计中国》15(2005):831-840·Zbl 1087.62035号
[21] Villani,C.(2003年)。最佳运输主题,美国数学学会,普罗维登斯·兹比尔1106.90001
[22] Xu,L.和Jordan,M.I.(1996年)。关于高斯混合的EM算法的收敛特性,神经计算8(1):129-151。
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。