×

使用数值代数几何识别高斯混合模型中的分量数。 (英文) Zbl 1453.62553号

摘要:使用高斯混合模型进行聚类是数据科学中一种统计上成熟的聚类方法,在科学和工程中有许多成功的应用。高斯混合模型(GMM)的参数通常使用迭代期望最大化算法从训练数据中估计,这需要先验高斯分量的数量。在本研究中,我们提出了两种基于数值代数几何(NAG)的算法,即基于区域的算法和局部极大值算法,以确定最佳分量数量。基于区域的算法将几个具有不同分量数的GMM转换为一组等价的多项式回归样条。接下来,它使用同伦延拓方法评估生成的样条曲线,以确定与梯度数据最兼容的分量数。局部极大值算法通过将平滑样条拟合到数据集来形成一组多项式。接下来,它使用NAG求解一阶导数系统,以找到所得到的平滑样条的局部极大值,它表示混合成分的数量。局部最大值算法还识别高斯分量的中心的位置。通过汽车制造业的实际案例研究和大量仿真,我们证明了所提算法的性能与文献中流行的Akaike信息准则(AIC)和Bayesian信息准则(BIC)的性能相当。我们还表明,当违反高斯假设时,所提出的算法比AIC和BIC更具鲁棒性。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62兰特 大数据和数据科学的统计方面
62B10型 信息理论主题的统计方面
65H14型 数值代数几何
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Améndola,C.、Drton,M.和Sturmfels,B.,《高斯混合的最大似然估计是先验的》,载于《计算机和信息科学的数学方面国际会议》(Springer,Cham,2015),第579-590页·Zbl 1460.62081号
[2] C.Améndola、A.Engström和C.Haase,高斯混合的最大模式数,2017年,arXiv:1702.05066。
[3] Améndola,C.、Faugere,J.C.和Sturmfels,B.,高斯混合的矩变量,J.代数统计7(1)(2016)·Zbl 1361.13017号
[4] Améndola,C.、Ranestad,K.和Sturmfels,B.,高斯混合的代数可识别性,国际数学。Res.Noti公司。(2016). ·Zbl 1423.14284号
[5] Aoyagi,M.,泛化误差和Vandermonde矩阵型奇异性的贝叶斯学习系数,Commun。统计理论方法39(15)(2010)2667-2687·Zbl 1272.62010年
[6] Awange,J.L.,Palancz,B.,Lewis,R.,Lovas,T.,Heck,B.和Fukuda,Y.,高斯混合分布情况下最大似然函数的代数解,澳大利亚。《地球科学杂志》63(2)(2016)193-203。
[7] Bates,D.J.、Hauenstein,J.D.、Sommese,A.J.和Wampler,C.W.,《用Bertini数值求解多项式系统》第25卷(SIAM,2013)·Zbl 1295.65057号
[8] D.J.Bates、J.D.Hauenstein、A.J.Sommese和C.W.Wampler,《贝尔蒂尼:数值代数几何软件》,网址:https://bertini.nd.edu/。 ·Zbl 1143.65344号
[9] Baudry,J.P.,《带条件分类似然的基于模型聚类的估计和模型选择》,Electr。J.统计9(1)(2015)1041-1077·Zbl 1325.62120号
[10] Bernardi,A.,Daleo,N.S.,Hauenstein,J.D.和Mourrain,B.,张量分解和同伦延拓,Diff.Geom。申请。(2017). ·Zbl 1377.65057号
[11] Blundell,R.和Bond,S.,《持续面板数据的GMM估计:生产函数的应用》,《计量经济学》。修订版19(3)(2000)321-340·Zbl 0953.62123号
[12] Burnham,K.P.和Anderson,D.R.,《模型选择和多模型推理:实用信息理论方法》(Springer Science&Business Media,2003)·Zbl 1005.62007号
[13] M.Carreira-Perpina和C.Williams,《各向同性高斯混合物可以具有比成分更多的模式》,《技术报告EDI-INF-RR-0185》,爱丁堡大学信息学院(2003年)。
[14] Carreira-Perpina,M.A.,混合高斯分布的模态发现,IEEE Trans。模式分析。机器。《情报》22(11)(2000)1318-1323。
[15] Chen,S.和Gopalakrishnan,P.,《演讲者,环境和信道变化检测和基于贝叶斯信息准则的聚类》,摘自Proc。darpa广播新闻转录与理解研讨会8(1998),第127-132页。
[16] E.R.Cook和K.Peters,《平滑样条:树木群落研究中标准化森林内部树轮宽度系列的新方法》,《树轮公报》(1981年)。
[17] Campo,A.M.Del和Rodriguez,J.I.,《通过单值函数和局部方法的临界点》,J.Symb。计算79(2017)559-574·Zbl 1365.14003号
[18] De Boor,C.、Mathmaticien,E.U.、De Bool,C.和De Boo,C.,《样条曲线实用指南》第27卷(Springer-Verlag,纽约,2008年)·Zbl 0987.65015号
[19] Drton,M.和Plummer,M.,奇异模型的贝叶斯信息准则,J.Royal Statist。Soc.序列号。B(统计方法)79(2)(2017)323-380·兹伯利1414.62088
[20] Fraley,C.和Raftery,A.E.,基于模型的聚类、判别分析和密度估计,J.Amer。统计汇编97(458)(2002)611-631·Zbl 1073.62545号
[21] 弗雷利,C.和拉弗瑞,A.E.,有多少个集群?哪种聚类方法?通过基于模型的聚类分析,计算出答案。J.41(8)(1998)578-588·Zbl 0920.68038号
[22] D.R.Grayson和M.E.Stillman,Macaulay2,代数几何研究软件系统,网址:http://www.math.uiuc.edu/Macaulay2/。
[23] Gross,E.,Davis,B.,Ho,K.L.,Bates,D.J.和Harrington,H.A.,模型选择的数值代数几何及其在生命科学中的应用,J.Royal Soc.Interf.13(123)(2016)20160256。
[24] Gross,E.和Rodriguez,J.I.,7月。程序中存在数据零点时的最大似然几何。第39国际交响乐团。符号和代数计算(ACM,2014),第232-239页·Zbl 1325.68285号
[25] Hastie,T.和Tibshirani,R.,《广义加性模型》(John Wiley&Sons Inc,1990)·Zbl 0747.62061号
[26] Hauenstein,J.D.,Oeding,L.,Ottaviani,G.和Sommese,A.J.,张量分解和完全可识别的同伦技术,J.Reine Ang.Math。(克雷莱斯杂志)(2014)·Zbl 1440.15019号
[27] Hauenstein,J.D.和Sottile,F.,《算法921:AlphaCertified:多项式系统的证明解决方案》,《ACM数学软件交易》(TOMS),38(4)(2012)28·Zbl 1365.65148号
[28] 胡顺生,秋叶信息标准,中国科学研究中心。计算结果93(2007年)。
[29] Hui,F.K.,Warton,D.I.和Foster,S.D.,有限混合模型中的顺序选择:完全或观察到的似然信息准则?,生物特征102(3)(2015)724-730·Zbl 1452.62814号
[30] Hurvich,C.M.和Tsai,C.L.,不足回归和时间序列模型的校正AIC标准的偏差,《生物计量学》78(3)(1991)499-509·兹比尔1193.62159
[31] Hurvich,C.M.和Tsai,C.L.,向量自回归模型选择的修正Akaike信息准则,J.Ser。分析14(3)(1993)271-279·Zbl 0768.62076号
[32] Jain,A.K.和Dubes,R.C.,《聚类数据的算法》(Prentice-Hall Inc,1988年)·Zbl 0665.62061号
[33] T.L.Lee,T.Y.Li和C.H.Tsai,HOM4PS-2.0:用多面体同伦延拓法求解多项式系统的软件包,Computing83(2-3)109,网址:http://www.hom4ps3.org。 ·Zbl 1167.65366号
[34] Li,J.,Ray,S.和Lindsay,B.G.,通过模式识别进行聚类的非参数统计方法,J.Mach。学习。第8号决议(2007)1687-1723·Zbl 1222.62076号
[35] McLachlan,G.J.和Rathnayake,S.,《关于高斯混合模型中成分的数量》,威利跨学科出版社。Rev.数据挖掘知识。《发现》4(5)(2014)341-355。
[36] T.K.Moon,《期望最大化算法》,IEEE信号处理杂志13(6)(1996)47-60。
[37] Putinar,M.和Sullivant,S.(编辑)《代数几何的新兴应用》第149卷(Springer Science&Business Media,2008)。
[38] Ray,S.和Lindsay,B.G.,多元正态混合物的拓扑图,Ann.Stat.33(5)(2005)2042-2065·Zbl 1086.62066号
[39] Rissanen,J.,《最短数据描述建模》,《自动化》14(5)(1978)465-471·Zbl 0418.93079号
[40] Ritchey,R.J.,离散正态混合物的看涨期权估值,J.Fin。第13(4)号决议(1990)285-296。
[41] Sheather,S.J.和Jones,M.C.,《用于核密度估计的可靠的基于数据的带宽选择方法》,J.Royal Stat.Soc.Ser。B(方法学)(1991)683-690·Zbl 0800.62219
[42] Sommese,A.J.和Wampler,C.W.,《工程与科学中多项式系统的数值解》(世界科学,2005年)·Zbl 1091.65049号
[43] Verschelde,J.,算法795:PHCpack:同伦延拓多项式系统的通用求解器,ACM-Trans。数学。柔和。(TOMS)25(2)(1999)251-276·Zbl 0961.65047号
[44] Wang,W.,Wang,H.,Hempel,M.,Peng,D.,Sharif,H.和Chen,H.H.,基于医疗系统高斯混合模型的安全随机ECG信号,IEEE系统。J.5(4)(2011)564-573。
[45] Wu,T.J.和Sepulveda,A.,时间序列和回归模型中订单选择的加权平均信息准则,Stat.probil.lett.39(1)(1998)1-10·Zbl 0986.62071号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。