×

一种基于修剪和约束的基于模型的鲁棒分类方法。存在离群值和标签噪声的半监督学习。 (英语) 兹比尔1474.62215

摘要:在标准分类框架中,使用一组可信的学习数据来构建决策规则,最终目的是对属于测试集的未标记单元进行分类。因此,不可靠的标记观测值,即离群值和标记不正确的数据,会严重影响分类器的性能,尤其是在训练规模较小的情况下。本工作对基于模型的分类框架进行了稳健的修改,采用了公正的裁剪和对群分散矩阵的最大和最小特征值之比的约束。该方法有效地处理了响应变量和探索变量中的噪声,即使在处理污染数据集时也能提供可靠的分类。提出了一种鲁棒信息准则用于模型选择。通过对人工掺假的真实和模拟数据进行实验,强调了该方法的优点。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62层35 鲁棒性和自适应程序(参数推断)
62C25型 统计决策理论中的复合决策问题
68T05年 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 艾特肯,AC,代数方程和超越方程根的系列公式,Proc R Soc Edib,45,1,14-22(1926)
[2] Alimentarius,C.,修订的蜂蜜法典标准,法典标准,1982年12月(2001年)
[3] JD Banfield;Raftery,AE,基于模型的高斯和非高斯聚类,生物统计学,49,3,803(1993)·Zbl 0794.62034号
[4] Bensmail,H。;Celeux,G.,通过特征值分解进行正则高斯判别分析,美国统计协会杂志,91,436,1743-1748(1996)·Zbl 0885.62068号
[5] Bohning,D。;迪茨,E。;Schaub,R。;施拉特曼,P。;Lindsay,BG,单参数指数族密度混合物的似然比分布,Ann Inst Stat Math,46,2,373-388(1994)·Zbl 0802.62017年
[6] Bouveyron,C.等人。;Girard,S.,《混合模型的稳健监督分类:从标签不确定的数据中学习》,模式识别,42,11,2649-2658(2009)·兹比尔1175.68313
[7] Browne,RP;McNicholas,PD,《高维常见主成分估算》,高级数据分析分类,8217-226(2014)·Zbl 1474.62183号
[8] Cattell,RB,因子数的筛选试验,Multivar Behav Res,1,2,245-276(1966)
[9] Celeux,G。;Govaert,G.,高斯简约聚类模型,模式识别,28,5,781-793(1995)
[10] Cerioli,A。;加西亚·埃斯库德罗,洛杉矶;Mayo-Iscar,A。;Riani,M.,《通过约束可能性在基于模型的聚类中发现正常组的数量》,J Compute Gr Stat,27,2,404-416(2018)·Zbl 07498957号
[11] 科尔特斯,C。;Vapnik,V.,《支持向量网络》,《Mach Learn》,第20、3、273-297页(1995年)·Zbl 0831.68098号
[12] 加利福尼亚州库斯塔·阿尔贝托斯;Gordaliza,A。;Matrán,C.,Trimmed k均值:量化器鲁棒化的尝试,Ann Stat,25,2553-576(1997)·Zbl 0878.62045号
[13] N.院长。;墨菲,TB;Downey,G.,《使用未标记数据更新分类规则并应用于食品真实性研究》,J R Stat Soc Ser C Appl Stat,55,1,1-14(2006)·Zbl 1490.62155号
[14] Dempster,A。;莱尔德,N。;Rubin,D.,通过EM算法从不完整数据中获得最大似然,J R Stat Soc,39,1,1-38(1977)·兹比尔0364.62022
[15] 多托,F。;Farcomeni,A.,基于简约模型聚类的稳健推理,J Stat Compute Simul,89,3,414-442(2019)·Zbl 07193731号
[16] 多托,F。;Farcomeni,A。;加西亚·埃斯库德罗,洛杉矶;Mayo-Iscar,A.,稳健聚类的重加权方法,统计计算,28,2,477-493(2018)·Zbl 1384.62193号
[17] Downey,G.,《通过近红外光谱鉴定食品和食品成分》,《近红外光谱杂志》,4,1,47(1996)
[18] Fop,M。;Murphy,肺结核;Raftery,AE,mclust 5:使用高斯有限混合模型进行聚类、分类和密度估计,R J,XX,8月,1-29日(2016)
[19] 弗雷利,C。;Raftery,AE,基于模型的聚类、判别分析和密度估计,美国国家统计协会,97458611-631(2002)·Zbl 1073.62545号
[20] 弗洛伊德,Y。;Schapire,RE,在线学习的决策理论推广及其在助推中的应用,计算机系统科学杂志,55,1,119-139(1997)·Zbl 0880.68103号
[21] 弗里茨,H。;加西亚·埃斯库德罗,洛杉矶;Mayo-Iscar,A.,《tclust:聚类分析修剪方法的R包》,J Stat Softw,47,12,1-26(2012)
[22] 弗里茨,H。;加西亚·埃斯库德罗,洛杉矶;Mayo-Iscar,A.,鲁棒约束聚类的快速算法,计算统计数据分析,61124-136(2013)·Zbl 1349.62264号
[23] Gallegos MT(2002)带离群值的最大似然聚类。In:分类、聚类和数据分析,Springer,第247-255页·Zbl 1032.62059号
[24] 加西亚·埃斯库德罗,洛杉矶;Gordaliza,A。;马特兰,C。;Mayo-Iscar,A.,稳健聚类分析的一般修正方法,《Ann Stat》,36,3,1324-1345(2008)·Zbl 1360.62328号
[25] 加西亚·埃斯库德罗,洛杉矶;Gordaliza,A。;马特兰,C。;Mayo-Iscar,A.,稳健聚类方法综述,Adv Data Anal Classif,4,2-3,89-109(2010)·Zbl 1284.62375号
[26] 加西亚·埃斯库德罗,洛杉矶;Gordaliza,A。;马特兰,C。;Mayo-Iscar,A.,《探索基于稳健模型的聚类中的组数》,《统计计算》,21,4,585-599(2011)·Zbl 1221.62093号
[27] 加西亚·埃斯库德罗,洛杉矶;Gordaliza,A。;Mayo-Iscar,A.,《避免虚假解决方案的混合建模约束稳健建议》,《高级数据分析分类》,8,1,27-43(2014)·Zbl 1459.62110号
[28] 加西亚·埃斯库德罗,洛杉矶;Gordaliza,A。;马特兰,C。;Mayo-Iscar,A.,《在混合建模中避免虚假的局部最大化》,《统计计算》,25,3,619-633(2015)·Zbl 1331.62100号
[29] García-Escudero,洛杉矶;Gordaliza,A。;格雷塞林,F。;Ingrassia,S.公司。;Mayo-Iscar,A.,《修正和约束在高斯因子分析仪混合稳健估计中的联合作用》,《计算统计数据分析》,99,131-147(2016)·Zbl 1468.62060号
[30] 加西亚·埃斯库德罗,洛杉矶;Gordaliza,A。;格雷塞林,F。;Ingrassia,S.公司。;Mayo-Iscar,A.,《混合建模中的特征值和约束:几何和计算问题》,Adv Data Ana Classif,12,1-31(2017)
[31] Gordaliza,A.,基于修剪程序的随机变量最佳近似,J近似理论,64,2,162-180(1991)·Zbl 0745.41030号
[32] Gordaliza,A.,《基于修正程序的多元位置估计的崩溃点》,Stat Probab Lett,11,5,387-394(1991)·Zbl 0732.62051号
[33] 哈斯蒂,T。;Tibshirani,R.,高斯混合判别分析,J R Stat Soc Ser B(Methodol),58,1,155-176(1996)·Zbl 0850.62476号
[34] 霍金斯,DM;McLachlan,GJ,高分解线性判别分析,美国统计协会杂志,92,437,136(1997)·Zbl 0889.62052号
[35] 希基(Hickey),RJ,《噪音建模和评估示例学习》(Noise modeling and evaluation learning from examples),Artif Intell,82,1-2,157-179(1996)·Zbl 1506.68095号
[36] 休伯特,M。;Debruyne,M。;Rousseeuw,PJ,最小协方差行列式和扩展,Wiley Interdiscip Rev Comput Stat,10,3,1-11(2018)
[37] Ingrassia,S.,多元正态混合模型的基于似然的约束算法,统计方法应用,13,2,151-166(2004)·Zbl 1205.62066号
[38] 凯利,JD;佩蒂斯科,C。;Downey,G.,傅里叶变换中红外光谱法在区分爱尔兰手工蜂蜜和掺有各种糖浆的蜂蜜中的应用,《农业食品化学杂志》,54,17,6166-6171(2006)
[39] 马尔迪亚,KV;肯特,JT;Bibby,JM,多元分析(1979),纽约:学术出版社,纽约·Zbl 0432.62029号
[40] Maronna,R。;Jacovkis,PM,具有可变指标的多变量聚类程序,生物统计学,30,3,499(1974)·Zbl 0285.62036号
[41] McLachlan,GJ,判别分析和统计模式识别(1992),霍博肯:威利·兹比尔0850.62481
[42] GJ麦克拉克伦;Krishnan,T.,《EM算法和扩展》(2008),霍博肯:威利,霍博克·兹比尔1165.62019
[43] McLachlan GJ,Peel D(1998),通过多元t分布混合物进行稳健聚类分析。在:IAPR关于模式识别以及结构和句法模式识别中的统计技术的联合国际研讨会。柏林施普林格,第658-666页
[44] McNicholas,PD,基于混合模型的分类(2016),博卡拉顿:CRC出版社,博卡拉顿
[45] Menardi,G.,《基于密度的聚类方法轮廓诊断》,《统计计算》,第21、3、295-308页(2011年)·Zbl 1255.62179号
[46] Neykov,N。;Filzmoser,P。;迪莫娃,R。;Neytchev,P.,《使用修剪似然估计对混合物进行稳健拟合》,《计算统计数据分析》,52,1,299-308(2007)·兹比尔1328.62033
[47] 皮,D。;McLachlan,GJ,使用t分布的稳健混合建模,统计计算,10,4,339-348(2000)
[48] RC普拉蒂;Luengo,J。;Herrera,F.,《从非标准分类中的噪声数据中学习的新课题和挑战:超越二进制噪声的调查》,Knowl-Inf-Syst,60,1,63-97(2019)
[49] R核心团队(2018)R:统计计算的语言和环境
[50] 罗素,PJ;Driessen,KV,最小协方差行列式估计的快速算法,《技术计量学》,41,3,212-223(1999)
[51] Russell N,Cribbin L,Murphy TB(2014)upclass:更新基于模型的分类规则的R包。起重机R项目组织
[52] Schwarz,G.,估算模型的维数,Ann Stat,6,2,461-464(1978)·Zbl 0379.62005年
[53] 汤姆森,G.,《人类能力的因子分析》,英国教育心理学杂志,9,2,188-195(1939)
[54] Vanden Branden,K。;Hubert,M.,基于SIMCA方法的高维稳健分类,化学智能实验室系统,79,1-2,10-21(2005)
[55] Wu,X.,《从数据库中获取知识》(1995年),《Westport:Intellect books》,Westport出版社
[56] 朱,X。;Wu,X.,《类噪声与属性噪声:定量研究》,《Artif Intell Rev》,22,3,177-210(2004)·Zbl 1069.68587号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。