×

一个明显的悖论是:基于部分分类样本的分类器可能比完全分类样本的预期错误率更小。 (英语) Zbl 1452.62429号

摘要:人们对使用半监督学习来形成分类器越来越感兴趣。众所周知,具有未知类标签的未分类特征中的(Fisher)信息比具有已知类标签的已分类特征少(对于弱分离类而言,要少得多)。因此,在类别标签的缺乏不取决于数据的情况下,由部分分类样本中的分类和未分类特征形成的分类器的预期错误率大于样本被完全分类时的预期错误率。我们建议将未分类特征的标签视为缺失数据,并像在D.B.鲁宾[生物特征63581-592(1976;Zbl 0344.62034号)]用于不完整数据分析中的缺失。对文献中几个部分分类的数据集的检查表明,未分类的特征并非在特征空间中随机出现,而是倾向于集中在相对高熵的区域。这表明,可以通过logistic模型来表示特征标签缺失的条件概率,从而对特征标签缺失进行建模,该模型的协变量取决于特征的熵或其适当的代理。我们在这里考虑两个具有共同协方差矩阵的正态类的情况,其中为了计算方便,将判别函数的平方用作logistic模型中的协变量,而不是负对数熵。相反,我们表明,与完全分类的样本相比,由部分分类样本形成的分类器可能具有更小的预期错误率。

MSC公司:

62小时30分 分类和区分;聚类分析(统计方面)
62A01型 统计学基础和哲学主题
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] 阿盖珀,N。;菲纳克,G。;胡斯,H。;莫斯曼,T。;Brinkman,R。;Gottardo,R。;Scheuermann,R.,FlowCAP联盟,梦想联盟:自动流式细胞术数据分析技术的关键评估,《自然方法》,10,228-238(2013)·doi:10.1038/nmeth.2365
[2] Ahfock,D.,McLachlan,G.J.:关于半监督学习中的缺失数据模式。arXiv电子版arXiv:1904.02883(2019)
[3] Berthelot,D.、Carlini,N.、Goodfellow,I.、Papernot,N.,Oliver,A.、Raffel,C.:混合匹配:半监督学习的整体方法。主题:神经信息处理系统进展(2019年)
[4] 卡斯泰利,V。;Cover,TM,未知混合参数模式识别中标记和未标记样本的相对值,IEEE Trans。Inf.理论,42,2102-2117(1996)·Zbl 0873.68185号 ·doi:10.1109/18.556600
[5] 夏贝尔,O。;Schlköpf,B。;Zien,A.,《半监督学习》(2010),剑桥:麻省理工学院出版社,剑桥
[6] 美联社登普斯特;新墨西哥州莱尔德;Rubin,DB,《通过EM算法从不完整数据中获得最大似然》(带讨论),J.R.Stat.Soc.B,39,1-22(1977)·Zbl 0364.62022号
[7] Efron,B.,logistic回归与正态判别分析的效率,美国统计协会,70,892-898(1975)·Zbl 0319.62039号 ·doi:10.1080/01621459.1975.10480319
[8] 埃夫隆,B。;Tibshirani,R.,标准误差、置信区间和其他统计准确性测量的Bootstrap方法,Stat.Sci。,1, 54-75 (1986) ·Zbl 0955.62560号 ·doi:10.1214/ss/1177013815
[9] Elkan,C.,Neto,K.:仅从正面和未标记数据学习分类器。摘自:第14届ACM SIGKDD知识发现和数据挖掘国际会议论文集,第213-220页(2008)
[10] Ganesalingam,S。;McLachlan,GJ,基于未分类初始样本的线性判别函数的效率,生物统计学,65658-665(1978)·Zbl 0389.62045号 ·doi:10.1093/biomet/65.3.658
[11] Grandvalet,Y.,Bengio,Y.:通过熵最小化的半监督学习。摘自:《神经信息处理系统进展》,第529-536页(2005年)
[12] McLachlan,GJ,《在判别分析中构建渐近最优分配规则的迭代重分类程序》,美国统计协会,70,365-369(1975)·Zbl 0319.62038号 ·doi:10.1080/01621459.1975.10479874
[13] McLachlan,GJ,《判别分析与统计模式识别》(1992),纽约:威利出版社,纽约·兹比尔0850.62481
[14] GJ麦克拉克伦;Gordon,RD,部分未分类数据的混合模型:高血压患者肾静脉肾素的个案研究,Stat.Med.,81291-1300(1989)·doi:10.1002/sim.4780081012
[15] GJ麦克拉克伦;Scot,D.,训练数据部分非随机分类下线性判别函数的渐近相对效率,J.Stat.Compute。模拟。,52, 415-426 (1995) ·Zbl 0842.62051号 ·doi:10.1080/00949659508811689
[16] 米利,F。;DB Rubin,《澄清随机缺失和相关定义,以及与可交换性结合时的含义》,《生物统计学》,102995-1000(2015)·Zbl 1390.62042号 ·doi:10.1093/biomet/asv035
[17] Molenberghs,G。;菲茨默里,GM;MG Kenward;齐亚提斯,AA;韦贝克,G.,《缺失数据方法手册》(2014),博卡拉顿:CRC出版社,博卡拉顿
[18] O'Neill,TJ,《非分类观测的正常判别》,《美国法律总汇》,第73卷,第821-826页(1978年)·Zbl 0409.62047号 ·doi:10.1080/01621459.1978.10480106
[19] Ratsaby,J.,Venkatesh,S.S.:从带有参数侧信息的标记和未标记示例的混合中学习。摘自:《第八届计算学习理论年会论文集》,第412-417页(1995年)
[20] Rubin,DB,推断和缺失数据,Biometrika,63581-592(1976)·Zbl 0344.62034号 ·doi:10.1093/biomet/63.3.581
[21] 沙沙哈尼,BM;Landgrebe,DA,未标记样本在减少小样本问题和缓解休斯现象方面的作用,IEEE Trans。地质科学。遥感,32,1087-1095(1994)·数字对象标识代码:10.1109/36.312897
[22] van Engelen,J。;Hoos,H.,《半监督学习调查》,马赫。学习。,109, 373-440 (2020) ·Zbl 1441.68215号 ·doi:10.1007/s10994-019-05855-6
[23] Vapnik,VN,《统计学习理论》(1998),纽约:威利出版社,纽约·Zbl 0935.62007号
[24] Zhang,T.:未标记数据对分类问题的价值。摘自:《第十七届国际机器学习会议记录》,第1191-1198页(2000)
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。