×

将分类器的输出调整为新的先验概率:一个简单的过程。 (英文) Zbl 1026.62065号

摘要:有时(例如在病例对照研究中)分类器是在一个数据集上训练的,该数据集不能反映真实世界数据中目标类的真实先验概率。这可能会对在真实数据集上获得的分类精度产生负面影响,尤其是当分类器的决策基于类成员的后验概率时。事实上,在这种情况下,经过训练的分类器提供的后验概率估计对于这个真实世界的数据集是无效的(它们依赖于训练集的先验概率)。因此,在这个新数据集上按原样应用分类器(不根据这些新条件更正其输出)可能是次优的。
我们提出了一个简单的迭代过程,用于根据这些新的先验概率调整训练分类器的输出,而无需重新调整模型,即使这些概率事先未知。作为副产品,还获得了新先验概率的估计。该迭代算法是期望最大化(EM)算法的一个直接实例,表明它可以最大化新数据的可能性。此后,我们讨论了一种统计测试,该测试可用于确定先验类概率是否已从训练集更改为实际数据。该过程在涉及多层神经网络的不同分类问题上进行了说明,并与先验概率估计的标准过程进行了比较。
我们基于EM算法的原始方法在先验概率估计方面优于标准方法。实验结果还表明,当先验概率条件与训练集的实际数据不同时,调整输出的分类器在分类精度方面始终优于原始分类器。分类精度的提高可能是显著的。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统

软件:

UCI-毫升
PDF格式BibTeX公司 XML格式引用
全文: 内政部 链接

参考文献:

[1] DOI:10.1214/aos/1024691079·Zbl 0934.62064号 ·doi:10.1214/aos/1024691079
[2] DOI:10.1016/0167-8655(94)00074-D·doi:10.1016/0167-8655(94)00074-D
[3] DOI:10.1097/00005072-199704000-00008·doi:10.1097/00005072-199704000-00008
[4] Dempster A.,《皇家统计学会杂志》B 39 pp 1–(1977)
[5] Kish L.,《皇家统计学会杂志》B 61 pp 1–(1974)
[6] 内政部:10.1111/1467-9868.00185·Zbl 0915.62030号 ·doi:10.1111/1467-9868.00185
[7] DOI:10.1023/A:1007692713085·Zbl 0949.68162号 ·doi:10.1023/A:1007692713085
[8] 内政部:10.1162/neco.1991.3.4.461·doi:10.1162/neco.1991.3.4.461
[9] 内政部:10.1109/72.883416·doi:10.1109/72.8883416
[10] DOI:10.1093/biomet/84.1.57·Zbl 1058.62505号 ·doi:10.1093/biomet/84.1.57
[11] 内政部:10.1109/36.312897·数字对象标识代码:10.1109/36.312897
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。