×

具有多类分类预期大小的置信集。 (英语) Zbl 1441.62166号

摘要:图像注释等多类分类问题可能涉及大量类。在这种情况下,类别之间可能会发生混淆,单标签分类可能会产生误导。在本文中,我们提供了一个通用的设备,在给定一个未标记的数据集和一个定义为某些经验和凸风险最小值的得分函数的情况下,输出一组类标签,而不是单个标签。有趣的是,这个过程并不要求未标记的数据集探索整个类。此外,对该方法进行了校准,以控制输出集的预期大小,同时最小化分类风险。我们展示了该过程的统计最优性,并在Tsybakov裕度条件下建立了收敛速度。结果表明,这些速率与标签数量成线性关系。我们将我们的方法应用于基于V折交叉验证原理(也称为超学习原理)的置信集凸聚合[M.J.范德拉恩等,《Stat.Appl.》。遗传学。分子生物学。6,第1号,第25条(2007年;Zbl 1166.62387号)]. 我们说明了该程序在实际数据上的数值性能,并特别证明了在中等预期大小、考虑标签数量的情况下,该程序显著改善了分类风险。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
62G15年 非参数容差和置信区域
62兰特 大数据和数据科学的统计方面
68层35 人工智能语言和软件系统理论(基于知识的系统、专家系统等)
PDF格式BibTeX公司 XML格式引用
全文: arXiv公司 链接

参考文献:

[1] P.Bartlett和S.Mendelson。经验最小化。概率论及相关领域,135(3):311-3342006。26 ·Zbl 1142.62348号
[2] P.Bartlett、M.Jordan和J.McAuliffe。凸性、分类和风险边界。美国统计协会杂志,101(473):138-1562006·Zbl 1118.62330号
[3] A.Choromanska、K.Choromaski和M.Bojarski。自顶向下决策树学习算法对多类分类的增强能力。预印本,2016年。
[4] 周星驰(C.K.Chow)。关于最佳误差和拒绝权衡。IEEE信息理论汇刊,16:41-461970·Zbl 0185.47804号
[5] J.del Coz、J.D´ñez和A.Bahamonde。学习非确定性分类器。机器学习研究杂志,10:2273-22932009·Zbl 1235.68144号
[6] C.Denis和M.Hebiri。半监督学习中分类的插件置信集的一致性。预印本,2015年·Zbl 1435.62161号
[7] S.Dudoit和M.van der Laan。估计器选择和性能评估中交叉验证风险估计的渐近性。统计方法,2(2):131-1542005·Zbl 1248.62004号
[8] Y.Freund和R.Schapire。在线学习的决策理论推广及其在助推中的应用。计算机与系统科学杂志,55(1):119-1391997·Zbl 0880.68103号
[9] J.Friedman、T.Hastie和R.Tibshirani。加性logistic回归:关于增长的统计观点。《统计年鉴》,28(2):337-4072000·Zbl 1106.62323号
[10] R.Herbei和M.Wegkamp。带拒绝选项的分类。加拿大统计杂志,34(4):709-7212006·Zbl 1151.62302号
[11] J.Lei。有把握地分类。Biometrika,101(4):755-7691014·Zbl 1306.62143号
[12] J.Lei、J.Robins和L.Wasserman。无分布预测集。《美国统计协会杂志》,108(501):278-2872013年·Zbl 06158342号
[13] A.Tewari和P.Bartlett。关于多类分类方法的一致性。机器学习研究杂志,8:1007-10252007·Zbl 1222.62079号
[14] A.茨巴科夫。统计学习中分类器的最优聚合。《统计年鉴》,32(1):135-1662004·Zbl 1105.62353号
[15] M.van der Laan、E.Polley和A.Hubbard。超级学习者。《遗传学和分子生物学的统计应用》,2007年6月·Zbl 1166.62387号
[16] A.范德法特。渐近统计,剑桥统计与概率数学系列第3卷。剑桥大学出版社,剑桥,1998年·Zbl 0910.62001号
[17] V.Vapnik。统计学习理论。信号处理、通信和控制的自适应和学习系统。约翰·威利父子公司,纽约,1998年。WileyInterscience出版物·Zbl 0935.62007号
[18] V.沃夫克。可导置信机的渐近最优性。《算法学习理论》,《计算机科学讲义》第2533卷,第336-350页。施普林格,柏林,2002年。27 ·Zbl 1024.68085号
[19] V.Vovk、A.Gammerman和C.Saunders。算法随机性的机器学习应用。在机器学习国际会议上,第444-453页。1999
[20] V.Vovk、A.Gammerman和G.Shafer。随机世界中的算法学习。斯普林格,纽约,2005年·Zbl 1105.68052号
[21] M.Wegkamp和M.Yuan。支持带有拒绝选项的向量机。伯努利,17(4):1368-13852011年·Zbl 1243.68256号
[22] T.-F.Wu、C.-J.Lin和R.Weng。基于成对耦合的多类分类概率估计。机器学习研究杂志,5:975-10052004·Zbl 1222.68336号
[23] M.Yuan和M.Wegkamp。基于凸风险最小化的拒绝选项分类方法。机器学习研究杂志,11:111-1302010·Zbl 1242.62066号
[24] T·张。基于凸风险最小化的分类方法的统计行为和一致性·Zbl 1105.62323号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。