×

广义分类性能指标的替代遗憾界限。 (英语) Zbl 1459.62116号

摘要:我们考虑通过代理损失来优化二进制分类的广义性能指标。我们关注的是一类度量,它们是假阳性率和假阴性率的线性分数函数(其中的示例包括(F{beta})-度量、Jaccard相似系数、AM度量等)。我们的分析涉及以下两个步骤。首先,通过最小化训练样本上二进制分类的代理损失来学习实值函数。假设代理损失是一个强恰当的复合损失函数(例如逻辑损失、平方误差损失、指数损失等)。然后,给定\(f),通过直接优化目标性能指标,在单独的验证样本上调整阈值。我们证明了所得到的分类器(从(widehat{theta})上的阈值获得)相对于目标度量的遗憾是上限为与代理损失相关的\(f)的遗憾。我们还扩展了我们的结果,以涵盖多标签分类,并为微观和宏观平均措施提供遗憾边界。我们的发现在对合成数据集和实际数据集的计算研究中得到了进一步分析。

MSC公司:

62H30型 分类和区分;聚类分析(统计方面)
68T05型 人工智能中的学习和自适应系统
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agarwal,S.(2014)。通过严格适当的损失,替代二方排名的遗憾界限。《机器学习研究杂志》,第15期,1653-1674页·Zbl 1319.62041号
[2] Bartlett,P.L.、Jordan,M.I.和McAuliffe,J.D.(2006)。凸性、分类和风险边界。《美国统计协会杂志》,101(473),138-156·Zbl 1118.62330号 ·doi:10.1198/01621450000000907
[3] Dembczyñski,K.、Cheng,W.和Hüllermier,E.(2010年)。基于概率分类器链的贝叶斯最优多标签分类。ICML 2010(第279-286页)。全能女。
[4] Dembczyński,K.、Waegeman,W.、Cheng,W.和Hüllermeier,E.(2012年)。多标签分类中的损失最小化和标签依赖性。机器学习,88,5-45·Zbl 1243.68237号 ·doi:10.1007/s10994-012-5285-8
[5] Dembczyñski,K.、Jachnik,A.、Kotłowski,W.、Waegeman,W.和Hüllermier,E.(2013)。优化多标签分类中的f度量:插件规则方法与结构损失最小化。在ICML中·Zbl 1280.68192号
[6] Devroye,L.、Györfi,L.和Lugosi,G.(1996)。模式识别的概率理论(第1版)。柏林:斯普林格·Zbl 0853.68150号 ·doi:10.1007/978-1-4612-0711-5
[7] Fan,R.E.,Chang,K.W.,Hsieh,C.J.,Wang,X.R.,&Lin,C.J.(2008)。LIBLINEAR:大型线性分类库。机器学习研究杂志,91871-1874·Zbl 1225.68175号
[8] Gao,W.,&Zhou,Z.H.(2013)。关于多标签学习的一致性。人工智能,199-200,22-44·Zbl 1284.68496号 ·doi:10.1016/j.artint.2013.03.001
[9] Hastie,T.、Tibshirani,R.和Friedman,J.H.(2009)。统计学习的要素:数据挖掘、推理和预测。柏林:斯普林格·Zbl 1273.62005年 ·doi:10.1007/978-0-387-84858-7
[10] Jansche,M.(2005)。逻辑回归模型的最大期望F测度训练。HLT/EMNLP 2005(第736-743页)·Zbl 1118.62330号
[11] Jansche,M.(2007)。二进制序列标记的最大期望实用框架。ACL 2007(第736-743页)·Zbl 1319.62041号
[12] Koyejo,O.,Natarajan,N.,Ravikumar,PK.,&Dhillon,IS(2014)。具有广义性能指标的一致二进制分类。在神经信息处理系统(NIPS)中。
[13] Koyejo,O.,Natarajan,N.,Ravikumar,P.,&Dhillon,IS(2015)。一致的多标签分类。在神经信息处理系统(NIPS)中·Zbl 1225.68175号
[14] Lewis,D.(1995)。评估和优化自主文本分类系统。SIGIR 1995(第246-254页)。
[15] Manning,C.D.、Raghavan,P.和Schütze,H.(2008)。信息检索导论。剑桥:剑桥大学出版社·Zbl 1160.68008号 ·doi:10.1017/CBO9780511809071
[16] Menon,A.K.、Narasimhan,H.、Agarwal,S.和Chawla,S.(2013)。类别不平衡下二值分类算法的统计一致性。在国际机器学习会议(ICML)上·Zbl 1284.68496号
[17] Musicant,D.R.、Kumar,V.和Ozgur,A.(2003年)。使用支持向量机优化f度量。在FLAIRS会议上(第356-360页)
[18] Nan,Y.,Chai,K.M.A.,Lee,WS。和Chieu,H.L.(2012)。优化F-measure:一个关于两种方法的故事。在国际机器学习会议(ICML)上·Zbl 1243.68237号
[19] Narasimhan,H.、Vaish,R.和Agarwal,S.(2014)。关于不可分解性能度量插件分类器的统计一致性。在神经信息处理系统(NIPS)中。
[20] Narasimhan,H.、Ramaswamym,H.G.、Saha,A.和Agarwal,S.(2015)。用于复杂性能度量的一致的多类算法。在国际机器学习会议(ICML)上·Zbl 1243.68237号
[21] Parambath,S.P.、Usunier,N.和Grandvalet,Y.(2014年)。通过成本敏感分类优化F指标。在神经信息处理系统(NIPS)中。
[22] Petterson,J.和Caetano,T.S.(2010年)。反向多标签学习。神经信息处理系统进展,241912-1920。
[23] Petterson,J.和Caetano,T.S.(2011年)。子模块多标签学习。神经信息处理系统进展,241512-1520。
[24] Reid,M.D.和Williamson,R.C.(2010年)。复合二进制损失。机器学习研究杂志,11,2387-2422·Zbl 1242.62058号
[25] Reid,M.D.和Williamson,R.C.(2011年)。二进制实验的信息、分歧和风险。机器学习研究杂志,12731-817·Zbl 1280.68192号
[26] Tsochantaridis,I.、Joachims,T.、Hofmann,T.和Altun,Y.(2005)。结构化和相互依赖输出变量的大幅度方法。机器学习研究杂志,61453-1484·兹比尔1222.68321
[27] Waegeman,W.、Dembczyñski,K.、Jachnik,A.、Cheng,W.和Hüllermier,E.(2013)。关于F-测度极大值的Bayes-最优性。机器学习研究杂志,15,3513-3568·Zbl 1311.62011年
[28] Zhao,M.J.、Edakunni,N.、Pocock,A.和Brown,G.(2013)。超越Fano的不平等:最佳F-score、BER和成本敏感风险的界限及其影响。《机器学习研究杂志》,141033-1990·Zbl 1320.62156号
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。