×

部分弃权的多标签分类:标签独立下的贝叶斯最优预测。 (英语) Zbl 1522.68476号

摘要:与传统(单标签)分类不同多标签分类(MLC)允许一个实例同时属于多个类。因此,预测不是选择单个类标签,而是采用所有标签的子集的形式。在本文中,我们研究了MLC设置的一种扩展,在MLC设置中,允许学习者部分放弃预测,即对一些但不一定是所有的类标签进行预测。在不确定的情况下,如果学习者对整个标签集没有足够的信心,则此选项非常有用。采用决策论的观点,我们提出了一个具有部分弃权的MLC的形式化框架,该框架建立在两个主要构建块上:第一,扩展潜在的MLC损失函数,以便以适当的方式容纳弃权,第二,优化预测问题,即:,找到贝叶斯最优预测,将这种广义期望损失最小化。众所周知,不同的(广义)损失函数可能具有不同的风险最小化预测,而寻找贝叶斯预测器通常归结为解决计算复杂性优化问题。在最一般的情况下,给定可能标签的(条件)联合分布的预测,需要在类标签数量呈指数的多个候选上找到预期损失的最小值。我们详细阐述了几种常用(广义)MLC损失函数的风险最小化器的特性,表明它们具有特定的结构,并利用这种结构设计计算Bayes预测的有效方法。实验表明,在允许弃权的情况下,部分弃权的MLC在减少损失方面是有效的。

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)

关键词:

机器学习不确定性

软件:

MULAN公司
PDF格式BibTeX公司 XML格式引用
全文: 内政部

参考文献:

[1] Antonucci,A.和Corani,G.(2017年)。多标签朴素信条分类器。国际近似推理杂志,83:320-336·Zbl 1404.68090号
[2] Bartlett,P.L.和Wegkamp,M.H.(2008)。使用铰链损失的拒绝选项进行分类。机器学习研究杂志,9(8月):1823-1840·兹比尔1225.62080
[3] Boutel,M.R.、Luo,J.、Shen,X.和Brown,C.M.(2004)。学习多标签场景分类。模式识别,37(9):1757-1771。
[4] Chai,K.M.A.(2005)。f测度的期望:可追踪的精确计算及其性质的一些经验观察。第28届ACM SIGIR信息检索研究与开发国际年会(SIGIR)会议记录,第593-594页。ACM公司。
[5] Cheng,W.、Hüllermier,E.、Waegeman,W.和Welker,V.(2012)。基于阈值概率模型的部分弃权标签排序。第26届神经信息处理系统年会论文集,第2501-2509页。
[6] Cheng,W.、Rademaker,M.、De Baets,B.和Hüllermier,E.(2010年)。预测部分顺序:以弃权排名。2010年欧洲数据库机器学习和知识发现会议论文集:第一部分(ECML/PKDD),第215-230页。斯普林格·弗拉格。
[7] Chow,C.(1970年)。关于最佳识别错误和拒绝权衡。IEEE信息理论汇刊,16(1):41-46·Zbl 0185.47804号
[8] Cortes,C.、DeSalvo,G.和Mohri,M.(2016)。在拒绝中学习。第27届国际算法学习理论会议(ALT)论文集,第67-82页。斯普林格·弗拉格·Zbl 1478.68282号
[9] Decubber,S.、Mortier,T.、Dembczy nnski,K.和Waegeman,W.(2018年)。多标签分类中的深度f测度最大化:一项比较研究。《欧洲数据库机器学习和知识发现联合会议论文集》(ECML-PKDD),第290-305页。斯普林格。
[10] Dembczyñski,K.、Waegeman,W.、Cheng,W.和Hüllermier,E.(2012年)。多标签分类中的标签依赖和损失最小化。机器学习,88(1-2):5-45·Zbl 1243.68237号
[11] Destercke,S.(2015)。具有概率集的多标签预测:汉明和排名损失案例。模式识别,48(11):3757-3765·Zbl 1395.62291号
[12] Elisseeff,A.和Weston,J.(2001年)。一种多标记分类的核方法。《第14届神经信息处理系统国际会议论文集》,第681-687页。麻省理工学院出版社。
[13] Fan,R.-E.和Lin,C.-J.(2007)。多标签分类的阈值选择研究。
[14] Franc,V.和Prusa,D.(2019年)。关于预测不确定性的判别学习。第36届国际机器学习会议(ICML)论文集,1963-1971页。
[15] Grandvalet,Y.、Rakotomamonjy,A.、Keshet,J.和Canu,S.(2008年)。支持带有拒绝选项的向量机。《第21届神经信息处理系统国际会议论文集》,第537-544页。Curran Associates公司。
[16] Hayes,P.J.和Weinstein,S.P.(1990)。Construe/tis:新闻故事数据库的基于内容的索引系统。《第二届人工智能创新应用会议论文集》,第49-64页。AAAI出版社。
[17] Hellman,M.E.(1970年)。具有拒绝选项的最近邻分类规则。IEEE系统科学与控制论汇刊,6(3):179-185·Zbl 0204.52201号
[18] Jansche,M.(2007)。二进制序列标记的最大期望效用框架。《计算语言学协会第45届年会论文集》,第736-743页。
[19] Jasinska,K.、Dembczyñski,K.,Busa-Fekete,R.、Klerx,T.和Hüllermier,E.(2016)。使用稀疏概率估计的极值F度量最大化。第33届国际机器学习会议(ICML)论文集,第1435-1444页。
[20] Lewis,D.D.(1992)。文本分类任务中短语和聚类表示的评估。第15届国际ACM SIGIR信息检索研究与开发会议(SIGIR)论文集,第37-50页。ACM公司。
[21] Lewis,D.D.(1995)。评估和优化自主文本分类系统。第18届ACM SIGIR国际信息检索研究与开发会议(SIGIR)论文集,第246-254页。ACM公司。
[22] Lin,H.-T.,Lin,C.-J.和Weng,R.C.(2007)。关于支持向量机的platt概率输出的注释。机器学习,68(3):267-276·Zbl 1471.68220号
[23] Luque,A.、Carrasco,A.、Martín,A.和de las Heras,A.(2019a)。基于二进制混淆矩阵的分类性能度量中类不平衡的影响。模式识别,91:216-231。
[24] Luque,A.、Carrasco,A.、Martín,A.和Lama,J.(2019b)。探索二进制分类性能度量的对称性。对称性,11(1):47·Zbl 1423.68383号
[25] Nguyen,V.-L.、Destercke,S.、Masson,M.-H.和Hüllermeier,E.(2018)。基于两两认知和任意不确定性的可靠多类分类。第27届国际人工智能联合会议(IJCAI)会议记录,第5089-5095页。
[26] Nguyen,V.-L.和Hüllermier,E.(2020年)。可靠的多标签分类:预测部分弃权。第三十四届AAAI人工智能会议(AAAI)论文集,第5264-5271页。AAAI公司。
[27] Nguyen,V.-L.,Hüllermier,E.,Rapp,M.,Mencía,E.L.和Fürnkranz,J.(2020年)。关于多标签分类器集合中的聚集。第23届发现科学国际会议(DS)论文集,第533-547页。斯普林格。
[28] Park,L.A.和Simoff,S.(2015年)。使用熵作为多标签分类接受度的度量。第14届智能数据分析国际研讨会(IDA)论文集,第217-228页。斯普林格。
[29] Pillai,I.、Fumera,G.和Roli,F.(2013年)。带有拒绝选项的多标签分类。模式识别,46(8):2256-2266。
[30] Pillai,I.、Fumera,G.和Roli,F.(2017年)。设计最大化f度量的多标签分类器:最新技术。模式识别,61:394-404·Zbl 1428.68144号
[31] Platt,J.C.(1999)。支持向量机的概率输出以及与正则化似然方法的比较。《大额利润分类器的进展》,第1-11页。
[32] Powers,D.(2011年)。评价:从预测性、回忆性和f因子到roc、信息性、标记性和相关性。机器学习技术杂志,2(1):37-63。
[33] Quevedo,J.R.、Luaces,O.和Bahamonde,A.(2012年)。具有概率阈值策略的多标签分类器。模式识别,45(2):876-883·Zbl 1225.68207号
[34] Read,J.、Pfahringer,B.、Holmes,G.和Frank,E.(2011年)。多标签分类的分类器链。机器学习,85(3):333。
[35] Read,J.、Pfahringer,B.、Holmes,G.和Frank,E.(2021)。分类器链:回顾与展望。《人工智能研究杂志》,70:683-718·Zbl 1512.68287号
[36] Trohdis,K.(2008)。将音乐分为情感的多标签分类。第九届国际音乐信息检索会议(ISMIR)论文集,第325-330页。
[37] Tsoumakas,G.、Katakis,I.和Vlahavas,I..(2009年)。挖掘多标签数据。《数据挖掘和知识发现手册》,第667-685页。斯普林格。
[38] Waegeman,W.、Dembczyáki,K.、Jachnik,A.、Cheng,W.和Hüllermier,E.(2014)。关于f-测度极大值的贝叶斯最优性。机器学习研究杂志,15(1):3333-3388。
[39] Yang,G.、Destercke,S.和Masson,M.-H.(2014)。多类分类的概率集嵌套二分法。《第二十届欧洲人工智能会议(ECAI)论文集》,第363-368页·Zbl 1366.68249号
[40] Ye,N.、Chai,K.M.A.、Lee,W.S.和Chieu,H.L.(2012年)。优化f度量:两种方法的故事。《第29届国际机器学习会议论文集》,第1555-1562页。全能女。
[41] Zhang,M.-L.和Zhou,Z.-H.(2006)。多标签神经网络在功能基因组学和文本分类中的应用。IEEE知识与数据工程学报,18(10):1338-1351。
[42] Zhang,M.-L.和Zhou,Z.-H.(2014)。多标签学习算法综述。IEEE知识与数据工程汇刊,26(8):1819-1837
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。