×

盆景:用于极端多标签分类的多样化浅树。 (英语) Zbl 1523.68062号

摘要:极端多标签分类(Extreme multi-label classification,XMC)是指涉及数十万甚至数百万个标签的有监督多标签学习。在本文中,我们开发了一套算法,称为盆景,它概括了XMC中标签表示的概念,并在表示空间中对标签进行分区以学习浅树。我们展示了这个标签表示空间的三种具体实现,包括:(i)由输入特征跨越的输入空间,(ii)基于标签向量与其他标签的共现性,由标签向量跨越的输出空间,以及(iii)通过组合输入和输出表示的联合空间。此外,在这些空间中迭代学习的无约束多路分区会导致浅树。通过结合浅树和广义标签表示的效果,盆景实现了这两个方面的最佳效果:快速训练,这与XMC中最先进的基于树的方法相当,以及更好的预测精度,尤其是在尾标上。在拥有300万个标签的基准Amazon-3M数据集上,盆景在预测准确性方面优于最先进的一对二重测试方法,而训练速度大约快200倍。的代码盆景位于https://github.com/xmc-aalto/bonsai.

MSC公司:

68T05型 人工智能中的学习和自适应系统
62H30型 分类和区分;聚类分析(统计方面)
68T20型 人工智能背景下的问题解决(启发式、搜索策略等)
PDF格式BibTeX公司 XML格式引用

参考文献:

[1] Agrawal,R.、Gupta,A.、Prabhu,Y.和Varma,M.(2013)。数百万标签的多标签学习:为网页推荐广告客户的标语。在万维网会议上。
[2] Babbar,R.和Schölkopf,B.(2017年)。Dismec:用于极端多标签分类的分布式稀疏机器。在网络搜索和数据挖掘国际会议上(第721-729页)。
[3] 巴巴尔,R。;Schölkopf,B.,《数据稀缺性、鲁棒性和极端多标签分类》,机器学习,108,8-9,1329-1351(2019)·Zbl 1493.68291号 ·doi:10.1007/s10994-019-05791-5
[4] Babbar,R.、Partalas,I.、Gaussier,E.和Amini,M.R.(2013年)。关于大规模分类法中的平面分类与层次分类。《神经信息处理系统的进展》(第1824-1832页)。
[5] Babbar,R.、Metzig,C.、Partalas,I.、Gaussier,E.和Amini,M.R.(2014)。关于大规模分类中的幂律分布。在ACM SIGKDD探索通讯中(第47-56页)。
[6] 巴贝尔,R。;帕塔拉斯,I。;Gaussier,E。;阿米尼,MR;Amblard,C.,《大规模分类中的学习分类法适应》,《机器学习研究杂志》,17,1,3350-3386(2016)·兹比尔1367.68218
[7] Bengio,S.、Weston,J.和Grangier,D.(2010年)。大型多类任务的标签嵌入树。神经信息处理系统(第163-171页)。
[8] Bhatia,K.、Jain,H.、Kar,P.、Varma,M.和Jain,P.(2015)。极端多标签分类的稀疏局部嵌入。在神经信息处理系统中。
[9] Bhatia,K.、Dahiya,K.Jain,H.、Prabhu,Y.和Varma,M.(2016)。极端分类存储库:多标签数据集和代码。http://manikvarma.org/downloads/XC/XMLRepository.html。
[10] Deng,J.、Berg,A.C.、Li,K.和Fei-Fei,L.(2010)。对10000多个图像类别进行分类告诉了我们什么?在欧洲计算机视觉会议上。
[11] Denton,E.、Weston,J.、Paluri,M.、Bourdev,L.、Fergus,R.(2015)。图像的用户条件哈希标签预测。在ACM SIGKDD知识发现和数据挖掘国际会议上。
[12] 风机,RE;Chang,千瓦;谢长杰;王,XR;Lin,CJ,Liblinear:大型线性分类库,《机器学习研究杂志》,1871-1874年8月9日(2008)·Zbl 1225.68175号
[13] Fang,H.,Cheng,M.,Hsieh,C.J.,&Friedlander,M.(2019)使用树结构初始化对大规模单反所有线性分类器进行快速训练。2019年SIAM数据挖掘国际会议论文集,SIAM(第280-288页)。
[14] Hsu,D.、Kakade,S.、Langford,J.和Zhang,T.(2009)。通过压缩感知进行多标签预测。神经信息处理系统进展。
[15] Jain,H.、Prabhu,Y.和Varma,M.(2016)。极端的多标签丢失功能,用于推荐、标记、排名和其他缺少标签的应用程序。在ACM SIGKDD关于知识发现和数据挖掘的国际会议上。
[16] Jalan,A.和Kar,P.(2019年)。通过自适应特征聚集加速极端分类。arXiv预打印arXiv:190511769。
[17] Jasinska,K.、Dembczynski,K.和Busa-Fekete,R.、Pfannschmidt,K.,Klerx,T.,&Hüllermier,E.(2016)。使用稀疏概率估计的极端f测度最大化。在机器学习国际会议上。
[18] Joly,A.、Wehenkel,L.和Geurts,P.(2019年)。带有随机输出投影的梯度树增强,用于多标签分类和多输出回归。arXiv预印arXiv:190507558。
[19] Joulin,A.、Grave,E.、Bojanowski,P.和Mikolov,T.(2017)。高效文本分类技巧包。计算语言学协会欧洲分会第15届会议记录(第2卷,第427-431页),短文。
[20] Khandagale,S.,&Babbar,R.(2019)极端分类中数据预处理的简单有效方案。在2019年4月24日至26日于比利时布鲁日举行的第27届欧洲人工神经网络研讨会上,ESANN 2019。
[21] Kim,Y.(2014)。用于句子分类的卷积神经网络。《2014年自然语言处理经验方法会议论文集》(EMNLP)(第1746-1751页)。
[22] Krizhevsky,A.、Sutskever,I.和Hinton,G.E.(2012)。基于深度卷积神经网络的Imagenet分类。神经信息处理系统(第1097-1105页)。
[23] Liang,Y.、Hsieh,C.J.和Lee,T.(2018)。用于极端多标签分类的块分割。arXiv预打印arXiv:181101305。
[24] Lin,Z.、Ding,G.、Hu,M.和Wang,J.(2014)。通过特征软件隐式标签空间编码实现多标签分类。在机器学习国际会议上(第325-333页)。
[25] Liu,J.,Chang,W.C.,Wu,Y.,&Yang,Y.(2017)。深度学习极端多标签文本分类。在SIGIR中,ACM(第115-124页)。
[26] Lloyd,S.,PCM中的最小二乘量化,IEEE信息理论汇刊,28,2,129-137(1982)·Zbl 0504.94015号 ·doi:10.1109/TIT.1982.1056489
[27] Madjarov,G。;科切夫,D。;Gjorgjevikj,D。;Díeroski,S.,《多标签学习方法的广泛实验比较》,模式识别,45,9,3084-3104(2012)·doi:10.1016/j.patcog.2012.03.004
[28] Majzoubi,M.和Choromanska,A.(2019年)。对数深度流多标签决策树。arXiv预打印arXiv:190510428。
[29] McAuley,J.和Leskovec,J.(2013)。隐藏因素和隐藏主题:通过回顾文本了解评级维度。在RecSys中,ACM(第165-172页)。
[30] Mikolov,T.、Sutskever,I.、Chen,K.、Corrado,G.S.和Dean,J.(2013)。单词和短语的分布式表示及其组成。神经信息处理系统(第3111-3119页)。
[31] Partalas,I.、Kosmopoulos,A.、Baskiotis,N.、Artieres,T.、Paliouras,G.、Gaussier,E.、Androutsopoulos,I.,Amini,M.R.和Galinari,P(2015)。Lshtc:大规模文本分类的基准。arXiv预印本arXiv:150308581。
[32] Prabhu,Y.和Varma,M.(2014)。Fastxml:用于极端多标签学习的快速、准确和稳定的树分类器。在ACM SIGKDD知识发现和数据挖掘国际会议上,ACM(第263-272页)。
[33] Prabhu,Y.、Kag,A.、Harsola,S.、Agrawal,R.和Varma,M.(2018年)。Parabel:用于极端分类的分区标签树,应用于动态搜索广告。《2018年万维网会议论文集》(第993-1002页)。
[34] Read,J.、Pfahringer,B.和Holmes,G.(2008)。使用剪枝集集合的多标签分类。在第八届IEEE数据挖掘国际会议上,IEEE(第995-1000页)。
[35] Shen,D.、Ruvini,J.D.、Somaiya,M.和Sundaresan,N.(2011年)。电子商务领域中的项目分类。《第20届ACM信息和知识管理国际会议论文集》,ACM(第1921-1924页)。
[36] Si,S.,Zhang,H.,Keerthi,S.S.,Mahajan,D.,Dhillon,I.S.,&Hsieh,C.J.(2017)。梯度增强决策树用于高维稀疏输出。在机器学习国际会议上。
[37] Tagami,Y.(2017)。附录ml:极端多标签分类的近似最近邻搜索。在ACM SIGKDD知识发现和数据挖掘国际会议上,ACM,IEEE。
[38] Tai,F。;Lin,HT,带主标签空间变换的多标签分类,神经计算,24,9,2508-2542(2012)·Zbl 1269.68084号 ·doi:10.1162/NECO_a_00320
[39] Tsoumakas,G。;Katakis,I.,《多标签分类:概述》,《国际数据仓库与挖掘杂志》(IJDWM),3,3,1-13(2007)·doi:10.4018/jdwm.2007070101
[40] Tsoumakas,G.、Katakis,I.和Vlahavas,I..(2008年)。在具有大量标签的域中进行高效的多标签分类。摘自:ECML/PKDD 2008多维数据挖掘研讨会论文集(MMD08)·Zbl 1132.68603号
[41] 文斯,C。;斯特鲁伊夫,J。;Schietgat,L。;季洛斯基,S。;Blockeel,H.,分层多标签分类的决策树,机器学习,73,2,185(2008)·Zbl 1470.62098号 ·doi:10.1007/s10994-008-5077-3
[42] Wei,T.,&Li,Y.F.(2018)。尾部标签是否有助于大规模多标签学习。《第27届国际人工智能联合会议论文集》(第2847-2853页),AAAI出版社。
[43] Weston,J.、Bengio,S.和Usunier,N.(2011年)。Wsabie:扩展到大词汇图像注释。在IJCAI。
[44] Wydmuch,M.、Jasinska,K.、Kuznetsov,M.,Busa-Fekete,R.和Dembczynski,K.(2018年)。分层softmax到极端多标签分类的一种无梯度泛化。《神经信息处理系统进展》(第6355-6366页)。
[45] Xu,C.、Tao,D.和Xu,C.(2016a)。强大的极端多标签学习。在ACM SIGKDD知识发现和数据挖掘国际会议的会议记录中。
[46] Xu,C.、Tao,D.和Xu,C..(2016b)。强大的极端多标签学习。在ACM SIGKDD关于知识发现和数据挖掘的国际会议上,ACM(第1275-1284页)。
[47] Yen,I.E.、Huang,X.、Dai,W.、Ravikumar,P.、Dhillon,I.和Xing,E.(2017)。Ppdsparse:用于极端分类的并行原始-对偶稀疏方法。在第23届ACM SIGKDD知识发现和数据挖掘国际会议的会议记录中,ACM(第545-553页)。
[48] Yen,I.E.H.,Huang,X.,Ravikumar,P.,Zhong,K.,&Dhillon,I.(2016)。Pd-sparse:一种用于极端多类和多标签分类的原始和双重稀疏方法。在机器学习国际会议上(第3069-3077页)。
[49] Yu,H.F.、Jain,P.、Kar,P.和Dhillon,I.(2014)《缺少标签的大规模多标签学习》。在机器学习国际会议上(第593-601页)。
[50] 张,ML;李,YK;刘,XY;Geng,X.,《多标签学习的二进制相关性:综述》,《计算机科学前沿》,第12、2、191-202页(2018年)·doi:10.1007/s11704-017-7031-7
此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配,可能包含数据转换错误。在某些情况下,zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献,而不要求完整或完全匹配。