文件Zbl 1523.68062-zbMATH Open

盆景：用于极端多标签分类的多样化浅树。（英语） Zbl 1523.68062号

机器。学习。 109，编号11，2099-2119（2020）.

摘要：极端多标签分类（Extreme multi-label classification，XMC）是指涉及数十万甚至数百万个标签的有监督多标签学习。在本文中，我们开发了一套算法，称为盆景，它概括了XMC中标签表示的概念，并在表示空间中对标签进行分区以学习浅树。我们展示了这个标签表示空间的三种具体实现，包括：（i）由输入特征跨越的输入空间，（ii）基于标签向量与其他标签的共现性，由标签向量跨越的输出空间，以及（iii）通过组合输入和输出表示的联合空间。此外，在这些空间中迭代学习的无约束多路分区会导致浅树。通过结合浅树和广义标签表示的效果，盆景实现了这两个方面的最佳效果：快速训练，这与XMC中最先进的基于树的方法相当，以及更好的预测精度，尤其是在尾标上。在拥有300万个标签的基准Amazon-3M数据集上，盆景在预测准确性方面优于最先进的一对二重测试方法，而训练速度大约快200倍。的代码盆景位于https://github.com/xmc-aalto/bonsai.

引用于2文件

MSC公司：

68T05型	人工智能中的学习和自适应系统
62H30型	分类和区分；聚类分析（统计方面）
68T20型	人工智能背景下的问题解决（启发式、搜索策略等）

关键词：

大规模多标签分类；极端多标签分类；大标签空间

软件：

ImageNet公司；DiSMEC公司；附录ML；WSABIE公司；AlexNet公司；github；快速XML；单词2vec；LIBLINEAR银行

PDF格式 BibTeX公司 XML格式引用

全文：内政部 arXiv公司

参考文献：

[1]	Agrawal，R.、Gupta，A.、Prabhu，Y.和Varma，M.（2013）。数百万标签的多标签学习：为网页推荐广告客户的标语。在万维网会议上。
[2]	Babbar，R.和Schölkopf，B.（2017年）。Dismec：用于极端多标签分类的分布式稀疏机器。在网络搜索和数据挖掘国际会议上（第721-729页）。
[3]	巴巴尔，R。；Schölkopf，B.，《数据稀缺性、鲁棒性和极端多标签分类》，机器学习，108，8-9，1329-1351（2019）·Zbl 1493.68291号 ·doi:10.1007/s10994-019-05791-5
[4]	Babbar，R.、Partalas，I.、Gaussier，E.和Amini，M.R.（2013年）。关于大规模分类法中的平面分类与层次分类。《神经信息处理系统的进展》（第1824-1832页）。
[5]	Babbar，R.、Metzig，C.、Partalas，I.、Gaussier，E.和Amini，M.R.（2014）。关于大规模分类中的幂律分布。在ACM SIGKDD探索通讯中（第47-56页）。
[6]	巴贝尔，R。；帕塔拉斯，I。；Gaussier，E。；阿米尼，MR；Amblard，C.，《大规模分类中的学习分类法适应》，《机器学习研究杂志》，17，1，3350-3386（2016）·兹比尔1367.68218
[7]	Bengio，S.、Weston，J.和Grangier，D.（2010年）。大型多类任务的标签嵌入树。神经信息处理系统（第163-171页）。
[8]	Bhatia，K.、Jain，H.、Kar，P.、Varma，M.和Jain，P.（2015）。极端多标签分类的稀疏局部嵌入。在神经信息处理系统中。
[9]	Bhatia，K.、Dahiya，K.Jain，H.、Prabhu，Y.和Varma，M.（2016）。极端分类存储库：多标签数据集和代码。http://manikvarma.org/downloads/XC/XMLRepository.html。
[10]	Deng，J.、Berg，A.C.、Li，K.和Fei-Fei，L.（2010）。对10000多个图像类别进行分类告诉了我们什么？在欧洲计算机视觉会议上。
[11]	Denton，E.、Weston，J.、Paluri，M.、Bourdev，L.、Fergus，R.（2015）。图像的用户条件哈希标签预测。在ACM SIGKDD知识发现和数据挖掘国际会议上。
[12]	风机，RE；Chang，千瓦；谢长杰；王，XR；Lin，CJ，Liblinear:大型线性分类库，《机器学习研究杂志》，1871-1874年8月9日（2008）·Zbl 1225.68175号
[13]	Fang，H.，Cheng，M.，Hsieh，C.J.，&Friedlander，M.（2019）使用树结构初始化对大规模单反所有线性分类器进行快速训练。2019年SIAM数据挖掘国际会议论文集，SIAM（第280-288页）。
[14]	Hsu，D.、Kakade，S.、Langford，J.和Zhang，T.（2009）。通过压缩感知进行多标签预测。神经信息处理系统进展。
[15]	Jain，H.、Prabhu，Y.和Varma，M.（2016）。极端的多标签丢失功能，用于推荐、标记、排名和其他缺少标签的应用程序。在ACM SIGKDD关于知识发现和数据挖掘的国际会议上。
[16]	Jalan，A.和Kar，P.（2019年）。通过自适应特征聚集加速极端分类。arXiv预打印arXiv:190511769。
[17]	Jasinska，K.、Dembczynski，K.和Busa-Fekete，R.、Pfannschmidt，K.，Klerx，T.，&Hüllermier，E.（2016）。使用稀疏概率估计的极端f测度最大化。在机器学习国际会议上。
[18]	Joly，A.、Wehenkel，L.和Geurts，P.（2019年）。带有随机输出投影的梯度树增强，用于多标签分类和多输出回归。arXiv预印arXiv:190507558。
[19]	Joulin，A.、Grave，E.、Bojanowski，P.和Mikolov，T.（2017）。高效文本分类技巧包。计算语言学协会欧洲分会第15届会议记录（第2卷，第427-431页），短文。
[20]	Khandagale，S.，&Babbar，R.（2019）极端分类中数据预处理的简单有效方案。在2019年4月24日至26日于比利时布鲁日举行的第27届欧洲人工神经网络研讨会上，ESANN 2019。
[21]	Kim，Y.（2014）。用于句子分类的卷积神经网络。《2014年自然语言处理经验方法会议论文集》（EMNLP）（第1746-1751页）。
[22]	Krizhevsky，A.、Sutskever，I.和Hinton，G.E.（2012）。基于深度卷积神经网络的Imagenet分类。神经信息处理系统（第1097-1105页）。
[23]	Liang，Y.、Hsieh，C.J.和Lee，T.（2018）。用于极端多标签分类的块分割。arXiv预打印arXiv:181101305。
[24]	Lin，Z.、Ding，G.、Hu，M.和Wang，J.（2014）。通过特征软件隐式标签空间编码实现多标签分类。在机器学习国际会议上（第325-333页）。
[25]	Liu，J.，Chang，W.C.，Wu，Y.，&Yang，Y.（2017）。深度学习极端多标签文本分类。在SIGIR中，ACM（第115-124页）。
[26]	Lloyd，S.，PCM中的最小二乘量化，IEEE信息理论汇刊，28，2，129-137（1982）·Zbl 0504.94015号 ·doi:10.1109/TIT.1982.1056489
[27]	Madjarov，G。；科切夫，D。；Gjorgjevikj，D。；Díeroski，S.，《多标签学习方法的广泛实验比较》，模式识别，45，9，3084-3104（2012）·doi:10.1016/j.patcog.2012.03.004
[28]	Majzoubi，M.和Choromanska，A.（2019年）。对数深度流多标签决策树。arXiv预打印arXiv:190510428。
[29]	McAuley，J.和Leskovec，J.（2013）。隐藏因素和隐藏主题：通过回顾文本了解评级维度。在RecSys中，ACM（第165-172页）。
[30]	Mikolov，T.、Sutskever，I.、Chen，K.、Corrado，G.S.和Dean，J.（2013）。单词和短语的分布式表示及其组成。神经信息处理系统（第3111-3119页）。
[31]	Partalas，I.、Kosmopoulos，A.、Baskiotis，N.、Artieres，T.、Paliouras，G.、Gaussier，E.、Androutsopoulos，I.，Amini，M.R.和Galinari，P（2015）。Lshtc：大规模文本分类的基准。arXiv预印本arXiv:150308581。
[32]	Prabhu，Y.和Varma，M.（2014）。Fastxml：用于极端多标签学习的快速、准确和稳定的树分类器。在ACM SIGKDD知识发现和数据挖掘国际会议上，ACM（第263-272页）。
[33]	Prabhu，Y.、Kag，A.、Harsola，S.、Agrawal，R.和Varma，M.（2018年）。Parabel：用于极端分类的分区标签树，应用于动态搜索广告。《2018年万维网会议论文集》（第993-1002页）。
[34]	Read，J.、Pfahringer，B.和Holmes，G.（2008）。使用剪枝集集合的多标签分类。在第八届IEEE数据挖掘国际会议上，IEEE（第995-1000页）。
[35]	Shen，D.、Ruvini，J.D.、Somaiya，M.和Sundaresan，N.（2011年）。电子商务领域中的项目分类。《第20届ACM信息和知识管理国际会议论文集》，ACM（第1921-1924页）。
[36]	Si，S.，Zhang，H.，Keerthi，S.S.，Mahajan，D.，Dhillon，I.S.，&Hsieh，C.J.（2017）。梯度增强决策树用于高维稀疏输出。在机器学习国际会议上。
[37]	Tagami，Y.（2017）。附录ml：极端多标签分类的近似最近邻搜索。在ACM SIGKDD知识发现和数据挖掘国际会议上，ACM，IEEE。
[38]	Tai，F。；Lin，HT，带主标签空间变换的多标签分类，神经计算，24，9，2508-2542（2012）·Zbl 1269.68084号 ·doi:10.1162/NECO_a_00320
[39]	Tsoumakas，G。；Katakis，I.，《多标签分类：概述》，《国际数据仓库与挖掘杂志》（IJDWM），3，3，1-13（2007）·doi:10.4018/jdwm.2007070101
[40]	Tsoumakas，G.、Katakis，I.和Vlahavas，I..（2008年）。在具有大量标签的域中进行高效的多标签分类。摘自：ECML/PKDD 2008多维数据挖掘研讨会论文集（MMD08）·Zbl 1132.68603号
[41]	文斯，C。；斯特鲁伊夫，J。；Schietgat，L。；季洛斯基，S。；Blockeel，H.，分层多标签分类的决策树，机器学习，73，2，185（2008）·Zbl 1470.62098号 ·doi:10.1007/s10994-008-5077-3
[42]	Wei，T.，&Li，Y.F.（2018）。尾部标签是否有助于大规模多标签学习。《第27届国际人工智能联合会议论文集》（第2847-2853页），AAAI出版社。
[43]	Weston，J.、Bengio，S.和Usunier，N.（2011年）。Wsabie：扩展到大词汇图像注释。在IJCAI。
[44]	Wydmuch，M.、Jasinska，K.、Kuznetsov，M.，Busa-Fekete，R.和Dembczynski，K.（2018年）。分层softmax到极端多标签分类的一种无梯度泛化。《神经信息处理系统进展》（第6355-6366页）。
[45]	Xu，C.、Tao，D.和Xu，C.（2016a）。强大的极端多标签学习。在ACM SIGKDD知识发现和数据挖掘国际会议的会议记录中。
[46]	Xu，C.、Tao，D.和Xu，C..（2016b）。强大的极端多标签学习。在ACM SIGKDD关于知识发现和数据挖掘的国际会议上，ACM（第1275-1284页）。
[47]	Yen，I.E.、Huang，X.、Dai，W.、Ravikumar，P.、Dhillon，I.和Xing，E.（2017）。Ppdsparse：用于极端分类的并行原始-对偶稀疏方法。在第23届ACM SIGKDD知识发现和数据挖掘国际会议的会议记录中，ACM（第545-553页）。
[48]	Yen，I.E.H.，Huang，X.，Ravikumar，P.，Zhong，K.，&Dhillon，I.（2016）。Pd-sparse：一种用于极端多类和多标签分类的原始和双重稀疏方法。在机器学习国际会议上（第3069-3077页）。
[49]	Yu，H.F.、Jain，P.、Kar，P.和Dhillon，I.（2014）《缺少标签的大规模多标签学习》。在机器学习国际会议上（第593-601页）。
[50]	张，ML；李，YK；刘，XY；Geng，X.，《多标签学习的二进制相关性：综述》，《计算机科学前沿》，第12、2、191-202页（2018年）·doi:10.1007/s11704-017-7031-7

此参考列表基于出版商或数字数学图书馆提供的信息。其项与zbMATH标识符进行启发式匹配，可能包含数据转换错误。在某些情况下，zbMATH Open的数据对这些数据进行了补充/增强。这试图尽可能准确地反映原始论文中列出的参考文献，而不要求完整或完全匹配。

任何	在任何地方
一个	内部文档标识符
澳大利亚	作者、编辑
人工智能	内部作者标识符
钛	标题
洛杉矶	语言
所以	来源
实验室	回顾，摘要
第页	出版年份
车辆	评审员
复写的副本	MSC代码
美国犹他州	关键字
日期	文档类型(j个：期刊文章；b条：book；一：图书文章）

一&b条	逻辑和
一\|b条	逻辑或
!实验室	逻辑不
美国广播公司*	右通配符
"ab c公司"	短语
(ab c公司)	圆括号

示例

领域

操作员

盆景：用于极端多标签分类的多样化浅树。（英语） Zbl 1523.68062号

MSC公司：

关键词：

软件：

参考文献：

示例

领域

操作员

盆景：用于极端多标签分类的多样化浅树。 （英语） Zbl 1523.68062号

MSC公司：

关键词：

软件：

参考文献：

盆景：用于极端多标签分类的多样化浅树。（英语） Zbl 1523.68062号