×

DiSMEC公司

swMATH ID: 30154
软件作者: 巴巴尔,R。;Schölkopf,B。
描述: DiSMEC-用于极端多标签分类的分布式稀疏机器。极端多标签分类是指涉及数十万甚至数百万标签的有监督多标签学习。极端分类中的数据集显示出符合幂律分布,即大部分标签在数据分布中很少有正面实例。最先进的极端多标签分类方法试图通过将标签矩阵嵌入低维线性子空间来捕获标签之间的相关性。然而,在幂律分布的超大且多样的标签空间存在的情况下,低秩等结构假设很容易被违反。在这项工作中,我们提出了DiSMEC,这是一个大规模分布式框架,用于学习一对多线性分类器,并结合显式容量控制来控制模型大小。与大多数最先进的方法不同,DiSMEC不会对标签矩阵进行任何低秩假设。使用双层并行化,DiSMEC可以在几个小时内学习包含数十万个标签的数据集的分类器。显式容量控制机制过滤掉虚假参数,使模型在不损失预测精度的情况下保持尺寸紧凑。我们对包含多达670000个标签的公开可用真实世界数据集进行了广泛的实证评估。我们将DiSMEC与最近最先进的方法进行了比较,包括-SLEEC(学习稀疏局部嵌入的领先方法)和FastXML(基于树的方法,优化基于排名的损失函数)。在一些数据集上,DiSMEC可以显著提高预测精度-10
主页: https://sites.google.com/site/rohitbabbar/dismec网站
相关软件: LIBLINEAR银行单词2vec快速XML附录MLWSABIE公司XLNet公司伯特工艺品ML-KNN公司PyTorch公司PASCAL挥发性有机化合物阿洛伊加州理工大学-256MNIST公司AlexNet公司githubImageNet公司
引用于: 6文件

2篇连载文章中引用

5 机器学习
1 数据挖掘与知识发现

按年份列出的引文