S公司摘要

关键词和短语的自动标注在文档的多标签分类中非常重要。在本文中,我们首先引入了一种标记损失来衡量预测标签集和实际标签集之间的差异,这种差异用两个标签之间的加权成对裕度之和来表示,即它们的相似程度。然后,我们构造一个正则化的经验损失来合并语言知识,并识别一个标记器,最大化两两边缘之间的分隔。该方法的一个显著特点是,它能够通过使用与现有标签的相似性来识别训练样本中缺少的新标签。在计算上,该方法通过交替方向乘法器方法实现,并与差分凸算法相结合。这允许可伸缩的计算。我们表明,该方法实现了准确的标记,并且与现有方法相比具有优势。最后,我们将该方法应用于路透社新闻数据集的标记。

您当前没有访问此文章的权限。