梅尔达

Medlda:最大边际监督主题模型。有监督的主题模型可以使用诸如与文档或图像相关联的分级或标签之类的辅助信息来发现数据的更具预测性的低维主题表示。然而,现有的有监督主题模型主要采用似然驱动的目标函数进行学习和推理,使得目前流行的、潜在的强大的最大边缘原则(max-margin)在寻找数据的预测性表示和语料库更具区分性的主题基础方面没有得到充分利用。在本文中,我们提出了最大熵判别潜在Dirichlet分配(MedLDA)模型,该模型在统一的约束优化框架下,将最大利润预测模型(如SVM)的机制与分层贝叶斯主题模型(LDA)的机制相结合,并产生更具区分性的潜在主题表征,更适合于文档分类或回归等预测任务。MedLDA形式主义的基本原理是非常普遍的,并且可以应用于在监督旁侧信息可用的情况下,对有向或无向主题模型的联合最大利润和最大似然学习。导出了有效的后验推理和参数估计的变分方法,并对几个实际数据集进行了广泛的实证研究。我们的实验结果从定性和定量上证明了MedLDA能够:1)发现稀疏且高度区分的主题表征;2) 实现最先进的预测性能;(3)比现有的监督主题模型更有效,尤其是在分类方面。