托皮克林

TopicRNN:一个具有长程语义依赖的递归神经网络。本文提出了一种基于递归神经网络(RNN)的语言模型TopicRNN,该模型旨在通过潜在主题直接捕获文档中与全局语义相关的单词。由于其序列特性,rnn善于捕捉单词序列的局部结构-包括语义和句法-但可能面临记忆长期依赖关系的困难。从直觉上看,这些是语义上的长期依赖。相比之下,潜在主题模型能够捕获文档的全局底层语义结构,但不考虑单词排序。提出的TopicRNN模型综合了RNN和潜在主题模型的优点:它使用RNN捕捉局部(语法)依赖,使用潜在主题捕获全局(语义)依赖。与以前的上下文RNN语言建模不同,我们的模型是端到端学习的。词汇预测的实证结果表明,TopicRNN优于现有的上下文RNN基线。另外,TopicRNN还可以作为文档的无监督特征抽取器。我们在IMDB电影评论数据集上进行情感分析,结果显示错误率为6.28%。这与采用半监督方法得出的最先进的5.91%相当。最后,TopicRNN还产生了一些合理的主题,使之成为潜在Dirichlet分配等文档模型的一个有用的替代方案。