doc2vec:句子、文档和主题的分布式表示
使用“段落向量”算法学习句子、段落或文档的向量表示,即分布式单词包(“PV-DBOW”)和分布式内存(“PV-DM”)模型。Mikolov等人(2014年)的论文“句子和文档的分布式表示”中详细介绍了该软件包中的技术,网址为<arXiv:1405.4053>.该包还提供了一个实现,可以使用名为top2vec的技术基于这些嵌入对文档进行集群。Top2vec通过结合嵌入文档和单词的技术以及基于密度的聚类,在文本文档中查找聚类。它通过将文档嵌入“doc2vec”算法定义的语义空间来实现这一点。接下来它映射这些文档使用“统一流形近似和投影”(UMAP)聚类算法嵌入到低维空间并使用“基于密度的分层聚类”技术(HDBSCAN)在该空间中查找密集区域。这些密集的区域是主题簇,可以由相应的主题向量表示,该主题向量是文档嵌入是该主题簇的一部分的文档。在相同的语义空间中,相似的词可以找出哪些是主题的代表。更多细节可在D.Angelov的论文“Top2Vec:分布式主题表示”中找到,可在<arXiv:2008.09470号>.
文档:
下载内容:
链接:
请使用规范形式https://CRAN.R-project.org/package=doc2vec链接到此页面。