doc2vec:句子、文档和主题的分布式表示

使用“段落向量”算法学习句子、段落或文档的向量表示,即分布式单词包(“PV-DBOW”)和分布式内存(“PV-DM”)模型。Mikolov等人(2014年)的论文“句子和文档的分布式表示”中详细介绍了该软件包中的技术,网址为<arXiv:1405.4053>.该包还提供了一个实现,可以使用名为top2vec的技术基于这些嵌入对文档进行集群。Top2vec通过结合嵌入文档和单词的技术以及基于密度的聚类,在文本文档中查找聚类。它通过将文档嵌入“doc2vec”算法定义的语义空间来实现这一点。接下来它映射这些文档使用“统一流形近似和投影”(UMAP)聚类算法嵌入到低维空间并使用“基于密度的分层聚类”技术(HDBSCAN)在该空间中查找密集区域。这些密集的区域是主题簇,可以由相应的主题向量表示,该主题向量是文档嵌入是该主题簇的一部分的文档。在相同的语义空间中,相似的词可以找出哪些是主题的代表。更多细节可在D.Angelov的论文“Top2Vec:分布式主题表示”中找到,可在<arXiv:2008.09470号>.

版本: 0.2.0
取决于: R(≥2.10)
进口: 卢比(≥0.11.5),统计,实用程序
链接到: 卢比
建议: 标记器.bpe,单词2vec(≥ 0.3.3),超高速,聚类算法,udpipe(udpipe)(≥0.8)
出版: 2021-03-28
作者: Jan Wijffels[aut,cre,cph](R包装器),BNOSAC[cph](R包装器),hiyijian[ctb,cph](src/doc2vec中的代码)
维护人员: Jan Wijffels<bnosac.be的jwijffels>
许可证: 麻省理工学院+文件许可证
网址: https://github.com/bnosac/doc2vec
需要编译:
材料: 自述文件 新闻
CRAN检查: doc2vec结果

文档:

参考手册: 文档2vec.pdf

下载内容:

包源: 文档2vec_0.2.0.tar.gz
Windows二进制文件: r-devel公司:doc2vec_0.2..0.zip文件,r版本:doc2vec_0.2..0.zip文件,r-oldrel:doc2vec_0.2..0.zip文件
macOS二进制文件: r释放(arm64):文档2vec-0.2.0.tgz,r-oldrel(arm64):文档2vec-0.2.0.tgz,r-版本(x86_64):文档2vec-0.2.0.tgz
旧来源: doc2vec存档

链接:

请使用规范形式https://CRAN.R-project.org/package=doc2vec链接到此页面。