textTinyR:小型或大型数据文件的文本处理
它提供了拆分、解析、标记化和创建大文本数据文件词汇表的功能。此外,它还包括构建文档-术语矩阵和从中提取信息的功能(术语关联,最常见的术语)。它还包含用于计算令牌统计的函数(搭配、查找表、字符串相异性)和用于处理稀疏矩阵的函数。最后,它包括用于单词向量表示的函数(即“Globe”、“fasttext”),并包含用于计算(成对)文本文档差异的函数。源代码基于“C++11”,并通过“Rcpp”、“RcppArmadillo”和“BH”包以R格式导出。
文档:
下载内容:
反向依赖关系:
链接:
请使用规范形式https://CRAN.R-project.org/package=textTinyR链接到此页面。