textreuse:检测文本重用和文档相似性

用于测量文档之间的相似性和检测的工具重复使用的通道。实现瓦状n-gram,跳过n-gram,和其他标记器;相似性/差异性函数;成对地比较;minhash和位置敏感哈希算法;和aSmith-Waterman局部对齐算法的版本适用于自然语言。

版本: 0.1.5
取决于: R(≥3.1.1)
进口: 断言(≥ 0.1),消化(≥ 0.6.8),数字播放器(≥ 0.8.0),自然语言处理(≥ 0.1.8),卢比(≥ 0.12.0),Rcpp进度(≥ 0.1),字符串(≥ 1.0.0),易怒的(≥ 3.0.1),第三年(≥ 0.3.1)
链接到: 伯克希尔哈撒韦,卢比,Rcpp进度
建议: 测试那个(≥ 0.11.0),针织物(≥ 1.11),rmarkdown公司(≥ 0.8),覆盖(covr)
出版: 2020-05-15
内政部: 10.32614/CRAN.package.外部
作者: 林肯·马伦ORCID标识[aut,cre]
维护人员: 林肯·马伦(Lincoln Mullen)<Lincoln at lincolnmullen.com>
错误报告: https://github.com/ropensci/textreuse/问题
许可证: 麻省理工学院+文件许可证
网址: https://docs.ropensci.org/textreuse网站,https://github.com/ropensci/textreuse网站
需要编译:
材料: 自述文件 新闻
在视图中: 自然语言处理
CRAN检查: 文本重用结果

文档:

参考手册: 文本重用.pdf
渐晕图: 文本对齐方式
文本重用包简介
Minhash和位置敏感哈希
文档相似性的成对比较

下载内容:

包源: 文本重用-0.1.5.tar.gz
Windows二进制文件: r-devel公司:textreuse_0.1.5.zip,r版本:textreuse_0.1.5.zip,r-oldrel:textreuse_0.1.5.zip
macOS二进制文件: r释放(arm64):文本重用-0.1.5.tgz,r-oldrel(arm64):文本重用-0.1.5.tgz,r-release(x86_64):文本重用-0.1.5.tgz,r-旧版本(x86_64):文本重用-0.1.5.tgz
旧来源: 文本重用存档

反向依赖关系:

反向建议: 文本等级

链接:

请使用规范形式https://CRAN.R-project.org/package=文本重用链接到此页面。