在R中提供文本分析,重点是标记化文本格式的使用。在这种格式中,标记的位置被维护,每个标记都可以被注释(例如,部分对话标记、依赖关系)。突出的功能包括高级Lucene类查询特定标记或上下文(例如文档、句子),单词和文档的相似性统计,导出到DTM以与许多文本分析包兼容,以及从标记重建原始文本以便于解释的可能性。
请使用规范形式https://CRAN.R-project.org/package=corpustools公司链接到此页面。