epubr:读取EPUB文件元数据和文本
提供支持从EPUB文件读取和解析内部电子书内容的功能。“epubr”包提供了支持从EPUB文件读取和解析内部电子书内容的功能。电子书元数据和文本内容被单独解析,并在一个整洁、嵌套的易懂数据框架中连接在一起。电子书的格式并没有在所有文献中完全标准化。在任意的电子书集合中管理经过解析的电子书内容可能是一项挑战以完美且完全通用的形式,生成单一且格式一致的输出。许多EPUB文件甚至在各自的元数据中不包含所有相同的信息。此包中的EPUB文件解析功能用于任意EPUB电子书的相对通用应用程序。然而,格式不佳的电子书或格式极不常见的电子书可能无法使用此软件包。甚至有可能出现EPUB文件具有DRM或其他一些属性,无法使用“epubr”进行读取的情况。大多数情况下,文本按“原样”阅读。唯一的名义变化是小的替换,例如将大引号改为直引号。作为文本分析的一部分,用户随后将进行实质性更改。用户可以自行决定执行其他文本清理,例如使用“tm”或“qdap”等软件包中的功能。
文档:
下载内容:
链接:
请使用规范形式https://CRAN.R-project.org/package=epubr链接到此页面。