使用Apache Tika从1000多种文件类型中提取文本或元数据<https://tika.apache.org/>. 获取纯文本或结构化XHTML内容。
请使用规范形式https://CRAN.R-project.org/package=rtika链接到此页面。