使用“sparkyr”将WARC(Web ARChive)文件加载到Apache Spark中。这个允许从公共爬网项目中读取文件<http://commoncraw.org/>.
请使用规范形式https://CRAN.R-project.org/package=sparkwarc链接到此页面。