Apache Nutch™(阿帕奇螺母™)

螺母是一个高度可扩展、高度可伸缩、成熟的生产就绪网络爬虫它支持细粒度配置并适应各种数据采集任务。

基线

可扩展

依靠Apache Hadoop™数据结构,Nutch非常适合批量处理大数据量,但也可以针对较小的作业进行调整。

印刷术

可插入式

现成的Nutch提供强大的插件,即使用阿帕奇Tika™,使用索引阿帕奇Solr™,弹性搜索还有更多!

极简主义

可扩展

为流行功能提供直观稳定的界面,即。,分析器,HTML筛选,编制索引评分用于自定义实现。