hadoop logo(大回转)阿帕奇Hadoop

Apache®Hadoop®项目开发用于可靠、可扩展、分布式计算的开源软件。

Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它的设计目的是从单个服务器扩展到数千台机器,每台机器都提供本地计算和存储。库本身不是依赖硬件来提供高可用性,而是设计用于检测和处理应用程序层的故障,因此在计算机集群之上提供高可用性服务,而每台计算机都可能出现故障。

了解更多» 下载» 入门»

最新消息

3.4.0版可用 2024年3月17日

这是Apache Hadoop 3.4系列的第一个版本。它包含了自3.3以来的2888个错误修复、改进和增强。

鼓励用户阅读主要变化概述.有关详细信息,请查看发行说明变更日志.

3.3.6版可用 2023年6月23日

这是Apache Hadoop 3.3系列的一个版本。

它包含了自3.3.5以来的117个错误修复、改进和增强。Apache Hadoop 3.3.5及更早版本的用户应升级到此版本。

功能亮点:

SBOM工件

从这个版本开始,Hadoop使用CycloneDX Maven插件。有关SBOM的更多信息,请访问SBOM公司.

HDFS RBF:基于RDBMS的令牌存储支持

HDFS Router-Router Based Federation现在支持在MySQL上存储委托令牌,哈多普-18535它通过基于Zookeeper的原始实现改进了令牌操作。

新的文件系统API

哈多普-18671移动了一些Hadoop Common的HDFS特定API使某些应用程序依赖HDFS语义在其他Hadoop兼容的文件系统上运行。

特别是,recoverLease()和isFileClosed()通过LeaseRecoverable公开接口,而setSafeMode()通过SafeMode-接口公开。

鼓励用户阅读主要变化概述自3.3.5版起。有关自上一个3.3.5版本以来117个错误修复、改进和其他增强的详细信息,请检查一下发行说明变更日志.

3.3.5版可用 2023年3月22日

这是Apache Hadoop 3.3系列的一个版本。

主要变化包括

  • 大量更新依赖项以尝试保存这些报告控制下的可传递CVE——包括真阳性和假阳性。
  • 对ABFS输入流预取进行关键修复,以便正确读取。
  • 用于所有FSDataInputStream实现的矢量IO APIfile://和s3a://文件系统的高性能版本。file://通过java本机IOs3a://并行GET请求。
  • Arm64二进制文件。注意,因为arm64版本位于不同的平台,jar文件可能与x86文件不匹配发布,从而产生maven工件。
  • Hadoop自己代码中的安全修复。

Apache Hadoop 3.3.4及更低版本的用户应升级到此版本。

鼓励所有用户阅读主要变化概述自3.3.4版起。

有关自上一个3.3.4版本,请检查发行说明变更日志.

Azure ABFS:关键流预取修复

ABFS连接器有一个关键的错误修复https://issues.apache.org/jira/browse/HADOOP-18546:ABFS公司。禁用清除abfs流close()中正在进行的读取的列表。

hadoop 3.3.2版+中abfs连接器的所有用户都必须升级或通过设置禁用预取fs.azure.readaheadqueue.deph公司0.

3.3.4版可用 2022年8月8日

这是Apache Hadoop 3.3系列的一个版本。

自3.3.3以来,它包含少量安全和关键集成修复。

Apache Hadoop 3.3.3的用户应升级到此版本。

hadoop 2.x和hadoop 3.2的用户也应该升级到3.3.x版本。除了功能增强外,这是目前唯一的分支接收除关键安全性/数据完整性以外的任何修复问题。

鼓励用户阅读主要变化概述自3.3.3版起。有关自上一个3.3.3版本以来的错误修复、改进和其他增强的详细信息,请检查一下发行说明变更日志.

3.2.4版可用 2022年7月22日

这是Apache Hadoop 3.2系列的第三个稳定版本。

它包含了自3.2.3以来的153个错误修复、改进和增强。

鼓励用户阅读主要变化概述自3.2.3起。有关自上一个3.2.3版本以来153个错误修复、改进和其他增强的详细信息,请检查一下发行说明变更日志.

模块

该项目包括以下模块:

  • Hadoop通用:支持其他Hadoop模块的通用实用程序。
  • Hadoop分布式文件系统(HDFS™):提供对应用程序数据的高吞吐量访问的分布式文件系统。
  • Hadoop纱线:作业调度和集群资源管理的框架。
  • Hadoop MapReduce:基于YARN的大型数据集并行处理系统。

谁使用Hadoop?

各种各样的公司和组织都使用Hadoop进行研究和生产。鼓励用户加入HadoopPoweredBy wiki页面.

相关项目

Apache的其他Hadoop相关项目包括:

  • 安巴里™:基于web的资源调配工具,管理和监视Apache Hadoop集群,其中包括支持Hadoop HDFS、Hadoop MapReduce、Hive、HCatalog、HBase、,ZooKeeper、Oozie、Pig和Sqoop。Ambari还提供了一个仪表板用于查看群集运行状况,如热映射和查看能力MapReduce、Pig和Hive应用程序以及以用户友好的方式诊断其性能特征方式。
  • Avro™公司:数据序列化系统。
  • 卡桑德拉™:可扩展的多主数据库没有单点故障。
  • Chukwa™公司:用于管理的数据采集系统大型分布式系统。
  • HBase™数据库:一个可扩展的分布式数据库支持大型表的结构化数据存储。
  • 蜂巢™:数据仓库基础设施,提供数据汇总和即席查询。
  • 马霍特™:可扩展的机器学习和数据挖掘库。
  • 臭氧™:可扩展、冗余和Hadoop的分布式对象存储。
  • Pig™(清管器™):高级数据流语言和执行并行计算框架。
  • 火花™:一个快速通用的计算引擎Hadoop数据。Spark提供了一个简单而富有表现力的编程支持广泛应用的模型,包括ETL,机器学习、流处理和图形计算。
  • 潜水艇:一个统一的AI平台,允许工程师和数据科学家在分布式集群。
  • Tez™公司:通用数据流编程框架,基于Hadoop YARN构建,它提供了一个强大而灵活的引擎执行任务的任意DAG以处理两个批的数据和交互式使用卡。Hive™、Pig™和Hadoop生态系统中的其他框架,以及其他商业软件(例如ETL工具),用于取代Hadoop™MapReduce作为底层执行引擎。
  • ZooKeeper™(缩放管理员™):高性能协调分布式应用程序的服务。