Hadoop理论知识

发布时间 2024-01-03 21:51:47作者: 小碗吃不胖的

1、Hadoop是什么?

Hadoop是一个由Apache基金会所研发的分布式系统基础架构。主要解决海量数据存储和海量数据的分析计算问题。

 

2、Hadoop的特点?

(1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

(2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。

(3)高效性:在MapReduce的思想下,Hadoop是并行工作的,以加快任务的处理速度。

(4)高容错性:能够自动将失败的任务重新分配。

 

3、Hadoop的组成?

Hadoop 1.x时代:MapReduce(计算+资源调度)+ HDFS(数据存储)+Common(辅助工具)

Hadoop 2.x时代以后:MapReduce(计算)+ Yarn(资源调度)+ HDFS(数据存储)+Common(辅助工具)

 

4、MapReduce架构概述?

MapReduce将计算过程分为两个阶段:Map和Reduce

Map阶段:并行处理输入数据

Reduce阶段:对Map结果进行汇总

 

5、HDFS架构概述?

HDFS(Hadoop Distributed File System)是一个分布式文件系统,主要由三部分组成: NameNode 和 DataNode 以及 SecondaryNamenode。

NameNode:负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。

DataNode:负责管理用户的文件数据块,每一个数据块都可以在多个 DataNode 上存储多个副本,默认为3个。

Secondary NameNode:用来监控 HDFS 状态的辅助后台程序,每隔一段时间获取 HDFS 元数据的快照。最主要作用是辅助 NameNode 管理元数据信息。