Hadoop 1

发布时间 2023-10-20 15:59:12作者: 大蟒蛇进动吐痰

hadoop 的核心架构:包括hdfs 和 mapReduce, HDFS 为海量数据提供了存储,而MapReduce 为海量数据提供了计算框架。

HBase:实时分布式数据库,MapReduce:分布式计算框架,HDFS:分布式文件系统。

HDFS中包含三个重要角色:

NameNode, DataNode, Client

 NameNode: 是主节点,master节点,可以看做是分布式文件系统中的管理者,主要负责管理文件系统的命名空间,集群配置信息和存储块的复制。NameNode 将文件系统的 meta-data存储在内存中,这些信息包含了文件信息,每一个文件对应的文件块的信息和每一个文件块在DataNode的信息。

DataNode:是slave节点,是文件存储的基本单元,将block 存储在本地文件系统中,保存了block的meta-data, 同时周期性的将所有存在的block信息发送给nameNode 

Client: 切分文件,访问HDFS,与NameNode交互,获得文件位置信息。与dataNode交互,读取和写入数据。

Block 块的概念:是HDFS中的基本读写单元;HDFS中的文件都是被切割为block进行存储的;这些块被复制到多个DataNode中,块的大小和复制的块的数量在创建文件时由client决定。