【博学谷学习记录】超强总结,用心分享 | HDFS

发布时间 2023-06-01 10:15:52作者: 牛牛牛牛牛牛牛牛

【博学谷IT技术支持】

HDFS

HDFS又称分布式系统,采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数据。

特点

  • 海量数据存储: 可横向扩展,其存储的文件可以支持PB级别或更高级别的数据存储。
  • 高容错性: 副本机制保存多个副本,丢失后自动恢复。当几圈新增节点之后,namenode可以感知,进行负载均衡,将数据分发和备份数据均衡到新的节点上。
  • 商用硬件:它是设计运行在商用硬件(廉价商业硬件)的集群上的。
  • 大文件存储: HDFS采用数据块的方式存储数据,将数据物理切分成多个小的数据块。所以再大的数据,切分后,大数据变成了很多小数据。用户读取时,重新将多个小数据块拼接起来。

特性

  • 主从架构:HDFS采用Master/slave架构,一个HDFS集群有一个NameNode和多个DataNode组成,NameNode是HDFS的主节点,DataNode是HDFS的从节点
  • 分块机制: HDFS文件在物理上是分块存储的,默认128M。可通过hdfs-site.xml设置dsf.blocksize
  • 副本机制:HDFS文件的所有block都有副本,默认是3,可通过文件配置或命令改变
  • nameSpace: HDFS支持传统的层次性文件组织结构。用户可以创建,删除,移动或重命名文件,Namenode负责维护和记录namespace名称空间。
  • 元数据管理: namenode管理的元数据分别有文件自身属性信息,和位置映射信息
  • 数据块存储: block存储在dataNode节点,每个block可以在多个datanode上存储。

shell命令

HDFS除了可以页面操作外,还可以用命令控制

  • -ls 路径:查看当前路径的目录结构
  • -ls -R 路径: 递归查询目录结构
  • -du 路径: 查看目录文件的大小
  • -count 路径:统计文件夹数量
  • -cp 源路径 目的路径: 复制
  • -rm 路径: 删除目录
  • -rmr 路径: 递归删除
  • -put 多个文件 路径: 上传路径
  • -copyFromLocal 多个linux文件 hdfs路径: 从本地复制
  • -moveFromLocal 多个linux文件 hdfs路径: 从本地移动
  • -getmerge 源地址 linux路径: 合并到本地
  • -cat 路径: 查看文件内容
  • -text:查看文件内容
  • -copyToLocal hdfs源路径 linux目的路径
  • -moveToLocal hdfs源路径 linux目的路径: 从本地移动
  • -mkdir hdfs路径 : 创建空白文件夹
  • -touchz hdfs路径: 创建空白文件夹
  • -stat 路径:显示文件统计信息
  • -tail 文件: 查看文件尾部信息
  • -chmod -R 权限 路径: 修改权限
  • -chown -R 属主:属组 路径: 修改属主
  • -chgrp -R 属组 路径: 修改属组

安全模式

安全模式是hadoop的一种保护机制,用于保证集群中的数据块的安全性。当集群启动的时候,会首先进入安全模式。当系统处于安全模式时会检查数据块的完整性。

在安全模式状态下,文件系统只接受读数据请求,而不接受删除、修改等变更请求

hdfs  dfsadmin -safemode  get #查看安全模式状态
hdfs  dfsadmin -safemode  enter #进入安全模式
hdfs  dfsadmin -safemode  leave #离开安全模式