CDH HDFS Non DFS Used 存储空间异常

发布时间 2023-04-14 15:13:52作者: 米兰的小铁將

问题:一个CDH集群Non DFS Used空间很大,排查了节点上磁盘实际使用,以及dfs.datanode.du.reserved参数,都没有异常情况;

CDH版本:5.13

hadoop版本:2.6

 

1、这个问题是hadoop2.6版本的一个bug 

HDFS-8072

[HDFS-8072]如果客户端在写入块时终止,则不会释放保留的 RBW 空间 - ASF JIRA (apache.org)

 

解释说明:

 在客户端向HDFS写入数据时,首先要将自己需要的空间保留住,防止自己写着写着空间不足了。

这些被保留的空间会随着数据的写入慢慢释放掉。但是,如果在写入的过程中,写入程序被中断了,那这些被保留的空间只能等到DN被重启后才会释放。

我们这个集群每天在跑的任务有近万个,每天都会有任务因为各种原因失败重跑或者直接kill。这应该就是Non DFS Used过高的原因。

可以滚动重启datanode来恢复,或者升级为高版本的集群;

 

看网上也有说是因为historyserver服务引起的,可以重启historyserver,我估计最终原因还是因为HDFS-8072这个bug引起的;