hdfs

hdfs的透明加密记录

# 1、背景 我们知道,在`hdfs`中,我们的数据是以`block`块存储在我们的磁盘上的,那么默认情况下,它是以`密文`存储的,还是以`明文`存储的呢?如果是明文存储的,那么是否就不安全呢?那么在`hdfs`中是如何做才能做到数据的`透明加密`呢? # 2、常见的加密层级 ![常见的加密层级]( ......
hdfs

关于flume Closing file: hdfs://PATH/1686250555721.gz.tmp failed. Will retry again in 180 seconds.的问题记录

问题描述:flume每到半夜总是一直报错,关闭某个文件失败,虽然不影响其他日志传输,但是一直有错误日志也很难受,有一种如芒在背的感觉。 部分报错日志: 09 六月 2023 02:55:55,730 INFO [SinkRunner-PollingRunner-DefaultSinkProcesso ......
1686250555721 Closing seconds failed 问题

RDS 、HDFS、 mapreduce 、spark 、hive、 hbase 、zookeeper 、kafka 、flume、mysql 安装时之间配置文件是如何依赖的?

这些技术是大数据领域的常用组件,它们之间的配置文件依赖关系如下: RDS是一种关系型数据库,可以独立安装和使用,不需要依赖其他组件。 HDFS是Hadoop分布式文件系统,通常与MapReduce一起使用。在Hadoop集群中,HDFS需要配置core-site.xml和hdfs-site.xml两 ......
mapreduce zookeeper 之间 文件 hbase

flume传输日志文件到hdfs笔记

1、flume官网 https://flume.apache.org/ 2、安装kerberos客户端 由于我在hdfs开启了kerberos认证,所以要先装kerberos客户端: yum install krb5-devel krb5-workstation -y再将kerberos serve ......
文件 笔记 flume 日志 hdfs

hdfs中acl权限管理的简单实用

# 1、背景 在我们开发的过程中有这么一种场景, `/projectA` 目录是 `hadoopdeploy`用户创建的,他对这个目录有`wrx`权限,同时这个目录属于`supergroup`,在这个组中的用户也具有这个目录的`wrx`权限,对于其他人,不可访问这个目录。现在有这么一个特殊的用户`r ......
权限 hdfs acl

Hadoop - HDFS 概述

什么是HDFS HDFS的优缺点 HDFS的文件块大小 HDFS的写数据流程 HDFS的副本配置策略 HDFS读数据的流程 什么是HDFS HDFS(Hadoop Distributed File System),它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器 ......
Hadoop HDFS

【博学谷学习记录】超强总结,用心分享 | HDFS

【博学谷IT技术支持】 # HDFS HDFS又称分布式系统,采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;集群中的DataNode管理存储的数 ......
HDFS

【博学谷学习记录】超强总结,用心分享 | HDFS读写流程

【博学谷IT技术支持】 # HDFS写流程 ![请添加图片描述](https://img-blog.csdnimg.cn/68f8f826c29b47dca07d3c6f22c6be20.png) 上图是HDFS的写流程图 主要步骤如下 - client向服务器发起上传请求(RPC) - NameN ......
流程 HDFS

大数据面试题集锦-Hadoop面试题(二)-HDFS

> 你准备好面试了吗?这里有一些面试中可能会问到的问题以及相对应的答案。如果你需要更多的面试经验和面试题,关注一下"张飞的猪大数据分享"吧,公众号会不定时的分享相关的知识和资料。 [TOC] ## 1、 HDFS 中的 block 默认保存几份? 默认保存3份 ## 2、HDFS 默认 BlockS ......
试题集锦 集锦 试题 数据 Hadoop

Hudi表创建时HDFS上的变化

SparkSQL 建 Hudi 表语句: ```sql CREATE TABLE t71 ( ds BIGINT, ut STRING, pk BIGINT, f0 BIGINT, f1 BIGINT, f2 BIGINT, f3 BIGINT, f4 BIGINT ) USING hudi PAR ......
Hudi HDFS

hdfs文件上传打包及bug汇总

#### 1、错误: 找不到或无法加载主类 删除META-INFO下的 .DSA和 .SF文件即可 ![](https://img2023.cnblogs.com/blog/1619161/202305/1619161-20230526094324418-78092035.png) 来源 [csdn ......
文件 hdfs bug

hdfs开启回收站(废纸篓)

# 1、背景 我们知道,在`mac`系统上删除文件,一般情况下是可以进入 `废纸篓`里的,如果此时我们误删除了,还可以从 废纸篓中恢复过来。那么在`hdfs`中是否存在类似mac上的`废纸篓`这个功能呢?答案是存在的。 ![废纸篓](https://img-blog.csdnimg.cn/b668c ......
废纸篓 废纸 回收站 hdfs

HDFS文件因Hadoop版本原因导致append操作失败的问题

**问题重现: 2023.05.24练习B站尚硅谷Hadoop3里的HDFS的Shell操作(append)** [atguigu@hadoop102 hadoop-3.3.4]$ hadoop fs -appendToFile liubei.txt /sa 点击查看代码 ``` [atguigu@ ......
原因 版本 文件 Hadoop append

HDFS学习进阶

一、HDFS元数据管理 HDFS是一个分布式文件存储系统,文件分布式存储在多个DataNode节点上。一个文件存储在哪些DataNode节点的哪些位置的元数据信息(metadata)由NameNode节点来处理。随着存储文件的增多,NameNode上存储的信息也会越来越多。在HDFS中主要是通过两个 ......
HDFS

HDFS学习基础

一、HDFS基础知识 HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大 ......
基础 HDFS

HDFS架构与原理浅析

当需要存储的数据集的大小超过了一台独立的物理计算机的存储能力时,就需要对数据进行分区并存储到若干台计算机上去。管理网络中跨多台计算机存储的文件系统统称为分布式文件系统(distributed fileSystem)。 分布式文件系统由于其跨计算机的特性,所以依赖于网络的传输,势必会比普通的本地文件系 ......
架构 原理 HDFS

HDFS跨集群迁移

场景 由于版本升级和集群切换,现需要将A(源)集群HDFS数据迁移至B(目的)集群 迁移过程 先通过hadoop distcp -prugpb将整体数据迁移一次,然后协调时间窗口将所有业务停止,进行一次增量迁移,然后切换业务即可 整体迁移脚本,目的集群执行即可 #!/bin/bash source_ ......
集群 HDFS

Hadoop之HDFS的API操作文件的上传下载参数的优先级

Hadoop之HDFS的API操作文件的上传下载参数的优先级 package com.itnihao.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import o ......
上传下载 优先级 参数 文件 Hadoop

DB - HDFS (Hadoop Distributed File System)

Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。 HDFS 有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有 ......
Distributed Hadoop System HDFS File

HDFS网页访问静态用户设置

在使用网页删除文件夹时,被提示权限不够,因为默认是以普通用户权限访问,而文件夹时root用户的 配置网页默认访问用户为root <!-- 配置HDFS网页端使用的静态用户 --> <property> <name>hadoop.http.staticuser.user</name> <value>r ......
静态 网页 用户 HDFS

Hadoop-HDFS压测】针对HDFS进行读写性能测试

###【Hadoop-HDFS压测】针对HDFS进行读写性能测试 1)测试工具 2)写入数据测试 3)读取数据测试 4)清除数据 ####1)测试工具 Hadoop自身集成的工具包:hadoop-mapreduce-client-jobclient-3.1.1.jar 注意: 1、如果是Apache ......
HDFS Hadoop-HDFS 性能 Hadoop

hdfs认证报错处理

hdfs认证报错1 hdfs报错Failed on local exception: java.io.IOException: org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOK ......
hdfs

Hadoop - HDFS常用命令

“hadoop fs(hdfs dfs)文件操作” # 查看目录 hdfs dfs -ls / # 查看目录下所有文件 hdfs dfs -ls -R / # 创建目录 hdfs dfs -mkdir -p /source/data # 查看文件或目录大小 hdfs dfs -du -h /sour ......
命令 常用 Hadoop HDFS

CDH HDFS Non DFS Used 存储空间异常

问题:一个CDH集群Non DFS Used空间很大,排查了节点上磁盘实际使用,以及dfs.datanode.du.reserved参数,都没有异常情况; CDH版本:5.13 hadoop版本:2.6 1、这个问题是hadoop2.6版本的一个bug HDFS-8072 [HDFS-8072]如果 ......
空间 HDFS Used CDH DFS

HDFS?

Hadoop分布式文件系统(HDFS)是Apache Hadoop生态系统的核心组件之一,它是一种设计用于存储和处理超大规模数据集的分布式文件系统。 HDFS是一个分布式文件系统,它将大文件切分成多个小文件存储在不同的计算机节点上,因此可以存储大规模的非结构化数据,例如文本、图像、音频和视频等。 H ......
HDFS

分布式存储技术(上):HDFS 与 Ceph的架构原理、特性、优缺点解析

面对企业级数据量,单机容量太小,无法存储海量的数据,这时候就需要用到多台机器存储,并统一管理分布在集群上的文件,这样就形成了分布式文件系统。HDFS是Hadoop下的分布式文件系统技术,Ceph是能处理海量非结构化数据存储的对象存储技术,本文将对他们的架构原理、特性和优缺点做介绍。 — 分布式文件系 ......
优缺点 分布式 架构 特性 原理

HDFS存储介绍

1:datanode 数据节点-存放数据的 2:namenode 名字节点-主要是存放元数据的,比如:文件大小 名称 存放位置 等 3:secondarynamenode 是存放fimage信息的,具体解释如下: namenode fimage editlog namenode 中每次有信息变化的时 ......
HDFS

hdfs集群的扩容和缩容

1、背景 当我们的hadoop集群运行了一段时间之后,原有的数据节点的容量已经不能满足我们的存储了,这个时候就需要往集群中增加新的数据节点。此时我们就需要动态的对hdfs集群进行扩容操作(节点服役)。 2、集群黑白名单 在hdfs集群中是存在黑名单和白名单的。 黑名单: 该文件包含不允许连接到nam ......
集群 hdfs

云上大数据存储:探究 JuiceFS 与 HDFS 的异同

HDFS 作为 Hadoop 提供存储组件,已经成为大数据生态里面数据存储最常用的选择,通常在机房环境部署。 JuiceFS 是一个基于对象存储的分布式文件系统,用户可以在云上快速地搭建按需扩容的弹性文件系统。 如果企业正在考虑在云上构建大数据平台,了解这两种产品的差异和优缺点,可以为企业迁移或切换 ......
异同 JuiceFS 数据 HDFS

hdfs disk balancer 磁盘均衡器

1、背景 在我们的hadoop集群运行一段过程中,由于多种原因,数据在DataNade的磁盘之间的分布可能是不均匀。比如: 我们刚刚给某个DataNode新增加了一块磁盘或者集群上存在大批量的write & deltete操作等灯。那么有没有一种工具,能够使单个DataNode中的多个磁盘的数据均衡 ......
磁盘 balancer hdfs disk