hdfs
Hudi表创建时HDFS上的变化
SparkSQL 建 Hudi 表语句: ```sql CREATE TABLE t71 ( ds BIGINT, ut STRING, pk BIGINT, f0 BIGINT, f1 BIGINT, f2 BIGINT, f3 BIGINT, f4 BIGINT ) USING hudi PAR ......
hdfs文件上传打包及bug汇总
#### 1、错误: 找不到或无法加载主类 删除META-INFO下的 .DSA和 .SF文件即可  来源 [csdn ......
hdfs开启回收站(废纸篓)
# 1、背景 我们知道,在`mac`系统上删除文件,一般情况下是可以进入 `废纸篓`里的,如果此时我们误删除了,还可以从 废纸篓中恢复过来。那么在`hdfs`中是否存在类似mac上的`废纸篓`这个功能呢?答案是存在的。 ** [atguigu@hadoop102 hadoop-3.3.4]$ hadoop fs -appendToFile liubei.txt /sa 点击查看代码 ``` [atguigu@ ......
HDFS学习进阶
一、HDFS元数据管理 HDFS是一个分布式文件存储系统,文件分布式存储在多个DataNode节点上。一个文件存储在哪些DataNode节点的哪些位置的元数据信息(metadata)由NameNode节点来处理。随着存储文件的增多,NameNode上存储的信息也会越来越多。在HDFS中主要是通过两个 ......
HDFS学习基础
一、HDFS基础知识 HDFS 是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。它们是横跨在多台计算机上的存储系统。分布式文件系统在大 ......
HDFS架构与原理浅析
当需要存储的数据集的大小超过了一台独立的物理计算机的存储能力时,就需要对数据进行分区并存储到若干台计算机上去。管理网络中跨多台计算机存储的文件系统统称为分布式文件系统(distributed fileSystem)。 分布式文件系统由于其跨计算机的特性,所以依赖于网络的传输,势必会比普通的本地文件系 ......
HDFS跨集群迁移
场景 由于版本升级和集群切换,现需要将A(源)集群HDFS数据迁移至B(目的)集群 迁移过程 先通过hadoop distcp -prugpb将整体数据迁移一次,然后协调时间窗口将所有业务停止,进行一次增量迁移,然后切换业务即可 整体迁移脚本,目的集群执行即可 #!/bin/bash source_ ......
Hadoop之HDFS的API操作文件的上传下载参数的优先级
Hadoop之HDFS的API操作文件的上传下载参数的优先级 package com.itnihao.hdfs; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import o ......
DB - HDFS (Hadoop Distributed File System)
Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。 HDFS 有着高容错性(fault-tolerent)的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有 ......
HDFS网页访问静态用户设置
在使用网页删除文件夹时,被提示权限不够,因为默认是以普通用户权限访问,而文件夹时root用户的 配置网页默认访问用户为root <!-- 配置HDFS网页端使用的静态用户 --> <property> <name>hadoop.http.staticuser.user</name> <value>r ......
Hadoop-HDFS压测】针对HDFS进行读写性能测试
###【Hadoop-HDFS压测】针对HDFS进行读写性能测试 1)测试工具 2)写入数据测试 3)读取数据测试 4)清除数据 ####1)测试工具 Hadoop自身集成的工具包:hadoop-mapreduce-client-jobclient-3.1.1.jar 注意: 1、如果是Apache ......
hdfs认证报错处理
hdfs认证报错1 hdfs报错Failed on local exception: java.io.IOException: org.apache.hadoop.security.AccessControlException: Client cannot authenticate via:[TOK ......
Hadoop - HDFS常用命令
“hadoop fs(hdfs dfs)文件操作” # 查看目录 hdfs dfs -ls / # 查看目录下所有文件 hdfs dfs -ls -R / # 创建目录 hdfs dfs -mkdir -p /source/data # 查看文件或目录大小 hdfs dfs -du -h /sour ......
CDH HDFS Non DFS Used 存储空间异常
问题:一个CDH集群Non DFS Used空间很大,排查了节点上磁盘实际使用,以及dfs.datanode.du.reserved参数,都没有异常情况; CDH版本:5.13 hadoop版本:2.6 1、这个问题是hadoop2.6版本的一个bug HDFS-8072 [HDFS-8072]如果 ......
HDFS?
Hadoop分布式文件系统(HDFS)是Apache Hadoop生态系统的核心组件之一,它是一种设计用于存储和处理超大规模数据集的分布式文件系统。 HDFS是一个分布式文件系统,它将大文件切分成多个小文件存储在不同的计算机节点上,因此可以存储大规模的非结构化数据,例如文本、图像、音频和视频等。 H ......
分布式存储技术(上):HDFS 与 Ceph的架构原理、特性、优缺点解析
面对企业级数据量,单机容量太小,无法存储海量的数据,这时候就需要用到多台机器存储,并统一管理分布在集群上的文件,这样就形成了分布式文件系统。HDFS是Hadoop下的分布式文件系统技术,Ceph是能处理海量非结构化数据存储的对象存储技术,本文将对他们的架构原理、特性和优缺点做介绍。 — 分布式文件系 ......
HDFS存储介绍
1:datanode 数据节点-存放数据的 2:namenode 名字节点-主要是存放元数据的,比如:文件大小 名称 存放位置 等 3:secondarynamenode 是存放fimage信息的,具体解释如下: namenode fimage editlog namenode 中每次有信息变化的时 ......
hdfs集群的扩容和缩容
1、背景 当我们的hadoop集群运行了一段时间之后,原有的数据节点的容量已经不能满足我们的存储了,这个时候就需要往集群中增加新的数据节点。此时我们就需要动态的对hdfs集群进行扩容操作(节点服役)。 2、集群黑白名单 在hdfs集群中是存在黑名单和白名单的。 黑名单: 该文件包含不允许连接到nam ......
云上大数据存储:探究 JuiceFS 与 HDFS 的异同
HDFS 作为 Hadoop 提供存储组件,已经成为大数据生态里面数据存储最常用的选择,通常在机房环境部署。 JuiceFS 是一个基于对象存储的分布式文件系统,用户可以在云上快速地搭建按需扩容的弹性文件系统。 如果企业正在考虑在云上构建大数据平台,了解这两种产品的差异和优缺点,可以为企业迁移或切换 ......
hdfs disk balancer 磁盘均衡器
1、背景 在我们的hadoop集群运行一段过程中,由于多种原因,数据在DataNade的磁盘之间的分布可能是不均匀。比如: 我们刚刚给某个DataNode新增加了一块磁盘或者集群上存在大批量的write & deltete操作等灯。那么有没有一种工具,能够使单个DataNode中的多个磁盘的数据均衡 ......
HDFS Balancer负载均衡器
1、背景 当我们的hadoop集群运行了一段时间之后,各个DataNode上的数据分布并不一定是均匀分布的。比如说: 我们向现有集群中添加了一个新的DataNode。 2、什么是平衡 此处是我自己的一个简单的理解 所谓的平衡指的是 每个DataNode的利用率 与 集群的利用率 之间相差不超过给定的 ......
HDFS Short-Circuit Local Reads
1、背景 在HDFS中,读取操作通常是通过DataNode。因此,当客户端要读取文件时,DataNode 会从磁盘上读取文件,然后通过TCP套接字将数据发送给客户端。如果我们的客户端和数据在同一台机器上的时候, 那么是否可以绕过DataNode,允许客户端直接读取数据呢?通过Short-Circui ......
HDFS节点的分类与作用
文件的数据类型 文件有一个stat命令 元数据信息-->描述文件的属性 文件有一个vim命令 查看文件的数据信息 分类 元数据 File 文件名 Size 文件大小(字节) Blocks 文件使用的数据块总数 IO Block 数据块的大小 regular file:文件类型(常规文件) Devic ......
在 Ubuntu 22 的基础上进行 Hadoop 伪分布式(HDFS)的搭建
一、使用VMware安装Ubuntu虚拟机 推荐可以再下个Xshell用于操作终端。 Xshell免费版官网下载地址:https://www.xshell.com/zh/free-for-home-school/ 二、伪分布式平台搭建 Part1: 准备工作 首先按 ctrl+alt+t 打开终端窗 ......
hdfs file system shell的简单使用
1、背景 此处我们通过命令行,简单的学习一下 hdfs file system shell 的一些操作。 2、hdfs file system shell命令有哪些 我们可以通过如下网址https://hadoop.apache.org/docs/current/hadoop-project-dis ......