hudi hdfs

HDFS存储介绍

1：datanode 数据节点-存放数据的 2：namenode 名字节点-主要是存放元数据的，比如：文件大小名称存放位置等 3：secondarynamenode 是存放fimage信息的，具体解释如下： namenode fimage editlog namenode 中每次有信息变化的时 ......

HDFS更新时间 2023-04-07

hdfs集群的扩容和缩容

1、背景当我们的hadoop集群运行了一段时间之后，原有的数据节点的容量已经不能满足我们的存储了，这个时候就需要往集群中增加新的数据节点。此时我们就需要动态的对hdfs集群进行扩容操作(节点服役)。 2、集群黑白名单在hdfs集群中是存在黑名单和白名单的。黑名单：该文件包含不允许连接到nam ......

集群 hdfs更新时间 2023-04-04

云上大数据存储：探究 JuiceFS 与 HDFS 的异同

HDFS 作为 Hadoop 提供存储组件，已经成为大数据生态里面数据存储最常用的选择，通常在机房环境部署。 JuiceFS 是一个基于对象存储的分布式文件系统，用户可以在云上快速地搭建按需扩容的弹性文件系统。如果企业正在考虑在云上构建大数据平台，了解这两种产品的差异和优缺点，可以为企业迁移或切换 ......

异同 JuiceFS 数据 HDFS更新时间 2023-04-04

hdfs disk balancer 磁盘均衡器

1、背景在我们的hadoop集群运行一段过程中，由于多种原因，数据在DataNade的磁盘之间的分布可能是不均匀。比如：我们刚刚给某个DataNode新增加了一块磁盘或者集群上存在大批量的write & deltete操作等灯。那么有没有一种工具，能够使单个DataNode中的多个磁盘的数据均衡 ......

磁盘 balancer hdfs disk更新时间 2023-03-31

HDFS Balancer负载均衡器

1、背景当我们的hadoop集群运行了一段时间之后，各个DataNode上的数据分布并不一定是均匀分布的。比如说：我们向现有集群中添加了一个新的DataNode。 2、什么是平衡此处是我自己的一个简单的理解所谓的平衡指的是每个DataNode的利用率与集群的利用率之间相差不超过给定的 ......

Balancer HDFS更新时间 2023-03-30

HDFS Short-Circuit Local Reads

1、背景在HDFS中，读取操作通常是通过DataNode。因此，当客户端要读取文件时，DataNode 会从磁盘上读取文件，然后通过TCP套接字将数据发送给客户端。如果我们的客户端和数据在同一台机器上的时候，那么是否可以绕过DataNode，允许客户端直接读取数据呢？通过Short-Circui ......

Short-Circuit Circuit Short Local Reads更新时间 2023-03-27

HDFS节点的分类与作用

文件的数据类型文件有一个stat命令元数据信息-->描述文件的属性文件有一个vim命令查看文件的数据信息分类元数据 File 文件名 Size 文件大小（字节） Blocks 文件使用的数据块总数 IO Block 数据块的大小 regular file：文件类型（常规文件） Devic ......

节点作用 HDFS更新时间 2023-03-22

在 Ubuntu 22 的基础上进行 Hadoop 伪分布式（HDFS）的搭建

一、使用VMware安装Ubuntu虚拟机推荐可以再下个Xshell用于操作终端。 Xshell免费版官网下载地址：https://www.xshell.com/zh/free-for-home-school/ 二、伪分布式平台搭建 Part1: 准备工作首先按 ctrl+alt+t 打开终端窗 ......

分布式基础 Ubuntu Hadoop HDFS更新时间 2023-03-22

Apache Hudi 0.13.0版本重磅发布！

Apache Hudi 0.13.0 版本引入了许多新功能，包括 Metaserver、变更数据捕获、新的 Record Merge API、Deltastreamer支持新数据源等。虽然此版本不需要表版本升级，但希望用户在使用 0.13.0 版本之前按照下面的迁移指南采取相关重大变更和行为变更的 ......

重磅版本 Apache Hudi 13更新时间 2023-03-22

hdfs file system shell的简单使用

1、背景此处我们通过命令行，简单的学习一下 hdfs file system shell 的一些操作。 2、hdfs file system shell命令有哪些我们可以通过如下网址https://hadoop.apache.org/docs/current/hadoop-project-dis ......

system shell hdfs file更新时间 2023-03-22

Apache Hudi 流转批场景实践

背景在某些业务场景下，我们需要一个标志来衡量hudi数据写入的进度，比如：Flink 实时向 Hudi 表写入数据，然后使用这个 Hudi 表来支持批量计算并通过一个 flag 来评估它的分区数据是否完整从而进一步写入分区数据进行分区级别的ETL，这也就是我们通常说的流转批。 EventTime计 ......

场景 Apache Hudi更新时间 2023-03-22

Apache Hudi 负载类Payload使用案例剖析

在 Hudi 中可以根据业务场景为 Hudi 表配置负载类Payload，它用于在更新期间合并同一记录的两个版本。本文将深入了解有效负载类的用途以及可以使用的所有不同方式。配置：hoodie.datasource.write.payload.class 注意：对于新的记录合并API ，这些可能会发 ......

案例 Payload Apache Hudi更新时间 2023-03-22

基于Apache Hudi 构建Serverless实时分析平台

NerdWallet 的使命是为生活中的所有财务决策提供清晰的信息。这涵盖了一系列不同的主题：从选择合适的信用卡到管理您的支出，到找到最好的个人贷款，再到为您的抵押贷款再融资。因此，NerdWallet 提供了跨越众多领域的强大功能，例如信用监控和警报、用于跟踪净值和现金流的仪表板、机器学习 ( ......

Serverless 实时 Apache 平台 Hudi更新时间 2023-03-22

一文聊透Apache Hudi的索引设计与应用

Hudi索引在数据读和写的过程中都有应用。读的过程主要是查询引擎利用MetaDataTable使用索引进行Data Skipping以提高查找速度;写的过程主要应用在upsert写上，即利用索引查找该纪录是新增（I）还是更新(U)，以提高写入过程中纪录的打标（tag）速度。 MetaDataTabl ......

索引 Apache Hudi更新时间 2023-03-22

医疗在线OLAP场景下基于Apache Hudi 模式演变的改造与应用

背景在 Apache Hudi支持完整的Schema演变的方案中（https://mp.weixin.qq.com/s/rSW864o2YEbHw6oQ4Lsq0Q），读取方面，只完成了SQL on Spark的支持（Spark3以上，用于离线分析场景），Presto（用于在线OLAP场景）及A ......

场景模式医疗 Apache OLAP更新时间 2023-03-22

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-中

本篇详细描述hoodie数据读写流程，进一步加深对数据湖技术的理解。理论后转战集成Spark的使用，通过spark-shell和spark-sql实现hoodie的插入数据、查询数据、更新数据、删除数据、覆盖数据、时间旅行查询等示例，了解创建表、修改表结构、查询分区、删除分区基本用法，为进一步使用奠... ......

数据双管齐下下一代实战原理更新时间 2023-03-22

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-下

本篇演示了Hudi集成Spark的Scala编程示例，并一步步操作说明如何使用DeltaStreamer从Kafka里读取数据写入到Hudi表的HDFS中，接着集成Flink的环境准备，通过基于yarn-session的Flink的sql-client方式提交任务实现插入数据和流式读取数据，了解字节... ......

数据双管齐下下一代实战原理更新时间 2023-03-22

大数据下一代变革之必研究数据湖技术Hudi原理实战双管齐下-后续

本篇实战Hudi集成Flink SQl编程示例实现从生成器表写入Hudi表，打包集群验证；然后通过Hudi Flink CDC实现采集MySQL binlog日志写入Kafka再入到hudi表的完整示例，了解Hudi Flink的基础调试只是，最后通过Hudi集成Hive实现Flink Hive C... ......

数据双管齐下下一代实战原理更新时间 2023-03-22

共168篇 :6/6页 首页上一页3456下一页尾页