Hudi

hudi数据湖

字节跳动基于 Hudi 的实时数据湖平台 https://developer.volcengine.com/articles/7220345269954003004 数仓实时化改造：Hudi on Flink 在顺丰的实践应用 https://www.logclub.com/articleInfo/ ......

数据 hudi更新时间 2024-01-05

阿里云AnalyticDB基于Flink CDC+Hudi实现多表全增量入湖实践

湖仓一体（LakeHouse）是大数据领域的重要发展方向，提供了流批一体和湖仓结合的新场景。阿里云AnalyticDB for MySQL基于 Apache Hudi 构建了新一代的湖仓平台，提供日志、CDC等多种数据源一键入湖，在离线计算引擎融合分析等能力。本文将主要介绍AnalyticDB fo ......

增量 AnalyticDB Flink Hudi 160更新时间 2023-12-17

Hudi 在 vivo 湖仓一体的落地实践

在增效降本的大背景下，vivo大数据基础团队引入Hudi组件为公司业务部门湖仓加速的场景进行赋能。主要应用在流批同源、实时链路优化及宽表拼接等业务场景。 ......

一体 Hudi vivo更新时间 2023-12-14

Apache Hudi Timeline：支持 ACID 事务的基础

Apache Hudi 维护在给定表上执行的所有操作的Timeline（时间线），以支持以符合 ACID 的方式高效检索读取查询的数据。在写入和表服务期间也会不断查阅时间线，这是表正常运行的关键。如果任何时间线操作出现混乱（由于多写入未配置锁提供程序等），则可能导致数据一致性问题（数据丢失或数据 ......

Timeline 事务基础 Apache ACID更新时间 2023-11-05

Apache Hudi 使用指南

Apache Hudi(简称：Hudi)使得您能在hadoop兼容的存储之上存储大量数据，同时它还提供两种原语，使得除了经典的批处理之外，还可以在数据湖上进行流处理。 ......

使用指南指南 Apache Hudi更新时间 2023-09-27

hudi-0.12 编译与集成

环境 hadoop：2.7.2 hive：2.3.1 spark：2.4.4 flink：1.13.0 1.下载hudi源码包 Index of /dist/hudi/0.12.0 (apache.org) hudi-0.12.0.src.tgz tar -zxf hudi-0.12.0.src.t ......

hudi 0.12 12更新时间 2023-09-09

CDC一键入湖：当 Apache Hudi DeltaStreamer 遇见 Serverless Spark

Apache Hudi的DeltaStreamer是一种以近实时方式摄取数据并写入Hudi表的工具类，它简化了流式数据入湖并存储为Hudi表的操作，自 `0.10.0` 版开始，Hudi又在DeltaStreamer的基础上增加了基于Debezium的CDC数据处理能力，这使得其可以直接将Debez ......

DeltaStreamer Serverless Apache Spark Hudi更新时间 2023-09-03

记录一次hudi 编译过程遇到过的问题

# 准备工作 pom中初始依赖组件版本配置如下 ``` 1.8 3.1.1.3.1.0.0-78 3.1.0.3.1.0.0-78 2.0.0 起始命令 mvn clean package -U -DskipTests -Dcheckstyle.skip -Dmaven.javadoc.skip=t ......

过程问题 hudi更新时间 2023-08-15

Amazon EMR Hudi 性能调优——Clustering

随着数据体量的日益增长，人们对 Hudi 的查询性能也提出更多要求，除了 Parquet 存储格式本来的性能优势之外，还希望 Hudi 能够提供更多的性能优化的技术途径，尤其当对 Hudi 表进行高并发的写入，产生了大量的小文件之后，又需要使用 Presto/Trino 对 Hudi 表进行高吞吐的 ......

Clustering 性能 Amazon Hudi EMR更新时间 2023-08-14

图加速数据湖分析-GeaFlow和Apache Hudi集成

# 表模型现状与问题关系模型自1970年由埃德加·科德提出来以后被广泛应用于数据库和数仓等数据处理系统的数据建模。关系模型以表作为基本的数据结构来定义数据模型，表为二维数据结构，本身缺乏关系的表达能力，关系的运算通过Join关联运算来处理。表模型简单且易于理解，在关系模型中被广泛使用。随着互联网 ......

GeaFlow 数据 Apache Hudi更新时间 2023-08-13

如何不加锁地将数据并发写入Apache Hudi？

最近一位 Hudi 用户询问他们是否可以在不需要任何锁的情况下同时从多个写入端写入单个 Hudi 表。他们场景是一个不可变的工作负载。一般来说对于任何多写入端功能，Hudi 建议启用锁定配置。但这是一个有趣的问题，我们进行探索并找到了解决方案，因此与更广泛的社区分享。 # 需要并发写入的锁提供 ......

数据 Apache Hudi更新时间 2023-07-09

Apache Hudi 元数据字段揭秘

# 介绍 Apache Hudi 最初由Uber于 2016 年开发，旨在实现一个交易型数据湖，该数据湖可以快速可靠地支持更新，以支持公司拼车平台的大规模增长。 Apache Hudi 现在被业内许多人广泛用于构建一些非常大规模的数据湖。 Apache Hudi 为快速变化的环境中管理数据提供了一个 ......

字段数据 Apache Hudi更新时间 2023-07-01

性能提升30%！袋鼠云数栈基于 Apache Hudi 的性能优化实战解析

Apache Hudi 是一款开源的[数据湖解决方案](https://www.dtstack.com/dtengine/easylake?src=szsm)，它能够帮助企业更好地管理和分析海量数据，支持高效的[数据更新和查询](https://www.dtstack.com/dtengine/ea ......

性能袋鼠实战 Apache Hudi更新时间 2023-06-21

Apache Hudi 初步了解

（一）背景 Hudi 是 Uber 主导开发的开源数据湖框架。所以大部分的出发点都来源于 Uber 自身场景，比如司机数据和乘客数据通过订单 Id 来做 Join 等。在 Hudi 过去的使用场景里，和大部分公司的架构类似，采用批式和流式共存的 Lambda 架构，我们先从延迟，数据完整度还有成本 ......

Apache Hudi更新时间 2023-06-12

Apache Hudi 1.x 版本重磅功能展望与讨论

Apache Hudi 社区正在对Apache Hudi 1.x版本功能进行讨论，欢迎感兴趣同学参与讨论，PR链接：[https://github.com/apache/hudi/pull/8679/files](https://github.com/apache/hudi/pull/8679/fi ......

重磅版本功能 Apache Hudi更新时间 2023-06-04

Hudi表创建时HDFS上的变化

SparkSQL 建 Hudi 表语句： ```sql CREATE TABLE t71 ( ds BIGINT, ut STRING, pk BIGINT, f0 BIGINT, f1 BIGINT, f2 BIGINT, f3 BIGINT, f4 BIGINT ) USING hudi PAR ......

Hudi HDFS更新时间 2023-05-31

Hudi表类型和查询类型

### 官方参考 [Table & Query Types](https://hudi.apache.org/cn/docs/next/table_types) ### 查询类型 * **快照查询（Snapshot Queries）** 查询最新的数据。 * **增量查询（Incremental Q ......

类型 Hudi更新时间 2023-05-30

Hudi的OverwriteNonDefaultsWithLatestAvroPayload效果测试

设置 Payload 为 OverwriteNonDefaultsWithLatestAvroPayload： ```sql set `hoodie.datasource.write.payload.class`=`org.apache.hudi.common.model.OverwriteNonD ......

OverwriteNonDefaultsWithLatestAvr oPayload 效果 Hudi更新时间 2023-05-30

hudi记录

hudi好文档-hudi-resources https://github.com/leesf/hudi-resources【Hudi】数据湖（三）：Hudi概念术语https://blog.csdn.net/u013522009/article/details/125243952【Hudi】数据湖 ......

hudi更新时间 2023-05-28

Apache Hudi 在袋鼠云数据湖平台的设计与实践

在大数据处理中，[实时数据分析](https://www.dtstack.com/dtengine/easylake?src=szsm)是一个重要的需求。随着数据量的不断增长，对于实时分析的挑战也在不断加大，传统的批处理方式已经不能满足[实时数据处理](https://www.dtstack.com ......

袋鼠数据 Apache 平台 Hudi更新时间 2023-05-24

hudi学习

## 1.背景想要对自己的各种数据（非结构化）进行统一管理，突然想到数据湖，看看是否符合我的需求。 ## 2.Hudi简介 #### 2.1 hudi的特性 ``` mutability support for all data lake workoads Quickly update & del ......

hudi更新时间 2023-05-23

提升 Apache Hudi Upsert 性能的三个建议

Apache Hudi 社区一直在快速发展，各公司正在寻找方法来利用其强大的功能来有效地摄取和管理大规模数据集。每周社区都会收到一些常见问题，最常见的问题与 Hudi 如何执行更新插入有关，以确保以低延迟访问最新数据。 # 选择合适的存储表类型快速更新插入的主要考虑因素之一是选择正确的存储表类型 ......

性能三个建议 Apache Upsert更新时间 2023-05-21

Hudi的ro和rt表

建表后并不会产生 ro 和 rt 两个表： spark-sql> create table hudi_mor_tbl ( > id int, > name string, > price double, > ts bigint > ) using hudi > tblproperties ( > t ......

Hudi更新时间 2023-05-16

Hudi的Index类型

Hudi 的索引是 hoodiekey 到文件组（File Group）或者文件 ID（File ID）的映射，hoodiekey 由 recordkey 和 partitionpath 两部分组成。定义在文件 HoodieIndex.java 中。分一下几种： |类型|说明| |:-|:-| ......

类型 Index Hudi更新时间 2023-05-10

hudi的bucket.index相关配置

hudi的bucket.index相关配置的源码文件为 HoodieIndexConfig.java 。通用配置 |配置项名|默认值|说明|引入版本| |:-|:-|:-|:-| |hoodie.index.type|无默认值|索引类型，可取值：HBASE、INMEMORY、BLOOM、GLOBA ......

bucket index hudi更新时间 2023-05-10

Hudi的precombine.field释疑

从不同资料，可看到四个让人迷惑的 precombine.field 配置项： precombine.field write.precombine.field hoodie.table.precombine.field hoodie.datasource.write.precombine.field ......

precombine field Hudi更新时间 2023-05-10

Flink创建Hudi的Sink动态表

工厂类 HoodieTableFactory 提供的创建动态表接口 createDynamicTableSource 和 createDynamicTableSink，对应的源码文件为：https://github.com/apache/hudi/blob/master/hudi-flink-dat ......

动态 Flink Hudi Sink更新时间 2023-05-09

Hudi的Flink配置项（1）

名词 FallbackKeys 备选 keys，可理解为别名，当指定的 key 不存在是，则找备选 keys，在这里指配置项的名字。相关源码 FlinkOptions // https://github.com/apache/hudi/blob/master/hudi-flink-datasour ......

Flink Hudi更新时间 2023-05-09

Hudi学习笔记5 - Hudi配置分析（1）

Hudi 官方配置文档：https://hudi.apache.org/docs/configurations，从源码分析可以看到配置项 hoodie.payload.ordering.field 已经废弃，取而代之的是 hoodie.datasource.write.precombine.fiel ......

Hudi 笔记更新时间 2023-05-08

Hudi学习笔记4 - Hudi配置之Spark配置

Spark Datasource Configs 读配置 |配置项|是否必须|默认值|配置说明| |:-|:-|:-|:-| |as.of.instant|Y|N/A|0.9.0 版本新增，时间旅行查询从哪儿开始，有两种格式的值：yyyyMMddHHmmss 和 yyyy-MM-dd HH:mm:s ......

Hudi 笔记 Spark更新时间 2023-05-08

共44篇 :1/2页 首页上一页12下一页尾页