Iceberg

Iceberg过期快照清理

总结 指标 清理前(已优化小文件) 清理后 查询速度 13秒 15秒(波动) 表总大小 26.4G 17.2G metadata目录文件数 75 42 data目录文件数 1501 602 !!!需要先做小文件合并,然后再做过期快照比较好。 小文件合并:Iceberg小文件合并测试 一、清理任务资源 ......
快照 Iceberg

Iceberg小文件合并测试

总结 指标 合并前 合并后(因测试中多次合并,数据会偏多) 查询速度 246秒 13秒 表总大小 9.2G 26.4G 单个文件大小 1-25MB 60MB左右 metadata目录文件数 37 75 data目录文件数 900 1501 小文件合并后历史版本数据不会自动清理,需要做快照清理 快照清 ......
Iceberg 文件

Iceberg元数据合并-metadata.json文件

一、背景描述 元数据文件随时间增多,导致查询变慢。通过如下方式可以指定metadata个数,超过指定数量自动清理。 metadata文件对应Iceberg概念是Snapshots 二、解决方案 1、在建表时增加参数 ‘write.metadata.delete-after-commit.enable ......
metadata Iceberg 文件 数据 json

查询Iceberg表流程

1、查询表结构 show create table data_lake_ods.dws_service_subclazz_lesson_user_learn_stat_rt_v2 CREATE TABLE spark_catalog.data_lake_ods.dws_service_subclaz ......
流程 Iceberg

调研报告-基于 Iceberg 构建湖仓一体平台调研

一、背景 我们使用 Iceberg 构建湖仓一体平台的初衷是希望解决业务方在使用 Hive 数仓时的一些痛点。主要包括以下几大方面: (1)现有的数据同步只支持全量同步,同步大表速度慢。 (2)Hive 的时效性不好,即使使用 FIink 流式的引擎写入,延迟也会在小时级别。 (3)Hive扫描数据 ......
调研报告 一体 Iceberg 报告 平台

性能测试-Oceanus 测试FLink mysql到Iceberg性能

一、任务依赖信息 1、mysql测试库信息 地址:127.0.0.1、gomysql_bdg_test 库:bdg_test 表:order_info1 2、iceberg库 hive地址:thrift://127:7004 catalog-name:spark_catalog Format版本:v ......
性能 Oceanus Iceberg FLink mysql

同步工具-Oceanus打通mysql到Iceberg

一、服务配置 已配置好gt_oneline_2,其它集群还需按照下面方式特殊配置 1、需要腾讯Oceanus同学在后端修改高途flink集群配置core-site.xml文件,增加如下配置。只能绑定一个chdfs环境,这边绑定的测试环境,线上环境需要改qcloud.object.storage.zk ......
Oceanus Iceberg 工具 mysql

使用-数据湖Iceberg和现有hive数仓打通并使用

一、集群配置 1、版本使用 技术 版本 iceberg 1.3.1 flink 1.16.1 spark 3.2.1 hive 2.3.7 dlc-presto 待定 2、集群配置调整 (1)使用hive查询的话所有hiveserver2节点修改hive-site.xml文件,添加jar包,添加如下 ......
Iceberg 数据 hive

Kyuubi支持Iceberg配置

一、简述 Kyuubi调用Spark来查询iceberg表,修改Spark配置信息即可。 二、服务配置 1、上传jar包到Kyuubi server节点 可以选择emr spark组件后,按照配置组(kyuubi-spark321)筛选kyuubi节点。 hadoop用户上传jar包:tx-iceb ......
Iceberg Kyuubi

优化-iceberg调参优化

一、建表优化 1、iceberg表支持更新操作。 文档:https://iceberg.apache.org/docs/latest/configuration/ 功能描述:因v1只支持insert,如果有更新场景,则需要建表时指定format为V2版本 参数:'format-version'='2 ......
iceberg

使用必读-使用Iceberg数据湖需要注意的点

一、开发注意事项 1、Iceberg选择合适的表版本 简述:Iceberg目前有两个表版本(V1和V2),根据数据选择合适的表版本。 V1表只支持增量数据插入,适合做纯增量写入场景,如埋点数据。 V2表才支持行级更新,适合做状态变化的更新,如订单表同步。 使用方式:建表语句时指定版本'format- ......
Iceberg 数据

presto集成iceberg(还存在问题,怀疑是icebegr版本问题)

一、复制包到presto集群 cp ./iceberg-hive-runtime-1.3.1.jar /usr/local/service/presto/plugin/hive-hadoop2 二、重启presto的节点 三、测试 /usr/local/service/presto/presto-c ......
问题 iceberg icebegr 版本 presto

Iceberg Spark存储过程-表治理工具

一、简介 存储过程(Procedure)是数据库领域的概念,类似于编程语言中的方法或函数,是对实现特定操作的封装,原生的 Spark SQL 中是不支持存储过程的,Iceberg 0.11.0版本之后对其进行了扩展,并提供了部分存储过程的实现。Iceberg 中提供的所有存储过程都在system n ......
过程 Iceberg 工具 Spark

spark-sql查询Iceberg时处理流程

1、查询表结构 show create table data_lake_ods.test CREATE TABLE spark_catalog.data_lake_ods.test ( `user_number` BIGINT NOT NULL, `subclazz_number` BIGINT N ......
spark-sql 流程 Iceberg spark sql

Iceberg的Copy on Write和Merge On Read介绍

一、默认的Copy on Write Copy no Write模式指的是在进行更新数据时,先将数据拷贝出来进行相应的更新,再替换掉原先的数据 二、Merge On Read读取时合并 在v2版本才支持,Merge on Read的Row-level delete使用了如下概念: delete fi ......
Iceberg Write Merge Copy Read

Iceberg参数调整

1、写入参数介绍 属性 默认值 描述 write.format.default parquet 表的默认文件格式。parquet、avro、orc write.delete.format.default 数据文件格式 表的默认删除文件格式。parquet、avro、orc write.parquet ......
参数 Iceberg

javaapi、spark、flink 创建Iceberg表,hive 和impala无法正常读取解决

spark、flink 创建Iceberg表中,元数据存储在hive 的meta_store,发现hive 或者impala无法正常读取报错。事实上解决方案是 在spark 、flink 的SQL中执行语句: add iceberg相关引擎的runntime的jar;ALTER TABLE t SE ......
javaapi Iceberg impala flink spark

Apache Iceberg 表有哪些性能优化方式

Apache Iceberg是一种开源的分布式数据表格格式,旨在提供可扩展性、性能和数据一致性。它建立在Apache Hadoop的基础上,并支持多种数据湖存储(如Hadoop HDFS、Amazon S3等)。为了优化Apache Iceberg表的性能,可以采取多种策略和技术,以下是一些重要的性 ......
性能 Iceberg 方式 Apache

特性快闪:使用 Databend 玩转 Iceberg

几周前,Databricks 和 Snowflake 召开了各自的年度大会,除了今年一路持续走红的 AI ,数据湖/数据仓库技术的发展仍然值得关注,毕竟数据才是基本盘。Apache Iceberg 无疑是数据湖方案的大赢家,Databricks 新推出的 UniForm 为以 Apache Iceb ......
Databend 特性 Iceberg

Iceberg 数据治理及查询加速实践

数据治理 Flink 实时写入 Iceberg 带来的问题 在实时数据源源不断经过 Flink 写入的 Iceberg 的过程中,Flink 通过定时的 Checkpoint 提交 snapshot commit 操作到 Iceberg,将已写入到 Iceberg 的数据文件通过 Snapshot ......
Iceberg 数据
共20篇  :1/1页 首页上一页1下一页尾页