iceberg kyuubi

Iceberg过期快照清理

总结指标清理前（已优化小文件）清理后查询速度 13秒 15秒（波动）表总大小 26.4G 17.2G metadata目录文件数 75 42 data目录文件数 1501 602 ！！！需要先做小文件合并，然后再做过期快照比较好。小文件合并：Iceberg小文件合并测试一、清理任务资源 ......

快照 Iceberg更新时间 2024-01-02

Iceberg小文件合并测试

总结指标合并前合并后（因测试中多次合并，数据会偏多）查询速度 246秒 13秒表总大小 9.2G 26.4G 单个文件大小 1-25MB 60MB左右 metadata目录文件数 37 75 data目录文件数 900 1501 小文件合并后历史版本数据不会自动清理，需要做快照清理快照清 ......

Iceberg 文件更新时间 2024-01-02

Iceberg元数据合并-metadata.json文件

一、背景描述元数据文件随时间增多，导致查询变慢。通过如下方式可以指定metadata个数，超过指定数量自动清理。 metadata文件对应Iceberg概念是Snapshots 二、解决方案 1、在建表时增加参数 ‘write.metadata.delete-after-commit.enable ......

metadata Iceberg 文件数据 json更新时间 2024-01-02

查询Iceberg表流程

1、查询表结构 show create table data_lake_ods.dws_service_subclazz_lesson_user_learn_stat_rt_v2 CREATE TABLE spark_catalog.data_lake_ods.dws_service_subclaz ......

流程 Iceberg更新时间 2024-01-02

调研报告-基于 Iceberg 构建湖仓一体平台调研

一、背景我们使用 Iceberg 构建湖仓一体平台的初衷是希望解决业务方在使用 Hive 数仓时的一些痛点。主要包括以下几大方面：（1）现有的数据同步只支持全量同步，同步大表速度慢。（2）Hive 的时效性不好，即使使用 FIink 流式的引擎写入，延迟也会在小时级别。（3）Hive扫描数据 ......

调研报告一体 Iceberg 报告平台更新时间 2024-01-02

性能测试-Oceanus 测试FLink mysql到Iceberg性能

一、任务依赖信息 1、mysql测试库信息地址：127.0.0.1、gomysql_bdg_test 库：bdg_test 表：order_info1 2、iceberg库 hive地址：thrift://127:7004 catalog-name：spark_catalog Format版本:v ......

性能 Oceanus Iceberg FLink mysql更新时间 2024-01-02

同步工具-Oceanus打通mysql到Iceberg

一、服务配置已配置好gt_oneline_2，其它集群还需按照下面方式特殊配置 1、需要腾讯Oceanus同学在后端修改高途flink集群配置core-site.xml文件，增加如下配置。只能绑定一个chdfs环境，这边绑定的测试环境，线上环境需要改qcloud.object.storage.zk ......

Oceanus Iceberg 工具 mysql更新时间 2024-01-02

使用-数据湖Iceberg和现有hive数仓打通并使用

一、集群配置 1、版本使用技术版本 iceberg 1.3.1 flink 1.16.1 spark 3.2.1 hive 2.3.7 dlc-presto 待定 2、集群配置调整（1）使用hive查询的话所有hiveserver2节点修改hive-site.xml文件，添加jar包，添加如下 ......

Iceberg 数据 hive更新时间 2024-01-02

Kyuubi支持Iceberg配置

一、简述 Kyuubi调用Spark来查询iceberg表，修改Spark配置信息即可。二、服务配置 1、上传jar包到Kyuubi server节点可以选择emr spark组件后，按照配置组(kyuubi-spark321)筛选kyuubi节点。 hadoop用户上传jar包：tx-iceb ......

Iceberg Kyuubi更新时间 2024-01-02

优化-iceberg调参优化

一、建表优化 1、iceberg表支持更新操作。文档：https://iceberg.apache.org/docs/latest/configuration/ 功能描述：因v1只支持insert，如果有更新场景，则需要建表时指定format为V2版本参数：'format-version'='2 ......

iceberg更新时间 2024-01-02

使用必读-使用Iceberg数据湖需要注意的点

一、开发注意事项 1、Iceberg选择合适的表版本简述：Iceberg目前有两个表版本（V1和V2），根据数据选择合适的表版本。 V1表只支持增量数据插入，适合做纯增量写入场景，如埋点数据。 V2表才支持行级更新，适合做状态变化的更新，如订单表同步。使用方式：建表语句时指定版本'format- ......

Iceberg 数据更新时间 2024-01-02

Apache Kyuubi 讲解与实战操作

目录一、概述二、Spark Kyuubi 架构三、Hadoop 基础环境安装1）hadoop 下载部署包2）创建网络3）部署MySQL4）部署 Hadoop Hive四、Spark Kyuubi 安装1）下载 Kyuubi2）下载 Spark32）配置 Kyuubi （Spark3）3）启动 Kyu ......

实战 Apache Kyuubi更新时间 2023-12-20

presto集成iceberg(还存在问题，怀疑是icebegr版本问题)

一、复制包到presto集群 cp ./iceberg-hive-runtime-1.3.1.jar /usr/local/service/presto/plugin/hive-hadoop2 二、重启presto的节点三、测试 /usr/local/service/presto/presto-c ......

问题 iceberg icebegr 版本 presto更新时间 2023-12-13

Iceberg Spark存储过程-表治理工具

一、简介存储过程（Procedure）是数据库领域的概念，类似于编程语言中的方法或函数，是对实现特定操作的封装，原生的 Spark SQL 中是不支持存储过程的，Iceberg 0.11.0版本之后对其进行了扩展，并提供了部分存储过程的实现。Iceberg 中提供的所有存储过程都在system n ......

过程 Iceberg 工具 Spark更新时间 2023-12-08

spark-sql查询Iceberg时处理流程

1、查询表结构 show create table data_lake_ods.test CREATE TABLE spark_catalog.data_lake_ods.test ( `user_number` BIGINT NOT NULL, `subclazz_number` BIGINT N ......

spark-sql 流程 Iceberg spark sql更新时间 2023-12-05

Iceberg的Copy on Write和Merge On Read介绍

一、默认的Copy on Write Copy no Write模式指的是在进行更新数据时，先将数据拷贝出来进行相应的更新，再替换掉原先的数据二、Merge On Read读取时合并在v2版本才支持，Merge on Read的Row-level delete使用了如下概念： delete fi ......

Iceberg Write Merge Copy Read更新时间 2023-11-30

Iceberg参数调整

1、写入参数介绍属性默认值描述 write.format.default parquet 表的默认文件格式。parquet、avro、orc write.delete.format.default 数据文件格式表的默认删除文件格式。parquet、avro、orc write.parquet ......

参数 Iceberg更新时间 2023-11-15

javaapi、spark、flink 创建Iceberg表，hive 和impala无法正常读取解决

spark、flink 创建Iceberg表中，元数据存储在hive 的meta_store,发现hive 或者impala无法正常读取报错。事实上解决方案是在spark 、flink 的SQL中执行语句: add iceberg相关引擎的runntime的jar;ALTER TABLE t SE ......

javaapi Iceberg impala flink spark更新时间 2023-11-02

重新编译kyuubi-1.6.1版本使其提交flink sql流式任务时不阻塞

kyuubi-1.6.1版本对于flink sql的支持不是很好，在提交流式任务时会阻塞进程，为了修复这个缺陷，需要修改源代码并重新编译待编译的kyuubi版本：kyuubi-1.6.1-incubating 适配的flink版本：flink-1.14.4 1、下载kyuubi-1.6.1-inc ......

任务版本 kyuubi flink sql更新时间 2023-10-07

Apache Iceberg 表有哪些性能优化方式

Apache Iceberg是一种开源的分布式数据表格格式，旨在提供可扩展性、性能和数据一致性。它建立在Apache Hadoop的基础上，并支持多种数据湖存储（如Hadoop HDFS、Amazon S3等）。为了优化Apache Iceberg表的性能，可以采取多种策略和技术，以下是一些重要的性 ......

性能 Iceberg 方式 Apache更新时间 2023-09-14

特性快闪：使用 Databend 玩转 Iceberg

几周前，Databricks 和 Snowflake 召开了各自的年度大会，除了今年一路持续走红的 AI ，数据湖/数据仓库技术的发展仍然值得关注，毕竟数据才是基本盘。Apache Iceberg 无疑是数据湖方案的大赢家，Databricks 新推出的 UniForm 为以 Apache Iceb ......

Databend 特性 Iceberg更新时间 2023-07-31

DBeaver连接Kyuubi成功，但不能获取catalog

关键信息如下标红， operationHandle字段未设置，这个很容易想到是版本不一致，在DBeaver里修改kyuubi的驱动即可 asdfa 2023-06-12 08:55:29.756 INFO org.apache.kyuubi.server.KyuubiTBinaryFrontendS ......

DBeaver catalog Kyuubi更新时间 2023-06-12

Iceberg 数据治理及查询加速实践

数据治理 Flink 实时写入 Iceberg 带来的问题在实时数据源源不断经过 Flink 写入的 Iceberg 的过程中，Flink 通过定时的 Checkpoint 提交 snapshot commit 操作到 Iceberg，将已写入到 Iceberg 的数据文件通过 Snapshot ......

Iceberg 数据更新时间 2023-03-22

共23篇 :1/1页 首页上一页1下一页尾页