flink hudi

Hudi学习笔记4 - Hudi配置之Spark配置

Spark Datasource Configs 读配置 |配置项|是否必须|默认值|配置说明| |:-|:-|:-|:-| |as.of.instant|Y|N/A|0.9.0 版本新增,时间旅行查询从哪儿开始,有两种格式的值:yyyyMMddHHmmss 和 yyyy-MM-dd HH:mm:s ......
Hudi 笔记 Spark

Hudi学习笔记2 - Hudi配置之FlinkSQL配置

Flink Sql Configs |配置项|是否必须|默认值|配置说明| |:-|:-|:-|:-| |path|Y|N/A|Hudi表的 base path,如果不存在会创建,否则应是一个已初始化成功的 hudi 表| |read.end-commit|Y|N/A|| |read.start-c ......
Hudi FlinkSQL 笔记

Hudi学习笔记(2)

https://hudi.apache.org/docs/configurations Hudi配置分类 Spark Datasource Configs Spark Datasource 的配置。 Flink Sql Configs Flink SQL source/sink connectors ......
笔记 Hudi

Flink Cdc MySQL 整库同步到 StarRocks

这段时间开始调研使用 StarRocks 做准实时数据仓库:flink cdc 实时同步数据到 StarRocks,然后在 StarRocks 中做分层计算,直接把 StarRocks 中的 ADS 层提供给 BI 查询。架构如下: 由于用到的表比较多,不能用 Flink SQL 给每个表都做个 C ......
StarRocks Flink MySQL Cdc

Flink 1.17 自定义 MySQL Catalog

Catalog 类型 以下内容来自官网: Hive Catalog 支持Flink 元数据的持久化存储,以前一直用 Hive Catalog 存,偶尔需要用的时候把 Hive Catalog 开启(需启动 hive metastore 和 hiveserver2,还要启动 Hadoop),大部分时候 ......
Catalog Flink MySQL 1.17 17

Hudi学习笔记(1)

使用注意 从 0.10.0 版本开始,primaryKey 为必须的,不再支持没有主键的表。 primaryKey、primaryKey 和 type 均大小写敏感。 对于 MOR 类型的表,preCombineField 为必须的。 当设置 primaryKey、primaryKey 或 type ......
笔记 Hudi

【新鲜出炉的个人项目】基于 Flink 的商品推荐系统

Recs FlinkCommodityRecommendationSystem(基于 Flink 的商品推荐系统) 1. 前言 系统取名为 Recs,灵感源于 Recommendation System。logo 使用在线 logo 网站制作。作者开发该项目,是为了学习 Flink 以及相关大数据中 ......
项目 商品 系统 Flink 个人

Apache hudi 核心功能点分析

Hudi 文中部分代码对应 0.14.0 版本 发展背景 初始的需求是Uber公司会有很多记录级别的更新场景,Hudi 在Uber 内部主要的一个场景,就是乘客打车下单和司机接单的匹配,乘客和司机分别是两条数据流,通过 Hudi 的 Upsert 能力和增量读取功能,可以分钟级地将这两条数据流进行拼 ......
核心 功能 Apache hudi

flink平台项目-cnblog

# flink平台项目 目录 架构 以前架构 现在架构的说明 CDH&集群规模 人员配备 开发周期 为什么用flinkcdc 项目好处 千表入湖工具 flink操作hive flink集成hive的步骤 flinksql 数据源为kafka flink读写sql有两种模式 Temporal Joi ......
项目 cnblog flink 平台

upsert部分hudi表字段

当 insert into 一个 hudi 表时,如果只指定了部分字段,则运行时报错: java.sql.SQLException: java.util.concurrent.ExecutionException: java.lang.RuntimeException: org.apache.hud ......
字段 部分 upsert hudi

【flink】重启kafka消费者

public class KafkaConsumerJob { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment. ......
消费者 flink kafka

flink学习路线

1 传统架构 2 大数据架构和流式架构的演变工程 3 flink优势和不足 4 flink应用场景 5 flink基本架构 6 环境准备,运行环境和开发环境配置,建议使用java,兼容性好 7 flink编程模型:flink的数据集类型,编程接口,程序结构和数据类型4个维度进行分析。流式处理和批量计 ......
路线 flink

Flink启动报错:/bin/config.sh: line 32: syntax error near unexpected token

flink启动报错 xxx@ssss:/xxx/flink-1.15.2/bin> sh start-cluster.sh /xxx/flink-1.15.2/bin/config.sh: line 32: syntax error near unexpected token `<' /xxx/fl ......
unexpected config syntax Flink error

单机单节点Flink的部署

一、Flink的下载和安装 1、Flink的下载 官方下载网址:https://archive.apache.org/dist/flink/这里选择1.15.2这个版本 2、把Flink上传到主机上 把下载好的文件上传到/opt/software上 3、解压Flink安装包 把Flink解压到/op ......
节点 单机 Flink

Flink之基于EventTime的WaterMark

什么是FLink watermark? Flink watermark是一种用于时间和事件处理的机制,它为事件流中的每个事件都分配了一个时间戳,以便将其与其他事件进行排序和分组。Watermark还为每个事件流提供了一个智能定界框架,使Flink能够有效地控制事件流的处理方式。Watermark可以 ......
EventTime WaterMark Flink

flink 消费多个topic

转:https://www.404bugs.com/details/1081256252897284096 flink 消费多个topic示例: import org.apache.flink.api.common.functions.FlatMapFunction; import org.apac ......
多个 flink topic

flink taskmanager 初始化失败,报TaskManager initialization failed

【问题现象】 报错1: 报错2: 【定位步骤】 报错1是因为flink写日志的文件目录权限不够。为什么不够呢?因为该环境是admin部署,而flink的用户是自己创建的一个用户999,不是root用户,访问权限报错 --解决办法:在对应扩容脚本中增加日志目录的权限赋值,赋值为777 报错为taskm ......

Flink

Flink 流处理与批处理最大不同在于数据传输方式: 流处理:一条数据被处理完成后序列化到缓存,然后传输到下一个节点处理(一条一条) 批处理:数据处理完成后缓存到内存,缓存写满后持久化硬盘,所有数据处理完成后再传输到下一个节点(一批一批) Flink以固定的缓存块为单位进行网络数据传输,用户可以通过 ......
Flink

SchemaRegestry组件原生的类和方法无法实现flink消费kafka的数据动态调整schema的情况--未彻底解决

0、前提知识储备 Conflurent公司的SchemaRegestry组件的基本了解和使用 一、背景: 0.组件版本 flink:1.14 1.链路调整情况 原先链路:oracle-->OGG-->kafka-->flink-->数据库\湖\仓 实现链路:oracle-->OGG-->kafka( ......
SchemaRegestry 组件 情况 方法 动态

构建私有仓库 flink image 镜像

准备flink-*.tar.gz 可以自己编译,或者下载 编译 cd ${flink-root} mvn install -DskipTests # 编译成功后,压缩成tar.gz cd ./flink-dist/target/ tar -cvf flink-1.18-SNAPSHOT-bin.ta ......
仓库 镜像 flink image

flink

指定TM内存模型的方式整个TM内存模型可以通过三种方式来指定 通过指定 taskmanager.memory.task.heap.size 和 taskmanager.memory.managed.size来确定 通过指定 taskmanager.memory.flink.size 也就是 Tota ......
flink

[Flink] Flink作业报错:Caused by: The connector is trying to read binlog starting at GTIDs ..., but this is no longer available on the server[转载]

这个问题,属于偶现问题。通常几个月才偶现一次。 因为上周五又出现了一次,且团队内多位小伙伴都遇到过。故此,这次特别记录下,以加强印象。 1 问题描述 Flink作业报错:Caused by: The connector is trying to read binlog starting at GTI ......
Flink available connector starting Caused

Flink零基础学习笔记(一):基础概念

一、Apache Flink的定义、架构和原理 Apache Flink是一个分布式大数据处理引擎,可以对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据以内存速度进行快速计算。 接下来我们介绍一下这些关键词的意义。 处理无界和有界数据 任何数据都能形成一 ......
基础 概念 笔记 Flink

记一次Flink遇到性能瓶颈

前言 这周的主要时间花在Flink上面,做了一个简单的从文本文件中读取数据,然后存入数据库的例子,能够正常的实现功能,但是遇到个问题,我有四台机器,自己搭建了一个standalone的集群,不论我把并行度设置多少,跑起来的耗时都非常接近,实在是百思不得其解。机器多似乎并不能帮助它。 把过程记录在此, ......
瓶颈 性能 Flink

初学Flink上传jar包出现报错Internal server error.---No data for required key 'port'

查看Job Manager里面的日志 发现错误,java.lang.RuntimeException: No data for required key 'port' 解决方法; 方法一:在Program Argument里添加主机名和端口号,该方法适合动态获取host和port的情况。 方法二:直 ......
Internal required server Flink error

分布式计算技术(下):Impala、Apache Flink、星环Slipstream

实时计算的发展历史只有十几年,它与基于数据库的计算模型有本质区别,实时计算是固定的计算任务加上流动的数据,而数据库大多是固定的数据和流动的计算任务,因此实时计算平台对数据抽象、延时性、容错性、数据语义等的要求与数据库明显不同,面向实时计算的数据架构也就发展起来。本篇我们介绍面向交互式分析的计算引擎I ......
分布式 Slipstream Impala Apache Flink

flink?

Flink是一种基于流数据流式处理引擎。与批处理不同,它的主要思想是数据流的概念,它可以被视为一系列连续的事件或记录,它们按照发生的时间顺序进行处理,而不是被分成离散的块进行处理。Flink可以接收无限数据流并实时处理它们,它的流式处理支持无限的数据流输入和输出,并且可以动态地对数据流进行处理和修改 ......
flink

【博学谷学习记录】超强总结,用心分享 | Flink的编程

【博学谷IT技术支持】 Flink的编程 编程步骤 构建流式处理环境 数据源 数据处理 数据输出 启用流式任务 Flink的算子 常用算子 Source算子:用于读取数据源,包括文件、Kafka、Socket等。 Map算子:用于对数据流中的每个元素进行转换操作,将输入流中的每个元素转换为输出流中的 ......
Flink

【博学谷学习记录】超强总结,用心分享 | Flink的安装部署

【博学谷IT技术支持】 Flink的安装部署 配置Flink 1. 编辑conf/flink-conf.yaml文件 vim conf/flink-conf.yaml 2. 需要修改的地方 rest.address: node1 rest.bind-address: node1 3.建议修改的地方, ......
Flink

Flink 生成ParquetFile

前言 这周主要是学习使用Flink, 其中有一部分学习的内容就是生成parquet。 Flink自身提供的文档写了个大概,但是真要自己动手去生成pqrquet文件,发现还是有些小坑,本文就是记录这些坑。 开始 官方文档总是最好的开始的地方, 下面是官方文档上面的内容 https://nightlie ......
ParquetFile Flink