Flink

Flink创建Hudi的Sink动态表

工厂类 HoodieTableFactory 提供的创建动态表接口 createDynamicTableSource 和 createDynamicTableSink,对应的源码文件为:https://github.com/apache/hudi/blob/master/hudi-flink-dat ......
动态 Flink Hudi Sink

Hudi的Flink配置项(1)

名词 FallbackKeys 备选 keys,可理解为别名,当指定的 key 不存在是,则找备选 keys,在这里指配置项的名字。 相关源码 FlinkOptions // https://github.com/apache/hudi/blob/master/hudi-flink-datasour ......
Flink Hudi

启动flink显示ERROR: JAVA_HOME is not set and could not be found.

问题: JAVA_HOME存在,但启动flink时出现ERROR: JAVA_HOME is not set and could not be found. 原因: 环境变量加载顺序不对 # /etc/profile.d/hadoop.sh # ... export HADOOP_CLASSPATH ......
JAVA_HOME not flink ERROR could

flink Connecting to remote task manager 'localhost/127.0.0.1:44489

问题: 启动集群后,执行任务时失败: Caused by: org.apache.flink.runtime.io.network.partition.consumer.PartitionConnectionException: Connection for partition 47d4a41224 ......
Connecting localhost manager remote flink

Flink Cdc MySQL 整库同步到 StarRocks

这段时间开始调研使用 StarRocks 做准实时数据仓库:flink cdc 实时同步数据到 StarRocks,然后在 StarRocks 中做分层计算,直接把 StarRocks 中的 ADS 层提供给 BI 查询。架构如下: 由于用到的表比较多,不能用 Flink SQL 给每个表都做个 C ......
StarRocks Flink MySQL Cdc

Flink 1.17 自定义 MySQL Catalog

Catalog 类型 以下内容来自官网: Hive Catalog 支持Flink 元数据的持久化存储,以前一直用 Hive Catalog 存,偶尔需要用的时候把 Hive Catalog 开启(需启动 hive metastore 和 hiveserver2,还要启动 Hadoop),大部分时候 ......
Catalog Flink MySQL 1.17 17

【新鲜出炉的个人项目】基于 Flink 的商品推荐系统

Recs FlinkCommodityRecommendationSystem(基于 Flink 的商品推荐系统) 1. 前言 系统取名为 Recs,灵感源于 Recommendation System。logo 使用在线 logo 网站制作。作者开发该项目,是为了学习 Flink 以及相关大数据中 ......
项目 商品 系统 Flink 个人

flink平台项目-cnblog

# flink平台项目 目录 架构 以前架构 现在架构的说明 CDH&集群规模 人员配备 开发周期 为什么用flinkcdc 项目好处 千表入湖工具 flink操作hive flink集成hive的步骤 flinksql 数据源为kafka flink读写sql有两种模式 Temporal Joi ......
项目 cnblog flink 平台

【flink】重启kafka消费者

public class KafkaConsumerJob { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment. ......
消费者 flink kafka

flink学习路线

1 传统架构 2 大数据架构和流式架构的演变工程 3 flink优势和不足 4 flink应用场景 5 flink基本架构 6 环境准备,运行环境和开发环境配置,建议使用java,兼容性好 7 flink编程模型:flink的数据集类型,编程接口,程序结构和数据类型4个维度进行分析。流式处理和批量计 ......
路线 flink

Flink启动报错:/bin/config.sh: line 32: syntax error near unexpected token

flink启动报错 xxx@ssss:/xxx/flink-1.15.2/bin> sh start-cluster.sh /xxx/flink-1.15.2/bin/config.sh: line 32: syntax error near unexpected token `<' /xxx/fl ......
unexpected config syntax Flink error

单机单节点Flink的部署

一、Flink的下载和安装 1、Flink的下载 官方下载网址:https://archive.apache.org/dist/flink/这里选择1.15.2这个版本 2、把Flink上传到主机上 把下载好的文件上传到/opt/software上 3、解压Flink安装包 把Flink解压到/op ......
节点 单机 Flink

Flink之基于EventTime的WaterMark

什么是FLink watermark? Flink watermark是一种用于时间和事件处理的机制,它为事件流中的每个事件都分配了一个时间戳,以便将其与其他事件进行排序和分组。Watermark还为每个事件流提供了一个智能定界框架,使Flink能够有效地控制事件流的处理方式。Watermark可以 ......
EventTime WaterMark Flink

flink 消费多个topic

转:https://www.404bugs.com/details/1081256252897284096 flink 消费多个topic示例: import org.apache.flink.api.common.functions.FlatMapFunction; import org.apac ......
多个 flink topic

flink taskmanager 初始化失败,报TaskManager initialization failed

【问题现象】 报错1: 报错2: 【定位步骤】 报错1是因为flink写日志的文件目录权限不够。为什么不够呢?因为该环境是admin部署,而flink的用户是自己创建的一个用户999,不是root用户,访问权限报错 --解决办法:在对应扩容脚本中增加日志目录的权限赋值,赋值为777 报错为taskm ......

Flink

Flink 流处理与批处理最大不同在于数据传输方式: 流处理:一条数据被处理完成后序列化到缓存,然后传输到下一个节点处理(一条一条) 批处理:数据处理完成后缓存到内存,缓存写满后持久化硬盘,所有数据处理完成后再传输到下一个节点(一批一批) Flink以固定的缓存块为单位进行网络数据传输,用户可以通过 ......
Flink

SchemaRegestry组件原生的类和方法无法实现flink消费kafka的数据动态调整schema的情况--未彻底解决

0、前提知识储备 Conflurent公司的SchemaRegestry组件的基本了解和使用 一、背景: 0.组件版本 flink:1.14 1.链路调整情况 原先链路:oracle-->OGG-->kafka-->flink-->数据库\湖\仓 实现链路:oracle-->OGG-->kafka( ......
SchemaRegestry 组件 情况 方法 动态

构建私有仓库 flink image 镜像

准备flink-*.tar.gz 可以自己编译,或者下载 编译 cd ${flink-root} mvn install -DskipTests # 编译成功后,压缩成tar.gz cd ./flink-dist/target/ tar -cvf flink-1.18-SNAPSHOT-bin.ta ......
仓库 镜像 flink image

flink

指定TM内存模型的方式整个TM内存模型可以通过三种方式来指定 通过指定 taskmanager.memory.task.heap.size 和 taskmanager.memory.managed.size来确定 通过指定 taskmanager.memory.flink.size 也就是 Tota ......
flink

[Flink] Flink作业报错:Caused by: The connector is trying to read binlog starting at GTIDs ..., but this is no longer available on the server[转载]

这个问题,属于偶现问题。通常几个月才偶现一次。 因为上周五又出现了一次,且团队内多位小伙伴都遇到过。故此,这次特别记录下,以加强印象。 1 问题描述 Flink作业报错:Caused by: The connector is trying to read binlog starting at GTI ......
Flink available connector starting Caused

Flink零基础学习笔记(一):基础概念

一、Apache Flink的定义、架构和原理 Apache Flink是一个分布式大数据处理引擎,可以对有限数据流和无限数据流进行有状态或无状态的计算,能够部署在各种集群环境,对各种规模大小的数据以内存速度进行快速计算。 接下来我们介绍一下这些关键词的意义。 处理无界和有界数据 任何数据都能形成一 ......
基础 概念 笔记 Flink

记一次Flink遇到性能瓶颈

前言 这周的主要时间花在Flink上面,做了一个简单的从文本文件中读取数据,然后存入数据库的例子,能够正常的实现功能,但是遇到个问题,我有四台机器,自己搭建了一个standalone的集群,不论我把并行度设置多少,跑起来的耗时都非常接近,实在是百思不得其解。机器多似乎并不能帮助它。 把过程记录在此, ......
瓶颈 性能 Flink

初学Flink上传jar包出现报错Internal server error.---No data for required key 'port'

查看Job Manager里面的日志 发现错误,java.lang.RuntimeException: No data for required key 'port' 解决方法; 方法一:在Program Argument里添加主机名和端口号,该方法适合动态获取host和port的情况。 方法二:直 ......
Internal required server Flink error

分布式计算技术(下):Impala、Apache Flink、星环Slipstream

实时计算的发展历史只有十几年,它与基于数据库的计算模型有本质区别,实时计算是固定的计算任务加上流动的数据,而数据库大多是固定的数据和流动的计算任务,因此实时计算平台对数据抽象、延时性、容错性、数据语义等的要求与数据库明显不同,面向实时计算的数据架构也就发展起来。本篇我们介绍面向交互式分析的计算引擎I ......
分布式 Slipstream Impala Apache Flink

flink?

Flink是一种基于流数据流式处理引擎。与批处理不同,它的主要思想是数据流的概念,它可以被视为一系列连续的事件或记录,它们按照发生的时间顺序进行处理,而不是被分成离散的块进行处理。Flink可以接收无限数据流并实时处理它们,它的流式处理支持无限的数据流输入和输出,并且可以动态地对数据流进行处理和修改 ......
flink

【博学谷学习记录】超强总结,用心分享 | Flink的编程

【博学谷IT技术支持】 Flink的编程 编程步骤 构建流式处理环境 数据源 数据处理 数据输出 启用流式任务 Flink的算子 常用算子 Source算子:用于读取数据源,包括文件、Kafka、Socket等。 Map算子:用于对数据流中的每个元素进行转换操作,将输入流中的每个元素转换为输出流中的 ......
Flink

【博学谷学习记录】超强总结,用心分享 | Flink的安装部署

【博学谷IT技术支持】 Flink的安装部署 配置Flink 1. 编辑conf/flink-conf.yaml文件 vim conf/flink-conf.yaml 2. 需要修改的地方 rest.address: node1 rest.bind-address: node1 3.建议修改的地方, ......
Flink

Flink 生成ParquetFile

前言 这周主要是学习使用Flink, 其中有一部分学习的内容就是生成parquet。 Flink自身提供的文档写了个大概,但是真要自己动手去生成pqrquet文件,发现还是有些小坑,本文就是记录这些坑。 开始 官方文档总是最好的开始的地方, 下面是官方文档上面的内容 https://nightlie ......
ParquetFile Flink

详解 Flink Catalog 在 ChunJun 中的实践之路

我们知道 Flink 有Table(表)、View(视图)、Function(函数/算子)、Database(数据库)的概念,相对于这些耳熟能详的概念,Flink 里还有一个 Catalog(目录) 的概念。 本文将为大家带来 Flink Catalog 的介绍以及 Flink Catalog 在 ......
Catalog ChunJun Flink

A6--Flink部署

一、版本信息 JDK 1.8 flink 1.16.0 二、部署架构 采用flink-on-yarn架构,无需配置集群。客户端把 Flink 应用提交给 Yarn 的 ResourceManager,Yarn 的 ResourceManager 会向 Yarn 的 NodeManager 申请容器。 ......
Flink A6