Flink源码解析(六)——数据分区解析-526互联

一、数据分区概念

对分布式计算引擎来说，数据分区的主要作用是将现环节的数据进行切分，交给下游位于不同物理节点上的Task计算。

二、Flink数据分区接口体系

1、顶层接口ChannelSelector

(1).setup()方法设置下游算子的通道数量。从该接口中可以看到，算子里的每一个分区器都知道下游通道数量。

(2).selectChannel()方法设置每条数据所属的下游具体通道。

(3).isBroadcast()方法判断是否向下游广播。

2、Flink数据分区抽象类实现StreamPartitioner

抽象类StreamPartitioner包含一个关键成员变量numberOfChannels，在具体数据分区实现类初始化时，需要设置成员变量numberOfChannels的值，代表下游通道数量。

3、Flink数据分区实现类

BroadcastPartitioner：将每条数据广播给下游所有分区。调用方法dataStream.broadcast();
CustomPartitionerWrapper：Flink应用人员自定义分区选择逻辑。调用方法dataStream.partitionCustom(partitioner,${key});
ForwardPartitioner：在同一个OperatorChain中上下游算子之间数据转发，实际上是数据是直接传递给下游的。调用方法dataStream.forward();
GlobalPartitioner：只会将数据输出到下游算子的第一个实例。调用方法dataStream.global();
KeyGroupStreamPartitioner：应用在KeyedStream上，后续随笔会着重解析key的分发过程。
RebalancePartitioner：轮询分配每条数据。调用方法dataStream.rebalance();
RescalePartitioner：先平均分配下游分区范围，再轮询分配每条数据。调用方法dataStream.rescale();
ShufflePartitioner：随机分配每条数据。调用方法dataStream.shuffle();