kafka分区与消费者配置-526互联

kafka分区与消费者配置

工作当中如何计算分区与消费者数量,如何最大化利用资源,防止不必要的浪费,本文将带你计算

1.基本概念回顾

Kafka是一个分布式流处理平台，具有高吞吐量、可扩展性和容错性。以下是一些Kafka的基本概念：

消息：Kafka是一个消息传递系统，它通过生产者将消息发布到主题（topic），然后通过消费者从主题订阅并消费消息。
主题（Topic）：主题是消息的分类或者流的名称。生产者将消息发布到特定的主题，而消费者可以订阅一个或多个主题来消费消息。
分区（Partition）：每个主题可以分成一个或多个分区。分区是消息的有序序列，每个消息都有一个唯一的偏移量（offset）。分区使得Kafka可以在多个服务器上并行处理和存储消息。
生产者（Producer）：生产者负责将消息发布到Kafka主题。生产者将消息发送到特定的主题和分区，或者通过Kafka的分区器自动选择分区。
消费者（Consumer）：消费者订阅一个或多个主题，并从分区中拉取消息进行消费。消费者可以以不同的消费者组（Consumer Group）的形式进行组织，每个消费者组可以有一个或多个消费者。
消费者组（Consumer Group）：消费者组是一组具有相同消费者组ID的消费者的集合。每个分区只能由一个消费者组中的一个消费者进行消费，这样可以实现负载均衡和并行处理。
偏移量（Offset）：偏移量是消息在分区中的唯一标识符，用于跟踪消费者在分区中的消费位置。消费者可以控制自己的偏移量，并决定从哪个偏移量开始消费消息。
Broker：Kafka集群中的每个服务器节点称为Broker。每个Broker负责处理消息的存储和复制，以及与生产者和消费者进行通信。

2. 计算方式

数据量预估(秒/分)

比如物联网数据告警场景下: 我们有2000台设备,单个设备数据采集点个数: 100个,数据上传频率为1分钟上传一次,配置了告警的设备约占总数量的30%

由此可得出:

1分钟数据量: 2000 * 100 = 200000

1秒钟数据量: (1分钟数据量) (200000 * 0.3 (30%的数据) ) / 60s = 1000
单条数据在业务处理中耗时 ? 单条数据处理耗时: 50ms ,一个线程1秒钟处理20个
目前Kafka分配了多少个分区 ? 分区数: 32 需要确保每个消费者组中的消费者数量不超过32个
消费者数量(服务器数量) 4台

每个实例并行度:spring.kafka.listener.concurrency 配置计算方式为: 分区数/实例数 = 32 / 4 = 8 (建议不要超过8),超过8可能会造成线程闲置,也就是说消费组内每个实例只负责8个分区的数据.
每秒可消费数据量: 4台实例总处理线程为32个,每1秒钟可处理 32 * (1000ms / (单个数据处理耗时)50ms) = 640个
1000 - 640 , 明显处理不过来,会堆积数据, 我们需要放入阻塞队列结合线程池进行异步消费

每秒处理1000个数据，而单个线程每秒可以处理20个数据。为了合理规划阻塞队列大小和线程池数量，可以考虑以下方案：

阻塞队列大小：由于单个线程每秒可以处理20个数据，可以设置一个容量较小的阻塞队列来缓存待处理的数据。这样可以确保线程池中的线程不会因为队列满而阻塞。
例如，可以设置阻塞队列的大小为50以上，以便缓存一定数量的待处理数据。
线程池数量：为了处理每秒1000个数据，需要将线程池的线程数量设置为适当的值。可以根据以下公式计算线程池的大小：
线程池大小 = 数据量每秒 / 单个线程每秒处理的数据量
线程池大小 = 1000 / 20 = 50
由于线程池的大小通常需要为整数，可以将线程池大小设置为50，以确保有足够的线程来处理数据。

consumer消费者kafka3 kafka