kafka初识

在数据驱动的时代，实时数据流转已经成为企业运营的关键。Apache Kafka，作为一个高吞吐量、可扩展、分布式的流处理平台，为处理大规模实时数据提供了强有力的支持。基于zookeeper协调的分布式消息系统，它的最大的特性就是可以实时的处理大量数据以满足各种需求场景：比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎，web/nginx日志、访问日志，消息服务

OYMN

789人浏览 · 2024-03-12 09:15:40

OYMN · 2024-03-12 09:15:40 发布

文章目录

Kafka介绍
Kafka的基础结构
消息发送和接收
- - 1. 消息发送：
  - 2. 消息接收：
Kafka和Rabbitmq的区别
Kafka的应用场景

Kafka介绍

Kafka的基础结构

Apache Kafka是一个分布式流处理系统，它设计用于高吞吐量的数据流处理。Kafka的基础架构主要由以下几个部分组成：

Topics

Kafka中的数据以“主题”（Topics）的形式进行分类。一个主题可以被认为是数据的分类名称或者是数据流的名字。生产者（Producers）向主题发布消息，而消费者（Consumers）从主题订阅消息。

Partitions

为了实现扩展性和并行处理，每个主题可以分成多个“分区”（Partitions）。每个分区都是一个有序的、不可变的消息序列，它被持续追加到结构化的日志文件中。分区中的每条消息都被分配一个顺序的、唯一的偏移量（Offset）。

Brokers

Kafka集群由多个服务器组成，这些服务器被称为“代理”（Brokers）。每个Broker都存储一定数量的分区，无论是分区的领导者副本还是追随者副本。

Producers

生产者是发布消息到Kafka主题的客户端应用程序。生产者负责决定将消息发布到主题的哪个分区中，可以是轮询选择分区，也可以根据消息的Key来计算分区。

Consumers

消费者是订阅主题并处理其发布的消息的客户端应用程序。消费者可以独立消费或作为消费者组的一部分来消费消息，后者可以分摊数据处理的负载。

Zookeeper

Kafka使用Zookeeper来管理集群配置、选举领导者以及在消费者和生产者之间进行协调。每个Broker都向Zookeeper注册自己，并定期向其发送心跳信号。

消息发送和接收

1. 消息发送：

当生产者发送一条消息时，它包含了目标主题和消息内容，以及可选的键值（Key）。生产者使用分区器（Partitioner）来确定消息应该发送到哪个分区。如果指定了键值，分区器将根据键值的散列来选择分区；如果没有指定，它可能会轮询所有分区或使用其他策略。

消息被发送到Broker的对应分区，Broker将消息追加到分区的日志文件中。一旦消息被追加，它就会被分配一个唯一的偏移量。如果设置了副本，领导者分区将负责同步消息到追随者分区。

2. 消息接收：

消费者从它订阅的主题的一个或多个分区中读取消息。如果消费者是消费者组的一部分，每个消费者将从不同的分区读取，以平衡负载。消费者使用偏移量来跟踪每个分区中已经读取到的消息位置。

消费者从Broker请求消息时，它提供一个偏移量，Broker返回从该偏移量开始的一系列消息。消费者处理消息后，它将更新其偏移量，并定期提交到Kafka，以便在故障时能够从最后已知的偏移量恢复。

在高吞吐量的情况下，Kafka的设计允许生产者和消费者以近乎实时的方式处理消息流，这使得Kafka成为处理大规模数据流的理想选择。

Kafka和Rabbitmq的区别

首先架构上有所区别：

kafka：

在这里插入图片描述

rabbitmq：

在这里插入图片描述

Kafka：设计为一个分布式流处理平台，重点在于高吞吐量的消息处理和存储。它以日志为中心，消息以时间顺序追加到不可变的分区日志中。
RabbitMQ：设计为一个传统的消息代理，重点在于消息的路由、灵活性和保证消息传递。它支持多种消息协议，如AMQP、STOMP等，并提供多种交换类型来路由消息。

用途上：

kafka：用于处于活跃的流式数据，大数据量的数据处理上
rabbitMQ：用于实时的，对可靠性要求较高的消息传递上。

性能和吞吐量：

Kafka：由于其简单的追加机制和分布式特性，Kafka能够处理更高的吞吐量，适合大规模消息传递和流处理场景。
RabbitMQ：虽然也能处理高吞吐量，但RabbitMQ更注重于消息的交付保障和灵活的消息路由，可能在某些情况下吞吐量低于Kafka。

Kafka的应用场景

日志收集：

在日志收集方面，Kafka可以作为日志聚合的中心点。它可以从各个服务和应用中收集日志数据，然后将这些数据推送到一个统一的处理管道中。由于Kafka具有高吞吐量和持久性存储的特点，它可以确保日志数据不会丢失，并且可以供后续的处理和分析使用。例如，日志数据可以被推送到Hadoop进行长期存储和分析，或者推送到Solr以供搜索和可视化。
消息系统：

Kafka作为消息系统，可以有效地解耦生产者和消费者。生产者只需将消息发布到指定的Kafka主题，而消费者可以根据需要从主题中读取消息。这种解耦使得系统各部分可以独立扩展和维护，同时Kafka的持久化能力也允许在消费者不可用时缓存这些消息。
用户活动跟踪：

Kafka非常适合用于捕捉和存储用户活动数据，如页面浏览、搜索查询和点击事件。这些数据可以实时发布到Kafka主题中，然后由实时分析系统（如Spark Streaming或Flink）进行处理，以便进行实时监控和分析。同时，这些数据也可以被导入到数据仓库中进行历史分析和数据挖掘。
运营指标：

Kafka可以收集和传输运营监控数据，如应用性能指标、系统日志和用户行为数据。这些数据可以被用于实时报警系统，以便在问题发生时快速响应。同时，它们也可以被用于生成运营报告和进行长期趋势分析。
流式处理：

在流式处理领域，Kafka通常与Spark Streaming、Apache Storm或Apache Flink等流处理框架结合使用。Kafka作为数据流的源头，可以持续地将数据推送到流处理应用中。流处理应用可以对这些实时数据进行分析、聚合或者转换操作，并将结果输出到其他系统或存储中。

View Design

基于 Vue 的企业级 UI 组件库和中后台系统解决方案，为数万开发者服务。

更多推荐

Element UI组件介绍

简介element ui 就是基于vue的一个ui框架,该框架基于vue开发了很多相关组件,方便我们快速开发页面。1、安装Element UI，通过vue脚手架创建项vue init webpack element(项目名)2、在vue脚手架项目中安装elementui# 1.下载elementui的依赖npm i element-ui -S# 2.指定当前项目中使用elementuiimport