Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也
文章首发于 "【陈树义的博客】" ,点击跳转到原文 "《线上Kafka突发rebalance异常,如何快速解决?》" Kafka 是我们最常用的消息队列,它那几
使用过 Kafka 框架的朋友都知道,启动 Kafka 框架只需要两个关联的组件,分别是:Zookeeper 和 Kafka。如果你还没使用过 Kafka 框架,建议先阅读《Kafka 快速入门教程》
Kafka 是由 LinkedIn 开发的一个分布式的消息系统,使用 Scala 编写,它以可水平扩展和高吞吐率而被广泛使用。目前越来越多的开源分布式处理系统如 Cloudera、Apache Sto
topic 工具 https://cwiki.apache.org/confluence/display/KAFKA/Replication+tools offset相关 # 最大offset bin
需求 kafka中的message带有key,带有相同key值的message后入kafka的意味着更新message,message值为null则意味着删除message。 用logstash来同步
问题 kafka挂掉后,启动报错日志如下 [2020-03-19 17:50:58,123] FATAL Fatal error during KafkaServerStartable startup
写这篇博客的目的 让更多的人了解 阿里开源的MongoShake可以很好满足mongodb到kafka高性能高可用实时同步需求(项目地址:https://github.com/alibaba/Mong
前言 大家好,我是 yes。 这是Kafka源码分析第四篇文章,今天来说说 Kafka控制器,即 Kafka Controller。 源码类的文章在手机上看其实效果很差,这篇文章我分为两部分,第一部分
大家好,我是yes。 我们都知道 RocketMQ 和 Kafka 消息都是存在磁盘中的,那为什么消息存磁盘读写还可以这么快?有没有做了什么优化?都是存磁盘它们两者的实现之间有什么区别么?各自有什么优
大家好,我是yes。 最近看 Kafka 看到了时间轮算法,记得以前看 Netty 也看到过这玩意,没太过关注。今天就来看看时间轮到底是什么东西。 为什么要用时间轮算法来实现延迟操作? 延时操作 Ja
引子 之所以写这篇文章是因为之前面试时候被面试官问到(倒)了,面试官说:“你说你对Kafka比较熟?看过源码? 那说说kafka日志段如何读写的吧?” 我心里默默的说了句 “擦...我说看过一点点源码
1. Apache Kafka是一个分布式流平台 1.1 流平台有三个关键功能: 1.2 Kafka通常用于两大类应用: 1.3 有几个特别重要的概念: Kafka is run as a clust
1. 前言 我们知道,生产者发送消息到主题,消费者订阅主题(以消费者组的名义订阅),而主题下是分区,消息是存储在分区中的,所以事实上生产者发送消息到分区,消费者则从分区读取消息,那么,这里问题来了,生
Producer API org.apache.kafka.clients.producer.KafkaProducer producer由一个缓冲池组成,这个缓冲池中维护着那些还没有被传送到服务器上
消息投递语义
1. 启动Server http://kafka.apache.org/quickstart For Kafka, a single broker is just a cluster of size
push vs pull
kafka对于构建实时的数据管道和流应用是很有用的。 Apache Kafka是一个分布式的流平台。这是什么意思呢? 我们考虑流平台有三个关键的能力: Kafa有什么用呢? 它被用于两类应用: 那么K