快乐大数据第6课|快乐大数据第6课 Kafka 快乐大数据第6课Kafka

Kafka
定义topic 类似于一个表存储相同格式，有顺序的数据，传到kafka里面的数据叫消息。
按照磁盘顺序来读写数据通过多分区，多副本提供容错性。
分区内有序读取和存储
Kafka原理
1.Partition内顺序存储，写入新消息采用追加的方式，消费消息采用FIFO的方式顺序拉取消息
2.一个Topic可以有多个分区，Kafka只保证同一个分区内有序，不保证Topic整体（多个分区之间）
有序
3 Consumer Group（CG），为了加快读取速度，多个consumer可以划分一个组，并行消费一个Topic
一个Topic可以由多个CG订阅，多个CG之间是平等的，同一个CG内可以有一个多个consumer，同一个
CG内的consumer之间是竞争关系，一个消息在一个CG内只能被一个consumer消费。
Kafka核心概念
Topic：特指Kafka处理的消息源（feeds of messages）的不同分类，相当于数据库的表。
Broker：缓存代理，Kafa集群中的一台或多台服务器统称为broker。
Partition：Topic物理上的分组，一个topic可以分为多个partition，每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id（offset）
相当于把一个数据集分成多份放到不同的分区中存储。
Replication：副本，一个partition可以设置一个或多个副本，副本保证系统能够持续不丢失对外提供服务，提供系统的容错能力。
Message：消息，是通信的基本单位，每个producer可以向一个topic（主题）发布一些消息。
Producers：消息和数据生产者，向Kafka的一个topic发布消息的过程叫做producers。
Consumers：消息和数据消费者，订阅topics并处理其发布的消息的过程叫做consumers。
Consumer Group：消费者所属组，一个Consumer group可以包含一个或者多个consumer。当一个topic被一个Consumer Group消费的时候。
Consumer Group内只能有一个consumer消费同一条消息，不会出现同一个Consumer Group多个consumer同时消费一条消息的情况。
Zookeeper：Zookeeper在kafka集群中主要用于协调管理，Kafka将
元数据信息保存在Zookeeper中，通过Zookeeper管理维护整个Kafka
集群的动态扩展、各个Broker负载均衡、Partition leader选举等
#Kafka存储
每个partition的副本是一个目录
Segment：段文件，kafka中最小数据存储单位，一个partition包含多个segment文件，每个segment以message在partition中的起始偏移量
【快乐大数据第6课|快乐大数据第6课 Kafka】命名以log结尾的文件Offset：消息在分区中的偏移量，用来在分区中唯一的标识这个消息。
afka为了提高写入、查询速度在partition文件夹下每一个segment log文件都有同名的索引文件，在kafka0.10以后的版本中会存在两个
索引文件，一个用offset做名字以index结尾的索引文件，我们称为偏移量索引文件。一个是以消息写入的时间戳为做名字以timeinde
结尾的索引文件，我们称为时间戳索引文件。
存在两种索引文件：
偏移量索引：index为后缀，通过log.index.interval.bytes设置索引跨度，索引内容格式：offset,position。
时间戳索引：timestamp,offset，通过log.index.interval.bytes设置索引跨度。
#Kafka高可用的实现
（1）多分区多副本
同一个partition的不同副本分布到不同的broker。一个分区的多个副本选举一个leader，由leader负责读写，其他副本作为follower从leader同步消息，
（2）Kafka Controller选举
从集群中的broker选举出一个Broker作为Controller控制节点；负责整个集群的管理，如Broker管理、Topic管理、Partition Leader选举等。选举过程
通过向Zookeeper创建临时znode实现，为被选中的Broker监听Controller的znode，等待下次选举。
（3）Kafka Partition Leader选举：
Controller负责分区Leader选举。ISR列表：Follower批量从Leader拖取数据；Leader跟踪不其保持同步的flower列表ISR（In Sync Replica），ISR作为
下次选主的候选列表。Follower心跳超时或者消息落后太多，将被移除出ISR。Leader失败后，从ISR列表中选择一个Follower作为新的Leader。
实际演示
（1）安装略
（2）
创建主题
bin/kafka-topics.sh --create --zookeeper 192.168.183.101:2181,192.168.183.102:2181,192.168.183.103:2181,192.168.183.104:2181,192.168.183.105:2181, --replication-factor 2 --partitions 3 --topic topicnewtest1
bin/kafka-topics.sh --create --zookeeper 192.168.183.101:2181,192.168.183.102:2181,192.168.183.102:2181,192.168.183.104:2181,192.168.183.105:2181, --replication-factor 2 --partitions 3 --topic test2
bin/kafka-topics.sh --create --zookeeper 192.168.183.101:2181,192.168.183.102:2181,192.168.183.102:2181,192.168.183.104:2181,192.168.183.105:2181, --replication-factor 2 --partitions 3 --topic test3
bin/kafka-topics.sh --create --zookeeper 192.168.183.101:2181,192.168.183.102:2181,192.168.183.102:2181,192.168.183.104:2181,192.168.183.105:2181, --replication-factor 2 --partitions 3 --topic sumer_offset
查看主题信息
bin/kafka-topics.sh --describe --zookeeper 192.168.183.101:2181 --topic topicnewtest1
查看kafka中已经创建的主题列表
bin/kafka-topics.sh --list --zookeeper 192.168.183.101:2181
删除主题
bin/kafka-topics.sh --delete --zookeeper 192.168.183.101:2181 --topic topictest1
增加分区
bin/kafka-topics.sh --alter --zookeeper 192.168.183.101:2181 --topic topicnewtest1 --partitions 5
使用kafka自带的生产者客户端脚本
在node03上，bin/kafka-console-producer.sh --broker-list 192.168.183.103:9092,192.168.183.104:9092 --topic topicnewtest1
使用kafka自带的消费者客户端脚本
bin/kafka-console-consumer.sh --zookeeper 192.168.183.101:2181 --from-beginning --topic topicnewtest1
生产者和消费者的例子

快乐大数据第6课|快乐大数据第6课 Kafka

推荐阅读

节节高升的寓意是什么

鸿蒙系统中文编程教程，华为鸿蒙系统怎么申请

中国财产保险公司排名中国财产保险车险电话

为啥说杭州碎尸案存在两个疑问？

煌精二材料是什么

酒店海尔空调显示f6处理方法与故障原因说明

mongodb导入数据三种方式 mongodb导入备份

弹幕视频软件安卓,快速制作视频软件包括lexiu软件

21天|21天 | 丢21天懒惰组合《目送》

微信站点网站分析

20篇精品文章+视频，手把手带你攻克OOM难题！｜HeapDump性能社区专题精选

辣妈最放心的宝宝面霜有什么？推荐几款安全的宝宝面霜

培训对象分析,GYB的培训对象是

癌肉瘤治疗方法

羊圈毛的衣服怎么清洗羊毛衣服怎样清洗

生活着

现在还有ios培训吗，上海腾科现在有ios培训吗

阳光下的我们歌词分享推荐

箭牌马桶真假鉴别如何分辨真假

马岱为什么杀魏延？关于马岱杀魏延的故事