<返回首页

监控 Kafka,这十个指标请考虑!

2024-04-29 12:37:01  微信公众号  君哥聊技术
加入收藏

使用消息队列可以帮助我们实现系统解耦、流量管控等功能。但使用过程中可能会遇到各种各样的问题,比如系统资源使用率高、集群节点宕机等,进而影响我们生产业务正常开展。为了不让消息队列失控,增加监控是非常必要的。今天来聊一聊 Kafka 有哪些重要的监控指标。

1 基础指标

基础指标是监控系统常见的监控指标,这里介绍 4 个方面:

2 Broker 指标

2.1 UnderReplicatedPartitions

Kafka 分区 Leader 节点收到消息后,会同步给 Follower 节点。集群健康的情况下,UnderReplicatedPartitions 值等于 0,这时同步正常的 Follower 节点数量(也就是 ISR)等于总的 Follower 节点数量。如果这个指标值大于0,比如等于 1,说明有一个 Follower 同步异常,如下图:

图片图片

2.2 ISRShrink/ISRExpand

这个指标表示 ISR 收缩和扩容的频率。如果这个指标的值很高,那集群中必定有 Follower 节点频繁地进入或退出 ISR。这个时候就需要定位有 Follower 频繁进出 ISR 的原因。

2.3 ActiveControllerCount

Kafka Broker 集群中有一个节点是 Controller 节点,这个节点非常重要,负责监听 Partition、Topic 和 Broker 的变化,以及元数据管理。

ActiveControllerCount 指标表示当前 Broker 节点是否是 Controller 节点,集群健康的情况下,有且仅有一个 Broker 节点这个指标值是 1。如果有多个 Broker 这个指标值是 1,或者所有 Broker 指标值都是 0,就需要进行故障排查。

图片图片

2.4 offlinePartitionCount

这个指标只有 Controller 节点有。表示处于不可用状态的 Partition 的数量,也就是 Partition 没有活跃的 Leader 节点的数量。健康的集群,这个值是 0,如果这个值不是 0,就得尽快排查原因,防止影响业务。

2.5 LeaderElectionRateAndTimeMs

当分区 Leader 节点挂了之后,就会触发选举新的 Leader。这个指标值表示选举新 Leader 的频率(每秒多少次)和集群中无 Leader 节点的时长。触发 Leader 选举,肯定是旧的 Leader 下线,所以需要定位分析原因。

2.6 UncleanLeaderElectionsPerSec

当 Broker 集群找不到分区 Leader 时,需要从 ISR 集合中选出新的 Leader 节点。而如果 ISR 集合没有节点,那就得从未同步的 Follower 中选出 Leader 节点,让集群处于可用状态,但这个时候因为消息未同步,会有消息丢失。所以这个指标有数据时,代表可能有消息丢失。

2.7 TotalTimeMs

Broker 处理一笔请求的总时间。比如处理 Producer 发送请求、Consumer 拉取请求、Follower 拉取请求。这个时间如果出现了比较大的波动,需要查看 Broker 的资源情况并考虑应对方案。

3 Producer

生产者也可以加一些指标来监控发送消息的情况。

3.1 request-latency-avg

平均请求时间,这个指标包括生产者发送消息到收到响应的延迟,这个指标会影响 Producer 端的吞吐量。

3.2 waiting-threads

发送缓存区中阻塞的用户线程数,如果这个指标变高,意味着生产者被阻塞的线程数变高,需要排查原因。

4 Consumer

4.1 records-lag

消费者在当前分区上落后于生产者的数量,如果这个值变大,有可能当前这个分区的消息量突增,也可能消费者消费能力下降,需要关注。

5 总结

Kafka 的监控指标非常多,关键指标是必须要监控的,其他指标可以根据需要添加,同时也可以加入日志相关的监控。希望本文能对你理解 Kafka 有所帮助。

声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
推荐信息
 
抖音如何撰写吸睛标题
 
Python图像处理库OpenCV入门教程:实践与构建
OpenCV(Open Source Computer Vision Library)是一个开源的计算机视觉和机器...
 
微服务架构最佳实践-方法篇
 
揭秘 Python 江湖中的15个冷门但超能模块
 
数据库为啥要融合+AI化?甲骨文Oracle 23ai给出了回答
 
一招教你解决页面中关联id的转换
在工作中,我们经常有这样的业务情况,实体间通过id实现数据业务上的关联,比如订...
 
SQL实用技巧-行列转换
 
Spring注入还可以这样玩!涨知识了
假设你有两个 CommonDAO bean,每个都需要在不同的环境中使用。这时,你可以使...
 
GPT-4o:实现跨越文本与视觉的智能交互
 
北京被曝小升初“掐尖招生”,北京教委:两校违反阳光招生要求被约谈,责成
 
DIY从入门到放弃:CPU主频/倍频/睿频/超频别迷糊
不管手机还是电脑,我们都知道CPU性能的重要性,作为核心组件,CPU决定了整机的性...
 
《DNF》手游将于5月21日正式上线 迪丽热巴代言
 
腾讯市值已达阿里两倍多!原因何在
 
苹果回应更新iOS 17.5恢复已删除多年照片:不用担心自己隐私安全
 
仅7地住房限购 北上广深会全面取消吗?
每经记者 甄素静 每经编辑 陈梦妤 据诸葛数据研究中心不完全统计,截至目前,全...
 
“国家队”出手收储房产,楼市格局真的要变了?
 
30年期超长期特别国债,今天正式首发,个人投资者能买吗?一文看懂
 
OpenAI与Reddit建立合作伙伴关系,利用其内容训练人工智能
 
Q1营收增速放缓,百度苦寻新引擎
 
不再区分一本、二本 江西2024年将首次迎来新高考
新京报讯 根据教育部统一部署,江西省作为全国第四批启动高考综合改革的7省(区...
返回栏目