<返回更多

运维兄弟!Kafka怎么又"超时"了?

2023-12-07  今日头条  技术守护者
加入收藏

现象

凌晨,当运维刚躺下,就被业务研发的电话叫醒,"哥们!kafka服务又异常了?影响到业务了,快看看",业务研发给出的异常日志如下:

运维兄弟!Kafka怎么又

基本分析

抓包分析

基本确定异常和集群无关后,接下来就是要排查网络相关的问题,网络和系统(内核参数设定)是息息相关的,网络问题是复杂而神秘的,后期会根据场景给大家分享,今天,我们主要分析网络链路问题

# 抓所有和kafka节点通信的网络数据包(因为数据量很大,在异常时抓取了几分钟的包)
nohup tcpdump  port 9092 -w kafka.pcap &
2022-09-30 00:08:53.470 kafka/consumer.go:128 kafka_util,error,consume,group:cop.inke_owt.inno_pdl.user_pushmsg.server,from:user.msg.push.consume,topic:inno_phxyuyin_user_pushmsg_push_msg,err:kafka: error while consuming inno_phxyuyin_user_pushmsg_push_msg/1: write tcp 10.226.11.15:38742->10.226.5.4:9092: write: broken pipe

运维兄弟!Kafka怎么又

分析结果

知识扩展

1、TCP KeepAlive机制是什么?

在TCP长连接下,客户端和服务器若长时间无数据交互情况下,若一方出现异常情况关闭连接,另一方无法感知到,引入KeepAlive,当长连接无数据交互一定时间间隔时,连接的一方会向对方发送保活探测包,如连接仍正常,对方将对此确认回应。

2、linux系统下KeepAlive内核参数配置

# 允许的持续空闲时长,或者说每次正常发送心跳的周期
net.ipv4.tcp_keepalive_time 

# 在tcp_keepalive_time之后,最大允许发送保活探测包的次数,到达此次数后直接放弃尝试,并关闭连接
net.ipv4.tcp_keepalive_probes

# 在tcp_keepalive_time之后,没有接收到对方确认,继续发送保活探测包的发送频率
net.ipv4.tcp_keepalive_intvl
关键词:Kafka      点击(6)
声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▍相关推荐
更多Kafka相关>>>