监控告警是上线后的风险治理必要机制,一旦出现告警,我们可以第一时间排查和解决,防止更多的客诉产生。
1. RPC 层监控
◦ 超时监控
◦ 异常报错
◦ 可用率
2. CACHE 监控
◦ redis 连接异常
◦ r2m 可用率
◦ r2m 容量
◦ r2m 主从切换
3. MQ 监控
◦ MQ 接收重复
◦ MQ 发送失败
◦ MQ 内处理失败
4. Task 监控
◦ 定时任务未执行
◦ 定时任务超时
◦ 定时任务执行异常
5. 业务异常监控
◦ 获取锁异常
◦ AKS 和防刷未通过异常
◦ 任务领奖 / 接取等异常
◦ 人群没有权限
6. JVM 监控
◦ fullGc 日志与告警
◦ jvm 监控告警
7. 容器监控
◦ 实例存活
◦ CPU 负载 & 使用率
◦ 机器内存
8. DB 监控
◦ DB 层 CRUD 执行异常
◦ cleverBD 慢 SQL 定期巡查
◦ DB 查询操作时间超长
◦ 线上环境(应用、数据库、配置等)审批负责人是否为当前 leader
9. 利益点监控
◦ 营销发奖失败
◦ 库存不足
◦ 活动未开始 / 已结束
◦ 被风控
◦ 防重失败
◦ 单个用户领取利益数量超过配置的警戒线
◦ 活动整体发放量超过配置的警戒线
◦ 其他异常失败
10. 业务响应码监控
◦ 第三方接口正常码和异常码配置来监控可用率
11. 配置校验
◦ 获取配置异常
◦ 配置中该配应配字段未配置
◦ 配置中字段配置类型异常
◦ 没有符合当前时间的配置
◦ 活动已结束但仍然有大量用户访问
◦ 多个配置的时间点冲突
◦ 配置的奖励 Id / 任务 Id 等在第三方接口未查询到
◦ 每次运营修改配置,修改项通过告警发送到研发,对告警分等级
12. 活动资格校验
◦ 绕开某个校验告警
◦ 应是老用户领奖但新用户通过前置校验进入领奖流程
作者:京东科技 胡骏
来源:京东云开发者社区 转载请注明来源