<返回更多

【保护你的上线】风险治理的防范与排查之路

2023-08-25  京东云开发者  
加入收藏

三、监控告警

监控告警是上线后的风险治理必要机制,一旦出现告警,我们可以第一时间排查和解决,防止更多的客诉产生。

1. RPC 层监控

◦ 超时监控

◦ 异常报错

◦ 可用率

2. CACHE 监控

redis 连接异常

◦ r2m 可用率

◦ r2m 容量

◦ r2m 主从切换

3. MQ 监控

◦ MQ 接收重复

◦ MQ 发送失败

◦ MQ 内处理失败

4. Task 监控

◦ 定时任务未执行

◦ 定时任务超时

◦ 定时任务执行异常

5. 业务异常监控

◦ 获取锁异常

◦ AKS 和防刷未通过异常

◦ 任务领奖 / 接取等异常

◦ 人群没有权限

6. JVM 监控

◦ fullGc 日志与告警

◦ jvm 监控告警

7. 容器监控

◦ 实例存活

◦ CPU 负载 & 使用率

◦ 机器内存

8. DB 监控

◦ DB 层 CRUD 执行异常

◦ cleverBD 慢 SQL 定期巡查

◦ DB 查询操作时间超长

◦ 线上环境(应用、数据库、配置等)审批负责人是否为当前 leader

9. 利益点监控

◦ 营销发奖失败

◦ 库存不足

◦ 活动未开始 / 已结束

◦ 被风控

◦ 防重失败

◦ 单个用户领取利益数量超过配置的警戒线

◦ 活动整体发放量超过配置的警戒线

◦ 其他异常失败

10. 业务响应码监控

◦ 第三方接口正常码和异常码配置来监控可用率

11. 配置校验

◦ 获取配置异常

◦ 配置中该配应配字段未配置

◦ 配置中字段配置类型异常

◦ 没有符合当前时间的配置

◦ 活动已结束但仍然有大量用户访问

◦ 多个配置的时间点冲突

◦ 配置的奖励 Id / 任务 Id 等在第三方接口未查询到

◦ 每次运营修改配置,修改项通过告警发送到研发,对告警分等级

12. 活动资格校验

◦ 绕开某个校验告警

◦ 应是老用户领奖但新用户通过前置校验进入领奖流程

 

作者:京东科技 胡骏
来源:京东云开发者社区 转载请注明来源
关键词:风险治理      点击(7)
声明:本站部分内容来自互联网,如有版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
▍相关推荐
更多风险治理相关>>>