更新时间:2024-11-29 GMT+08:00
ALM-33006 Containers服务调用失败率超过阈值
告警解释
系统每5分钟周期性检测服务调用失败率,并把调用失败率和阈值相比较。当检测到服务调用失败率超出阈值范围时产生该告警。
当服务调用失败率小于或等于阈值时,该告警自动清除。
告警属性
告警ID |
告警级别 |
告警类型 |
业务类型 |
是否可自动清除 |
---|---|---|---|---|
33006 |
重要 |
业务质量告警 |
Containers |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群或系统名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
应用服务名 |
产生告警的应用名称。 |
|
版本 |
产生告警的版本。 |
|
方法 |
产生告警的方法。 |
|
告警侧 |
产生告警的告警侧。 |
|
IP |
产生告警的IP。 |
|
附加信息 |
Trigger condition |
系统当前指标取值满足自定义的告警设置条件。 |
对系统的影响
服务调用失败率过高,表示该应用服务5分钟内客户调用异常次数较多,进而可能会使服务调用变慢或失败。
可能原因
- 网络时延较大导致的超时失败。
- 业务量太大,并发数超过限制而引起的失败。
- 业务代码错误。
处理步骤
检查网络时延是否过大。
- 查看产生告警的“IP”判断服务是否是提供者方。
- 在FusionInsight Manager首页,选择“集群 > 服务 > Containers > SGP管理”。
- 在“SGP管理”中,单击“应用服务列表”,单击产生告警的服务名对应的链接,进入该服务的状态页面。
- 查看服务消费者的处理时间,看消费者处理时间是否过长。
- 查看服务提供者的处理时间,并跟消费者处理时间比较,是否相差很大。
- 检查该告警是否清除。
- 是,处理完毕。
- 否,执行7。
- 检查用户的上层业务逻辑代码的处理时间是否过长。
- 检查该告警是否清除。
- 是,处理完毕。
- 否,执行9。
查看是否业务量太大,并发数超过限制而引起的失败。
- 在FusionInsight Manager首页,选择“集群 > 服务 > Containers > SGP管理”。
- 单击产生告警的服务名称,进入该服务的“状态”页面。
- 查看“最大并发数”判断是否为并发数超过限制引起的失败。
- 选择“集群 > 服务 > Containers > 业务管理”。单击包含服务的BLU,进入BLU页面并选择“BLU 实例 > 添加实例”添加BLU实例,扩容服务提供者。
- 检查该告警是否清除。
- 是,处理完毕。
- 否,执行14。
检查业务代码是否有问题。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
父主题: 告警参考