文档首页/ MapReduce服务 MRS/ 用户指南(安卡拉区域)/ 告警参考/ ALM-33006 Containers服务调用失败率超过阈值
更新时间:2024-11-29 GMT+08:00

ALM-33006 Containers服务调用失败率超过阈值

告警解释

系统每5分钟周期性检测服务调用失败率,并把调用失败率和阈值相比较。当检测到服务调用失败率超出阈值范围时产生该告警。

当服务调用失败率小于或等于阈值时,该告警自动清除。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

33006

重要

业务质量告警

Containers

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

应用服务名

产生告警的应用名称。

版本

产生告警的版本。

方法

产生告警的方法。

告警侧

产生告警的告警侧。

IP

产生告警的IP。

附加信息

Trigger condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

服务调用失败率过高,表示该应用服务5分钟内客户调用异常次数较多,进而可能会使服务调用变慢或失败。

可能原因

  • 网络时延较大导致的超时失败。
  • 业务量太大,并发数超过限制而引起的失败。
  • 业务代码错误。

处理步骤

检查网络时延是否过大。

  1. 查看产生告警的“IP”判断服务是否是提供者方。

    • 是,执行9
    • 否,执行2

  2. 在FusionInsight Manager首页,选择“集群 > 服务 > Containers > SGP管理”。
  3. 在“SGP管理”中,单击“应用服务列表”,单击产生告警的服务名对应的链接,进入该服务的状态页面。
  4. 查看服务消费者的处理时间,看消费者处理时间是否过长。

    • 是,执行5
    • 否,执行9

  5. 查看服务提供者的处理时间,并跟消费者处理时间比较,是否相差很大。

    • 是,检查网络配置,解决网络时延过长的问题,执行6
    • 否,执行7

  6. 检查该告警是否清除。

    • 是,处理完毕。
    • 否,执行7

  7. 检查用户的上层业务逻辑代码的处理时间是否过长。

    • 是,优化上层业务逻辑代码,执行8
    • 否,执行9

  8. 检查该告警是否清除。

    • 是,处理完毕。
    • 否,执行9

查看是否业务量太大,并发数超过限制而引起的失败。

  1. 在FusionInsight Manager首页,选择“集群 > 服务 > Containers > SGP管理”。
  2. 单击产生告警的服务名称,进入该服务的“状态”页面。
  3. 查看“最大并发数”判断是否为并发数超过限制引起的失败。

    • 是,执行12
    • 否,执行14

  4. 选择“集群 > 服务 > Containers > 业务管理”。单击包含服务的BLU,进入BLU页面并选择“BLU 实例 > 添加实例”添加BLU实例,扩容服务提供者。
  5. 检查该告警是否清除。

    • 是,处理完毕。
    • 否,执行14

检查业务代码是否有问题。

  1. 用户检查上层业务代码看是否有问题。

    • 是,修正上层业务代码,执行15
    • 否,执行16

  2. 检查该告警是否清除。

    • 是,处理完毕。
    • 否,执行16

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“Containers”。
  3. 在“主机”中勾选对应角色所在的主机。
  4. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后20分钟,单击“下载”。
  5. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。