文档首页/ MapReduce服务 MRS/ 用户指南(安卡拉区域)/ 告警参考/ ALM-33008 Containers服务平均时延超过阈值
更新时间:2024-11-29 GMT+08:00

ALM-33008 Containers服务平均时延超过阈值

告警解释

系统每5分钟周期性检测服务调用平均时延,并把平均时延和阈值相比较。当检测到服务调用平均时延超出阈值范围时产生该告警。

当服务调用平均时延小于或等于阈值时,该告警自动清除。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

33008

提示

业务质量告警

Containers

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

应用服务名

产生告警的应用名称。

版本

产生告警的版本。

方法

产生告警的方法。

告警侧

产生告警的告警侧。

IP

产生告警的IP。

附加信息

Trigger condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

平均时延超过阈值,表示BLU业务处理变慢,进而可能会导致客户业务请求堆积,严重时会造成客户上层服务阻塞或不可用。

可能原因

  • 上层业务逻辑代码处理时间过长。
  • 业务量太大。
  • 业务代码错误。

处理步骤

检查上层业务逻辑代码处理时间是否过长。

  1. 查看产生告警的“IP”判断服务是否是提供者方。

    • 是,执行9
    • 否,执行2

  2. 在FusionInsight Manager首页,单击“集群 > 服务 > Containers > SGP管理”。
  3. 在“SGP管理”中,单击“应用服务列表”,单击产生告警的服务名对应的链接,进入该服务的状态页面。
  4. 查看服务消费者的处理时间,看消费者处理时间是否过长。

    • 是,执行5
    • 否,执行9

  5. 查看服务提供者的处理时间,并跟消费者处理时间比较,查看相差是否很大。

    • 是,检查网络配置,解决网络时延过长的问题,执行6
    • 否,执行7

  6. 检查该告警是否清除。

    • 是,处理完毕。
    • 否,执行7

  7. 检查用户的上层业务逻辑代码的处理时间是否过长。

    • 是,优化上层业务逻辑代码,执行8
    • 否,执行9

  8. 检查该告警是否清除。

    • 是,处理完毕。
    • 否,执行9

查看业务量是否太大。

  1. 在FusionInsight Manager首页,单击“集群 > 服务 > Containers > SGP管理”。
  2. 单击产生告警的服务名称,进入该服务的“状态”页面。
  3. 查看是否为并发数超过限制引起的失败。

    • 是,执行12
    • 否,执行14

  4. 在FusionInsight Manager首页,单击“集群 > 服务 > Containers > 业务管理”。单击包含服务的BLU,进入BLU页面并选择“BLU实例 > 添加实例”添加BLU实例,扩容服务提供者。
  5. 检查该告警是否清除。

    • 是,处理完毕。
    • 否,执行14

检查业务代码是否有问题。

  1. 用户检查上层业务代码是否有问题。

    • 是,修正上层业务代码,执行15
    • 否,执行16

  2. 检查该告警是否清除。

    • 是,处理完毕。
    • 否,执行16

修改告警阈值。

  1. 在FusionInsight Manager选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > Containers > 其他 > 应用服务调用时延统计 (SGP)”根据实际平均时延修改告警阈值。
  2. 检查告警是否清除。

    • 是,处理完毕。
    • 否,执行18

收集故障信息。

  1. 在FusionInsight Manager界面,单击“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“Containers”。
  3. 在“主机”中勾选对应角色所在的主机。
  4. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
  5. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。