文档首页/ MapReduce服务 MRS/ 用户指南（安卡拉区域）/ 告警参考/ ALM-33006 Containers服务调用失败率超过阈值

更新时间：2024-11-29 GMT+08:00

查看PDF

ALM-33006 Containers服务调用失败率超过阈值

告警解释

系统每5分钟周期性检测服务调用失败率，并把调用失败率和阈值相比较。当检测到服务调用失败率超出阈值范围时产生该告警。

当服务调用失败率小于或等于阈值时，该告警自动清除。

告警属性

告警ID	告警级别	告警类型	业务类型	是否可自动清除
33006	重要	业务质量告警	Containers	是

告警参数

类别	参数名称	参数含义
定位信息	来源	产生告警的集群或系统名称。
	服务名	产生告警的服务名称。
	角色名	产生告警的角色名称。
	应用服务名	产生告警的应用名称。
	版本	产生告警的版本。
	方法	产生告警的方法。
	告警侧	产生告警的告警侧。
	IP	产生告警的IP。
附加信息	Trigger condition	系统当前指标取值满足自定义的告警设置条件。

对系统的影响

服务调用失败率过高，表示该应用服务5分钟内客户调用异常次数较多，进而可能会使服务调用变慢或失败。

可能原因

网络时延较大导致的超时失败。
业务量太大，并发数超过限制而引起的失败。
业务代码错误。

处理步骤

检查网络时延是否过大。

查看产生告警的“IP”判断服务是否是提供者方。
- 是，执行9。
- 否，执行2。
在FusionInsight Manager首页，选择“集群 > 服务 > Containers > SGP管理”。
在“SGP管理”中，单击“应用服务列表”，单击产生告警的服务名对应的链接，进入该服务的状态页面。
查看服务消费者的处理时间，看消费者处理时间是否过长。
- 是，执行5。
- 否，执行9。
查看服务提供者的处理时间，并跟消费者处理时间比较，是否相差很大。
- 是，检查网络配置，解决网络时延过长的问题，执行6。
- 否，执行7。
检查该告警是否清除。
- 是，处理完毕。
- 否，执行7。
检查用户的上层业务逻辑代码的处理时间是否过长。
- 是，优化上层业务逻辑代码，执行8。
- 否，执行9。
检查该告警是否清除。
- 是，处理完毕。
- 否，执行9。

查看是否业务量太大，并发数超过限制而引起的失败。

在FusionInsight Manager首页，选择“集群 > 服务 > Containers > SGP管理”。
单击产生告警的服务名称，进入该服务的“状态”页面。
查看“最大并发数”判断是否为并发数超过限制引起的失败。
- 是，执行12。
- 否，执行14。
选择“集群 > 服务 > Containers > 业务管理”。单击包含服务的BLU，进入BLU页面并选择“BLU 实例 > 添加实例”添加BLU实例，扩容服务提供者。
检查该告警是否清除。
- 是，处理完毕。
- 否，执行14。

检查业务代码是否有问题。

用户检查上层业务代码看是否有问题。
- 是，修正上层业务代码，执行15。
- 否，执行16。
检查该告警是否清除。
- 是，处理完毕。
- 否，执行16。

收集故障信息。

在FusionInsight Manager界面，选择“运维 > 日志 > 下载”。
在“服务”中勾选“Containers”。
在“主机”中勾选对应角色所在的主机。
单击右上角的时间编辑按钮，设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后20分钟，单击“下载”。
请联系运维人员，并发送已收集的故障日志信息。

告警清除

此告警修复后，系统会自动清除此告警，无需手工清除。

参考信息

不涉及。

父主题： 告警参考

上一篇：ALM-33005 Containers服务最大并发数超过阈值

下一篇：ALM-33007 Containers服务ALB TPS超过门限

意见反馈

文档内容是否对您有帮助？

有帮助没帮助

提供反馈

提交成功！非常感谢您的反馈，我们会继续努力做到更好！

系统繁忙，请稍后重试

在使用文档中是否遇到以下问题

内容与产品页面不一致

内容不易理解

缺失示例代码

步骤不可操作

搜不到想要的内容

缺少最佳实践

意见反馈（选填）

0/500

请至少选择一项反馈信息并填写问题反馈

字符长度不能超过500

直接提交取消