更新时间:2024-11-29 GMT+08:00
ALM-41007 RTDService服务不可用
告警解释
系统每60秒周期性检测RTDService的服务状态,当检测到所有的RTDService服务都异常时,就会认为RTDService服务不可用,此时产生该告警。
RTDService服务正常时告警恢复。
告警属性
告警ID |
告警级别 |
告警类型 |
业务类型 |
是否可自动清除 |
---|---|---|---|---|
41007 |
紧急 |
业务质量告警 |
RTDService |
是 |
告警参数
类别 |
参数名称 |
参数含义 |
---|---|---|
定位信息 |
来源 |
产生告警的集群或系统名称。 |
服务名 |
产生告警的服务名称。 |
|
角色名 |
产生告警的角色名称。 |
|
主机名 |
产生告警的主机名。 |
对系统的影响
RTDService无法对外提供服务,导致RTD控制台界面无法访问,无法提供租户、事件源修改等功能。
可能原因
- 磁盘、内存使用超过了90%。
- RTDService进程故障。
处理步骤
排查磁盘、内存。
- 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > RTDService服务不可用”,查看并记录该告警的“定位信息”上报的主机名。
- 单击“主机”,查看上报告警主机名对应的节点,以root用户登录该故障节点。
- 执行df -h查看磁盘空间占用率是否超过90%。
- 清理完成后等待10分钟,查看告警是否清除。
- 是,处理完毕。
- 否,执行5。
- 执行free -m查看内存使用率是否超过90%。
内存使用率计算方法:使用真实内存使用量(“-/+ buffers/cache”行和“used”列对应的值)数据除以“total”内存。
[root@xxx FusionInsight_RTD_xxx]# free -m total used free shared buff/cache available Mem: 64263 7140 22633 5485 34490 46393 Swap: 0 0 0
- 扩容完成后等待10分钟,查看告警是否清除。
- 是,处理完毕。
- 否,执行7。
排查RTDService进程。
- 以root用户登录上报告警主机名对应的节点。
- 执行查看RTDService服务进程是否存在。
ps -aux | grep tomcat | grep RTDServer
- 重启完成后等待10分钟,检查告警是否清除。
- 执行以下命令查看进程状态是否为“D”状态。
cat /proc/pid/status |grep -i state
- 重启完成后等待10分钟,检查告警是否清除。
- 是,操作结束。
- 否,执行12。
收集故障信息。
告警清除
此告警修复后,系统会自动清除此告警,无需手工清除。
参考信息
不涉及。
父主题: 告警参考