更新时间:2024-11-29 GMT+08:00

ALM-41007 RTDService服务不可用

告警解释

系统每60秒周期性检测RTDService的服务状态,当检测到所有的RTDService服务都异常时,就会认为RTDService服务不可用,此时产生该告警。

RTDService服务正常时告警恢复。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

41007

紧急

业务质量告警

RTDService

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

对系统的影响

RTDService无法对外提供服务,导致RTD控制台界面无法访问,无法提供租户、事件源修改等功能。

可能原因

  • 磁盘、内存使用超过了90%。
  • RTDService进程故障。

处理步骤

排查磁盘、内存

  1. 在FusionInsight Manager首页,选择“运维 > 告警 > 告警 > RTDService服务不可用”,查看并记录该告警的“定位信息”上报的主机名。
  2. 单击“主机”,查看上报告警主机名对应的节点,以root用户登录该故障节点。
  3. 执行df -h查看磁盘空间占用率是否超过90%。

    • 是,清理空间,然后执行4
    • 否,执行5

  4. 清理完成后等待10分钟,查看告警是否清除。

    • 是,处理完毕。
    • 否,执行5

  5. 执行free -m查看内存使用率是否超过90%。

    内存使用率计算方法:使用真实内存使用量(“-/+ buffers/cache”行和“used”列对应的值)数据除以“total”内存。

    [root@xxx FusionInsight_RTD_xxx]# free -m
                  total        used        free      shared  buff/cache   available
    Mem:          64263        7140       22633        5485       34490       46393
    Swap:             0           0           0
    • 是,扩容内存,然后执行6
    • 否,执行7

  6. 扩容完成后等待10分钟,查看告警是否清除。

    • 是,处理完毕。
    • 否,执行7

排查RTDService进程。

  1. root用户登录上报告警主机名对应的节点。
  2. 执行查看RTDService服务进程是否存在。

    ps -aux | grep tomcat | grep RTDServer

    • 是,记录进程PID并执行10
    • 否,登录FusionInsight Manager,选择“集群 > 服务 > RTDService > 更多 > 重启服务”,重启RTDService服务。然后执行9

  3. 重启完成后等待10分钟,检查告警是否清除。

    • 是,操作结束。
    • 否,再次执行8查询RTDService服务进程,若进程依然不存在,则执行12

  4. 执行以下命令查看进程状态是否为“D”状态。

    cat /proc/pid/status |grep -i state

    • 是,执行reboot重启主机。然后执行11
    • 否,执行12

  5. 重启完成后等待10分钟,检查告警是否清除。

    • 是,操作结束。
    • 否,执行12

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 >日志 > 下载”。
  2. 在“服务”中勾选“RTDService”,单击“确定”。
  3. 在“主机”中勾选对应角色所在的主机。
  4. 单击右上角的时间编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后1小时,单击“下载”。
  5. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。