文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-12007 进程故障(2.x及以前版本)
更新时间:2024-09-04 GMT+08:00

ALM-12007 进程故障(2.x及以前版本)

告警解释

进程健康检查模块按5秒周期检测进程状态。当进程健康检查模块连续三次检测到进程连接状态为故障时,产生该告警。

当进程连接正常时,告警恢复。

告警属性

告警ID

告警级别

可自动清除

12007

严重

告警参数

参数名称

参数含义

ServiceName

产生告警的服务名称。

RoleName

产生告警的角色名称。

HostName

产生告警的主机名。

对系统的影响

该进程提供的业务不可用。

可能原因

  • 实例进程异常。
  • 磁盘空间不足。

处理步骤

  1. 检查实例进程是否异常。

    1. 打开MRS集群详情页面,在告警管理页签的告警列表中,单击此告警所在行,在告警详情中,查看该告警的主机名称与服务名称。
    2. 在“告警管理”页面,查看是否有ALM-12006 节点故障(2.x及以前版本)产生。

      是,执行1.c

      否,执行1.d

    3. ALM-12006 节点故障(2.x及以前版本)提供的步骤处理该告警。
    4. 登录告警节点,查看告警角色所在安装目录用户、用户组、权限等是否正常。正常用户、用户组、权限为“omm:ficommon 750”。
      • 是,执行1.f
      • 否,执行1.e
    5. 执行如下命令将文件夹权限修改为“750”,并将“用户:属组”修改为“omm:ficommon”。

      chmod 750 <folder_name>

      chown omm:ficommon <folder_name>

    6. 等待5分钟,查看告警列表中,“ALM-12007 进程故障”告警是否已清除。
      • 是,处理完毕。
      • 否,执行2.a

  2. 检查磁盘空间是否不足。

    1. 打开MRS集群详情页面,在告警管理页签的告警列表中,查看是否有“ALM-12017 磁盘容量不足”告警产生。
      • 是,执行2.b
      • 否,执行3
    2. ALM-12017 磁盘容量不足(2.x及以前版本)提供的步骤处理该故障。
    3. 等待5分钟,查看告警列表中,“ALM-12017 磁盘容量不足”告警是否已清除。

      是,执行2.d

      否,执行3

    4. 等待5分钟,查看告警列表中,该告警是否已清除。

      是,处理完毕。

      否,执行3

  3. 收集故障信息。

    1. 在MRS Manager界面,单击“系统设置 > 日志导出”。
    2. 请联系运维人员,并发送已收集的故障日志信息。

参考信息

无。