更新时间:2023-12-14 GMT+08:00

OMS健康检查指标项说明

OMS状态检查

指标项名称:OMS状态检查

指标项含义:OMS状态检查包括HA状态检查和资源状态检查。 HA状态取值为active、standby和NULL,分别表示主节点、备节点和未知。资源状态取值为normal、abnormal和NULL,分别表示正常、异常和未知。HA状态为NULL时,认为不健康;资源状态为NULL或abnormal时,认为不健康。

表1 OMS状态说明表

名称

说明

HA状态

active表示主节点

standby表示备节点

NULL表示未知

资源状态

normal表示所有资源都正常

abnormal表示有异常资源

NULL表示未知

恢复指导:

  1. 登录主管理节点,执行su - omm切换到omm用户。执行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS状态。
  2. 如果HA状态为NULL,可能是系统在重启,这个一般是中间状态,HA后续会自动调整为正常状态。
  3. 如果资源状态异常,则说明有Manager的某些组件资源异常, 可具体查看acs、aos、cep、controller、feed_watchdog、fms、guassDB、httpd、iam、ntp、okerberos、oldap、pms、tomcat等组件状态是否正常。
  4. 如果Manager组件资源异常,参见Manager组件状态检查进行处理。

Manager组件状态检查

指标项名称:Manager组件状态检查

指标项含义:Manager组件状态检查包括组件资源运行状态和资源HA状态。资源运行状态,取值为Normal、Abnormal等;资源HA状态,取值为Normal、Exception等。Manager组件包含acs、aos、cep、controller、feed_watchdog、floatip、fms、gaussDB、heartBeatCheck、httpd、iam、ntp、okerberos、oldap、pms、tomcat等。当运行状态和HA状态不是Normal时,认为指标不健康。

表2 Manager组件状态说明表

名称

说明

资源运行状态

Normal表示正常运行

Abnormal表示运行异常

Stopped表示停止

Unknown表示状态未知

Starting表示正在启动

Stopping表示正在停止

Active_normal表示主正常运行

Standby_normal表示备正常运行

Raising_active表示正在升主

Lowing_standby表示正在降备

No_action表示没有该动作

Repairing表示正在修复

NULL表示未知

资源HA状态

Normal表示正常

Exception表示故障

Non_steady表示非稳态

Unknown表示未知

NULL表示未知

恢复指导:

  1. 登录主管理节点,执行su - omm切换到omm用户。执行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS状态。
  2. 如果floatip、okerberos、oldap等异常,可参见告警ALM-12002、ALM-12004、ALM-12005分别进行处理。
  3. 如果是其他资源异常,建议查看相关异常模块的日志。

    controller资源异常:查看异常节点的/var/log/Bigdata/controller/controller.log。

    cep资源异常:查看异常节点的/var/log/Bigdata/omm/oms/cep/cep.log。

    aos资源异常:查看异常节点的/var/log/Bigdata/controller/aos/aos.log。

    feed_watchdog资源异常:查看异常节点的/var/log/Bigdata/watchdog/watchdog.log。

    httpd资源异常:查看异常节点的/var/log/Bigdata/httpd/error_log。

    fms资源异常:查看异常节点的/var/log/Bigdata/omm/oms/fms/fms.log。

    pms资源异常:查看异常节点的/var/log/Bigdata/omm/oms/pms/pms.log。

    iam资源异常:查看异常节点的/var/log/Bigdata/omm/oms/iam/iam.log。

    gaussDB资源异常:查看异常节点的/var/log/Bigdata/omm/oms/db/omm_gaussdba.log。

    ntp资源异常:查看异常节点的/var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log。

    tomcat资源异常:查看异常节点的/var/log/Bigdata/tomcat/catalina.log。

  4. 如果通过日志无法排除问题,请联系运维人员处理,并发送已收集的故障日志信息。

OMA运行状态

指标项名称:OMA运行状态

指标项含义:检查OMA的运行状态,状态结果包括运行和停止两种状态,如果OMA状态为停止,则认为不健康。

恢复指导:

  1. 登录检查结果不健康的节点,然后执行su - omm切换到omm用户。
  2. 执行${OMA_PATH}/restart_oma_app,手工启动OMA,然后重新检查。如果检查结果仍然不健康,则执行3
  3. 如果手工启动OMA无法恢复,建议查看分析OMA日志“/var/log/Bigdata/omm/oma/omm_agent.log”
  4. 如果通过日志无法排除问题,请联系运维人员处理,并发送已收集的故障日志信息。

各节点与主管理节点之间SSH互信

指标项名称:各节点与主管理节点之间SSH互信

指标项含义:检查SSH互信是否正常。如果使用omm用户,在主管理节点可以通过SSH登录其他节点且不需要输入密码,则认为健康;否则,不健康。或者主管理节点SSH可以直接登录其他节点,但在其他节点无法通过SSH登录主管理节点,则也认为不健康。

恢复指导:

  1. 如果该指标项检查异常,表示各节点与主管理节点之间SSH互信异常。SSH互信异常时,首先检查“/home/omm”目录的权限是否为omm。非omm的目录权限可能导致SSH互信异常,建议执行chown omm:wheel修改权限后重新检查。如果“/home/omm”目录权限正常,则执行2
  2. SSH互信异常一般会导致Controller和NodeAgent之间心跳异常,进而出现节点故障的告警。这时可参见告警ALM-12006进行处理。

进程运行时间

指标项名称:NodeAgent运行时间、Controller运行时间和Tomcat运行时间

指标项含义:检查NodeAgent、Controller、Tomcat进程的运行时间。如果小于半小时(即1800s),则进程可能重启过,建议半小时后再检查。如果多次检查,进程的运行时间都小于半小时,说进程状态异常。

恢复指导:

  1. 登录检查结果不健康的节点,执行su - omm切换到omm用户。
  2. 根据进程名称查看进程pid,执行命令:

    ps -ef | grep NodeAgent

  3. 根据pid查看进程启动时间,执行命令:

    ps -p pid -o lstart

  4. 判断进程启动时间是否正常。如果进程一直反复重启,执行5
  5. 查看对应模块日志,分析重启原因。

    NodeAgent运行时间异常,检查相关日志/var/log/Bigdata/nodeagent/agentlog/agent.log

    Controller运行时间异常,检查相关日志/var/log/Bigdata/controller/controller.log

    Tomcat运行时间异常,检查相关日志/var/log/Bigdata/tomcat/web.log

  6. 如果通过日志无法排除问题,请联系运维人员处理,并发送已收集的故障日志信息。

账户及密码过期检查

指标项名称:账户及密码过期检查

指标项含义:该指标项检查MRS的两个操作系统用户ommommdba。对操作系统用户,同时检查账户及密码的过期时间。如果账户或密码有效期小于等于15天,则认为不健康。

恢复指导:如果账户或密码有效期小于等于15天,建议及时联系运维人员处理。