Host健康检查指标项说明
Swap使用率
指标项名称:Swap使用率
指标项含义:系统Swap使用率,计算方法:已用Swap大小/总共Swap大小。当前阈值设置为75.0%,如果使用率超过阈值,则认为不健康。
恢复指导:
- 确认节点Swap使用率。
登录检查结果不健康的节点,执行free -m查看swap总量和已使用量,如果swap使用率已超过阈值,则执行2。
- 如果Swap使用率超过阈值,建议对系统进行扩容,如:增加节点。
主机文件句柄使用率
指标项名称:主机文件句柄使用率
指标项含义:系统中的文件句柄的使用率,主机文件句柄使用率=已用句柄数/总共句柄数。如果使用率超过阈值,则认为不健康。
恢复指导:
- 确认主机文件句柄使用率。
登录检查结果不健康的节点,执行cat /proc/sys/fs/file-nr,输出结果的第一列和第三列分别表示系统已使用的句柄数和总句柄数,如果使用率超过阈值,则执行2。
- 如果主机文件句柄使用率超过阈值,建议对系统进行排查,具体分析文件句柄的使用情况。
NTP偏移量
指标项名称:NTP偏移量
指标项含义:NTP时间偏差。如果时间偏差超过阈值,则认为不健康。
恢复指导:
- 确认NTP时间偏差。
登录检查结果不健康的节点,执行/usr/sbin/ntpq -np查看信息,其中offset列表示时间偏差。如果时间偏差大于阈值,则执行2。
- 如果该指标项异常,则需要检查时钟源配置是否正确,请联系运维人员处理。
平均负载
指标项名称:平均负载
指标项含义:系统平均负载,表示特定时间段内运行队列中的平均进程数。这里系统平均负载是通过uptime命令中得到的负载值计算得到。计算方法:(1分钟负载 + 5分钟负载 + 15分钟负载)/(3*CPU个数)。当前阈值设置为2,如果超过阈值,则认为不健康。
恢复指导:
- 登录检查结果不健康的节点,执行uptime命令,命令输出的最后三列分别表示1分钟负载、5分钟负载和15分钟负载。根据系统平均负载的计算方法,如果负载超过阈值,则执行2。
- 如果系统平均负载超过阈值,建议对系统进行扩容,如增加节点等。
D状态进程
指标项名称:D状态进程
指标项含义:不可中断的睡眠进程,即D状态进程。D状态通常是进程在等待IO,比如磁盘IO,网络IO等,但是此时IO出现异常。如果系统中出现D状态进程,则认为不健康。
恢复指导:如果该指标项异常,系统中会产生对应的告警,建议参见告警ALM-12028进行处理。
硬件状态
指标项名称:硬件状态
指标项含义:检查系统硬件状态,包括CPU、内存、磁盘、电源、风扇等。该检查项通过ipmitool sdr elist获取相关硬件信息。如果相关硬件状态异常,则认为不健康。
恢复指导:
- 登录检查结果不健康的节点。执行ipmitool sdr elist查看系统硬件状态,命令输出的最后一列表示对应的硬件状态。如果提示的状态在下面的故障描述表中,则任务不健康。
模块
故障描述
Processor
IERR
Thermal Trip
FRB1/BIST failure
FRB2/Hang in POST failure
FRB3/Processor startup/init failure
Configuration Error
SM BIOS Uncorrectable CPU-complex Error
Disabled
Throttled
Uncorrectable machine check exception
Power Supply
Failure detected
Predictive failure
Power Supply AC lost
AC lost or out-of-range
AC out-of-range, but present
Config Error: Vendor Mismatch
Config Error: Revision Mismatch
Config Error: Processor Missing
Config Error: Power Supply Rating Mismatch
Config Error: Voltage Rating Mismatch
Config Error
Power Unit
240VA power down
Interlock power down
AC lost
Soft-power control failure
Failure detected
Predictive failure
Memory
Uncorrectable ECC
Parity
Memory Scrub Failed
Memory Device Disabled
Correctable ECC logging limit reached
Configuration Error
Throttled
Critical Overtemperature
Drive Slot
Drive Fault
Predictive Failure
Parity Check In Progress
In Critical Array
In Failed Array
Rebuild In Progress
Rebuild Aborted
Battery
Low
Failed
- 如果该指标项异常,建议联系运维人员解决处理。
主机名
指标项名称:主机名
指标项含义:检查是否设置了主机名。如果没有设置主机名,则认为不健康。如果该指标项异常,建议正确设置hostname。
恢复指导:
Umask
指标项名称:Umask
指标项含义:检查omm用户的umask设置是否正确。如果umask设置不等于0077,则认为不健康。
恢复指导:
- 如果该指标异常,建议将omm用户的umask设置为0077。登录检查结果不健康的节点,执行su - omm切换到omm用户。
- 执行vi ${BIGDATA_HOME}/.om_profile,修改umask=0077,保存并退出。
OMS的HA状态
指标项名称:OMS的HA状态
指标项含义:检查OMS的双机资源是否正常。OMS双机资源状态的详细信息可使用${CONTROLLER_HOME}/sbin/status-oms.sh查看。如果有模块状态异常,认为不健康。
恢复指导:
- 登录主管理节点,执行su - omm切换到omm用户,然后执行${CONTROLLER_HOME}/sbin/status-oms.sh查看OMS状态。
- 如果floatip、okerberos、oldap等异常,可参见告警ALM-12002、ALM-12004、ALM-12005分别进行处理。
- 如果是其他资源异常,建议查看相关异常模块的日志。
controller资源异常:查看异常节点的/var/log/Bigdata/controller/controller.log。
cep资源异常:查看异常节点的/var/log/Bigdata/omm/oms/cep/cep.log。
aos资源异常:查看异常节点的/var/log/Bigdata/controller/aos/aos.log。
feed_watchdog资源异常:查看异常节点的/var/log/Bigdata/watchdog/watchdog.log。
httpd资源异常:查看异常节点的/var/log/Bigdata/httpd/error_log。
fms资源异常:查看异常节点的/var/log/Bigdata/omm/oms/fms/fms.log。
pms资源异常:查看异常节点的/var/log/Bigdata/omm/oms/pms/pms.log。
iam资源异常:查看异常节点的/var/log/Bigdata/omm/oms/iam/iam.log。
gaussDB资源异常:查看异常节点的/var/log/Bigdata/omm/oms/db/omm_gaussdba.log。
ntp资源异常:查看异常节点的/var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log。
tomcat资源异常:查看异常节点的/var/log/Bigdata/tomcat/catalina.log。
- 如果通过日志无法排除问题,请联系运维人员处理,并发送已收集的故障日志信息。
安装目录及数据目录检查
指标项名称:安装目录及数据目录检查
指标项含义:该指标项首先检查安装目录(默认为“/opt/Bigdata”)所在磁盘分区根目录下的lost+found目录。如果该目录下有omm用户的文件,则认为异常。节点异常时,会把相关的文件放入到“lost+found”目录。该检查主要是针对这类场景,检查文件是否丢失。然后,对安装目录(如:“/opt/Bigdata”)和数据目录(如:“/srv/BigData”)进行检查。如果目录下出现非omm用户的文件,则认为不健康。
恢复指导:
- 登录检查结果不健康的节点,执行su - omm切换到omm用户。检查lost+found目录是否存在omm用户的文件或文件夹。
如果有omm用户文件,建议对其进行恢复后重新检查;如果没有omm用户文件,则执行2。
- 分别对安装目录和数据目录进行排查。查看目录下是否存在非omm用户是文件或文件夹。如果确认这些文件是手工生成的临时文件,建议对清理后重新检查。
CPU使用率
指标项名称:CPU使用率
指标项含义:检查CPU使用率是否超过当前设定的阈值。如果超过阈值,则认为不健康。
恢复指导:如果该指标项异常,系统中会产生对应的告警,建议参见告警ALM-12016进行处理。
内存使用率
指标项名称:内存使用率
指标项含义:检查内存使用率是否超过当前设定的阈值。如果超过阈值,则认为不健康。
恢复指导:如果该指标项异常,系统中会产生对应的告警,建议参见告警ALM-12018进行处理。
主机磁盘使用率
指标项名称:主机磁盘使用率
指标项含义:检查主机磁盘使用率是否超过当前设定的阈值。如果超过阈值,则认为不健康。
恢复指导:如果该指标项异常,系统中会产生对应的告警,建议参见告警ALM-12017进行处理。
主机磁盘写速率
指标项名称:主机磁盘写速率
指标项含义:检查主机磁盘写速率。根据业务场景不同,主机磁盘写速率大小可能存在差异,所以该指标项只反映具体的数值大小,用户需根据业务场景具体判断该指标是否健康。
恢复指导:用户根据具体的业务场景,判断当前磁盘写速率是否正常。
主机磁盘读速率
指标项名称:主机磁盘读速率
指标项含义:检查主机磁盘读速率。根据业务场景不同,主机磁盘读速率大小可能存在差异,所以该指标项只反映具体的数值大小,用户需根据业务场景具体判断该指标是否健康。
恢复指导:用户根据具体的业务场景,判断当前磁盘读速率是否正常。
主机业务平面网络状态
指标项名称:主机业务平面网络状态
指标项含义:检查集群主机业务平面网络连通性。如果出现无法连通的情况,则认为不健康。
恢复指导:如果是单平面组网,对应需检查单平面的IP。双平面组网排查恢复步骤如下:
- 检查主备管理节点业务平面IP的网络连通性。
如果网络异常,执行3。
如果网络正常,执行2。
- 检查主管理节点IP到集群内异常节点IP的网络连通性。
- 如果网络不通,请联系运维人员排查网络问题,以保证满足业务使用。
主机状态
指标项名称:主机状态
指标项含义:检查主机状态是否正常。如果节点有故障,则认为不健康。
恢复指导:如果该指标项异常,建议参见告警ALM-12006进行处理。
检查告警
指标项名称: 检查告警
指标项含义:检查主机是否存在未清除的告警。如果存在,则认为不健康。
恢复指导:如果该指标项异常,建议参见告警进行处理。