Indicadores de comprobación de estado del host
Uso de Swap
Indicador: Uso de Swap
Descripción: Uso de Swap del sistema. El valor se calcula utilizando la siguiente fórmula: Uso de Swap = Tamaño de swap usado/Tamaño total de swap. Supongamos que el umbral actual se establece en 75.0%. Si el uso de los identificadores de archivo en el sistema excede el umbral, el sistema no está sano.
Guía de recuperación:
- Compruebe el uso de swap del nodo.
Inicie sesión en el nodo no saludable y ejecute el comando free -m para comprobar el espacio de swap total y el espacio de swap usado. Si el uso del espacio de intercambio excede el umbral, vaya a 2.
- Si el uso de swap excede el umbral, se recomienda ampliar la capacidad del sistema, por ejemplo, agregar nodos.
Uso del identificador de archivo de host
Indicador: Uso del identificador de archivo de host
Description: Este indicador indica el uso del identificador de archivo en el sistema. Uso del identificador de archivo de host = Número de identificadores usados/Número total de identificadores. Si el uso excede el umbral, el sistema no está sano.
Guía de recuperación:
- Verifique el uso del identificador de archivo del host.
Inicie sesión en el nodo no saludable y ejecute el comando cat /proc/sys/fs/file-nr. En la salida del comando, las columnas primera y tercera indican el número de identificadores usados y el número total de identificadores, respectivamente. Si el uso excede el umbral, vaya a 2.
- Si el uso del identificador de archivos del host excede el umbral, se recomienda comprobar el sistema y analizar el uso del identificador de archivos.
Desfase de NTP
Indicador: Desplazamiento de NTP
Descripción: Este indicador indica el desplazamiento de tiempo de NTP. Si la desviación de tiempo excede el umbral, el sistema no está sano.
Guía de recuperación:
- Compruebe el desplazamiento de tiempo de NTP.
Inicie sesión en el nodo no saludable y ejecute el comando /usr/sbin/ntpq -np para ver la información. En la salida del comando, la columna Offset indica el desplazamiento de tiempo. Si el desplazamiento de tiempo es mayor que el umbral, vaya a 2.
- Si el indicador es anormal, compruebe si la configuración de la fuente del reloj es correcta. Póngase en contacto con el personal de O&M.
Carga promedio
Indicador: Carga promedia
Descripción: Carga promedia del sistema, que indica el número medio de procesos en la cola en ejecución en un período especificado. La carga media del sistema se calcula utilizando el valor de carga obtenido por el comando de uptime. Método de cálculo: (Carga de 1 minuto + Carga de 5 minutos + Carga de 15 minutos)/(3 x Número de CPUs). Supongamos que el umbral actual se establece en 2. Si la carga media excede 2, el sistema no está sano.
Guía de recuperación:
- Inicie sesión en el nodo no saludable y ejecute el comando uptime. Las últimas tres columnas de la salida del comando indican la carga en 1 minuto, 5 minutos y 15 minutos, respectivamente. Si la carga media del sistema supera el umbral, vaya a 2.
- Si la carga media del sistema excede el umbral, se recomienda realizar la ampliación de la capacidad del sistema, como agregar nodos.
Procesos de estado D
Indicador: Proceso del Estado D
Descripción: Este indicador indica el proceso de sueño imparable, es decir, el proceso en el estado D. Un proceso que está en el estado D está esperando E/S, como E/S de disco y E/S de red, y experimenta una excepción de E/S. Si existe algún proceso en el estado D en el sistema, el sistema no está sano.
Guía de recuperación: Si el indicador es anormal, el sistema genera una alarma. Se le aconseja que maneje la alarma por referencia a ALM-12028.
Estado del hardware
Indicador: Estado del hardware
Descripción: Este indicador se utiliza para comprobar el estado del hardware del sistema, incluidos la CPU, la memoria, el disco, la fuente de alimentación y el ventilador. Este indicador obtiene información relacionada con el hardware mediante ipmitool sdr elist. Si el estado del hardware es anormal, el hardware no está sano.
Guía de recuperación:
- Inicie sesión en el nodo donde el resultado de la comprobación no está sano. Ejecute el comando ipmitool sdr elist para comprobar el estado del hardware del sistema. La última columna de la salida del comando indica el estado del hardware. Si el estado se incluye en la siguiente tabla de descripción de fallas, el resultado de la comprobación no está sano.
Módulo
Síntomas
Processor
IERR
Thermal Trip
FRB1/BIST failure
FRB2/Hang in POST failure
FRB3/Processor startup/init failure
Configuration Error
SM BIOS Uncorrectable CPU-complex Error
Disabled
Throttled
Uncorrectable machine check exception
Power Supply
Failure detected
Predictive failure
Power Supply AC lost
AC lost or out-of-range
AC out-of-range, but present
Config Error: Vendor Mismatch
Config Error: Revision Mismatch
Config Error: Processor Missing
Config Error: Power Supply Rating Mismatch
Config Error: Voltage Rating Mismatch
Config Error
Power Unit
240VA power down
Interlock power down
AC lost
Soft-power control failure
Failure detected
Predictive failure
Memory
Uncorrectable ECC
Parity
Memory Scrub Failed
Memory Device Disabled
Correctable ECC logging limit reached
Configuration Error
Throttled
Critical Overtemperature
Drive Slot
Drive Fault
Predictive Failure
Parity Check In Progress
In Critical Array
In Failed Array
Rebuild In Progress
Rebuild Aborted
Battery
Low
Failed
- Si el indicador es anormal, póngase en contacto con el personal de O&M.
Nombre del host
Indicador: Nombre de host
Descripción: Este indicador se utiliza para comprobar si el nombre de host está definido. Si el nombre de host no está definido, el sistema no está sano. Si el indicador es anormal, se recomienda establecer el nombre de host correctamente.
Guía de recuperación:
- Inicie sesión en el nodo donde el resultado de la comprobación no está sano.
- Ejecute el comando hostname nombre de host para cambiar el nombre de host para asegurarse de que el nombre de host es coherente con el nombre de host planificado.
hostnamehost name Por ejemplo, para cambiar el nombre de host a Bigdata-OM-01, ejecute el comando hostname Bigdata-OM-01.
- Modifique el archivo de configuración del nombre de host.
Ejecute el comando vi /etc/HOSTNAME para editar el archivo. Cambie el contenido del archivo a Bigdata-OM-01. Guarde el archivo y salga.
Umask
Indicador: Umask
Descripción: Este indicador se utiliza para comprobar si la configuración de umask de usuario omm es correcta. Si Umask no es 0077, el sistema no está sano.
Guía de recuperación:
- Si el indicador es anormal, se recomienda establecer umask del usuario omm a 0077. Inicie sesión en el nodo no saludable y ejecute el comando su - omm para cambiar a usuario omm.
- Ejecute el comando vi ${BIGDATA_HOME}/.om_profile y cambie el valor de umask a 0077. Guarde y salga.
Estado de HA de OMS
Indicador: Estado de HA de OMS
Descripción: Este indicador se utiliza para comprobar si los recursos del clúster de dos nodos de OMS son normales. Puede ejecutar el comando ${CONTROLLER_HOME}/sbin/status-oms.sh para ver información detallada sobre el estado de los recursos del clúster de dos nodos de OMS. Si algún módulo es anormal, el OMS no está sano.
Guía de recuperación:
- Inicie sesión en el nodo de gestión activo y ejecute el comando su - omm para cambiar a usuario omm. Ejecute el comando ${CONTROLLER_HOME}/sbin/status-oms.sh para comprobar el estado de OMS.
- Si floteip, okerberos y oldap son anormales, maneje los problemas con referencia a ALM-12002, ALM-12004 y ALM-12005 respectivamente.
- Si otros recursos son anormales, se recomienda ver los registros de los módulos defectuosos.
Si los recursos del controlador son anormales, vea /var/log/Bigdata/controller/controller.log del nodo defectuoso.
Si los recursos de CEP son anormales, vea /var/log/Bigdata/omm/oms/cep/cep.log del nodo defectuoso.
Si los recursos AOS son anormales, vea /var/log/Bigdata/controller/aos/aos.log del nodo defectuoso.
Si los recursos feed_watchdog son anormales, vea el /var/log/Bigdata/watchdog/watchdog.log del nodo anormal.
Si los recursos de HTTPD son anormales, vea /var/log/Bigdata/httpd/error_log del nodo anormal.
Si los recursos de FMS son anormales, vea /var/log/Bigdata/omm/oms/fms/fms.log del nodo anormal.
Si los recursos de PMS son anormales, vea /var/log/Bigdata/omm/oms/pms/pms.log del nodo anormal.
Si los recursos de IAM son anormales, vea /var/log/Bigdata/omm/oms/iam/iam.log del nodo anormal.
Si el recurso GaussDB es anormal, compruebe el /var/log/Bigdata/omm/oms/db/omm_gaussdba.log del nodo anormal.
Si los recursos NTP son anormales, vea /var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log del nodo anormal.
Si los recursos de Tomcat son anormales, vea /var/log/Bigdata/tomcat/catalina.log del nodo anormal.
- Si la falla no se puede corregir en función de los registros, póngase en contacto con el personal de O&M y envíe los registros de fallas recopiladas.
Comprobación del directorio de instalación y del directorio de datos
Indicator: Comprobación de directorios de instalación y directorios de datos
Descripción: Este indicador comprueba el directorio lost+found en el directorio raíz de la partición de disco donde se encuentra el directorio de instalación (de forma predeterminada, /opt/Bigdata). Si el directorio contiene los archivos de usuario omm, hay excepciones. Cuando un nodo es anormal, los archivos relacionados se almacenan en el directorio lost+found. Este indicador se utiliza para comprobar si los archivos se pierden en tales escenarios. Compruebe el directorio de instalación (por ejemplo, /opt/Bigdata) y el directorio de datos (por ejemplo, /srv/BigData). Si existen archivos de usuarios no-omm en los dos directorios, el sistema no está sano.
Guía de recuperación:
- Inicie sesión en el nodo no saludable y ejecute el comando su - omm para cambiar a usuario omm. Compruebe si existen archivos o carpetas del usuario omm en el directorio lost+found.
Si el archivo de usuario omm existe, se recomienda restaurarlo y comprobar de nuevo. Si el archivo de usuario omm no existe, vaya a 2.
- Compruebe el directorio de instalación y el directorio de datos. Compruebe si los archivos o carpetas de otros usuarios existen en el directorio de instalación y en el directorio de datos. Si los archivos y carpetas se generan manualmente archivos temporales, se recomienda eliminarlos y comprobar de nuevo.
Uso de CPU
Indicador: Uso de CPU
Descripción: Este indicador se utiliza para comprobar si el uso de la CPU excede el umbral. Si el uso del disco excede el umbral, el sistema no está sano.
Guía de recuperación: Si el indicador es anormal, el sistema genera una alarma. Se le aconseja que maneje la alarma al referirse a ALM-12016.
Uso de memoria
Indicador: Uso de memoria
Descripción: Este indicador se utiliza para comprobar si el uso de memoria excede el umbral. Si el uso del disco excede el umbral, el sistema no está sano.
Guía de recuperación: Si el indicador es anormal, el sistema genera una alarma. Se le aconseja que maneje la alarma al referirse a ALM-12018.
Uso del disco de host
Indicador: Uso del disco de host
Descripción: Este indicador se utiliza para comprobar si el uso del disco host excede el umbral. Si el uso del disco excede el umbral, el sistema no está sano.
Guía de recuperación: Si el indicador es anormal, el sistema genera una alarma. Se le aconseja que maneje la alarma al referirse a ALM-12017.
Tasa de escritura de disco de host
Indicador: Tasa de escritura en disco de host
Descripción: Este indicador se utiliza para comprobar la velocidad de escritura en disco de un host. La velocidad de escritura del disco host puede variar según el escenario de servicio. Por lo tanto, el valor de este indicador refleja solo el valor especificado. Debe determinar si el indicador es normal en escenarios de servicio especificados.
Guía de recuperación: Determine si la velocidad de escritura del disco actual es normal en función del escenario de servicio.
Tasa de lectura del disco del host
Indicador: Tasa de lectura del disco del host
Descripción: Este indicador se utiliza para comprobar la velocidad de lectura del disco de un host. La velocidad de lectura del disco host puede variar según el escenario de servicio. Por lo tanto, el valor de este indicador refleja solo el valor especificado. Debe determinar si el indicador es normal en escenarios de servicio especificados.
Guía de recuperación: Determine si la velocidad de lectura del disco actual es normal en función del escenario de servicio.
Estado de la red del plano de servicio del host
Indicador: Estado de la red del plano de servicio del host
Descripción: Este indicador se utiliza para comprobar la conectividad de la red del plano de servicio del host del clúster. Si los hosts están desconectados, el clúster no está sano.
Guía de recuperación: Si se utiliza la red de un solo plano, compruebe la dirección IP del único plano. Para una red de doble plano, el procedimiento de operación es el siguiente:
- Compruebe la conectividad de red entre las direcciones IP del plano de servicio de los nodos de gestión activo y en espera.
Si la red es anormal, vaya a 3.
Si la red es normal, vaya a 2.
- Compruebe la conectividad de red entre la dirección IP del nodo de gestión activo y la dirección IP del nodo anormal en el clúster.
- Si la red está desconectada, póngase en contacto con el personal de O&M para corregir la falla de la red y asegurarse de que la red cumple con los requisitos de servicio.
Estado de host
Indicador: Estado del host
Descripción: Este indicador se utiliza para comprobar si el estado del host es normal. Si un nodo está defectuoso, el host no está sano.
Guía de recuperación: Si el indicador es anormal, rectifique la falla con referencia a ALM-12006.
Comprobación de alarma
Indicador: Comprobación de alarma
Descripción: Este indicador se utiliza para comprobar si existen alarmas en el host. Si existen alarmas, el servicio no está sano.
Guía de recuperación: Si este indicador es anormal, puede corregir la falla consultando la guía de manejo de alarmas.