Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2023-11-20 GMT+08:00

Indicadores de comprobación de estado del host

Uso de Swap

Indicador: Uso de Swap

Descripción: Uso de Swap del sistema. El valor se calcula utilizando la siguiente fórmula: Uso de Swap = Tamaño de swap usado/Tamaño total de swap. Supongamos que el umbral actual se establece en 75.0%. Si el uso de los identificadores de archivo en el sistema excede el umbral, el sistema no está sano.

Guía de recuperación:

  1. Compruebe el uso de swap del nodo.

    Inicie sesión en el nodo no saludable y ejecute el comando free -m para comprobar el espacio de swap total y el espacio de swap usado. Si el uso del espacio de intercambio excede el umbral, vaya a 2.

  2. Si el uso de swap excede el umbral, se recomienda ampliar la capacidad del sistema, por ejemplo, agregar nodos.

Uso del identificador de archivo de host

Indicador: Uso del identificador de archivo de host

Description: Este indicador indica el uso del identificador de archivo en el sistema. Uso del identificador de archivo de host = Número de identificadores usados/Número total de identificadores. Si el uso excede el umbral, el sistema no está sano.

Guía de recuperación:

  1. Verifique el uso del identificador de archivo del host.

    Inicie sesión en el nodo no saludable y ejecute el comando cat /proc/sys/fs/file-nr. En la salida del comando, las columnas primera y tercera indican el número de identificadores usados y el número total de identificadores, respectivamente. Si el uso excede el umbral, vaya a 2.

  2. Si el uso del identificador de archivos del host excede el umbral, se recomienda comprobar el sistema y analizar el uso del identificador de archivos.

Desfase de NTP

Indicador: Desplazamiento de NTP

Descripción: Este indicador indica el desplazamiento de tiempo de NTP. Si la desviación de tiempo excede el umbral, el sistema no está sano.

Guía de recuperación:

  1. Compruebe el desplazamiento de tiempo de NTP.

    Inicie sesión en el nodo no saludable y ejecute el comando /usr/sbin/ntpq -np para ver la información. En la salida del comando, la columna Offset indica el desplazamiento de tiempo. Si el desplazamiento de tiempo es mayor que el umbral, vaya a 2.

  2. Si el indicador es anormal, compruebe si la configuración de la fuente del reloj es correcta. Póngase en contacto con el personal de O&M.

Carga promedio

Indicador: Carga promedia

Descripción: Carga promedia del sistema, que indica el número medio de procesos en la cola en ejecución en un período especificado. La carga media del sistema se calcula utilizando el valor de carga obtenido por el comando de uptime. Método de cálculo: (Carga de 1 minuto + Carga de 5 minutos + Carga de 15 minutos)/(3 x Número de CPUs). Supongamos que el umbral actual se establece en 2. Si la carga media excede 2, el sistema no está sano.

Guía de recuperación:

  1. Inicie sesión en el nodo no saludable y ejecute el comando uptime. Las últimas tres columnas de la salida del comando indican la carga en 1 minuto, 5 minutos y 15 minutos, respectivamente. Si la carga media del sistema supera el umbral, vaya a 2.
  2. Si la carga media del sistema excede el umbral, se recomienda realizar la ampliación de la capacidad del sistema, como agregar nodos.

Procesos de estado D

Indicador: Proceso del Estado D

Descripción: Este indicador indica el proceso de sueño imparable, es decir, el proceso en el estado D. Un proceso que está en el estado D está esperando E/S, como E/S de disco y E/S de red, y experimenta una excepción de E/S. Si existe algún proceso en el estado D en el sistema, el sistema no está sano.

Guía de recuperación: Si el indicador es anormal, el sistema genera una alarma. Se le aconseja que maneje la alarma por referencia a ALM-12028.

Estado del hardware

Indicador: Estado del hardware

Descripción: Este indicador se utiliza para comprobar el estado del hardware del sistema, incluidos la CPU, la memoria, el disco, la fuente de alimentación y el ventilador. Este indicador obtiene información relacionada con el hardware mediante ipmitool sdr elist. Si el estado del hardware es anormal, el hardware no está sano.

Guía de recuperación:

  1. Inicie sesión en el nodo donde el resultado de la comprobación no está sano. Ejecute el comando ipmitool sdr elist para comprobar el estado del hardware del sistema. La última columna de la salida del comando indica el estado del hardware. Si el estado se incluye en la siguiente tabla de descripción de fallas, el resultado de la comprobación no está sano.

    Módulo

    Síntomas

    Processor

    IERR

    Thermal Trip

    FRB1/BIST failure

    FRB2/Hang in POST failure

    FRB3/Processor startup/init failure

    Configuration Error

    SM BIOS Uncorrectable CPU-complex Error

    Disabled

    Throttled

    Uncorrectable machine check exception

    Power Supply

    Failure detected

    Predictive failure

    Power Supply AC lost

    AC lost or out-of-range

    AC out-of-range, but present

    Config Error: Vendor Mismatch

    Config Error: Revision Mismatch

    Config Error: Processor Missing

    Config Error: Power Supply Rating Mismatch

    Config Error: Voltage Rating Mismatch

    Config Error

    Power Unit

    240VA power down

    Interlock power down

    AC lost

    Soft-power control failure

    Failure detected

    Predictive failure

    Memory

    Uncorrectable ECC

    Parity

    Memory Scrub Failed

    Memory Device Disabled

    Correctable ECC logging limit reached

    Configuration Error

    Throttled

    Critical Overtemperature

    Drive Slot

    Drive Fault

    Predictive Failure

    Parity Check In Progress

    In Critical Array

    In Failed Array

    Rebuild In Progress

    Rebuild Aborted

    Battery

    Low

    Failed

  2. Si el indicador es anormal, póngase en contacto con el personal de O&M.

Nombre del host

Indicador: Nombre de host

Descripción: Este indicador se utiliza para comprobar si el nombre de host está definido. Si el nombre de host no está definido, el sistema no está sano. Si el indicador es anormal, se recomienda establecer el nombre de host correctamente.

Guía de recuperación:

  1. Inicie sesión en el nodo donde el resultado de la comprobación no está sano.
  2. Ejecute el comando hostname nombre de host para cambiar el nombre de host para asegurarse de que el nombre de host es coherente con el nombre de host planificado.

    hostnamehost name Por ejemplo, para cambiar el nombre de host a Bigdata-OM-01, ejecute el comando hostname Bigdata-OM-01.

  3. Modifique el archivo de configuración del nombre de host.

    Ejecute el comando vi /etc/HOSTNAME para editar el archivo. Cambie el contenido del archivo a Bigdata-OM-01. Guarde el archivo y salga.

Umask

Indicador: Umask

Descripción: Este indicador se utiliza para comprobar si la configuración de umask de usuario omm es correcta. Si Umask no es 0077, el sistema no está sano.

Guía de recuperación:

  1. Si el indicador es anormal, se recomienda establecer umask del usuario omm a 0077. Inicie sesión en el nodo no saludable y ejecute el comando su - omm para cambiar a usuario omm.
  2. Ejecute el comando vi ${BIGDATA_HOME}/.om_profile y cambie el valor de umask a 0077. Guarde y salga.

Estado de HA de OMS

Indicador: Estado de HA de OMS

Descripción: Este indicador se utiliza para comprobar si los recursos del clúster de dos nodos de OMS son normales. Puede ejecutar el comando ${CONTROLLER_HOME}/sbin/status-oms.sh para ver información detallada sobre el estado de los recursos del clúster de dos nodos de OMS. Si algún módulo es anormal, el OMS no está sano.

Guía de recuperación:

  1. Inicie sesión en el nodo de gestión activo y ejecute el comando su - omm para cambiar a usuario omm. Ejecute el comando ${CONTROLLER_HOME}/sbin/status-oms.sh para comprobar el estado de OMS.
  2. Si floteip, okerberos y oldap son anormales, maneje los problemas con referencia a ALM-12002, ALM-12004 y ALM-12005 respectivamente.
  3. Si otros recursos son anormales, se recomienda ver los registros de los módulos defectuosos.

    Si los recursos del controlador son anormales, vea /var/log/Bigdata/controller/controller.log del nodo defectuoso.

    Si los recursos de CEP son anormales, vea /var/log/Bigdata/omm/oms/cep/cep.log del nodo defectuoso.

    Si los recursos AOS son anormales, vea /var/log/Bigdata/controller/aos/aos.log del nodo defectuoso.

    Si los recursos feed_watchdog son anormales, vea el /var/log/Bigdata/watchdog/watchdog.log del nodo anormal.

    Si los recursos de HTTPD son anormales, vea /var/log/Bigdata/httpd/error_log del nodo anormal.

    Si los recursos de FMS son anormales, vea /var/log/Bigdata/omm/oms/fms/fms.log del nodo anormal.

    Si los recursos de PMS son anormales, vea /var/log/Bigdata/omm/oms/pms/pms.log del nodo anormal.

    Si los recursos de IAM son anormales, vea /var/log/Bigdata/omm/oms/iam/iam.log del nodo anormal.

    Si el recurso GaussDB es anormal, compruebe el /var/log/Bigdata/omm/oms/db/omm_gaussdba.log del nodo anormal.

    Si los recursos NTP son anormales, vea /var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log del nodo anormal.

    Si los recursos de Tomcat son anormales, vea /var/log/Bigdata/tomcat/catalina.log del nodo anormal.

  4. Si la falla no se puede corregir en función de los registros, póngase en contacto con el personal de O&M y envíe los registros de fallas recopiladas.

Comprobación del directorio de instalación y del directorio de datos

Indicator: Comprobación de directorios de instalación y directorios de datos

Descripción: Este indicador comprueba el directorio lost+found en el directorio raíz de la partición de disco donde se encuentra el directorio de instalación (de forma predeterminada, /opt/Bigdata). Si el directorio contiene los archivos de usuario omm, hay excepciones. Cuando un nodo es anormal, los archivos relacionados se almacenan en el directorio lost+found. Este indicador se utiliza para comprobar si los archivos se pierden en tales escenarios. Compruebe el directorio de instalación (por ejemplo, /opt/Bigdata) y el directorio de datos (por ejemplo, /srv/BigData). Si existen archivos de usuarios no-omm en los dos directorios, el sistema no está sano.

Guía de recuperación:

  1. Inicie sesión en el nodo no saludable y ejecute el comando su - omm para cambiar a usuario omm. Compruebe si existen archivos o carpetas del usuario omm en el directorio lost+found.

    Si el archivo de usuario omm existe, se recomienda restaurarlo y comprobar de nuevo. Si el archivo de usuario omm no existe, vaya a 2.

  2. Compruebe el directorio de instalación y el directorio de datos. Compruebe si los archivos o carpetas de otros usuarios existen en el directorio de instalación y en el directorio de datos. Si los archivos y carpetas se generan manualmente archivos temporales, se recomienda eliminarlos y comprobar de nuevo.

Uso de CPU

Indicador: Uso de CPU

Descripción: Este indicador se utiliza para comprobar si el uso de la CPU excede el umbral. Si el uso del disco excede el umbral, el sistema no está sano.

Guía de recuperación: Si el indicador es anormal, el sistema genera una alarma. Se le aconseja que maneje la alarma al referirse a ALM-12016.

Uso de memoria

Indicador: Uso de memoria

Descripción: Este indicador se utiliza para comprobar si el uso de memoria excede el umbral. Si el uso del disco excede el umbral, el sistema no está sano.

Guía de recuperación: Si el indicador es anormal, el sistema genera una alarma. Se le aconseja que maneje la alarma al referirse a ALM-12018.

Uso del disco de host

Indicador: Uso del disco de host

Descripción: Este indicador se utiliza para comprobar si el uso del disco host excede el umbral. Si el uso del disco excede el umbral, el sistema no está sano.

Guía de recuperación: Si el indicador es anormal, el sistema genera una alarma. Se le aconseja que maneje la alarma al referirse a ALM-12017.

Tasa de escritura de disco de host

Indicador: Tasa de escritura en disco de host

Descripción: Este indicador se utiliza para comprobar la velocidad de escritura en disco de un host. La velocidad de escritura del disco host puede variar según el escenario de servicio. Por lo tanto, el valor de este indicador refleja solo el valor especificado. Debe determinar si el indicador es normal en escenarios de servicio especificados.

Guía de recuperación: Determine si la velocidad de escritura del disco actual es normal en función del escenario de servicio.

Tasa de lectura del disco del host

Indicador: Tasa de lectura del disco del host

Descripción: Este indicador se utiliza para comprobar la velocidad de lectura del disco de un host. La velocidad de lectura del disco host puede variar según el escenario de servicio. Por lo tanto, el valor de este indicador refleja solo el valor especificado. Debe determinar si el indicador es normal en escenarios de servicio especificados.

Guía de recuperación: Determine si la velocidad de lectura del disco actual es normal en función del escenario de servicio.

Estado de la red del plano de servicio del host

Indicador: Estado de la red del plano de servicio del host

Descripción: Este indicador se utiliza para comprobar la conectividad de la red del plano de servicio del host del clúster. Si los hosts están desconectados, el clúster no está sano.

Guía de recuperación: Si se utiliza la red de un solo plano, compruebe la dirección IP del único plano. Para una red de doble plano, el procedimiento de operación es el siguiente:

  1. Compruebe la conectividad de red entre las direcciones IP del plano de servicio de los nodos de gestión activo y en espera.

    Si la red es anormal, vaya a 3.

    Si la red es normal, vaya a 2.

  2. Compruebe la conectividad de red entre la dirección IP del nodo de gestión activo y la dirección IP del nodo anormal en el clúster.
  3. Si la red está desconectada, póngase en contacto con el personal de O&M para corregir la falla de la red y asegurarse de que la red cumple con los requisitos de servicio.

Estado de host

Indicador: Estado del host

Descripción: Este indicador se utiliza para comprobar si el estado del host es normal. Si un nodo está defectuoso, el host no está sano.

Guía de recuperación: Si el indicador es anormal, rectifique la falla con referencia a ALM-12006.

Comprobación de alarma

Indicador: Comprobación de alarma

Descripción: Este indicador se utiliza para comprobar si existen alarmas en el host. Si existen alarmas, el servicio no está sano.

Guía de recuperación: Si este indicador es anormal, puede corregir la falla consultando la guía de manejo de alarmas.