Indicadores de comprobación de estado de OMS
Comprobación de estado de OMS
Indicador: Comprobación del estado de OMS
Descripción: La comprobación de estado de OMS incluye la comprobación de estado de HA y la comprobación de estado de recursos. El estado HA incluye active, standby y NULL que indican el nodo activo, el nodo en espera y el desconocido, respectivamente. El estado del recurso incluye normal, anormal y NULL. Si el estado HA es NULL, el estado HA no está sano. Si el estado del recurso es NULL o anormal, el estado del recurso no es saludable.
Nombre |
Descripción |
---|---|
HA state |
active: indica el nodo activo. standby: indica el nodo en espera. NULL: desconocido |
Resource status |
normal: Todos los recursos son normales. abnormal: indica que existen recursos anormales. NULL: desconocido |
Guía de recuperación:
- Inicie sesión en el nodo de gestión activo y ejecute el comando su - omm para cambiar a usuario omm. Ejecute el comando ${CONTROLLER_HOME}/sbin/status-oms.sh para comprobar el estado de OMS.
- Si el estado HA es NULL, el sistema puede estar reiniciando. NULL es un estado intermedio, y el estado HA cambiará automáticamente a un estado normal.
- Si el estado del recurso es anormal, ciertos recursos de componentes del FusionInsight Manager son anormales. Compruebe si el estado de los componentes tales como acs, aos cep, controlador, feed_watchdog, fms, guassDB, httpd, iam, ntp, okerberos, oldap, pms, y el componente tomcat es normal.
- Si algún recurso de componente de Manager es anormal, consulte comprobación de estado de componente de Manager para rectificar el error.
Comprobación del estado de los componentes de Manager
Indicador: Comprobación del estado de los componentes de Manager
Descripción: Este indicador se utiliza para comprobar el estado de ejecución y el estado de HA de los componentes de Manager. El estado de ejecución del recurso incluye Normal y Abnormal y el estado de HA del recurso incluye Normal y Exception. Los componentes del Manager incluyen Acs, Aos, Cep, Controller, feed_watchdog, Floatip, Fms, GaussDB, HeartBeatCheck, httpd, IAM, NTP, Okerberos, OLDAP, PMS, y Tomcat. Si el estado de ejecución y el estado HA no son Normal, el resultado de la comprobación no es saludable.
Nombre |
Descripción |
---|---|
Resource running status: |
Normal: El sistema se está ejecutando correctamente. Abnormal: La ejecución es anormal. Stopped: La tarea se detiene. Unknown: El estado es desconocido. Starting: Se está iniciando el proceso. Stopping: La tarea se está deteniendo. Active_normal: El nodo activo se está ejecutando correctamente. Standby_normal: El nodo en espera se está ejecutando correctamente. Raising_active: El nodo está siendo promovido para ser el nodo activo. Lowing_standby: El nodo se está configurando para que sea el nodo en espera. No_action: la acción no existe. Repairing: Se está reparando el disco. NULL: desconocido |
Resource HA status |
Normal: el estado es normal. Exception: indica una falla. Non_steady: indica el estado no estable. Unknown: desconocido NULL: desconocido |
Guía de recuperación:
- Inicie sesión en el nodo de gestión activo y ejecute el comando su - omm para cambiar a usuario omm. Ejecute el comando ${CONTROLLER_HOME}/sbin/status-oms.sh para comprobar el estado de OMS.
- Si floteip, okerberos y oldap son anormales, maneje los problemas con referencia a ALM-12002, ALM-12004 y ALM-12005 respectivamente.
- Si otros recursos son anormales, se recomienda ver los registros de los módulos defectuosos.
Si los recursos del controlador son anormales, vea /var/log/Bigdata/controller/controller.log del nodo defectuoso.
Si los recursos de CEP son anormales, vea /var/log/Bigdata/controller/controller.log del nodo defectuoso.
Si los recursos AOS son anormales, vea /var/log/Bigdata/controller/aos/aos.log del nodo defectuoso.
Si los recursos feed_watchdog son anormales, vea el /var/log/Bigdata/watchdog/watchdog.log del nodo anormal.
Si los recursos de HTTPD son anormales, vea /var/log/Bigdata/httpd/error_log del nodo anormal.
Si los recursos de FMS son anormales, vea /var/log/Bigdata/omm/oms/fms/fms.log del nodo anormal.
Si los recursos de PMS son anormales, vea /var/log/Bigdata/omm/oms/pms/pms.log del nodo anormal.
Si los recursos de IAM son anormales, vea /var/log/Bigdata/omm/oms/iam/iam.log del nodo anormal.
Si el recurso de GaussDB es anormal, compruebe el /var/log/Bigdata/omm/oms/db/omm_gaussdba.log del nodo anormal.
Si los recursos NTP son anormales, vea /var/log/Bigdata/omm/oms/ha/scriptlog/ha_ntp.log del nodo anormal.
Si los recursos de Tomcat son anormales, vea /var/log/Bigdata/tomcat/catalina.log del nodo anormal.
- Si la falla no se puede corregir en función de los registros, póngase en contacto con el personal de O&M y envíe los registros de fallas recopiladas.
Estado de ejecución de OMA
Indicador: Estado de ejecución de OMA
Descripción: Este indicador se utiliza para comprobar el estado de funcionamiento del OMA. El estado puede ser Running o Stopped. Si el OMA es de Stopped, el OMA no es saludable.
Guía de recuperación:
- Inicie sesión en el nodo no saludable y ejecute el comando su - omm para cambiar a usuario omm.
- Ejecute ${OMA_PATH}/restart_oma_app para iniciar manualmente el OMA y vuelva a comprobarlo. Si el resultado de la comprobación sigue siendo poco saludable, vaya a 3.
- Si el inicio manual de OMA no puede resolver el problema, se recomienda comprobar los registros de OMA en /var/log/Bigdata/omm/oma/omm_agent.log.
- Si la falla no se puede corregir en función de los registros, póngase en contacto con el personal de O&M y envíe los registros de fallas recopiladas.
Confianza de SSH entre cada nodo y el nodo de gestión activa
Indicador: Confianza SSH entre cada nodo y el nodo de gestión activa
Descripción: Este indicador se utiliza para comprobar si la confianza mutua de SSH es normal. Si puede cambiar a otro nodo a través de SSH desde el nodo de OMS activo como usuario omm sin necesidad de introducir la contraseña, la comunicación SSH es normal. De lo contrario, la comunicación SSH es anormal. Además, si puede cambiar a otro nodo a través de SSH desde el nodo de OMS activo, pero no puede cambiar al nodo de OMS activo desde los otros nodos, la comunicación de SSH es anormal.
Guía de recuperación:
- Si el resultado de la comprobación del indicador es anormal, las relaciones de confianza de SSH entre los nodos y el nodo de gestión activo son anormales. En este caso, compruebe si el permiso del directorio /home/omm es omm. Si los usuarios no-omm tienen el permiso de directorio, la relación de confianza SSH puede ser anormal. Se recomienda ejecutar chown omm:wheel para modificar el permiso y volver a comprobarlo. Si el permiso en el directorio /home/omm es normal, vaya a 2.
- La excepción de relación de confianza SSH puede causar excepciones de latidos entre el Controller y NodeAgent, lo que resulta en alarmas de falla de nodo. En este caso, rectificar la falla haciendo referencia al procedimiento de manipulación de ALM-12006.
Tiempo de ejecución del proceso
Indicador: Tiempo de ejecución de NodeAgent y Tomcat
Descripción: Este indicador se utiliza para comprobar el tiempo de ejecución de los procesos NodeAgent, Controller, y Tomcat. Si el tiempo es inferior a media hora (1,800s), el proceso puede haber sido reiniciado. Se recomienda comprobar el proceso después de media hora. Si los resultados de comprobación múltiple indican que el proceso se ejecuta durante menos de media hora, el proceso es anormal.
Guía de recuperación:
- Inicie sesión en el nodo no saludable y ejecute el comando su - omm para cambiar a usuario omm.
- Ejecute el siguiente comando para comprobar el PID basado en el nombre del proceso:
- Ejecute el siguiente comando para comprobar el tiempo de inicio del proceso basado en el PID:
- Compruebe si la hora de inicio del proceso es normal. Si el proceso se reinicia repetidamente, vaya a 5.
- Vea los registros relacionados y analice las causas de reinicio.
Si el tiempo de ejecución de NodeAgent es anormal, marque /var/log/Bigdata/NodeAgent/agentlog/agent.log.
Si el tiempo de ejecución del Controller es anormal, compruebe el archivo /var/log/Bigdata/controller/controller.log.
Si el tiempo de ejecución de Tomcat es anormal, compruebe el archivo /var/log/Bigdata/tomcat/web.log.
- Si la falla no se puede corregir en función de los registros, póngase en contacto con el personal de O&M y envíe los registros de fallas recopiladas.
Comprobación de vencimiento de cuenta y contraseña
Indicador: Comprobación de vencimiento de cuenta y contraseña
Descripción: Este indicador comprueba los dos usuarios del sistema operativo omm y ommdba de MRS. Para los usuarios del sistema operativo, se debe comprobar el tiempo de caducidad de la cuenta y la contraseña. Si el período de validez de la cuenta o contraseña no es superior a 15 días, la cuenta es anormal.
Guía de recuperación: Si el período de validez de la cuenta o contraseña es inferior o igual a 15 días, póngase en contacto con el personal de O&M.