Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ MapReduce Service/ Guía del usuario/ Referencia de alarma (aplicable a MRS 3.x)/ ALM-12089 La red entre nodos es anormal

Actualización más reciente 2023-11-20 GMT+08:00

Ver PDF

ALM-12089 La red entre nodos es anormal

Descripción

El módulo de alarma comprueba el estado de la red de los nodos del clúster cada 10 segundos. Esta alarma se genera cuando la red entre dos nodos es inalcanzable o el estado de la red es inestable.

Atributo

ID de alarma	Gravedad de la alarma	Borrar automáticamente
12089	Importante	Sí

Parámetros

Nombre	Significado
Source	Especifica el clúster o sistema para el que se genera la alarma.
ServiceName	Especifica el servicio para el que se genera la alarma.
RoleName	Especifica el rol para el que se genera la alarma.
HostName	Especifica el host para el que se genera la alarma.

Impacto en el sistema

Las funciones de algunos componentes, como HDFS y ZooKeeper se ven afectadas.

Causas posibles

El nodo se rompe.
La red está defectuosa.

Procedimiento

Comprobar el estado de salud de red.

En la lista de alarmas en el FusionInsight Manager, haga clic en el botón desplegable de la alarma y vea Additional Information. Registre la dirección IP de origen y la dirección IP de destino del nodo para el que se notifica la alarma.
Inicie sesión en el nodo para el que se notifica la alarma. En el nodo, haga ping al nodo de destino para comprobar si la red entre los dos nodos es normal.
- En caso afirmativo, vaya a 6.
- Si no, vaya a 3.

Comprobar el estado de nodo.

En FusionInsight Manager, haga clic en Host y compruebe si la lista de hosts contiene el nodo defectuoso para determinar si el nodo defectuoso se ha eliminado del clúster.
- En caso afirmativo, vaya a 5.
- Si no, vaya a 4.
Compruebe si el nodo defectuoso está apagado.
- En caso afirmativo, inicie el nodo defectuoso y vaya a 2.
- Si no, póngase en contacto con el personal relacionado para encontrar la causa raíz, si es necesario quitar los nodos defectuosos del clúster y vaya a 5, de lo contrario vaya a 6.
Quite el archivo $NODE_AGENT_HOME/etc/agent/hosts.ini de todos los nodos del clúster, limpie el archivo /var/log/Bigdata/unreachable/unreachable_ip_info.log y, a continuación, borre manualmente la alarma.
Espere 30 segundos y compruebe si la alarma se ha despejado.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 7.

Recopilar información de fallas.

En el portal del FusionInsight Manager, elija O&M > Log > Download.
Seleccione OmmAgent en el Service y haga clic en OK.
Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
Póngase en contacto con el y envíe la información de registro recopilada.