ALM-13001 Las conexiones de ZooKeeper disponibles son insuficientes
Descripción
El sistema comprueba las conexiones de ZooKeeper cada 60 segundos. Esta alarma se genera cuando el sistema detecta que el número de conexiones de instancia ZooKeeper usadas excede el umbral (80% de las conexiones máximas).
Cuando el Trigger Count es 1, esta alarma se borra cuando el número de conexiones de instancia de ZooKeeper usadas es menor o igual que el umbral. Cuando el Trigger Count es mayor que 1, esta alarma se borra cuando el número de conexiones de instancia de ZooKeeper usadas es menor o igual al 90% del umbral.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
13001 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster para el que se genera la alarma. |
ServiceName |
Especifica el nombre del servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el nombre de host para el que se genera la alarma. |
Trigger Condition |
Especifica el umbral que activa la alarma. Si el valor del indicador actual excede este umbral, se genera la alarma. |
Impacto en el sistema
Las conexiones de ZooKeeper disponibles son insuficientes. Cuando el uso de la conexión alcanza el 100%, las conexiones externas no se pueden manejar.
Causas posibles
El número de conexiones al nodo de ZooKeeper supera el umbral. La fuga de conexión ocurre en algunos procesos de conexión, o el número máximo de conexiones no cumple con el escenario real.
Procedimiento
Comprobar el estado de conexión.
- En el portal del FusionInsight Manager, elija O&M > Alarm > Alarms. En la interfaz mostrada, haga clic en el botón desplegable de Available ZooKeeper Connections Are Insufficient y confirme la dirección IP del nodo del host para el que se genera la alarma en la Información de ubicación.
- Obtenga el PID del proceso de ZooKeeper. Inicie sesión en el nodo involucrado en esta alarma como usuario root y ejecute el comando pgrep -f proc_zookeeper.
- Compruebe si el PID se puede obtener correctamente.
- Obtenga todas las direcciones IP conectadas a la instancia de ZooKeeper y el número de conexiones y compruebe 10 direcciones IP con conexiones superiores. Ejecute el siguiente comando basado en el PID obtenido: lsof -i|grep $pid | awk '{print $9}' | cut -d : -f 2 | cut -d \>-f 2 | awk '{a[$1]++} END {for(i in a){print i,a[i] | "sort -r -g -k 2"}}' | head -10. (Se usa el PID obtenido en la etapa anterior.)
- Compruebe si las direcciones IP de nodo y el número de conexiones se obtienen correctamente.
- Obtenga el ID del puerto conectado al proceso. Ejecute el siguiente comando basado en el PID y la dirección IP obtenidos: lsof -i|grep $pid | awk '{print $9}'|cut -d \> -f 2 |grep $IP| cut -d : -f 2. (Se utilizan el PID y la dirección IP obtenidos en el paso anterior.)
- Compruebe si el ID de puerto se ha obtenido correctamente.
- Obtenga el ID del proceso conectado. Inicie sesión en cada dirección IP y ejecute el siguiente comando basado en el ID de puerto obtenido: lsof -i|grep $port. (Se utiliza el ID de puerto obtenido en el paso anterior.)
- Compruebe si el ID de proceso se obtiene correctamente.
- Compruebe si se produce una fuga de conexión en el proceso basándose en el ID de proceso obtenido.
- Cierre el proceso donde se produce una fuga de conexión y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 12.
- En el portal de FusionInsight Manager, elija Cluster > Name of the desired cluster > Services > ZooKeeper > Configurations > All Configurations > quorumpeer > Performance y aumente el valor de maxCnxns según sea necesario.
Figura 1 maxCnxns
- Guarde la configuración y reinicie el servicio ZooKeeper.
- Verifique si la alarma se ha borrado.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 15.
Recopilar información de fallas.
- En el portal del FusionInsight Manager, elija O&M > Log > Download.
- Seleccione ZooKeeper en el clúster requerido en el Service:
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 10 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con el y envíe la información de registro recopilada.
Eliminación de alarmas
Después de rectificar la falla, el sistema borra automáticamente esta alarma.
Información relacionada
Ninguna