ALM-12052 El uso de puerto temporal de TCP supera el umbral
Descripción
El sistema comprueba el uso temporal del puerto TCP cada 30 segundos y compara el uso real con el umbral (el umbral predeterminado es 80%). Esta alarma se genera cuando el uso del puerto temporal TCP excede el umbral varias veces (5 veces por defecto) consecutivamente.
Para cambiar el umbral, elija O&M > Alarm > Thresholds > Name of the desired cluster > Host > Network Status > TCP Ephemeral Port Usage.
Cuando el Trigger Count es 1, esta alarma se borra cuando el uso temporal del puerto TCP es menor o igual al umbral. Cuando el Trigger Count es mayor que 1, esta alarma se borra cuando el uso temporal del puerto TCP es menor o igual al 90% del umbral.
Atributo
ID de alarma |
Gravedad de la alarma |
Borrar automáticamente |
---|---|---|
12052 |
Importante |
Sí |
Parámetros
Nombre |
Significado |
---|---|
Source |
Especifica el clúster o sistema para el que se genera la alarma. |
ServiceName |
Especifica el servicio para el que se genera la alarma. |
RoleName |
Especifica el rol para el que se genera la alarma. |
HostName |
Especifica el host para el que se genera la alarma. |
Trigger Condition |
Especifica el umbral que activa la alarma. Si el valor del indicador actual excede este umbral, se genera la alarma. |
Impacto en el sistema
Los servicios en el host no pueden establecer conexiones externas y, por lo tanto, se interrumpen.
Causas posibles
- El puerto temporal no puede cumplir con los requisitos de servicio actuales.
- El sistema no funciona normalmente.
Procedimiento
Expandir el rango de número de puerto temporal.
- En FusionInsight Manager, haga clic en en la fila donde se encuentra la alarma en la lista de alarmas en tiempo real y obtenga la dirección IP del host para el que se genera la alarma.
- Inicie sesión en el host para el que se genera la alarma como usuario omm.
- Ejecute el comando cat /proc/sys/net/ipv4/ip_local_port_range |cut -f 1 para obtener el valor del puerto de inicio y ejecute el comando cat /proc/sys/net/ipv4/ip_local_port_range |cut -f 2 para obtener el valor del puerto final. El número total de puertos temporales es el valor del puerto final menos el valor del puerto inicial. Si el número total de puertos temporales es menor de 28,232, el rango de puertos aleatorios del sistema operativo es estrecho. Póngase en contacto con el administrador del sistema para aumentar el rango de puertos.
- Ejecute el comando ss -ant 2>/dev/null | grep -v LISTEN | awk 'NR > 2 {print $4}'|cut -d ':' -f 2 | awk '$1 >"Value of the start port" {print $1}' | sort -u | wc -l para calcular el número de puertos temporales usados.
- La fórmula para calcular el uso de los puertos temporales es: Uso de los puertos temporales = (Número de puertos temporales usados/Número total de puertos temporales) x 100%. Compruebe si el uso temporal del puerto excede el umbral.
- Espere 5 minutos y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 7.
Comprobar si el entorno del sistema es anormal.
- Ejecute el siguiente comando para importar el archivo temporal y ver los puertos más utilizados en port_result.txt file:
netstat -tnp|sort > $BIGDATA_HOME/tmp/port_result.txt
netstat -tnp|sort Active Internet connections (w/o servers) Proto Recv Send LocalAddress ForeignAddress State PID/ProgramName tcp 0 0 10-120-85-154:45433 10-120-85-154:9866 CLOSE_WAIT 94237/java tcp 0 0 10-120-85-154:45434 10-120-85-154:9866 CLOSE_WAIT 94237/java tcp 0 0 10-120-85-154:45435 10-120-85-154:9866 CLOSE_WAIT 94237/java ...
- Ejecute el siguiente comando para ver los procesos que ocupan un gran número de puertos:
ps -ef |grep PID
- PID es el ID de procesos consultados en 7.
- Ejecute el siguiente comando para recopilar información sobre todos los procesos y comprobar los procesos que ocupan un gran número de puertos:
- Después de obtener la aprobación del administrador, borre los procesos que ocupan un gran número de puertos. Espere 5 minutos y compruebe si la alarma está desactivada.
- De ser así, no se requiere ninguna acción adicional.
- Si no, vaya a 10.
Recopilar información de fallas.
- En la página principal del FusionInsight Manager del clúster activo, elija O&M > Log > Download.
- Seleccione OMS en el Service y haga clic en OK.
- Establezca Host en el nodo para el que se genera la alarma y en el nodo OMS activo.
- Haga clic en en la esquina superior derecha y establezca Start Date y End Date para la recopilación de registros en 30 minutos antes y después del tiempo de generación de alarmas, respectivamente. A continuación, haga clic en Download.
- Póngase en contacto con el y envíe la información de registro recopilada y archivos port_result.txt y ps_result.txt. A continuación, elimine los dos archivos temporales residuales del entorno.
Eliminación de alarmas
Después de rectificar la falla, el sistema borra automáticamente esta alarma.
Información relacionada
Ninguna