DWS_2000000001 El uso de CPU de nodo supera el umbral
Descripción
GaussDB(DWS) recopila el uso de CPU de cada nodo en un clúster cada 30 segundos. Si el uso promedio de CPU de un nodo en los últimos 10 minutos (configurable) supera el 90% (configurable), se informa de una alarma que indica que el uso de CPU del nodo excede el umbral. Si el uso promedio es inferior al 85% (es decir, el umbral de notificación menos el 5%), la alarma se borra.
Si el uso promedio de CPU de un nodo es siempre mayor que el umbral de alarma, la alarma se genera de nuevo 24 horas (configurable).
Atributos
ID de alarma |
Gravedad de alarma |
Borrar automáticamente |
---|---|---|
DWS_2000000001 |
Crítica |
Sí |
Parámetros
Parámetro |
Descripción |
---|---|
Source |
Indica el nombre del sistema para el que se genera la alarma, por ejemplo, GaussDB(DWS). |
Cluster Name |
Indica el clúster para el que se genera la alarma. |
Location Information |
Incluye ID y nombre del clúster para el que se genera la alarma, y ID y nombre de la instancia para la que se genera la alarma, por ejemplo, cluster_id: xxxx-xxxx-xxxx-xxxx, cluster_name: test_dws, instance_id: xxxx-xxxx-xxxx-xxxx, instance_name: test_dws-dws-cn-cn-1-1. |
Detail Information |
Información detallada sobre la alarma, incluida la información del clúster, la instancia y el umbral. Ejemplo: CloudService=DWS, resourceId= xxxx-xxxx-xxxx-xxxx, resourceIdName=test_dws, instance_id: xxxx-xxxx-xxxx-xxxx, instance_name: test_dws-dws-cn-cn-1-1, host_name: host-192-168-1-122, first_alarm_time: 2022-01-30 10:30:00; El uso promedio de CPU del nodo en 10 minutos es del 90.54%, que excede el umbral del 90%. |
Generated |
Hora de generación de la alarma. |
Status |
Indica el estado de la alarma actual. |
Impacto en el sistema
Si el uso de CPU es alto durante mucho tiempo, los procesos de servicio pueden responder lentamente o no estar disponibles.
Causas posibles
- Los servicios complejos ocupan un gran número de recursos de CPU.
- La configuración de la CPU del clúster es demasiado baja para cumplir con los requisitos de servicio.
Procedimiento de manejo
- Comprobar el uso de CPU de cada nodo.
- Inicie sesión en la consola GaussDB(DWS).
- En la página Alarms, en la lista desplegable de selección de clúster en la esquina superior derecha, seleccione el clúster para el que se genera la alarma, vea la información de alarma del clúster en los últimos siete días, y localice el nombre del nodo para el que se genera la alarma basándose en la información de ubicación.
- En la página Clusters, busque la fila que contiene el clúster para el que se genera la alarma y haga clic en Monitoring Panel en la columna Operation.
- Elija Monitoring > Node Monitoring > Overview para ver el uso de la CPU de cada nodo del clúster actual. Haga clic en a la derecha para ver las métricas de rendimiento de la CPU en las últimas 1, 3, 12 o 24 horas y ver si hay un aumento pronunciado en el uso de la CPU.
- Si el uso de la CPU aumenta con frecuencia y luego vuelve a la normalidad en un corto período de tiempo, indica que el uso de la CPU aumenta temporalmente durante la ejecución del servicio. En este caso, puede ajustar el umbral de alarma a través de 2 para reducir el número de alarmas notificadas.
- Si el uso de CPU permanece alto durante mucho tiempo, indica que el clúster está sobrecargado. En este caso, compruebe los servicios de clúster haciendo referencia a 3 o mejore la variante de clúster. Para obtener más información, consulte Cambio de la variante de nodo.
- Comprobar si la configuración de alarma de uso de CPU es adecuada.
- Elija Alarms > Alarm Rules.
- Busque la fila que contiene el Node CPU Usage Exceeds the Threshold y haga clic en Modify en la columna Operation. Se muestra la página Modifying an Alarm Rule.
- Ajuste el umbral de alarma y el período de detección. Un umbral de alarma más alto y un periodo de detección más largo indican una sensibilidad de alarma más baja. Para obtener más información sobre la configuración de la interfaz gráfica de usuario, consulte Reglas de alarma.
- Comprobar si el uso de CPU del servicio de clúster actual es demasiado alto.
- En la página de monitoreo, elija Monitoring > Queries, haga clic en y seleccione CPU Time (ms) para ver la consulta con el tiempo de CPU más largo.
- Después de confirmar con el lado del servicio, seleccione el ID de consulta que desea detener y haga clic en Stop Query.
Borrar alarmas.
Después de que el uso de la CPU disminuye, la alarma se borra automáticamente.