DWS_2000000001 Node CPU Usage Exceeds the Threshold
Descrição
O GaussDB(DWS) coleta o uso da CPU de cada nó em um cluster a cada 30 segundos. Se o uso médio da CPU de um nó nos últimos 10 minutos (configurável) exceder 90% (configurável), um alarme será informado indicando que o uso da CPU do nó excede o limite. Se o uso médio for inferior a 85% (ou seja, o limite de relatórios menos 5%), o alarme será apagado.
Se o uso médio da CPU de um nó for sempre maior do que o limite de alarme, o alarme é gerado novamente 24 horas depois (configurável).
Atributos
ID do alarme |
Gravidade do alarme |
Apagar automaticamente |
---|---|---|
DWS_2000000001 |
Crítico |
Sim |
Parâmetros
Parâmetro |
Descrição |
---|---|
Source |
Indica o nome do sistema para o qual o alarme é gerado, por exemplo, GaussDB(DWS). |
Cluster Name |
Indica o cluster para o qual o alarme é gerado. |
Location Information |
Inclui ID e nome do cluster para o qual o alarme é gerado, e ID e nome da instância para a qual o alarme é gerado, por exemplo, cluster_id: xxxx-xxxx-xxxx-xxxx, cluster_name: test_dws, instance_id: xxxx-xxxx-xxxx-xxxx, instance_name: test_dws-dws-cn-cn-1-1. |
Detail Information |
Informações detalhadas sobre o alarme, incluindo informações de cluster, instância e limite. Exemplo: CloudService=DWS, resourceId= xxxx-xxxx-xxxx-xxxx, resourceIdName=test_dws, instance_id: xxxx-xxxx-xxxx-xxxx, instance_name: test_dws-dws-cn-cn-1-1, host_name: host-192-168-1-122, first_alarm_time: 2022-01-30 10:30:00; O uso médio da CPU do nó em 10 minutos é de 90,54%, o que excede o limite de 90%. |
Generated |
Hora em que um alarme é gerado. |
Status |
Indica o status do alarme atual. |
Impacto no sistema
Se o uso da CPU for alto por um longo período de tempo, os processos de serviço podem responder lentamente ou ficar indisponíveis.
Possíveis causas
- Serviços complexos ocupam um grande número de recursos da CPU.
- A configuração de CPU do cluster é muito baixa para atender aos requisitos de serviço.
Procedimento de manuseio
- Verifique o uso da CPU de cada nó.
- Efetue logon no console do GaussDB(DWS).
- Na página Alarms, na lista suspensa de seleção de cluster no canto superior direito, selecione o cluster para o qual o alarme é gerado, visualize as informações de alarme do cluster nos últimos sete dias, e localize o nome do nó para o qual o alarme é gerado com base nas informações de localização.
- Na página Clusters, localize a linha que contém o cluster para o qual o alarme é gerado e clique em Monitoring Panel na coluna Operation.
- Escolha Monitoring > Node Monitoring > Overview para exibir o uso da CPU de cada nó no cluster atual. Clique em à direita para exibir as métricas de desempenho da CPU nas últimas 1, 3, 12 ou 24 horas e ver se há um aumento acentuado no uso da CPU.
- Se o uso da CPU aumenta frequentemente e, em seguida, retorna ao normal em um curto período de tempo, isso indica que o uso do disco aumenta temporariamente devido à execução do serviço. Neste caso, você pode ajustar o limite de alarme através de 2 para reduzir o número de alarmes relatados.
- Se o uso da CPU permanecer alto por muito tempo, isso indica que o cluster está sobrecarregado. Nesse caso, verifique os serviços de cluster referindo-se a 3 ou aprimorar o flavor de cluster. Para obter detalhes, consulte Alteração do flavor do nó.
- Verifique se a configuração de alarme de uso da CPU é apropriada.
- Escolha Alarms > Alarm Rules.
- Localize a linha que contém Node CPU Usage Exceeds the Threshold e clique em Modify na coluna Operation. A página Modifying an Alarm Rule page é exibida.
- Ajuste o limite de alarme e o período de detecção. Um limite de alarme mais alto e um período de detecção mais longo indicam uma sensibilidade de alarme mais baixa. Para obter detalhes sobre a configuração da GUI, consulte Regras de alarme.
- Escolha Alarms > Alarm Rules.
- Verifique se o uso da CPU do serviço de cluster atual é muito alto.
- Na página de monitoramento, escolha Monitoring > Queries, clique em e selecione CPU Time (ms) para exibir a consulta com o tempo de CPU mais longo.
- Depois de confirmar com o lado do serviço, selecione o ID da consulta a ser interrompido e clique em Stop Query.
Liberação de alarme
Depois que o uso da CPU diminui, o alarme é apagado automaticamente.