Gerenciamento de alarmes
Visão geral
O gerenciamento de alarmes inclui a visualização e configuração de regras de alarme e a assinatura de informações de alarme. As regras de alarme exibem estatísticas de alarme e detalhes da semana passada para que os usuários visualizem alarmes de locatários. Além de fornecer um conjunto de regras de alarme padrão do GaussDB(DWS), esse recurso permite que você modifique os limites de alarme com base em seus próprios serviços. As notificações de alarme do GaussDB(DWS) são enviadas usando o serviço SMN.
- Este recurso oferece suporte apenas ao kernel do banco de dados 8.1.1.200 e posterior.
- Atualmente, os alarmes não podem ser categorizados e gerenciados pelo projeto empresarial.
Visitar a página de alarmes
- Faça logon no console de gerenciamento do GaussDB(DWS).
- No painel de navegação à esquerda, clique em Alarms.
- Vá para a página de alarme do armazém de dados. Esta página está dividida em três áreas:
- Existing Alarm Statistics
As estatísticas dos alarmes existentes nos últimos sete dias são exibidas pela gravidade do alarme em um gráfico de barras. Desta forma, você pode ver claramente o número e a categoria dos alarmes gerados na semana passada.
- Today's Alarms
As estatísticas dos alarmes existentes no dia atual são exibidas pela gravidade do alarme em uma lista. Desta forma, você pode ver claramente o número e a categoria dos alarmes não manipulados gerados no dia.
- Detalhes de alarme
Detalhes sobre todos os alarmes, manipulados e não manipulados, nos últimos sete dias são exibidos em uma tabela para que você localize rapidamente falhas, incluindo o nome do alarme, a gravidade do alarme, o nome do cluster, o local, a descrição, a data de geração e o status.
Os dados de alarme exibidos (máximo de 30 dias) são suportados pelo microsserviço Serviço de eventos.
- Existing Alarm Statistics
Tipos de alarmes e alarmes
Tipo |
Nome |
Gravidade |
Descrição |
---|---|---|---|
Default |
Node CPU Usage Exceeds the Threshold |
Urgent |
Esse alarme é gerado se o limite de uso da CPU (usuário do sistema) de qualquer nó no cluster for excedido dentro do período especificado e a restrição não for atendida. O alarme será apagado quando o uso da CPU (usuário do sistema) for menor que o limite e a restrição não for atendida. |
Default |
Node Data Disk Usage Exceeds the Threshold |
Urgent: > 85%; Important: > 80% |
Este alarme é gerado se o limite do uso do disco de dados (/var/chroot/DWS/data[n]) de qualquer nó no cluster for excedido dentro do período especificado e a restrição não for atendida. O alarme será apagado quando o uso do disco de dados (/var/chroot/DWS/data[n]) for menor que o limite e a restrição não for atendida. |
Default |
Node Data Disk I/O Usage Exceeds the Threshold |
Urgent |
Este alarme é gerado se o limite do uso (util) de I/O do disco de dados (/var/chroot/DWS/data[n]) de qualquer nó no cluster for excedido dentro do período especificado e a restrição não for atendida. O alarme será apagado quando o uso de I/O (util) do disco de dados (/var/chroot/DWS/data[n]) for menor que o limite e a restrição não for atendida. |
Default |
Node Data Disk Latency Exceeds the Threshold |
Important |
Este alarme é gerado se o limite de latência de I/O (await) do disco de dados (/var/chroot/DWS/data[n]) de qualquer nó no cluster for excedido dentro do período especificado e a restrição não for atendida. O alarme será apagado quando a latência de I/O (await) do disco de dados (/var/chroot/DWS/data[n]) for menor que o limite e a restrição não for atendida. |
Default |
Node Data Disk Inode Usage Exceeds the Threshold |
Urgent: > 95%; important: > 90% |
Este alarme é gerado se o limite do uso do inode do disco de dados (/var/chroot/DWS/data[n]) de qualquer nó no cluster for excedido dentro do período especificado e a restrição não for atendida. O alarme será apagado quando o uso do inode do disco de dados (/var/chroot/DWS/data[n]) for menor que o limite e a restrição não for atendida. |
Default |
Data Flushed to Disks of the Query Statement Exceeds the Threshold |
Urgent |
Esse alarme é gerado se o limite de dados descarregados em discos da instrução SQL no cluster for excedido dentro do período especificado e a restrição não for atendida. O alarme pode ser apagado somente depois que você manusear a instrução SQL. |
Default |
Number of Queuing Query Statements Exceeds the Threshold |
Urgent |
Este alarme é gerado se o limite do número de instruções SQL em enfileiramento for excedido dentro do período especificado. O alarme será apagado quando o número de instruções SQL de enfileiramento for menor que o limite. |
Default |
Queue congestion in the cluster default resource pool |
Urgent |
Esse alarme é gerado se a fila no pool de recursos padrão de um cluster estiver congestionada e nenhuma condição de supressão de alarme for atendida. Este alarme será apagado se a fila não estiver congestionada. |
Default |
The packet loss retransmission rate on the cluster network exceeds the threshold. |
Urgent |
Este alarme é gerado se o módulo de alarme do DMS detectar uma alta taxa de retransmissão em um servidor e nenhuma condição de supressão de alarme for atendida. Se a taxa de retransmissão diminuir, o alarme será apagado automaticamente. |
Default |
Long SQL Probe Execution Duration in a Cluster |
Urgent |
Esse alarme é gerado se o módulo de alarme do DMS detectar uma duração de execução de teste SQL em um servidor e nenhuma condição de supressão de alarme for atendida. Se nenhuma duração de execução exceder o limite, o alarme será apagado automaticamente.
NOTA:
Este alarme é suportado apenas em 8.1.1.300 e versões de cluster posteriores. Para versões anteriores, entre em contato com o suporte técnico. |
Default |
A vacuum full operation that holds a table lock for a long time exists in the cluster. |
Important |
Em um período especificado, o módulo de alarme do DMS detecta que VACUUM FULL está em execução há muito tempo no cluster e bloqueia outras operações. Esse alarme é gerado se houver outras instruções SQL no estado de espera de bloqueio e nenhuma condição de supressão for atendida. Este alarme será apagado se VACUUM FULL no cluster não tiver causado a espera de bloqueio.
NOTA:
Se esse alarme for gerado, entre em contato com os engenheiros de suporte técnico. |
Custom |
Name of the user-defined threshold alarm |
User-defined alarm severity |
Alarm description |