Configurando Regras de Alarme para Métricas Críticas
Esta seção descreve as regras de alarme de algumas métricas e como configurar as regras. Em cenários reais, configure regras de alarme para métricas consultando as seguintes políticas de alarme.
Políticas de alarme para instâncias do DCS Redis
Métrica |
Intervalo de valores |
Política de alarme |
Aproximação do limite superior |
Sugestão de manuseio |
---|---|---|---|---|
Uso da CPU |
0–100% |
Limite do alarme: > 70% Número de períodos consecutivos: 2 Gravidade de alarme: Importante |
Não |
Considere a expansão da capacidade com base na análise do serviço. A capacidade da CPU de uma instância de nó único ou principal/em espera não pode ser expandida. Se você precisar de uma capacidade maior, use uma instância de cluster. Essa métrica está disponível somente para instâncias de cluster de proxy, de nó único, principal/em espera. Para instâncias do Cluster Redis, essa métrica está disponível somente no nível do Servidor Redis. Você pode exibir a métrica na página de guia Redis Server na página Performance Monitoring da instância. |
Uso médio da CPU |
0–100% |
Limite do alarme: > 70% Número de períodos consecutivos: 2 Gravidade de alarme: Importante |
Não |
Considere a expansão da capacidade com base na análise do serviço. A capacidade da CPU de uma instância de nó único ou principal/em espera não pode ser expandida. Se você precisar de uma capacidade maior, use uma instância de cluster. Essa métrica está disponível apenas para instâncias de cluster de proxy, de nó único, principal/em espera e de cluster. Para instâncias do Cluster Redis, essa métrica está disponível somente no nível do Servidor Redis. Você pode exibir a métrica na página de guia Redis Server na página Performance Monitoring da instância. |
Uso da memória |
0–100% |
Limite do alarme: > 70% Número de períodos consecutivos: 2 Gravidade de alarme: Crítico |
Não |
Expanda a capacidade da instância. |
Clientes conectados |
0–10.000 |
Limite do alarme: > 8000 Número de períodos consecutivos: 2 Gravidade de alarme: Importante |
Não |
Otimize o pool de conexões no código de serviço para evitar que o número de conexões exceda o limite máximo. Configure essa política de alarme no nível da instância para instâncias de nó único e principal/em espera. Para instâncias de cluster, configure esta política de alarme no nível do Servidor Redis e Proxy. Para instâncias de nó único e principal/em espera, o número máximo de conexões permitidas é 10.000. Você pode ajustar o limite com base nos requisitos de serviço. |
Novas Conexões (Contagem/min) |
≥ 0 |
Limite do alarme: > 10.000 Número de períodos consecutivos: 2 Severidade do alarme: menor |
- |
Verifique se a connect é usada e se a conexão do cliente é anormal. Use conexões persistentes ("pconnect" na terminologia do Redis) para garantir o desempenho. Configure essa política de alarme no nível da instância para instâncias de nó único e principal/em espera. Para instâncias de cluster, configure esta política de alarme no nível do Servidor Redis e Proxy. |
Fluxo de entrada |
≥ 0 |
Limite do alarme: > 80% da largura de banda assegurada Número de períodos consecutivos: 2 Gravidade de alarme: Importante |
Sim |
Considere a expansão da capacidade com base na análise de serviço e no limite de largura de banda. Configure esse alarme somente para instâncias do DCS Redis 3.0 de nó único e principal/em espera e defina o limite de alarme para 80% da largura de banda assegurada das instâncias do DCS Redis 3.0. |
Fluxo de saída |
≥ 0 |
Limite do alarme: > 80% da largura de banda assegurada Número de períodos consecutivos: 2 Gravidade de alarme: Importante |
Sim |
Considere a expansão da capacidade com base na análise de serviço e no limite de largura de banda. Configure esse alarme somente para instâncias do DCS Redis 3.0 de nó único e principal/em espera e defina o limite de alarme para 80% da largura de banda assegurada das instâncias do DCS Redis 3.0. |
Políticas de alarme para instâncias do Memcached DCS
Métrica |
Intervalo de valores |
Política de alarme |
Aproximação do limite superior |
Sugestão de manipulação |
---|---|---|---|---|
Uso da CPU |
0–100% |
Limite do alarme: > 70% Número de períodos consecutivos: 2 Gravidade de alarme: Importante |
Não |
Verifique o serviço para aumento de tráfego. A capacidade da CPU de uma instância de nó único ou principal/em espera não pode ser expandida. Analise o serviço e considere dividir o serviço ou combinar várias instâncias em um cluster na extremidade do cliente. |
Uso da memória |
0–100% |
Limite do alarme: > 65% Número de períodos consecutivos: 2 Severidade do alarme: menor |
Não |
Considere expandir a capacidade da instância. |
Clientes conectados |
0–10.000 |
Limite do alarme: > 8000 Número de períodos consecutivos: 2 Gravidade de alarme: Importante |
Não |
Otimize o pool de conexões no código de serviço para evitar que o número de conexões exceda o limite máximo. |
Novas conexões |
≥ 0 |
Limite do alarme: > 10.000 Número de períodos consecutivos: 2 Gravidade de alarme: Secundária |
- |
Verifique se a connect é usada e se a conexão do cliente é anormal. Use conexões persistentes ("pconnect" na terminologia do Redis) para garantir o desempenho. |
Fluxo de entrada |
≥ 0 |
Limite do alarme: > 80% da largura de banda assegurada Número de períodos consecutivos: 2 Gravidade de alarme: Importante |
Sim |
Considere a expansão da capacidade com base na análise de serviço e no limite de largura de banda. Para obter detalhes sobre os limites de largura de banda de diferentes especificações de instância, consulte Especificações da instância do DCS. |
Fluxo de saída |
≥ 0 |
Limite do alarme: > 80% da largura de banda assegurada Número de períodos consecutivos: 2 Gravidade de alarme: Importante |
Sim |
Considere a expansão da capacidade com base na análise de serviço e no limite de largura de banda. Para obter detalhes sobre os limites de largura de banda de diferentes especificações de instância, consulte Especificações da instância do DCS. |
Falhas de autenticação |
≥ 0 |
Limite do alarme: > 0 Número de períodos consecutivos: 1 Gravidade de alarme: Crítico |
- |
Verifique se a senha foi inserida corretamente. |
Políticas de alarme para nós do servidor Redis de instâncias do Redis DCS de cluster
Métrica |
Intervalo de valores |
Política de alarme |
Aproximação do limite superior |
Sugestão de manipulação |
---|---|---|---|---|
Uso da CPU |
0–100% |
Limite do alarme: > 70% Número de períodos consecutivos: 2 Gravidade de alarme: Importante |
Não |
Verifique o serviço para aumento de tráfego. Verifique se o uso da CPU é distribuído uniformemente para os nós do Servidor Redis. Se o uso da CPU for alto em vários nós, considere a expansão da capacidade. Expandir a capacidade de uma instância de cluster dimensionará os nós para compartilhar a pressão da CPU. Se o uso da CPU for alto em um único nó, verifique se as teclas de atalho existem. Se sim, otimize o código de serviço para eliminar teclas de atalho. |
Uso médio da CPU |
0–100% |
Limite do alarme: > 70% Número de períodos consecutivos: 2 Gravidade de alarme: Importante |
Não |
Considere a expansão da capacidade com base na análise do serviço. A capacidade da CPU de uma instância de nó único ou principal/em espera não pode ser expandida. Se você precisar de uma capacidade maior, use uma instância de cluster. Essa métrica está disponível apenas para instâncias de cluster de proxy, de nó único, principal/em espera e de cluster. Para instâncias do Cluster Redis, essa métrica está disponível somente no nível do Servidor Redis. Você pode exibir a métrica na página de guia Redis Server na página Performance Monitoring da instância. |
Uso da memória |
0–100% |
Limite do alarme: > 70% Número de períodos consecutivos: 2 Gravidade de alarme: Importante |
Não |
Verifique o serviço para aumento de tráfego. Verifique se o uso da memória é distribuído uniformemente para os nós do Servidor Redis. Se o uso de memória for alto em vários nós, considere a expansão da capacidade. Se o uso de memória for alto em um único nó, verifique se existem chaves grandes. Em caso afirmativo, otimize o código de serviço para eliminar chaves grandes. |
Clientes conectados |
0–10.000 |
Limite do alarme: > 8000 Número de períodos consecutivos: 2 Gravidade de alarme: Importante |
Não |
Verifique se o número de conexões está dentro do intervalo apropriado. Se sim, ajuste o limiar de alarme. |
Novas Conexões |
≥ 0 |
Limite do alarme: > 10.000 Número de períodos consecutivos: 2 Severidade do alarme: menor |
- |
Verifique se a connect é usada. Para garantir o desempenho, use conexões persistentes ("pconnect" na terminologia do Redis). |
Logs de consulta lentos |
0–1 |
Limite do alarme: > 0 Número de períodos consecutivos: 1 Gravidade de alarme: Importante |
- |
Use a função de consulta lenta no console para analisar comandos lentos. |
Uso de largura de banda |
0–200% |
Limite do alarme: > 90% Número de períodos consecutivos: 2 Gravidade de alarme: Importante |
Sim |
Verifique se o aumento do uso de largura de banda vem de serviços de leitura ou serviços de gravação com base no fluxo de entrada e saída. Se o uso de largura de banda de um único nó for alto, verifique se existem chaves grandes. Mesmo que o uso da largura de banda exceda 100%, o controle de fluxo pode não necessariamente ser executado. O controle de fluxo real está sujeito à métrica Flow Control Times. Mesmo que o uso da largura de banda esteja abaixo de 100%, o controle de fluxo pode ser realizado. O uso da largura de banda em tempo real é relatado uma vez em cada período de relatório. A métrica de tempos de controle de fluxo é relatada a cada segundo. Durante um período de relatório, o tráfego pode aumentar em segundos e, em seguida, voltar a cair. No momento em que o uso da largura de banda é relatado, ele foi restaurado para o nível normal. |
Tempos de controle de fluxo |
≥ 0 |
Limite do alarme: > 0 Número de períodos consecutivos: 1 Gravidade de alarme: Crítico |
Sim |
Considere a expansão da capacidade com base nos limites de especificação, fluxo de entrada e fluxo de saída.
NOTA:
Essa métrica é suportada apenas pelo Redis 4.0 e 5.0 e não pelo Redis 3.0. |
Políticas de alarme para nós proxy de instâncias de Redis DCS de cluster
Métrica |
Intervalo de valores |
Política de alarme |
Aproximação do limite superior |
Sugestão de manipulação |
---|---|---|---|---|
Uso da CPU |
0–100% |
Limite do alarme: > 70% Número de períodos consecutivos: 2 Gravidade de alarme: Crítico |
Sim |
Considere a expansão de capacidade, que adicionará Proxies. |
Uso da memória |
0–100% |
Limite do alarme: > 70% Número de períodos consecutivos: 2 Gravidade de alarme: Crítico |
Sim |
Considere a expansão de capacidade, que adicionará Proxies. |
Clientes conectados |
0–30.000 |
Limite do alarme: > 20.000 Número de períodos consecutivos: 2 Severidade do alarme: Importante |
Não |
Otimize o pool de conexões no código de serviço para evitar que o número de conexões exceda o limite máximo. |
Configurando uma regra de alarme para um grupo de recursos
O Cloud Eye permite que você adicione instâncias DCS, nós do servidor Redis e nós proxy a grupos de recursos e gerencie instâncias e regras de alarme por grupo para simplificar o O&M. Para obter detalhes, consulte Criando um grupo de recursos.
- Criar um grupo de recursos.
- Faça login no console do Cloud Eye. No painel de navegação, escolha Resource Groups and then click Create Resource Group no canto superior direito.
- Insira um nome de grupo e adicione nós do Servidor Redis ao grupo de recursos.
Você pode adicionar nós do Servidor Redis de instâncias diferentes ao mesmo grupo de recursos.
Figura 1 Criando um grupo de recursos
- Clique em Create.
- No painel de navegação do console do Cloud Eye, escolha Alarm Management > Alarm Rules e clique em Create Alarm Rule para definir informações de alarme para o grupo de recursos.
Crie uma regra de alarme de uso da CPU para todos os nós do Servidor Redis no grupo de recursos, conforme mostrado na figura a seguir.
Figura 2 Criando uma regra de alarme para um grupo de recursos
- Clique em Create.
Configurando uma regra de alarme para um recurso específico
No exemplo a seguir, uma regra de alarme é definida para a métrica Slow Query Logs (is_slow_log_exist).
- Efetue login no console de DCS.
- Clique em no canto superior esquerdo do console de gerenciamento e selecione uma região.
Selecione a mesma região que o serviço do aplicativo.
- No painel de navegação, escolha Cache Manager.
- Na linha que contém a instância do DCS cujas métricas você deseja exibir, clique em View Metric na coluna Operation.
Figura 3 Exibição de métricas de instância
- Na página exibida, localize a métrica Slow Query Logs. Passe o mouse sobre a métrica e clique em para criar uma regra de alarme para a métrica.
A página Create Alarm Rule é exibida.
- Especifique as informações do alarme.
- Defina o nome e a descrição do alarme.
- Especifique a política de alarme e a severidade do alarme.
Por exemplo, a política de alarme mostrada em Figura 4 indica que um alarme será disparado se houver consultas lentas na instância por dois períodos consecutivos. Se nenhuma ação for realizada, o alarme será acionado uma vez por dia, até que o valor dessa métrica retorne a 0.
- Defina as configurações de notificação de alarme. Se você ativar Alarm Notification, defina o período de validade, o objeto de notificação e a condição de gatilho.
- Clique em Create.
Para obter mais informações sobre como criar regras de alarme, consulte Criando uma regra de alarme.