Configurações de alarme personalizadas
O CCE interage com o Application Operations Management (AOM) para relatar alarmes e eventos. Ao definir regras de alarme no AOM, você pode verificar se os recursos nos clusters estão normais em tempo hábil.
Processo
- Criar um tópico no SMN
- Criar uma política de ação
- Adicionar uma regra de alarme
- Alarmes de evento: gerar alarmes com base nos eventos relatados pelos clusters para o AOM. Para obter detalhes sobre os eventos e configurações, consulte Adicionar alarmes de evento.
- Alarmes de limite: gerar alarmes com base nos limites de métricas de monitoramento, como utilização de recursos de servidores e componentes. Para obter detalhes sobre os limites e configurações de métricas, consulte Adicionar alarmes de limite.
Criar um tópico no SMN
Simple Message Notification (SMN) envia mensagens para assinantes através de e-mails, mensagens SMS e solicitações HTTP/HTTPS.
Um tópico é usado para publicar mensagens e assinar notificações. Ele serve como um canal de transmissão de mensagens entre editores e assinantes.
Você precisa criar um tópico e assiná-lo. Para obter detalhes, consulte Criação de um tópico e Assinatura de um tópico.
Depois de se inscrever em um tópico, confirme a assinatura no e-mail ou mensagem SMS para que a notificação entre em vigor.
Criar uma política de ação
O AOM permite que você personalize políticas de ação de alarme. Você pode criar uma política de ação de alarme para associar um tópico SMN e um modelo de mensagem. Você também pode personalizar o conteúdo da notificação usando um modelo de mensagem.
Para obter detalhes, consulte Criação de políticas de ação de alarme. Ao criar uma política de ação, selecione o tópico criado e inscrito em Criar um tópico no SMN.
Adicionar alarmes de evento
O seguinte usa o alarme NodeNotReady como um exemplo para descrever como adicionar um alarme de evento.
Esta função é fornecida pelo AOM. Para obter detalhes sobre os parâmetros, consulte Criação de regras de alarme de evento.
Nome do evento |
Fonte |
Descrição |
Solução |
---|---|---|---|
NodeNotReady |
CCE |
Um alarme é acionado imediatamente quando um nó é anormal. |
Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó. |
Rebooted |
CCE |
Um alarme é disparado imediatamente quando um nó é reiniciado. |
Efetue logon no cluster para verificar o status do nó para o qual o alarme é gerado, verificar se o nó pode ser iniciado corretamente e localizar a causa da reinicialização. |
KUBELETIsDown |
CCE |
Um alarme é acionado imediatamente quando um nó é anormal. |
Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó. Em seguida, reinicie o kubelet. |
DOCKERIsDown |
CCE |
Um alarme é acionado imediatamente quando um nó é anormal. |
Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó. Em seguida, reinicie o Docker. |
KUBEPROXYIsDown |
CCE |
Um alarme é acionado imediatamente quando um nó é anormal. |
Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó. |
KernelOops |
CCE |
Um alarme é acionado imediatamente quando um nó é anormal. |
Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó. |
ConntrackFull |
CCE |
Um alarme é acionado imediatamente quando um nó é anormal. |
Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó. |
NodePoolSoldOut |
CCE |
Um alarme é acionado imediatamente quando os recursos do pool de nós estão esgotados. |
Defina a alternância automática do pool de nós ou altere as especificações do pool de nós. |
NodeCreateFailed |
CCE |
Um alarme é disparado imediatamente após uma falha de criação de nó. |
Corrija a falha e crie o nó novamente. |
ScaleUpTimedOut |
CCE |
Um alarme é disparado imediatamente após o tempo limite da expansão do nó. |
Corrija a falha e tente expandir novamente. |
ScaleDownFailed |
CCE |
Um alarme é disparado imediatamente após o tempo limite da redução do nó. |
Corrija a falha e tente reduzir novamente. |
BackOffPullImage |
CCE |
Falha na tentativa de extração da imagem. |
Efetue logon no cluster, localize a causa da falha e implemente a carga de trabalho do serviço novamente. |
- Efetue logon no console do AOM.
- No painel de navegação, escolha Alarm Center > Alarm Rules e clique em Add Alarm.
- Defina uma regra de alarme.
- Rule Type: selecione Event alarm.
- Alarm Source: selecione CCE.
- Select Object: selecione Event Name e, em seguida, NodeNotReady. Você pode filtrar objetos de gatilho por tipo de notificação, nome do evento, gravidade do alarme, atributo personalizado, namespace e nome do cluster.
- Triggering Policy: selecione Immediate Triggering.
- Alarm Mode: selecione Direct Alarm Reporting.
- Action Policy: selecione a política de ação criada emCriar uma política de ação.
Esta regra de alarme funciona da seguinte forma:
Se um nó no cluster se tornar anormal, o CCE reporta o evento NodeNotReady para o AOM. O AOM imediatamente o notifica através do SMN com base na política de ação.
Figura 1 Criar um alarme de evento
- Clique em Create Now.
Se as seguintes informações forem exibidas na lista de regras, a regra será criada com êxito.
Eventos do CCE
Os alarmes de eventos são gerados com base nos eventos relatados pelo CCE para o AOM. CCE relata uma série de eventos para AOM. Você pode exibir eventos específicos nas áreas Alarm Rule Settings e adicionar alarmes de evento conforme necessário.
A tabela a seguir lista os eventos do CCE.
Nome do evento |
ID do evento |
Gravidade |
Descrição |
---|---|---|---|
ScaleUpTimedOut |
ScaleUpTimedOut |
Importante |
Verifique se a adição de nós ao pool de nós expirou o tempo limite. |
VolumeResizeFailed |
VolumeResizeFailed |
Secundária |
Verifique se a capacidade do volume de dados é expandida. |
DetachVolumeFailed |
DetachVolumeFailed |
Secundária |
Verifique se o armazenamento em bloco está desanexado. |
NodePoolAvailable |
NodePoolAvailable |
Importante |
Verifique se os recursos do pool de nós são suficientes. |
VolumeUnknownReclaimPolicy |
VolumeUnknownReclaimPolicy |
Secundária |
Verifique se uma política de recuperação de volume foi especificada. |
TooManyActivePods |
TooManyActivePods |
Secundária |
Verifique se ainda existem pods ativos após o número de pods em uma tarefa atingir o valor predefinido. |
SetUpAtVolumeFailed |
SetUpAtVolumeFailed |
Secundária |
Verifique se o volume de dados está montado. |
KUBELETIsDown |
KUBELETIsDown |
Secundária |
Verifique o status do kubelet no nó. |
SelectorOverlap |
SelectorOverlap |
Secundária |
Verifique se seletores de rótulo estão no conflito de cluster. |
ScaleDown |
ScaleDown |
Importante |
Os nós estão sendo excluídos do cluster. |
NodeHasInsufficientMemory |
NodeHasInsufficientMemory |
Secundária |
Verifique se a memória disponível do nó é suficiente. |
ClaimLost |
ClaimLost |
Secundária |
Verifique se o volume de PVC está funcionando corretamente. |
UnregisterNetDevice |
UnregisterNetDevice |
Secundária |
Verifique se o nó está associado a qualquer dispositivo de rede não registrado. |
VolumeFailedRecycle |
VolumeFailedRecycle |
Secundária |
Verifique se o volume de dados é recuperado. |
NotTriggerScaleUp |
NotTriggerScaleUp |
Importante |
Verifique se uma expansão de nó é acionada. |
DeleteUnregistered |
DeleteUnregistered |
Importante |
Verifique se os nós não registrados são excluídos. |
Unhealthy |
Unhealthy |
Secundária |
Verifique se o pod está funcionando corretamente. |
FailedDelete |
FailedDelete |
Secundária |
Verifique se a carga de trabalho foi excluída. |
NetworkCardNotFound |
NetworkCardNotFound |
Secundária |
Verifique o status da ENI do nó. |
TooManySucceededPods |
TooManySucceededPods |
Secundária |
Verifique se há pods extras em execução após o número de pods em uma tarefa atingir o valor predefinido. |
ScaleDownEmpty |
ScaleDownEmpty |
Importante |
Verifique se os nós ociosos são reduzidos. |
ErrImageNeverPull |
ErrImageNeverPull |
Secundária |
Verifique se a carga de trabalho extraiu uma imagem. |
Rebooted |
Rebooted |
Importante |
Verifique se o nó é reiniciado. |
KUBEPROXYIsDown |
KUBEPROXYIsDown |
Secundária |
Verifique se o kube-proxy está sendo executado corretamente no nó. |
FailedScaleOut |
FailedScaleOut |
Secundária |
Verifique se os nós estão expandidos corretamente. |
NodeOutOfDisk |
NodeOutOfDisk |
Secundária |
Verifique se o espaço em disco do nó é suficiente. |
TaskHung |
TaskHung |
Secundária |
Verifique se há alguma tarefa suspensa no nó. |
WaitForAttachVolumeFailed |
WaitForAttachVolumeFailed |
Secundária |
Verifique se o armazenamento em bloco está anexado ao nó. |
FailedStart |
FailedStart |
Importante |
Verifique se o pod foi iniciado. |
FailedPullImage |
FailedPullImage |
Importante |
Verifique se o pod extraiu uma imagem. |
DeleteNodeWithNoServer |
DeleteNodeWithNoServer |
Secundária |
Verifique se os nós descartados estão limpos. |
ReplicaSetCreateError |
ReplicaSetCreateError |
Secundária |
Verifique se um ReplicaSet de carga de trabalho pode ser criado. |
CIDRNotAvailable |
CIDRNotAvailable |
Secundária |
Verifique se o bloco CIDR do nó está disponível. |
ConntrackFull |
ConntrackFull |
Secundária |
Verifique se a tabela conntrack do nó está cheia. |
NodeHasDiskPressure |
NodeHasDiskPressure |
Secundária |
Verifique se o espaço em disco do nó é suficiente. |
FailedStandBy |
FailedStandBy |
Secundária |
Verifique se o pod entra no estado de espera. |
ScaleDownFailed |
ScaleDownFailed |
Importante |
Verifique se os nós são reduzidos. |
NodeNotSchedulable |
NodeNotSchedulable |
Importante |
Verifique se o nó é agendável. |
FailedToScaleUpGroup |
FailedToScaleUpGroup |
Importante |
Verifique se ocorreu um erro durante uma expansão do pool de nós. |
FailedReconfig |
FailedReconfig |
Secundária |
Verifique se a configuração do pod está atualizada. |
ScaledUpGroup |
ScaledUpGroup |
Importante |
Verifique se o pool de nós foi expandido. |
NodeInstallFailed |
NodeInstallFailed |
Secundária |
Verifique se os nós são gerenciados no cluster. |
CreatingLoadBalancerFailed |
CreatingLoadBalancerFailed |
Secundária |
Verifique se um balanceador de carga foi criado. |
FailedGet |
FailedGet |
Secundária |
Verifique se CronJobs pode ser obtidas. |
VolumeFailedDelete |
VolumeFailedDelete |
Secundária |
Verifique se o volume de dados foi excluído. |
KernelOops |
KernelOops |
Secundária |
Verifique se o kernel do sistema operacional do nó está com defeito. |
ScaleUpFailed |
ScaleUpFailed |
Importante |
Verifique se o nó está expandido. |
MountDeviceFailed |
MountDeviceFailed |
Secundária |
Verifique se o volume de dados está montado. |
DeletingLoadBalancerFailed |
DeletingLoadBalancerFailed |
Secundária |
Verifique se o balanceador de carga foi excluído. |
FixNodeGroupSizeDone |
FixNodeGroupSizeDone |
Importante |
Verifique se o número de nós no pool de nós é restaurado. |
TearDownAtVolumeFailed |
TearDownAtVolumeFailed |
Secundária |
Verifique se o volume de dados está desmontado. |
FailedActive |
FailedActive |
Secundária |
Verifique se o pod está ativado. |
OOMKilling |
OOMKilling |
Secundária |
Verifique se a OOM ocorre no nó. |
UnmountDeviceFailed |
UnmountDeviceFailed |
Secundária |
Verifique se a letra da unidade do volume de dados está desmontada. |
DOCKERIsDown |
DOCKERIsDown |
Secundária |
Verifique se o mecanismo de contêiner do nó está funcionando corretamente. |
FailedRollback |
FailedRollback |
Secundária |
Verifique se o pod está revertido. |
CIDRAssignmentFailed |
CIDRAssignmentFailed |
Secundária |
Verifique se um bloco CIDR é alocado para o nó. |
DockerHung |
DockerHung |
Secundária |
Verifique se o processo Docker no nó está suspenso. |
SelectingAll |
SelectingAll |
Secundária |
Verifique se o seletor de rótulo da carga de trabalho está configurado corretamente. |
NodeNotReady |
NodeNotReady |
Importante |
Verifique se o nó está funcionando corretamente. |
ProvisioningFailed |
ProvisioningFailed |
Secundária |
Verifique se o volume de dados foi criado. |
ProvisioningCleanupFailed |
ProvisioningCleanupFailed |
Secundária |
Verifique se o volume de dados foi limpo. |
NodeGroupInBackOff |
NodeGroupInBackOff |
Importante |
Verifique se há tentativas de reversão durante o dimensionamento do pool de nós. |
BackOffStart |
BackOffStart |
Importante |
Verifique se o pod falha ao ser reiniciado. |
DeploymentRollbackRevisionNotFound |
DeploymentRollbackRevisionNotFound |
Secundária |
Verifique se a versão de reversão de Implementação está disponível. |
FailedScheduling |
FailedScheduling |
Importante |
Verifique se o pod está agendado. |
FixNodeGroupSizeError |
FixNodeGroupSizeError |
Importante |
Verifique se o número de nós no pool de nós é restaurado. |
FilesystemIsReadOnly |
FilesystemIsReadOnly |
Secundária |
Verifique se o sistema de arquivos do nó é somente leitura. |
FailedUpdate |
FailedUpdate |
Secundária |
Verifique se o pod está atualizado. |
NTPIsDown |
NTPIsDown |
Secundária |
Verifique se NTP está sendo executado corretamente no nó. |
NodeCreateFailed |
NodeCreateFailed |
Importante |
Verifique se o nó foi criado. |
BackOffPullImage |
BackOffPullImage |
Importante |
Verifique se o pod extraiu uma imagem após uma nova tentativa. |
NodeUninstallFailed |
NodeUninstallFailed |
Secundária |
Verifique se o nó está desinstalado. |
ClaimMisbound |
ClaimMisbound |
Secundária |
Verifique se a PVC está vinculada a um volume incorreto. |
FailedList |
FailedList |
Secundária |
Verifique se os pods podem ser obtidos. |
NodePoolSoldOut |
NodePoolSoldOut |
Importante |
Verifique se os recursos do pool de nós são suficientes. |
AUFSUmountHung |
AUFSUmountHung |
Secundária |
Verifique se a desanexação do disco de nó está suspensa. |
FailedCreate |
FailedCreate |
Importante |
Verifique se um pod foi criado. |
UpdateLoadBalancerFailed |
UpdateLoadBalancerFailed |
Secundária |
Verifique se o balanceador de carga está atualizado. |
UnexpectedJob |
UnexpectedJob |
Secundária |
Verifique se há alguma CronJob desconhecida. |
FailedScaleIn |
FailedScaleIn |
Secundária |
Verifique se uma redução de pod falhou. |
TriggeredScaleUp |
TriggeredScaleUp |
Importante |
Verifique se uma expansão de nó é acionada. |
AttachVolumeFailed |
AttachVolumeFailed |
Secundária |
Verifique se o armazenamento em bloco está separado do nó. |
FailedRestart |
FailedRestart |
Secundária |
Verifique se o pod foi reiniciado. |
CNIIsDown |
CNIIsDown |
Secundária |
Verifique se o complemento CNI no nó está com defeito. |
StartScaledUpGroup |
StartScaledUpGroup |
Importante |
Verifique se um pool de nós expandido foi iniciado. |
DeleteUnregisteredFailed |
DeleteUnregisteredFailed |
Importante |
Verifique se os nós não registrados são excluídos. |
Internal error |
Internal error |
Importante |
Verifique se ocorre um erro interno no cluster. |
External dependency error |
External dependency error |
Importante |
Verifique se ocorre um erro nas dependências externas do cluster. |
Failed to initialize process thread |
Failed to initialize process thread |
Importante |
Verifique se um thread de inicialização de cluster é executado. |
Failed to update database |
Failed to update database |
Importante |
Verifique se o banco de dados do cluster está atualizado. |
Failed to create node by node pool |
Failed to create node by nodepool |
Importante |
Verifique se os nós são criados no pool de nós. |
Failed to delete node by node pool |
Failed to delete node by nodepool |
Importante |
Verifique se os nós são excluídos do pool de nós. |
Failed to create yearly/monthly subscription node |
Failed to create yearly/monthly subscription node |
Importante |
Verifique se o nó anual/mensal é criado no cluster. |
Failed to cancel the authorization of accessing the image of the master |
Failed to cancel the authorization of accessing the image of the master. |
Importante |
Ao criar um cluster, verifique se a autorização para o locatário do recurso acessar a imagem do nó principal é cancelada. |
Failed to create the virtual IP for the master |
Failed to create the virtual IP for the master |
Importante |
Ao criar um cluster, verifique se o endereço IP virtual está alocado. |
Failed to delete the node VM |
Failed to delete the node VM |
Importante |
Verifique se o nó (VM) é excluído do cluster. |
Failed to delete the security group of node |
Failed to delete the security group of node |
Importante |
Verifique se o grupo de segurança do nó é excluído do cluster. |
Failed to delete the security group of master |
Failed to delete the security group of master |
Importante |
Verifique se o grupo de segurança do nó principal é excluído do cluster. |
Failed to delete the security group of port |
Failed to delete the security group of port |
Importante |
Verifique se o grupo de segurança da ENI do nó principal é excluído do cluster. |
Failed to delete the security group of eni or subeni |
Failed to delete the security group of eni or subeni |
Importante |
Verifique se o grupo de segurança da ENI ou sub-ENI é excluído do cluster. |
Failed to detach the port of master |
Failed to detach the port of master |
Importante |
Verifique se a ENI do nó principal está desacoplada do cluster. |
Failed to delete the port of master |
Failed to delete the port of master |
Importante |
Verifique se a ENI do nó principal é excluída do cluster. |
Failed to delete the master VM |
Failed to delete the master VM |
Importante |
Verifique se o nó principal (VM) é excluído do cluster. |
Failed to delete the key pair of master |
Failed to delete the key pair of master |
Importante |
Verifique se o par de chaves do nó principal é excluído do cluster. |
Failed to delete the subnet of master |
Failed to delete the subnet of master |
Importante |
Verifique se a sub-rede do nó principal é excluída do cluster. |
Failed to delete the VPC of master |
Failed to delete the VPC of master |
Importante |
Verifique se a VPC do nó principal é excluída do cluster. |
Failed to delete certificate of cluster |
Failed to delete certificate of cluster |
Importante |
Verifique se o certificado foi excluído do cluster. |
Failed to delete the server group of master |
Failed to delete the server group of master |
Importante |
Verifique se o nó principal (ECS) é excluído do cluster. |
Failed to delete the virtual IP for the master |
Failed to delete the virtual IP for the master |
Importante |
Verifique se o endereço IP virtual é excluído do cluster. |
Failed to get floating IP of the master |
Failed to get floating IP of the master |
Importante |
Verifique se o endereço IP flutuante do nó principal é obtido. |
Failed to get cluster flavor |
Failed to get cluster flavor |
Importante |
Verifique se o flavor de cluster é obtido. |
Failed to get cluster endpoint |
Failed to get cluster endpoint |
Importante |
Verifique se o ponto de extremidade do cluster foi obtido. |
Failed to get Kubernetes connection |
Failed to get Kubernetes connection |
Importante |
Verifique se as conexões de cluster do Kubernetes foram obtidas. |
Failed to update secret |
Failed to update secret |
Importante |
Verifique se o segredo do cluster está atualizado. |
Operation timed out |
Operation timed out |
Importante |
Verifique se a operação do usuário expirou. |
Connecting to Kubernetes cluster timed out |
Connecting to Kubernetes cluster timed out |
Importante |
Verifique se o tempo limite de acesso ao cluster do Kubernetes expirou. |
Failed to check component status or components are abnormal |
Failed to check component status or components are abnormal |
Importante |
Verifique se os status dos componentes do cluster podem ser obtidos ou se os componentes funcionam mal. |
The node is not found in kubernetes cluster |
The node is not found in kubernetes cluster |
Importante |
Verifique se o nó pode ser encontrado no cluster do Kubernetes. |
The status of node is not ready in kubernetes cluster |
The status of node is not ready in kubernetes cluster |
Importante |
Verifique se o nó está sendo executado corretamente no cluster do Kubernetes. |
Can't find corresponding vm of this node in ECS |
Can't find corresponding vm of this node in ECS |
Importante |
Verifique se o nó pode ser encontrado no console do ECS. |
Failed to upgrade the master |
Failed to upgrade the master |
Importante |
Verifique se o nó principal foi atualizado. |
Failed to upgrade the node |
Failed to upgrade the node |
Importante |
Verifique se o nó foi atualizado. |
Failed to change flavor of the master |
Failed to change flavor of the master |
Importante |
Verifique se o flavor do nó principal foi alterado. |
Change flavor of the master timeout |
Change flavor of the master timeout |
Importante |
Verifique se a alteração do flavor do nó principal expirou. |
Failed to pass verification while creating yearly/monthly subscription node |
Failed to pass verification while creating yearly/monthly subscription node |
Importante |
Verifique se a criação de um nó anual/mensal foi verificada. |
Failed to install the node |
Failed to install the node |
Importante |
Verifique se o nó está instalado no cluster. |
Failed to clean routes of cluster container network in VPC |
Failed to clean routes of cluster container network in VPC |
Importante |
Verifique se as rotas das VPCs de contêiner de cluster foram limpas. |
Cluster status is Unavailable |
Cluster status is Unavailable |
Importante |
Verifique se o cluster está disponível. |
Cluster status is Error |
Cluster status is Error |
Importante |
Verifique se o cluster está com defeito. |
Cluster status is not updated for a long time |
Cluster status is not updated for a long time |
Importante |
Verifique se o cluster mantém em um estado por um longo período de tempo. |
Failed to update master status after upgrading cluster timeout |
Failed to update master status after upgrading cluster timeout |
Importante |
Verifique se o status do nó mestre é atualizado após o tempo limite da atualização do cluster. |
Failed to update running jobs after upgrading cluster timeout |
Failed to update running jobs after upgrading cluster timeout |
Importante |
Verifique se as tarefas em execução são atualizadas após o término do tempo de atualização do cluster. |
Failed to update cluster status |
Failed to update cluster status |
Importante |
Verifique se o status do cluster está atualizado. |
Failed to update node status |
Failed to update node status |
Importante |
Verifique se o status do nó está atualizado. |
Failed to remove the static node from database |
Failed to remove the static node from database |
Importante |
Verifique se os nós são removidos do banco de dados após o gerenciamento de nós expirar. |
Failed to update node status to abnormal after node processing timeout |
Failed to update node status to abnormal after node processing timeout |
Importante |
Verifique se o status do nó está atualizado para anormal após o processamento do nó expirado. |
Failed to update the cluster endpoint |
Failed to update the cluster endpoint |
Importante |
Verifique se o ponto de extremidade do cluster está atualizado. |
Failed to delete the unavailable connection of the Kubernetes cluster |
Failed to delete the unavailable connection of the Kubernetes cluster |
Importante |
Verifique se as conexões indisponíveis do Kubernetes são excluídas. |
Failed to sync the cluster cert |
Failed to sync the cluster cert |
Importante |
Verifique se o certificado de cluster está sincronizado. |
Adicionar alarmes de limite
A seguir, o alarme Workload CPU Usage é usado como exemplo para descrever como adicionar um alarme baseado em limite. Você também pode usar esse método para adicionar outros alarmes de limite.
Esta função é fornecida pelo AOM. Para obter detalhes, consulte Personalização de regras de limite estático.
Você pode configurar os alarmes de limite de acordo com Tabela 2.
O uso da CPU do pod, o uso da memória física e os alarmes de uso do sistema de arquivos devem ser configurados para os componentes everest-csi-controller, everest-csi-driver, coredns, autoscaler e Yangtse. Atualize as especificações no caso de alto uso de recursos para evitar falhas do sistema.
Recurso |
Item de monitoramento |
Descrição |
Gatilho recomendado |
---|---|---|---|
Cluster |
CPU Usage |
Essa métrica é usada para calcular o uso da CPU do objeto medido. |
Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3 |
Disk Usage |
Essa métrica é usada para calcular a porcentagem do espaço em disco em uso para o espaço total em disco. |
Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3 |
|
Physical Memory Usage |
Essa métrica é usada para calcular a porcentagem da memória física usada pelo objeto medido em relação à memória física total. |
Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3 |
|
Virtual Memory Usage |
Essa métrica é usada para calcular a porcentagem da memória virtual usada pelo objeto medido em relação à memória virtual total. |
Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3 |
|
Host |
CPU Usage |
Essa métrica é usada para calcular o uso da CPU do objeto medido. |
Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3 |
Physical Memory Usage |
Essa métrica é usada para calcular a porcentagem da memória física usada pelo objeto medido em relação à memória física total. |
Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3 |
|
Virtual Memory Usage |
Essa métrica é usada para calcular a porcentagem da memória virtual usada pelo objeto medido em relação à memória virtual total. |
Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3 |
|
Host–network |
Received Error Packet Rate |
Essa métrica é usada para calcular o número de pacotes de erro recebidos por uma NIC por segundo. |
Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3 |
Send Error Packet Rate |
Essa métrica é usada para calcular o número de pacotes de erro enviados por uma NIC por segundo. |
Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3 |
|
Host–file system |
Disk Usage |
Essa métrica é usada para calcular a porcentagem do espaço em disco em uso para o espaço total em disco. |
Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3 |
Disk read/write status |
Essa métrica é usada para coletar estatísticas sobre o status de leitura e gravação de discos em um host. |
Condição de limite: >= 1; período estatístico (minutos): 1; períodos consecutivos: 1 |
|
Workload |
Workload Status |
Essa métrica é usada para verificar o status da carga de trabalho anormal. |
Condição de limite: >= 1; período estatístico (minutos): 1; períodos consecutivos: 1 |
CPU Usage |
Essa métrica é usada para calcular o uso da CPU do objeto medido, ou seja, a relação entre os núcleos da CPU realmente usados pelo objeto medido e o total de núcleos da CPU para os quais o objeto medido solicitou. |
Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3 |
|
Physical Memory Usage |
Essa métrica é usada para calcular a porcentagem da memória física usada pelo objeto medido em relação à memória física total. |
Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3 |
|
File System Usage |
Essa métrica é usada para calcular o uso do sistema de arquivos de um objeto medido, ou seja, a porcentagem do sistema de arquivos usado em relação ao sistema de arquivos total. Essa métrica é suportada apenas para os contêineres que usam o Device Mapper no cluster do Kubernetes da versão 1.11 ou posterior. |
Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3 |
|
Pod |
CPU Usage |
Essa métrica é usada para calcular o uso da CPU do objeto medido, ou seja, a relação entre os núcleos da CPU realmente usados pelo objeto medido e o total de núcleos da CPU para os quais o objeto medido solicitou. |
Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3 |
File System Usage |
Essa métrica é usada para calcular o uso do sistema de arquivos de um objeto medido, ou seja, a porcentagem do sistema de arquivos usado em relação ao sistema de arquivos total. Essa métrica é suportada apenas para os contêineres que usam o Device Mapper no cluster do Kubernetes da versão 1.11 ou posterior. |
Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3 |
|
Physical Memory Usage |
Essa métrica é usada para calcular a porcentagem da memória física usada pelo objeto medido em relação à memória física total. |
Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3 |
|
Container Status |
Essa métrica é usada para verificar se o status do contêiner do Docker é normal. |
Condição de limite: >= 1; período estatístico (minutos): 1; períodos consecutivos: 1 |
|
Received Error Packet Rate |
Essa métrica é usada para calcular o número de pacotes de erro recebidos por uma NIC por segundo. |
Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3 |
|
Error Packets Received |
Essa métrica é usada para calcular o número de pacotes de erro recebidos por um objeto medido |
Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3 |
|
Send Error Packet Rate |
Essa métrica é usada para calcular o número de pacotes de erro enviados por uma NIC por segundo. |
Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3 |
- Efetue logon no console do AOM.
- No painel de navegação, escolha Alarm Center > Alarm Rules e clique em Add Alarm.
- Defina uma regra de alarme.
- Rule Type: selecione Threshold Rule.
- Monitored Object: clique em Select resource objects, defina Add By para Dimension e selecione CCE/Deployment/CPU Usage para Metric Name. Você pode filtrar recursos por várias dimensões, conforme necessário.
- Alarm Condition: defina parâmetros como o período estatístico, tempos consecutivos e condições de limite, conforme necessário.
- Triggering Mode: selecione Immediate Triggering.
- Alarm Mode: selecione Direct Alarm Reporting.
- Action Policy: selecione a política de ação criada emCriar uma política de ação.
- Clique em Create Now.
Se as seguintes informações forem exibidas na lista de regras, a regra será criada com êxito. Neste exemplo, há várias cargas de trabalho porque nenhuma carga de trabalho é especificada nos critérios de filtro. Portanto, todas as cargas de trabalho no cluster são exibidas.