Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Atualizado em 2024-11-28 GMT+08:00

Configurações de alarme personalizadas

O CCE interage com o Application Operations Management (AOM) para relatar alarmes e eventos. Ao definir regras de alarme no AOM, você pode verificar se os recursos nos clusters estão normais em tempo hábil.

Processo

  1. Criar um tópico no SMN
  2. Criar uma política de ação
  3. Adicionar uma regra de alarme
    1. Alarmes de evento: gerar alarmes com base nos eventos relatados pelos clusters para o AOM. Para obter detalhes sobre os eventos e configurações, consulte Adicionar alarmes de evento.
    2. Alarmes de limite: gerar alarmes com base nos limites de métricas de monitoramento, como utilização de recursos de servidores e componentes. Para obter detalhes sobre os limites e configurações de métricas, consulte Adicionar alarmes de limite.

Criar um tópico no SMN

Simple Message Notification (SMN) envia mensagens para assinantes através de e-mails, mensagens SMS e solicitações HTTP/HTTPS.

Um tópico é usado para publicar mensagens e assinar notificações. Ele serve como um canal de transmissão de mensagens entre editores e assinantes.

Você precisa criar um tópico e assiná-lo. Para obter detalhes, consulte Criação de um tópico e Assinatura de um tópico.

Depois de se inscrever em um tópico, confirme a assinatura no e-mail ou mensagem SMS para que a notificação entre em vigor.

Criar uma política de ação

O AOM permite que você personalize políticas de ação de alarme. Você pode criar uma política de ação de alarme para associar um tópico SMN e um modelo de mensagem. Você também pode personalizar o conteúdo da notificação usando um modelo de mensagem.

Para obter detalhes, consulte Criação de políticas de ação de alarme. Ao criar uma política de ação, selecione o tópico criado e inscrito em Criar um tópico no SMN.

Adicionar alarmes de evento

O seguinte usa o alarme NodeNotReady como um exemplo para descrever como adicionar um alarme de evento.

Esta função é fornecida pelo AOM. Para obter detalhes sobre os parâmetros, consulte Criação de regras de alarme de evento.

Tabela 1 Alarmes baseados em eventos

Nome do evento

Fonte

Descrição

Solução

NodeNotReady

CCE

Um alarme é acionado imediatamente quando um nó é anormal.

Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó.

Rebooted

CCE

Um alarme é disparado imediatamente quando um nó é reiniciado.

Efetue logon no cluster para verificar o status do nó para o qual o alarme é gerado, verificar se o nó pode ser iniciado corretamente e localizar a causa da reinicialização.

KUBELETIsDown

CCE

Um alarme é acionado imediatamente quando um nó é anormal.

Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó. Em seguida, reinicie o kubelet.

DOCKERIsDown

CCE

Um alarme é acionado imediatamente quando um nó é anormal.

Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó. Em seguida, reinicie o Docker.

KUBEPROXYIsDown

CCE

Um alarme é acionado imediatamente quando um nó é anormal.

Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó.

KernelOops

CCE

Um alarme é acionado imediatamente quando um nó é anormal.

Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó.

ConntrackFull

CCE

Um alarme é acionado imediatamente quando um nó é anormal.

Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó.

NodePoolSoldOut

CCE

Um alarme é acionado imediatamente quando os recursos do pool de nós estão esgotados.

Defina a alternância automática do pool de nós ou altere as especificações do pool de nós.

NodeCreateFailed

CCE

Um alarme é disparado imediatamente após uma falha de criação de nó.

Corrija a falha e crie o nó novamente.

ScaleUpTimedOut

CCE

Um alarme é disparado imediatamente após o tempo limite da expansão do nó.

Corrija a falha e tente expandir novamente.

ScaleDownFailed

CCE

Um alarme é disparado imediatamente após o tempo limite da redução do nó.

Corrija a falha e tente reduzir novamente.

BackOffPullImage

CCE

Falha na tentativa de extração da imagem.

Efetue logon no cluster, localize a causa da falha e implemente a carga de trabalho do serviço novamente.

  1. Efetue logon no console do AOM.
  2. No painel de navegação, escolha Alarm Center > Alarm Rules e clique em Add Alarm.
  3. Defina uma regra de alarme.

    • Rule Type: selecione Event alarm.
    • Alarm Source: selecione CCE.
    • Select Object: selecione Event Name e, em seguida, NodeNotReady. Você pode filtrar objetos de gatilho por tipo de notificação, nome do evento, gravidade do alarme, atributo personalizado, namespace e nome do cluster.
    • Triggering Policy: selecione Immediate Triggering.
    • Alarm Mode: selecione Direct Alarm Reporting.
    • Action Policy: selecione a política de ação criada emCriar uma política de ação.

    Esta regra de alarme funciona da seguinte forma:

    Se um nó no cluster se tornar anormal, o CCE reporta o evento NodeNotReady para o AOM. O AOM imediatamente o notifica através do SMN com base na política de ação.

    Figura 1 Criar um alarme de evento

  4. Clique em Create Now.

    Se as seguintes informações forem exibidas na lista de regras, a regra será criada com êxito.

Eventos do CCE

Os alarmes de eventos são gerados com base nos eventos relatados pelo CCE para o AOM. CCE relata uma série de eventos para AOM. Você pode exibir eventos específicos nas áreas Alarm Rule Settings e adicionar alarmes de evento conforme necessário.

Figura 2 Eventos reportados pelo CCE

A tabela a seguir lista os eventos do CCE.

Nome do evento

ID do evento

Gravidade

Descrição

ScaleUpTimedOut

ScaleUpTimedOut

Importante

Verifique se a adição de nós ao pool de nós expirou o tempo limite.

VolumeResizeFailed

VolumeResizeFailed

Secundária

Verifique se a capacidade do volume de dados é expandida.

DetachVolumeFailed

DetachVolumeFailed

Secundária

Verifique se o armazenamento em bloco está desanexado.

NodePoolAvailable

NodePoolAvailable

Importante

Verifique se os recursos do pool de nós são suficientes.

VolumeUnknownReclaimPolicy

VolumeUnknownReclaimPolicy

Secundária

Verifique se uma política de recuperação de volume foi especificada.

TooManyActivePods

TooManyActivePods

Secundária

Verifique se ainda existem pods ativos após o número de pods em uma tarefa atingir o valor predefinido.

SetUpAtVolumeFailed

SetUpAtVolumeFailed

Secundária

Verifique se o volume de dados está montado.

KUBELETIsDown

KUBELETIsDown

Secundária

Verifique o status do kubelet no nó.

SelectorOverlap

SelectorOverlap

Secundária

Verifique se seletores de rótulo estão no conflito de cluster.

ScaleDown

ScaleDown

Importante

Os nós estão sendo excluídos do cluster.

NodeHasInsufficientMemory

NodeHasInsufficientMemory

Secundária

Verifique se a memória disponível do nó é suficiente.

ClaimLost

ClaimLost

Secundária

Verifique se o volume de PVC está funcionando corretamente.

UnregisterNetDevice

UnregisterNetDevice

Secundária

Verifique se o nó está associado a qualquer dispositivo de rede não registrado.

VolumeFailedRecycle

VolumeFailedRecycle

Secundária

Verifique se o volume de dados é recuperado.

NotTriggerScaleUp

NotTriggerScaleUp

Importante

Verifique se uma expansão de nó é acionada.

DeleteUnregistered

DeleteUnregistered

Importante

Verifique se os nós não registrados são excluídos.

Unhealthy

Unhealthy

Secundária

Verifique se o pod está funcionando corretamente.

FailedDelete

FailedDelete

Secundária

Verifique se a carga de trabalho foi excluída.

NetworkCardNotFound

NetworkCardNotFound

Secundária

Verifique o status da ENI do nó.

TooManySucceededPods

TooManySucceededPods

Secundária

Verifique se há pods extras em execução após o número de pods em uma tarefa atingir o valor predefinido.

ScaleDownEmpty

ScaleDownEmpty

Importante

Verifique se os nós ociosos são reduzidos.

ErrImageNeverPull

ErrImageNeverPull

Secundária

Verifique se a carga de trabalho extraiu uma imagem.

Rebooted

Rebooted

Importante

Verifique se o nó é reiniciado.

KUBEPROXYIsDown

KUBEPROXYIsDown

Secundária

Verifique se o kube-proxy está sendo executado corretamente no nó.

FailedScaleOut

FailedScaleOut

Secundária

Verifique se os nós estão expandidos corretamente.

NodeOutOfDisk

NodeOutOfDisk

Secundária

Verifique se o espaço em disco do nó é suficiente.

TaskHung

TaskHung

Secundária

Verifique se há alguma tarefa suspensa no nó.

WaitForAttachVolumeFailed

WaitForAttachVolumeFailed

Secundária

Verifique se o armazenamento em bloco está anexado ao nó.

FailedStart

FailedStart

Importante

Verifique se o pod foi iniciado.

FailedPullImage

FailedPullImage

Importante

Verifique se o pod extraiu uma imagem.

DeleteNodeWithNoServer

DeleteNodeWithNoServer

Secundária

Verifique se os nós descartados estão limpos.

ReplicaSetCreateError

ReplicaSetCreateError

Secundária

Verifique se um ReplicaSet de carga de trabalho pode ser criado.

CIDRNotAvailable

CIDRNotAvailable

Secundária

Verifique se o bloco CIDR do nó está disponível.

ConntrackFull

ConntrackFull

Secundária

Verifique se a tabela conntrack do nó está cheia.

NodeHasDiskPressure

NodeHasDiskPressure

Secundária

Verifique se o espaço em disco do nó é suficiente.

FailedStandBy

FailedStandBy

Secundária

Verifique se o pod entra no estado de espera.

ScaleDownFailed

ScaleDownFailed

Importante

Verifique se os nós são reduzidos.

NodeNotSchedulable

NodeNotSchedulable

Importante

Verifique se o nó é agendável.

FailedToScaleUpGroup

FailedToScaleUpGroup

Importante

Verifique se ocorreu um erro durante uma expansão do pool de nós.

FailedReconfig

FailedReconfig

Secundária

Verifique se a configuração do pod está atualizada.

ScaledUpGroup

ScaledUpGroup

Importante

Verifique se o pool de nós foi expandido.

NodeInstallFailed

NodeInstallFailed

Secundária

Verifique se os nós são gerenciados no cluster.

CreatingLoadBalancerFailed

CreatingLoadBalancerFailed

Secundária

Verifique se um balanceador de carga foi criado.

FailedGet

FailedGet

Secundária

Verifique se CronJobs pode ser obtidas.

VolumeFailedDelete

VolumeFailedDelete

Secundária

Verifique se o volume de dados foi excluído.

KernelOops

KernelOops

Secundária

Verifique se o kernel do sistema operacional do nó está com defeito.

ScaleUpFailed

ScaleUpFailed

Importante

Verifique se o nó está expandido.

MountDeviceFailed

MountDeviceFailed

Secundária

Verifique se o volume de dados está montado.

DeletingLoadBalancerFailed

DeletingLoadBalancerFailed

Secundária

Verifique se o balanceador de carga foi excluído.

FixNodeGroupSizeDone

FixNodeGroupSizeDone

Importante

Verifique se o número de nós no pool de nós é restaurado.

TearDownAtVolumeFailed

TearDownAtVolumeFailed

Secundária

Verifique se o volume de dados está desmontado.

FailedActive

FailedActive

Secundária

Verifique se o pod está ativado.

OOMKilling

OOMKilling

Secundária

Verifique se a OOM ocorre no nó.

UnmountDeviceFailed

UnmountDeviceFailed

Secundária

Verifique se a letra da unidade do volume de dados está desmontada.

DOCKERIsDown

DOCKERIsDown

Secundária

Verifique se o mecanismo de contêiner do nó está funcionando corretamente.

FailedRollback

FailedRollback

Secundária

Verifique se o pod está revertido.

CIDRAssignmentFailed

CIDRAssignmentFailed

Secundária

Verifique se um bloco CIDR é alocado para o nó.

DockerHung

DockerHung

Secundária

Verifique se o processo Docker no nó está suspenso.

SelectingAll

SelectingAll

Secundária

Verifique se o seletor de rótulo da carga de trabalho está configurado corretamente.

NodeNotReady

NodeNotReady

Importante

Verifique se o nó está funcionando corretamente.

ProvisioningFailed

ProvisioningFailed

Secundária

Verifique se o volume de dados foi criado.

ProvisioningCleanupFailed

ProvisioningCleanupFailed

Secundária

Verifique se o volume de dados foi limpo.

NodeGroupInBackOff

NodeGroupInBackOff

Importante

Verifique se há tentativas de reversão durante o dimensionamento do pool de nós.

BackOffStart

BackOffStart

Importante

Verifique se o pod falha ao ser reiniciado.

DeploymentRollbackRevisionNotFound

DeploymentRollbackRevisionNotFound

Secundária

Verifique se a versão de reversão de Implementação está disponível.

FailedScheduling

FailedScheduling

Importante

Verifique se o pod está agendado.

FixNodeGroupSizeError

FixNodeGroupSizeError

Importante

Verifique se o número de nós no pool de nós é restaurado.

FilesystemIsReadOnly

FilesystemIsReadOnly

Secundária

Verifique se o sistema de arquivos do nó é somente leitura.

FailedUpdate

FailedUpdate

Secundária

Verifique se o pod está atualizado.

NTPIsDown

NTPIsDown

Secundária

Verifique se NTP está sendo executado corretamente no nó.

NodeCreateFailed

NodeCreateFailed

Importante

Verifique se o nó foi criado.

BackOffPullImage

BackOffPullImage

Importante

Verifique se o pod extraiu uma imagem após uma nova tentativa.

NodeUninstallFailed

NodeUninstallFailed

Secundária

Verifique se o nó está desinstalado.

ClaimMisbound

ClaimMisbound

Secundária

Verifique se a PVC está vinculada a um volume incorreto.

FailedList

FailedList

Secundária

Verifique se os pods podem ser obtidos.

NodePoolSoldOut

NodePoolSoldOut

Importante

Verifique se os recursos do pool de nós são suficientes.

AUFSUmountHung

AUFSUmountHung

Secundária

Verifique se a desanexação do disco de nó está suspensa.

FailedCreate

FailedCreate

Importante

Verifique se um pod foi criado.

UpdateLoadBalancerFailed

UpdateLoadBalancerFailed

Secundária

Verifique se o balanceador de carga está atualizado.

UnexpectedJob

UnexpectedJob

Secundária

Verifique se há alguma CronJob desconhecida.

FailedScaleIn

FailedScaleIn

Secundária

Verifique se uma redução de pod falhou.

TriggeredScaleUp

TriggeredScaleUp

Importante

Verifique se uma expansão de nó é acionada.

AttachVolumeFailed

AttachVolumeFailed

Secundária

Verifique se o armazenamento em bloco está separado do nó.

FailedRestart

FailedRestart

Secundária

Verifique se o pod foi reiniciado.

CNIIsDown

CNIIsDown

Secundária

Verifique se o complemento CNI no nó está com defeito.

StartScaledUpGroup

StartScaledUpGroup

Importante

Verifique se um pool de nós expandido foi iniciado.

DeleteUnregisteredFailed

DeleteUnregisteredFailed

Importante

Verifique se os nós não registrados são excluídos.

Internal error

Internal error

Importante

Verifique se ocorre um erro interno no cluster.

External dependency error

External dependency error

Importante

Verifique se ocorre um erro nas dependências externas do cluster.

Failed to initialize process thread

Failed to initialize process thread

Importante

Verifique se um thread de inicialização de cluster é executado.

Failed to update database

Failed to update database

Importante

Verifique se o banco de dados do cluster está atualizado.

Failed to create node by node pool

Failed to create node by nodepool

Importante

Verifique se os nós são criados no pool de nós.

Failed to delete node by node pool

Failed to delete node by nodepool

Importante

Verifique se os nós são excluídos do pool de nós.

Failed to create yearly/monthly subscription node

Failed to create yearly/monthly subscription node

Importante

Verifique se o nó anual/mensal é criado no cluster.

Failed to cancel the authorization of accessing the image of the master

Failed to cancel the authorization of accessing the image of the master.

Importante

Ao criar um cluster, verifique se a autorização para o locatário do recurso acessar a imagem do nó principal é cancelada.

Failed to create the virtual IP for the master

Failed to create the virtual IP for the master

Importante

Ao criar um cluster, verifique se o endereço IP virtual está alocado.

Failed to delete the node VM

Failed to delete the node VM

Importante

Verifique se o nó (VM) é excluído do cluster.

Failed to delete the security group of node

Failed to delete the security group of node

Importante

Verifique se o grupo de segurança do nó é excluído do cluster.

Failed to delete the security group of master

Failed to delete the security group of master

Importante

Verifique se o grupo de segurança do nó principal é excluído do cluster.

Failed to delete the security group of port

Failed to delete the security group of port

Importante

Verifique se o grupo de segurança da ENI do nó principal é excluído do cluster.

Failed to delete the security group of eni or subeni

Failed to delete the security group of eni or subeni

Importante

Verifique se o grupo de segurança da ENI ou sub-ENI é excluído do cluster.

Failed to detach the port of master

Failed to detach the port of master

Importante

Verifique se a ENI do nó principal está desacoplada do cluster.

Failed to delete the port of master

Failed to delete the port of master

Importante

Verifique se a ENI do nó principal é excluída do cluster.

Failed to delete the master VM

Failed to delete the master VM

Importante

Verifique se o nó principal (VM) é excluído do cluster.

Failed to delete the key pair of master

Failed to delete the key pair of master

Importante

Verifique se o par de chaves do nó principal é excluído do cluster.

Failed to delete the subnet of master

Failed to delete the subnet of master

Importante

Verifique se a sub-rede do nó principal é excluída do cluster.

Failed to delete the VPC of master

Failed to delete the VPC of master

Importante

Verifique se a VPC do nó principal é excluída do cluster.

Failed to delete certificate of cluster

Failed to delete certificate of cluster

Importante

Verifique se o certificado foi excluído do cluster.

Failed to delete the server group of master

Failed to delete the server group of master

Importante

Verifique se o nó principal (ECS) é excluído do cluster.

Failed to delete the virtual IP for the master

Failed to delete the virtual IP for the master

Importante

Verifique se o endereço IP virtual é excluído do cluster.

Failed to get floating IP of the master

Failed to get floating IP of the master

Importante

Verifique se o endereço IP flutuante do nó principal é obtido.

Failed to get cluster flavor

Failed to get cluster flavor

Importante

Verifique se o flavor de cluster é obtido.

Failed to get cluster endpoint

Failed to get cluster endpoint

Importante

Verifique se o ponto de extremidade do cluster foi obtido.

Failed to get Kubernetes connection

Failed to get Kubernetes connection

Importante

Verifique se as conexões de cluster do Kubernetes foram obtidas.

Failed to update secret

Failed to update secret

Importante

Verifique se o segredo do cluster está atualizado.

Operation timed out

Operation timed out

Importante

Verifique se a operação do usuário expirou.

Connecting to Kubernetes cluster timed out

Connecting to Kubernetes cluster timed out

Importante

Verifique se o tempo limite de acesso ao cluster do Kubernetes expirou.

Failed to check component status or components are abnormal

Failed to check component status or components are abnormal

Importante

Verifique se os status dos componentes do cluster podem ser obtidos ou se os componentes funcionam mal.

The node is not found in kubernetes cluster

The node is not found in kubernetes cluster

Importante

Verifique se o nó pode ser encontrado no cluster do Kubernetes.

The status of node is not ready in kubernetes cluster

The status of node is not ready in kubernetes cluster

Importante

Verifique se o nó está sendo executado corretamente no cluster do Kubernetes.

Can't find corresponding vm of this node in ECS

Can't find corresponding vm of this node in ECS

Importante

Verifique se o nó pode ser encontrado no console do ECS.

Failed to upgrade the master

Failed to upgrade the master

Importante

Verifique se o nó principal foi atualizado.

Failed to upgrade the node

Failed to upgrade the node

Importante

Verifique se o nó foi atualizado.

Failed to change flavor of the master

Failed to change flavor of the master

Importante

Verifique se o flavor do nó principal foi alterado.

Change flavor of the master timeout

Change flavor of the master timeout

Importante

Verifique se a alteração do flavor do nó principal expirou.

Failed to pass verification while creating yearly/monthly subscription node

Failed to pass verification while creating yearly/monthly subscription node

Importante

Verifique se a criação de um nó anual/mensal foi verificada.

Failed to install the node

Failed to install the node

Importante

Verifique se o nó está instalado no cluster.

Failed to clean routes of cluster container network in VPC

Failed to clean routes of cluster container network in VPC

Importante

Verifique se as rotas das VPCs de contêiner de cluster foram limpas.

Cluster status is Unavailable

Cluster status is Unavailable

Importante

Verifique se o cluster está disponível.

Cluster status is Error

Cluster status is Error

Importante

Verifique se o cluster está com defeito.

Cluster status is not updated for a long time

Cluster status is not updated for a long time

Importante

Verifique se o cluster mantém em um estado por um longo período de tempo.

Failed to update master status after upgrading cluster timeout

Failed to update master status after upgrading cluster timeout

Importante

Verifique se o status do nó mestre é atualizado após o tempo limite da atualização do cluster.

Failed to update running jobs after upgrading cluster timeout

Failed to update running jobs after upgrading cluster timeout

Importante

Verifique se as tarefas em execução são atualizadas após o término do tempo de atualização do cluster.

Failed to update cluster status

Failed to update cluster status

Importante

Verifique se o status do cluster está atualizado.

Failed to update node status

Failed to update node status

Importante

Verifique se o status do nó está atualizado.

Failed to remove the static node from database

Failed to remove the static node from database

Importante

Verifique se os nós são removidos do banco de dados após o gerenciamento de nós expirar.

Failed to update node status to abnormal after node processing timeout

Failed to update node status to abnormal after node processing timeout

Importante

Verifique se o status do nó está atualizado para anormal após o processamento do nó expirado.

Failed to update the cluster endpoint

Failed to update the cluster endpoint

Importante

Verifique se o ponto de extremidade do cluster está atualizado.

Failed to delete the unavailable connection of the Kubernetes cluster

Failed to delete the unavailable connection of the Kubernetes cluster

Importante

Verifique se as conexões indisponíveis do Kubernetes são excluídas.

Failed to sync the cluster cert

Failed to sync the cluster cert

Importante

Verifique se o certificado de cluster está sincronizado.

Adicionar alarmes de limite

A seguir, o alarme Workload CPU Usage é usado como exemplo para descrever como adicionar um alarme baseado em limite. Você também pode usar esse método para adicionar outros alarmes de limite.

Esta função é fornecida pelo AOM. Para obter detalhes, consulte Personalização de regras de limite estático.

Você pode configurar os alarmes de limite de acordo com Tabela 2.

O uso da CPU do pod, o uso da memória física e os alarmes de uso do sistema de arquivos devem ser configurados para os componentes everest-csi-controller, everest-csi-driver, coredns, autoscaler e Yangtse. Atualize as especificações no caso de alto uso de recursos para evitar falhas do sistema.

Tabela 2 Configurações de alarme de limite

Recurso

Item de monitoramento

Descrição

Gatilho recomendado

Cluster

CPU Usage

Essa métrica é usada para calcular o uso da CPU do objeto medido.

Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3

Disk Usage

Essa métrica é usada para calcular a porcentagem do espaço em disco em uso para o espaço total em disco.

Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3

Physical Memory Usage

Essa métrica é usada para calcular a porcentagem da memória física usada pelo objeto medido em relação à memória física total.

Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3

Virtual Memory Usage

Essa métrica é usada para calcular a porcentagem da memória virtual usada pelo objeto medido em relação à memória virtual total.

Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3

Host

CPU Usage

Essa métrica é usada para calcular o uso da CPU do objeto medido.

Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3

Physical Memory Usage

Essa métrica é usada para calcular a porcentagem da memória física usada pelo objeto medido em relação à memória física total.

Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3

Virtual Memory Usage

Essa métrica é usada para calcular a porcentagem da memória virtual usada pelo objeto medido em relação à memória virtual total.

Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3

Host–network

Received Error Packet Rate

Essa métrica é usada para calcular o número de pacotes de erro recebidos por uma NIC por segundo.

Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3

Send Error Packet Rate

Essa métrica é usada para calcular o número de pacotes de erro enviados por uma NIC por segundo.

Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3

Host–file system

Disk Usage

Essa métrica é usada para calcular a porcentagem do espaço em disco em uso para o espaço total em disco.

Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3

Disk read/write status

Essa métrica é usada para coletar estatísticas sobre o status de leitura e gravação de discos em um host.

Condição de limite: >= 1; período estatístico (minutos): 1; períodos consecutivos: 1

Workload

Workload Status

Essa métrica é usada para verificar o status da carga de trabalho anormal.

Condição de limite: >= 1; período estatístico (minutos): 1; períodos consecutivos: 1

CPU Usage

Essa métrica é usada para calcular o uso da CPU do objeto medido, ou seja, a relação entre os núcleos da CPU realmente usados pelo objeto medido e o total de núcleos da CPU para os quais o objeto medido solicitou.

Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3

Physical Memory Usage

Essa métrica é usada para calcular a porcentagem da memória física usada pelo objeto medido em relação à memória física total.

Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3

File System Usage

Essa métrica é usada para calcular o uso do sistema de arquivos de um objeto medido, ou seja, a porcentagem do sistema de arquivos usado em relação ao sistema de arquivos total. Essa métrica é suportada apenas para os contêineres que usam o Device Mapper no cluster do Kubernetes da versão 1.11 ou posterior.

Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3

Pod

CPU Usage

Essa métrica é usada para calcular o uso da CPU do objeto medido, ou seja, a relação entre os núcleos da CPU realmente usados pelo objeto medido e o total de núcleos da CPU para os quais o objeto medido solicitou.

Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3

File System Usage

Essa métrica é usada para calcular o uso do sistema de arquivos de um objeto medido, ou seja, a porcentagem do sistema de arquivos usado em relação ao sistema de arquivos total. Essa métrica é suportada apenas para os contêineres que usam o Device Mapper no cluster do Kubernetes da versão 1.11 ou posterior.

Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3

Physical Memory Usage

Essa métrica é usada para calcular a porcentagem da memória física usada pelo objeto medido em relação à memória física total.

Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3

Container Status

Essa métrica é usada para verificar se o status do contêiner do Docker é normal.

Condição de limite: >= 1; período estatístico (minutos): 1; períodos consecutivos: 1

Received Error Packet Rate

Essa métrica é usada para calcular o número de pacotes de erro recebidos por uma NIC por segundo.

Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3

Error Packets Received

Essa métrica é usada para calcular o número de pacotes de erro recebidos por um objeto medido

Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3

Send Error Packet Rate

Essa métrica é usada para calcular o número de pacotes de erro enviados por uma NIC por segundo.

Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3

  1. Efetue logon no console do AOM.
  2. No painel de navegação, escolha Alarm Center > Alarm Rules e clique em Add Alarm.
  3. Defina uma regra de alarme.

    • Rule Type: selecione Threshold Rule.
    • Monitored Object: clique em Select resource objects, defina Add By para Dimension e selecione CCE/Deployment/CPU Usage para Metric Name. Você pode filtrar recursos por várias dimensões, conforme necessário.

    • Alarm Condition: defina parâmetros como o período estatístico, tempos consecutivos e condições de limite, conforme necessário.

    • Triggering Mode: selecione Immediate Triggering.
    • Alarm Mode: selecione Direct Alarm Reporting.
    • Action Policy: selecione a política de ação criada emCriar uma política de ação.

  4. Clique em Create Now.

    Se as seguintes informações forem exibidas na lista de regras, a regra será criada com êxito. Neste exemplo, há várias cargas de trabalho porque nenhuma carga de trabalho é especificada nos critérios de filtro. Portanto, todas as cargas de trabalho no cluster são exibidas.