Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.

Central de ajuda/ Cloud Container Engine/ Guia de usuário/ Observabilidade/ Gerenciamento de alarmes/ Configurações de alarme personalizadas

Atualizado em 2024-11-28 GMT+08:00

Ver PDF

Configurações de alarme personalizadas

O CCE interage com o Application Operations Management (AOM) para relatar alarmes e eventos. Ao definir regras de alarme no AOM, você pode verificar se os recursos nos clusters estão normais em tempo hábil.

Processo

Criar um tópico no SMN
Criar uma política de ação
Adicionar uma regra de alarme
1. Alarmes de evento: gerar alarmes com base nos eventos relatados pelos clusters para o AOM. Para obter detalhes sobre os eventos e configurações, consulte Adicionar alarmes de evento.
2. Alarmes de limite: gerar alarmes com base nos limites de métricas de monitoramento, como utilização de recursos de servidores e componentes. Para obter detalhes sobre os limites e configurações de métricas, consulte Adicionar alarmes de limite.

Criar um tópico no SMN

Simple Message Notification (SMN) envia mensagens para assinantes através de e-mails, mensagens SMS e solicitações HTTP/HTTPS.

Um tópico é usado para publicar mensagens e assinar notificações. Ele serve como um canal de transmissão de mensagens entre editores e assinantes.

Você precisa criar um tópico e assiná-lo. Para obter detalhes, consulte Criação de um tópico e Assinatura de um tópico.

Depois de se inscrever em um tópico, confirme a assinatura no e-mail ou mensagem SMS para que a notificação entre em vigor.

Criar uma política de ação

O AOM permite que você personalize políticas de ação de alarme. Você pode criar uma política de ação de alarme para associar um tópico SMN e um modelo de mensagem. Você também pode personalizar o conteúdo da notificação usando um modelo de mensagem.

Para obter detalhes, consulte Criação de políticas de ação de alarme. Ao criar uma política de ação, selecione o tópico criado e inscrito em Criar um tópico no SMN.

Adicionar alarmes de evento

O seguinte usa o alarme NodeNotReady como um exemplo para descrever como adicionar um alarme de evento.

Esta função é fornecida pelo AOM. Para obter detalhes sobre os parâmetros, consulte Criação de regras de alarme de evento.

**Tabela 1** Alarmes baseados em eventos
Nome do evento	Fonte	Descrição	Solução
NodeNotReady	CCE	Um alarme é acionado imediatamente quando um nó é anormal.	Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó.
Rebooted	CCE	Um alarme é disparado imediatamente quando um nó é reiniciado.	Efetue logon no cluster para verificar o status do nó para o qual o alarme é gerado, verificar se o nó pode ser iniciado corretamente e localizar a causa da reinicialização.
KUBELETIsDown	CCE	Um alarme é acionado imediatamente quando um nó é anormal.	Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó. Em seguida, reinicie o kubelet.
DOCKERIsDown	CCE	Um alarme é acionado imediatamente quando um nó é anormal.	Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó. Em seguida, reinicie o Docker.
KUBEPROXYIsDown	CCE	Um alarme é acionado imediatamente quando um nó é anormal.	Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó.
KernelOops	CCE	Um alarme é acionado imediatamente quando um nó é anormal.	Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó.
ConntrackFull	CCE	Um alarme é acionado imediatamente quando um nó é anormal.	Efetue logon no cluster e verifique o status do nó para o qual o alarme é gerado. Defina o nó como não programável e programe os pods de serviço para outro nó.
NodePoolSoldOut	CCE	Um alarme é acionado imediatamente quando os recursos do pool de nós estão esgotados.	Defina a alternância automática do pool de nós ou altere as especificações do pool de nós.
NodeCreateFailed	CCE	Um alarme é disparado imediatamente após uma falha de criação de nó.	Corrija a falha e crie o nó novamente.
ScaleUpTimedOut	CCE	Um alarme é disparado imediatamente após o tempo limite da expansão do nó.	Corrija a falha e tente expandir novamente.
ScaleDownFailed	CCE	Um alarme é disparado imediatamente após o tempo limite da redução do nó.	Corrija a falha e tente reduzir novamente.
BackOffPullImage	CCE	Falha na tentativa de extração da imagem.	Efetue logon no cluster, localize a causa da falha e implemente a carga de trabalho do serviço novamente.

Efetue logon no console do AOM.
No painel de navegação, escolha Alarm Center > Alarm Rules e clique em Add Alarm.
Defina uma regra de alarme.
- Rule Type: selecione Event alarm.
- Alarm Source: selecione CCE.
- Select Object: selecione Event Name e, em seguida, NodeNotReady. Você pode filtrar objetos de gatilho por tipo de notificação, nome do evento, gravidade do alarme, atributo personalizado, namespace e nome do cluster.
- Triggering Policy: selecione Immediate Triggering.
- Alarm Mode: selecione Direct Alarm Reporting.
- Action Policy: selecione a política de ação criada emCriar uma política de ação.
Esta regra de alarme funciona da seguinte forma:

Se um nó no cluster se tornar anormal, o CCE reporta o evento NodeNotReady para o AOM. O AOM imediatamente o notifica através do SMN com base na política de ação.

Figura 1 Criar um alarme de evento
Clique em Create Now.

Se as seguintes informações forem exibidas na lista de regras, a regra será criada com êxito.

Eventos do CCE

Os alarmes de eventos são gerados com base nos eventos relatados pelo CCE para o AOM. CCE relata uma série de eventos para AOM. Você pode exibir eventos específicos nas áreas Alarm Rule Settings e adicionar alarmes de evento conforme necessário.

Figura 2 Eventos reportados pelo CCE
Clique para ampliar

A tabela a seguir lista os eventos do CCE.

Nome do evento	ID do evento	Gravidade	Descrição
ScaleUpTimedOut	ScaleUpTimedOut	Importante	Verifique se a adição de nós ao pool de nós expirou o tempo limite.
VolumeResizeFailed	VolumeResizeFailed	Secundária	Verifique se a capacidade do volume de dados é expandida.
DetachVolumeFailed	DetachVolumeFailed	Secundária	Verifique se o armazenamento em bloco está desanexado.
NodePoolAvailable	NodePoolAvailable	Importante	Verifique se os recursos do pool de nós são suficientes.
VolumeUnknownReclaimPolicy	VolumeUnknownReclaimPolicy	Secundária	Verifique se uma política de recuperação de volume foi especificada.
TooManyActivePods	TooManyActivePods	Secundária	Verifique se ainda existem pods ativos após o número de pods em uma tarefa atingir o valor predefinido.
SetUpAtVolumeFailed	SetUpAtVolumeFailed	Secundária	Verifique se o volume de dados está montado.
KUBELETIsDown	KUBELETIsDown	Secundária	Verifique o status do kubelet no nó.
SelectorOverlap	SelectorOverlap	Secundária	Verifique se seletores de rótulo estão no conflito de cluster.
ScaleDown	ScaleDown	Importante	Os nós estão sendo excluídos do cluster.
NodeHasInsufficientMemory	NodeHasInsufficientMemory	Secundária	Verifique se a memória disponível do nó é suficiente.
ClaimLost	ClaimLost	Secundária	Verifique se o volume de PVC está funcionando corretamente.
UnregisterNetDevice	UnregisterNetDevice	Secundária	Verifique se o nó está associado a qualquer dispositivo de rede não registrado.
VolumeFailedRecycle	VolumeFailedRecycle	Secundária	Verifique se o volume de dados é recuperado.
NotTriggerScaleUp	NotTriggerScaleUp	Importante	Verifique se uma expansão de nó é acionada.
DeleteUnregistered	DeleteUnregistered	Importante	Verifique se os nós não registrados são excluídos.
Unhealthy	Unhealthy	Secundária	Verifique se o pod está funcionando corretamente.
FailedDelete	FailedDelete	Secundária	Verifique se a carga de trabalho foi excluída.
NetworkCardNotFound	NetworkCardNotFound	Secundária	Verifique o status da ENI do nó.
TooManySucceededPods	TooManySucceededPods	Secundária	Verifique se há pods extras em execução após o número de pods em uma tarefa atingir o valor predefinido.
ScaleDownEmpty	ScaleDownEmpty	Importante	Verifique se os nós ociosos são reduzidos.
ErrImageNeverPull	ErrImageNeverPull	Secundária	Verifique se a carga de trabalho extraiu uma imagem.
Rebooted	Rebooted	Importante	Verifique se o nó é reiniciado.
KUBEPROXYIsDown	KUBEPROXYIsDown	Secundária	Verifique se o kube-proxy está sendo executado corretamente no nó.
FailedScaleOut	FailedScaleOut	Secundária	Verifique se os nós estão expandidos corretamente.
NodeOutOfDisk	NodeOutOfDisk	Secundária	Verifique se o espaço em disco do nó é suficiente.
TaskHung	TaskHung	Secundária	Verifique se há alguma tarefa suspensa no nó.
WaitForAttachVolumeFailed	WaitForAttachVolumeFailed	Secundária	Verifique se o armazenamento em bloco está anexado ao nó.
FailedStart	FailedStart	Importante	Verifique se o pod foi iniciado.
FailedPullImage	FailedPullImage	Importante	Verifique se o pod extraiu uma imagem.
DeleteNodeWithNoServer	DeleteNodeWithNoServer	Secundária	Verifique se os nós descartados estão limpos.
ReplicaSetCreateError	ReplicaSetCreateError	Secundária	Verifique se um ReplicaSet de carga de trabalho pode ser criado.
CIDRNotAvailable	CIDRNotAvailable	Secundária	Verifique se o bloco CIDR do nó está disponível.
ConntrackFull	ConntrackFull	Secundária	Verifique se a tabela conntrack do nó está cheia.
NodeHasDiskPressure	NodeHasDiskPressure	Secundária	Verifique se o espaço em disco do nó é suficiente.
FailedStandBy	FailedStandBy	Secundária	Verifique se o pod entra no estado de espera.
ScaleDownFailed	ScaleDownFailed	Importante	Verifique se os nós são reduzidos.
NodeNotSchedulable	NodeNotSchedulable	Importante	Verifique se o nó é agendável.
FailedToScaleUpGroup	FailedToScaleUpGroup	Importante	Verifique se ocorreu um erro durante uma expansão do pool de nós.
FailedReconfig	FailedReconfig	Secundária	Verifique se a configuração do pod está atualizada.
ScaledUpGroup	ScaledUpGroup	Importante	Verifique se o pool de nós foi expandido.
NodeInstallFailed	NodeInstallFailed	Secundária	Verifique se os nós são gerenciados no cluster.
CreatingLoadBalancerFailed	CreatingLoadBalancerFailed	Secundária	Verifique se um balanceador de carga foi criado.
FailedGet	FailedGet	Secundária	Verifique se CronJobs pode ser obtidas.
VolumeFailedDelete	VolumeFailedDelete	Secundária	Verifique se o volume de dados foi excluído.
KernelOops	KernelOops	Secundária	Verifique se o kernel do sistema operacional do nó está com defeito.
ScaleUpFailed	ScaleUpFailed	Importante	Verifique se o nó está expandido.
MountDeviceFailed	MountDeviceFailed	Secundária	Verifique se o volume de dados está montado.
DeletingLoadBalancerFailed	DeletingLoadBalancerFailed	Secundária	Verifique se o balanceador de carga foi excluído.
FixNodeGroupSizeDone	FixNodeGroupSizeDone	Importante	Verifique se o número de nós no pool de nós é restaurado.
TearDownAtVolumeFailed	TearDownAtVolumeFailed	Secundária	Verifique se o volume de dados está desmontado.
FailedActive	FailedActive	Secundária	Verifique se o pod está ativado.
OOMKilling	OOMKilling	Secundária	Verifique se a OOM ocorre no nó.
UnmountDeviceFailed	UnmountDeviceFailed	Secundária	Verifique se a letra da unidade do volume de dados está desmontada.
DOCKERIsDown	DOCKERIsDown	Secundária	Verifique se o mecanismo de contêiner do nó está funcionando corretamente.
FailedRollback	FailedRollback	Secundária	Verifique se o pod está revertido.
CIDRAssignmentFailed	CIDRAssignmentFailed	Secundária	Verifique se um bloco CIDR é alocado para o nó.
DockerHung	DockerHung	Secundária	Verifique se o processo Docker no nó está suspenso.
SelectingAll	SelectingAll	Secundária	Verifique se o seletor de rótulo da carga de trabalho está configurado corretamente.
NodeNotReady	NodeNotReady	Importante	Verifique se o nó está funcionando corretamente.
ProvisioningFailed	ProvisioningFailed	Secundária	Verifique se o volume de dados foi criado.
ProvisioningCleanupFailed	ProvisioningCleanupFailed	Secundária	Verifique se o volume de dados foi limpo.
NodeGroupInBackOff	NodeGroupInBackOff	Importante	Verifique se há tentativas de reversão durante o dimensionamento do pool de nós.
BackOffStart	BackOffStart	Importante	Verifique se o pod falha ao ser reiniciado.
DeploymentRollbackRevisionNotFound	DeploymentRollbackRevisionNotFound	Secundária	Verifique se a versão de reversão de Implementação está disponível.
FailedScheduling	FailedScheduling	Importante	Verifique se o pod está agendado.
FixNodeGroupSizeError	FixNodeGroupSizeError	Importante	Verifique se o número de nós no pool de nós é restaurado.
FilesystemIsReadOnly	FilesystemIsReadOnly	Secundária	Verifique se o sistema de arquivos do nó é somente leitura.
FailedUpdate	FailedUpdate	Secundária	Verifique se o pod está atualizado.
NTPIsDown	NTPIsDown	Secundária	Verifique se NTP está sendo executado corretamente no nó.
NodeCreateFailed	NodeCreateFailed	Importante	Verifique se o nó foi criado.
BackOffPullImage	BackOffPullImage	Importante	Verifique se o pod extraiu uma imagem após uma nova tentativa.
NodeUninstallFailed	NodeUninstallFailed	Secundária	Verifique se o nó está desinstalado.
ClaimMisbound	ClaimMisbound	Secundária	Verifique se a PVC está vinculada a um volume incorreto.
FailedList	FailedList	Secundária	Verifique se os pods podem ser obtidos.
NodePoolSoldOut	NodePoolSoldOut	Importante	Verifique se os recursos do pool de nós são suficientes.
AUFSUmountHung	AUFSUmountHung	Secundária	Verifique se a desanexação do disco de nó está suspensa.
FailedCreate	FailedCreate	Importante	Verifique se um pod foi criado.
UpdateLoadBalancerFailed	UpdateLoadBalancerFailed	Secundária	Verifique se o balanceador de carga está atualizado.
UnexpectedJob	UnexpectedJob	Secundária	Verifique se há alguma CronJob desconhecida.
FailedScaleIn	FailedScaleIn	Secundária	Verifique se uma redução de pod falhou.
TriggeredScaleUp	TriggeredScaleUp	Importante	Verifique se uma expansão de nó é acionada.
AttachVolumeFailed	AttachVolumeFailed	Secundária	Verifique se o armazenamento em bloco está separado do nó.
FailedRestart	FailedRestart	Secundária	Verifique se o pod foi reiniciado.
CNIIsDown	CNIIsDown	Secundária	Verifique se o complemento CNI no nó está com defeito.
StartScaledUpGroup	StartScaledUpGroup	Importante	Verifique se um pool de nós expandido foi iniciado.
DeleteUnregisteredFailed	DeleteUnregisteredFailed	Importante	Verifique se os nós não registrados são excluídos.
Internal error	Internal error	Importante	Verifique se ocorre um erro interno no cluster.
External dependency error	External dependency error	Importante	Verifique se ocorre um erro nas dependências externas do cluster.
Failed to initialize process thread	Failed to initialize process thread	Importante	Verifique se um thread de inicialização de cluster é executado.
Failed to update database	Failed to update database	Importante	Verifique se o banco de dados do cluster está atualizado.
Failed to create node by node pool	Failed to create node by nodepool	Importante	Verifique se os nós são criados no pool de nós.
Failed to delete node by node pool	Failed to delete node by nodepool	Importante	Verifique se os nós são excluídos do pool de nós.
Failed to create yearly/monthly subscription node	Failed to create yearly/monthly subscription node	Importante	Verifique se o nó anual/mensal é criado no cluster.
Failed to cancel the authorization of accessing the image of the master	Failed to cancel the authorization of accessing the image of the master.	Importante	Ao criar um cluster, verifique se a autorização para o locatário do recurso acessar a imagem do nó principal é cancelada.
Failed to create the virtual IP for the master	Failed to create the virtual IP for the master	Importante	Ao criar um cluster, verifique se o endereço IP virtual está alocado.
Failed to delete the node VM	Failed to delete the node VM	Importante	Verifique se o nó (VM) é excluído do cluster.
Failed to delete the security group of node	Failed to delete the security group of node	Importante	Verifique se o grupo de segurança do nó é excluído do cluster.
Failed to delete the security group of master	Failed to delete the security group of master	Importante	Verifique se o grupo de segurança do nó principal é excluído do cluster.
Failed to delete the security group of port	Failed to delete the security group of port	Importante	Verifique se o grupo de segurança da ENI do nó principal é excluído do cluster.
Failed to delete the security group of eni or subeni	Failed to delete the security group of eni or subeni	Importante	Verifique se o grupo de segurança da ENI ou sub-ENI é excluído do cluster.
Failed to detach the port of master	Failed to detach the port of master	Importante	Verifique se a ENI do nó principal está desacoplada do cluster.
Failed to delete the port of master	Failed to delete the port of master	Importante	Verifique se a ENI do nó principal é excluída do cluster.
Failed to delete the master VM	Failed to delete the master VM	Importante	Verifique se o nó principal (VM) é excluído do cluster.
Failed to delete the key pair of master	Failed to delete the key pair of master	Importante	Verifique se o par de chaves do nó principal é excluído do cluster.
Failed to delete the subnet of master	Failed to delete the subnet of master	Importante	Verifique se a sub-rede do nó principal é excluída do cluster.
Failed to delete the VPC of master	Failed to delete the VPC of master	Importante	Verifique se a VPC do nó principal é excluída do cluster.
Failed to delete certificate of cluster	Failed to delete certificate of cluster	Importante	Verifique se o certificado foi excluído do cluster.
Failed to delete the server group of master	Failed to delete the server group of master	Importante	Verifique se o nó principal (ECS) é excluído do cluster.
Failed to delete the virtual IP for the master	Failed to delete the virtual IP for the master	Importante	Verifique se o endereço IP virtual é excluído do cluster.
Failed to get floating IP of the master	Failed to get floating IP of the master	Importante	Verifique se o endereço IP flutuante do nó principal é obtido.
Failed to get cluster flavor	Failed to get cluster flavor	Importante	Verifique se o flavor de cluster é obtido.
Failed to get cluster endpoint	Failed to get cluster endpoint	Importante	Verifique se o ponto de extremidade do cluster foi obtido.
Failed to get Kubernetes connection	Failed to get Kubernetes connection	Importante	Verifique se as conexões de cluster do Kubernetes foram obtidas.
Failed to update secret	Failed to update secret	Importante	Verifique se o segredo do cluster está atualizado.
Operation timed out	Operation timed out	Importante	Verifique se a operação do usuário expirou.
Connecting to Kubernetes cluster timed out	Connecting to Kubernetes cluster timed out	Importante	Verifique se o tempo limite de acesso ao cluster do Kubernetes expirou.
Failed to check component status or components are abnormal	Failed to check component status or components are abnormal	Importante	Verifique se os status dos componentes do cluster podem ser obtidos ou se os componentes funcionam mal.
The node is not found in kubernetes cluster	The node is not found in kubernetes cluster	Importante	Verifique se o nó pode ser encontrado no cluster do Kubernetes.
The status of node is not ready in kubernetes cluster	The status of node is not ready in kubernetes cluster	Importante	Verifique se o nó está sendo executado corretamente no cluster do Kubernetes.
Can't find corresponding vm of this node in ECS	Can't find corresponding vm of this node in ECS	Importante	Verifique se o nó pode ser encontrado no console do ECS.
Failed to upgrade the master	Failed to upgrade the master	Importante	Verifique se o nó principal foi atualizado.
Failed to upgrade the node	Failed to upgrade the node	Importante	Verifique se o nó foi atualizado.
Failed to change flavor of the master	Failed to change flavor of the master	Importante	Verifique se o flavor do nó principal foi alterado.
Change flavor of the master timeout	Change flavor of the master timeout	Importante	Verifique se a alteração do flavor do nó principal expirou.
Failed to pass verification while creating yearly/monthly subscription node	Failed to pass verification while creating yearly/monthly subscription node	Importante	Verifique se a criação de um nó anual/mensal foi verificada.
Failed to install the node	Failed to install the node	Importante	Verifique se o nó está instalado no cluster.
Failed to clean routes of cluster container network in VPC	Failed to clean routes of cluster container network in VPC	Importante	Verifique se as rotas das VPCs de contêiner de cluster foram limpas.
Cluster status is Unavailable	Cluster status is Unavailable	Importante	Verifique se o cluster está disponível.
Cluster status is Error	Cluster status is Error	Importante	Verifique se o cluster está com defeito.
Cluster status is not updated for a long time	Cluster status is not updated for a long time	Importante	Verifique se o cluster mantém em um estado por um longo período de tempo.
Failed to update master status after upgrading cluster timeout	Failed to update master status after upgrading cluster timeout	Importante	Verifique se o status do nó mestre é atualizado após o tempo limite da atualização do cluster.
Failed to update running jobs after upgrading cluster timeout	Failed to update running jobs after upgrading cluster timeout	Importante	Verifique se as tarefas em execução são atualizadas após o término do tempo de atualização do cluster.
Failed to update cluster status	Failed to update cluster status	Importante	Verifique se o status do cluster está atualizado.
Failed to update node status	Failed to update node status	Importante	Verifique se o status do nó está atualizado.
Failed to remove the static node from database	Failed to remove the static node from database	Importante	Verifique se os nós são removidos do banco de dados após o gerenciamento de nós expirar.
Failed to update node status to abnormal after node processing timeout	Failed to update node status to abnormal after node processing timeout	Importante	Verifique se o status do nó está atualizado para anormal após o processamento do nó expirado.
Failed to update the cluster endpoint	Failed to update the cluster endpoint	Importante	Verifique se o ponto de extremidade do cluster está atualizado.
Failed to delete the unavailable connection of the Kubernetes cluster	Failed to delete the unavailable connection of the Kubernetes cluster	Importante	Verifique se as conexões indisponíveis do Kubernetes são excluídas.
Failed to sync the cluster cert	Failed to sync the cluster cert	Importante	Verifique se o certificado de cluster está sincronizado.

Adicionar alarmes de limite

A seguir, o alarme Workload CPU Usage é usado como exemplo para descrever como adicionar um alarme baseado em limite. Você também pode usar esse método para adicionar outros alarmes de limite.

Esta função é fornecida pelo AOM. Para obter detalhes, consulte Personalização de regras de limite estático.

Você pode configurar os alarmes de limite de acordo com Tabela 2.

O uso da CPU do pod, o uso da memória física e os alarmes de uso do sistema de arquivos devem ser configurados para os componentes everest-csi-controller, everest-csi-driver, coredns, autoscaler e Yangtse. Atualize as especificações no caso de alto uso de recursos para evitar falhas do sistema.

**Tabela 2** Configurações de alarme de limite
Recurso	Item de monitoramento	Descrição	Gatilho recomendado
Cluster	CPU Usage	Essa métrica é usada para calcular o uso da CPU do objeto medido.	Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3
	Disk Usage	Essa métrica é usada para calcular a porcentagem do espaço em disco em uso para o espaço total em disco.	Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3
	Physical Memory Usage	Essa métrica é usada para calcular a porcentagem da memória física usada pelo objeto medido em relação à memória física total.	Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3
	Virtual Memory Usage	Essa métrica é usada para calcular a porcentagem da memória virtual usada pelo objeto medido em relação à memória virtual total.	Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3
Host	CPU Usage	Essa métrica é usada para calcular o uso da CPU do objeto medido.	Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3
	Physical Memory Usage	Essa métrica é usada para calcular a porcentagem da memória física usada pelo objeto medido em relação à memória física total.	Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3
	Virtual Memory Usage	Essa métrica é usada para calcular a porcentagem da memória virtual usada pelo objeto medido em relação à memória virtual total.	Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3
Host–network	Received Error Packet Rate	Essa métrica é usada para calcular o número de pacotes de erro recebidos por uma NIC por segundo.	Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3
Host–network	Send Error Packet Rate	Essa métrica é usada para calcular o número de pacotes de erro enviados por uma NIC por segundo.	Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3
Host–file system	Disk Usage	Essa métrica é usada para calcular a porcentagem do espaço em disco em uso para o espaço total em disco.	Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3
Host–file system	Disk read/write status	Essa métrica é usada para coletar estatísticas sobre o status de leitura e gravação de discos em um host.	Condição de limite: >= 1; período estatístico (minutos): 1; períodos consecutivos: 1
Workload	Workload Status	Essa métrica é usada para verificar o status da carga de trabalho anormal.	Condição de limite: >= 1; período estatístico (minutos): 1; períodos consecutivos: 1
	CPU Usage	Essa métrica é usada para calcular o uso da CPU do objeto medido, ou seja, a relação entre os núcleos da CPU realmente usados pelo objeto medido e o total de núcleos da CPU para os quais o objeto medido solicitou.	Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3
	Physical Memory Usage	Essa métrica é usada para calcular a porcentagem da memória física usada pelo objeto medido em relação à memória física total.	Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3
	File System Usage	Essa métrica é usada para calcular o uso do sistema de arquivos de um objeto medido, ou seja, a porcentagem do sistema de arquivos usado em relação ao sistema de arquivos total. Essa métrica é suportada apenas para os contêineres que usam o Device Mapper no cluster do Kubernetes da versão 1.11 ou posterior.	Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3
Pod	CPU Usage	Essa métrica é usada para calcular o uso da CPU do objeto medido, ou seja, a relação entre os núcleos da CPU realmente usados pelo objeto medido e o total de núcleos da CPU para os quais o objeto medido solicitou.	Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3
	File System Usage	Essa métrica é usada para calcular o uso do sistema de arquivos de um objeto medido, ou seja, a porcentagem do sistema de arquivos usado em relação ao sistema de arquivos total. Essa métrica é suportada apenas para os contêineres que usam o Device Mapper no cluster do Kubernetes da versão 1.11 ou posterior.	Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3
	Physical Memory Usage	Essa métrica é usada para calcular a porcentagem da memória física usada pelo objeto medido em relação à memória física total.	Condição de limite: > 85%; período estatístico (minutos): 1; períodos consecutivos: 3
	Container Status	Essa métrica é usada para verificar se o status do contêiner do Docker é normal.	Condição de limite: >= 1; período estatístico (minutos): 1; períodos consecutivos: 1
	Received Error Packet Rate	Essa métrica é usada para calcular o número de pacotes de erro recebidos por uma NIC por segundo.	Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3
	Error Packets Received	Essa métrica é usada para calcular o número de pacotes de erro recebidos por um objeto medido	Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3
	Send Error Packet Rate	Essa métrica é usada para calcular o número de pacotes de erro enviados por uma NIC por segundo.	Condição de limite: > 0; período estatístico (minutos): 1; períodos consecutivos: 3

Efetue logon no console do AOM.
No painel de navegação, escolha Alarm Center > Alarm Rules e clique em Add Alarm.
Defina uma regra de alarme.
- Rule Type: selecione Threshold Rule.
- Monitored Object: clique em Select resource objects, defina Add By para Dimension e selecione CCE/Deployment/CPU Usage para Metric Name. Você pode filtrar recursos por várias dimensões, conforme necessário.
- Alarm Condition: defina parâmetros como o período estatístico, tempos consecutivos e condições de limite, conforme necessário.
- Triggering Mode: selecione Immediate Triggering.
- Alarm Mode: selecione Direct Alarm Reporting.
- Action Policy: selecione a política de ação criada emCriar uma política de ação.
Clique em Create Now.

Se as seguintes informações forem exibidas na lista de regras, a regra será criada com êxito. Neste exemplo, há várias cargas de trabalho porque nenhuma carga de trabalho é especificada nos critérios de filtro. Portanto, todas as cargas de trabalho no cluster são exibidas.

Tópico principal: Gerenciamento de alarmes

Tópico anterior: Alarm Assistant

Próximo tópico: Logs do CTS

Feedback

Esta página foi útil?

Sim Não

Deixar um comentário

Obrigado por seus comentários. Estamos trabalhando para melhorar a documentação.

O sistema está ocupado. Tente novamente mais tarde.