Visão geral do monitoramento
O CCE trabalha com o AOM para monitorar de forma abrangente os clusters. Quando um nó é criado, o ICAgent (o DaemonSet chamado icagent no namespace kube-system do cluster) do AOM é instalado por padrão. O ICAgent coleta dados de monitoramento de recursos subjacentes e cargas de trabalho em execução no cluster. Ele também coleta dados de monitoramento de métricas personalizadas da carga de trabalho.
- Métricas de recursos
O monitoramento básico de recursos inclui monitoramento de CPU, memória e disco. Para mais detalhes, consulte Métricas de recursos. Você pode exibir essas métricas de clusters, nós e cargas de trabalho no console do CCE ou AOM.
- Métricas personalizadas
O ICAgent coleta métricas personalizadas de aplicações e as carrega no AOM. Para mais detalhes, consulte Monitoramento de métricas personalizadas no AOM.
- Monitoramento de NPD
node-problem-detector (npd para breve) é um complemento que monitora e relata a integridade de um nó. Ele pode se conectar a uma plataforma de monitoramento de terceiros. É um daemon em execução em cada nó. Ele coleta problemas de nó de diferentes daemons e os reporta ao servidor da API. O complemento NPD pode ser executado como um daemon ou DaemonSet.
O CCE aprimora o npd na versão 1.16.0, que agora suporta verificações em recursos de nó, componentes e eventos, bem como isolamento de falhas. Para mais detalhes, consulte Detector de problema de nó do CCE.
Além disso, você pode instalar o complemento Prometheus em um cluster e usar o Prometheus para coletar e exibir dados de monitoramento. Para mais detalhes, consulte Monitoramento de métricas personalizadas usando o Prometheus.
Métricas de recursos
No console do CCE, você pode exibir as seguintes métricas.
- Exibir dados de monitoramento de cluster
- Visualizar dados de monitoramento de nós de trabalho
- Exibir dados de monitoramento da carga de trabalho
- Visualizar dados de monitoramento de pods
No console do AOM, você pode exibir métricas do host e métricas do contêiner. Para obter detalhes, consulte Visão geral de métrica.
Exibir dados de monitoramento de cluster
- Efetue logon no console do CCE e clique no nome do cluster para acessar o console do cluster.
- O CCE permite que você visualize os dados de monitoramento de todos os nós. Escolha Clusters no painel de navegação. Clique no nome do cluster e informações como CPU Metrics e Memory de todos os nós (excluindo nós principais) na última hora, o Status, a AZ são exibidos.
Tabela 1 Métricas de monitoramento de cluster Métrica
Descrição
CPU Allocation (%)
Uma métrica indica a porcentagem de CPUs alocadas às cargas de trabalho
CPU Allocation (%) = soma das cotas de CPU solicitadas pela execução de pods no cluster/soma das cotas de CPU que podem ser alocadas de todos os nós (excluindo os nós principais) para cargas de trabalho
Memory Allocation (%)
Uma métrica indica a porcentagem de memória alocada às cargas de trabalho
Memory Allocation (%) = soma das cotas de memória solicitadas pela execução de pods no cluster/soma das cotas de memória que podem ser alocadas de todos os nós (excluindo os nós principais) para cargas de trabalho
CPU Usage (%)
Uma métrica indica o uso da CPU do cluster
Essa métrica é o uso médio da CPU de todos os nós (excluindo os nós mestres) em um cluster.
Memory Usage (%)
Uma métrica indica o uso de memória do cluster
Essa métrica é o uso médio de memória de todos os nós (excluindo os nós mestres) em um cluster.
Recursos de nó alocáveis (CPU ou memória) = valor total – valor reservado – limites de despejo. Para mais detalhes, consulte Política de reserva de recursos de nó.
Figura 1 Visualizar dados de monitoramento de cluster
Visualizar dados de monitoramento de nós de trabalho
O CCE também permite que você visualize os dados de monitoramento de um único nó.
- Efetue logon no console do CCE e clique no nome do cluster para acessar o console do cluster.
- Escolha Nodes no painel de navegação. À direita da página, clique em Monitor do nó de destino para exibir os dados de monitoramento.
- Você pode selecionar Dimension estatística e escolher o intervalo de tempo para exibir os dados de monitoramento. Os dados são fornecidos pelo AOM. Você pode visualizar os dados de monitoramento de um nó, incluindo a CPU, a memória, o disco, a rede e a GPU.
Figura 2 Exibição de dados de monitoramento de nós de trabalho
Tabela 2 Métricas de monitoramento do nó Métrica
Descrição
CPU Usage (%)
Uma métrica indica o uso da CPU do nó
CPU Usage (%) = núcleos de CPU usados/número total de núcleos de CPU
Used CPU Cores (cores)
Uma métrica indica o número de núcleos de CPU usados
Physical Memory Usage (%)
Uma métrica indica o uso de memória física do nó
Physical Memory Usage (%) = (capacidade da memória física – memória física disponível)/capacidade da memória física
Available Physical Memory (GiB)
Uma métrica indica a memória física não utilizada do nó
Disk Usage (%)
Uma métrica indica o uso do disco do sistema de arquivos no disco de dados do nó. É calculada com base na partição do arquivo. Para mais detalhes, consulte Alocação de espaço em disco de dados.
Disk Usage (%) = (capacidade do disco – espaço em disco disponível)/capacidade do disco
Available Disk Space (GiB)
Uma métrica indica o espaço em disco não utilizado
Downlink Rate (BPS) (KB/s)
Uma métrica indica a velocidade na qual os dados são baixados da Internet para o nó
Uplink Rate (BPS) (KB/s)
Uma métrica indica a velocidade na qual os dados são carregados do nó para a Internet
GPU Usage (%)
Uma métrica indica o uso da GPU do nó
GPU Memory Usage (%)
Uma métrica indica a porcentagem da memória da GPU usada em relação à capacidade de memória da GPU
GPU Memory Usage (%) = memória usada da GPU/capacidade da memória da GPU
Used GPU Memory (GiB)
Uma métrica indica a memória da GPU usada
Exibir dados de monitoramento da carga de trabalho
O CCE permite que você visualize os dados de monitoramento de uma única carga de trabalho.
- Efetue logon no console do CCE e clique no nome do cluster para acessar o console do cluster.
- Escolha Workloads no painel de navegação. À direita da página, clique em Monitor da carga de trabalho de destino. Na janela que desliza para fora da direita, os dados de monitoramento da carga de trabalho são exibidos.
- Você pode selecionar Dimension estatística e escolher o intervalo de tempo para exibir os dados de monitoramento. Os dados são fornecidos pelo AOM. Você pode visualizar os dados de monitoramento de uma carga de trabalho, incluindo CPU, memória, rede e GPU.
Figura 3 Exibição de dados de monitoramento de carga de trabalho
Se existirem vários pods na carga de trabalho, os dados de monitoramento podem variar de acordo com a Dimension estatística. Por exemplo, se você selecionar Maximum ou Minimum para Dimension, o valor de cada dado de monitoramento será o valor máximo ou mínimo de todos os pods sob a carga de trabalho. Se Average for selecionada, o valor de cada dado de monitoramento é o valor médio de todos os pods sob a carga de trabalho.
Tabela 3 Métricas de monitoramento da carga de trabalho Métrica
Descrição
CPU Usage (%)
Uma métrica indica o uso da CPU da carga de trabalho
CPU Usage (%) = núcleos de CPU usados/número total de núcleos de CPU de todos os pods em execução (Se nenhum limite for configurado, o número total de núcleos de CPU do nó será usado.)
Used CPU Cores (cores)
Uma métrica indica o número de núcleos de CPU usados
Physical Memory Usage (%)
Uma métrica indica o uso de memória física da carga de trabalho
Physical Memory Usage (%) = uso de memória física/número total de núcleos de CPU de todos os pods em execução (Se nenhum limite for configurado, o número total de núcleos de CPU do nó será usado.)
Used Physical Memory (GiB)
Uma métrica indica a quantidade de memória física usada
Disk Read Rate
Uma métrica indica o volume de dados lido de um disco por segundo. A unidade é KB/s.
Disk Write Rate
Uma métrica indica o volume de dados gravado em um disco por segundo. A unidade é KB/s.
Downlink Rate (BPS) (KB/s)
Uma métrica indica a velocidade na qual os dados são baixados da Internet
Uplink Rate (BPS) (KB/s)
Uma métrica indica a velocidade na qual os dados são carregados do nó para a Internet
GPU Usage (%)
Uma métrica indica o uso da GPU da carga de trabalho
GPU Memory Usage (%)
Uma métrica indica a porcentagem da memória da GPU usada em relação à capacidade de memória da GPU
GPU Memory Usage (%) = memória usada da GPU/capacidade da memória da GPU
Used GPU Memory (GiB)
Uma métrica indica a memória da GPU usada
Visualizar dados de monitoramento de pods
O CCE permite que você visualize a data de monitoramento de seus pods.
- Efetue logon no console do CCE e clique no nome do cluster para acessar o console do cluster.
- Escolha Workloads no painel de navegação. Em seguida, clique no nome da carga de trabalho da carga de trabalho de destino para listar os pods.
- Clique em Monitor do pod de destino para exibir os dados de monitoramento.
- Você pode selecionar Dimension estatística e escolher o intervalo de tempo para exibir os dados de monitoramento. Os dados são fornecidos pelo AOM. Você pode visualizar os dados de monitoramento de um pod, incluindo CPU, memória, disco, rede e GPU.
Figura 4 Visualizar dados de monitoramento do pod
Se existirem vários contêineres em um único pod, os dados de monitoramento podem variar de acordo com a Dimension estatística. Por exemplo, se você selecionar Maximum ou Minimum para Dimension, o valor de cada dado de monitoramento será o valor máximo ou mínimo de todos os contêineres sob o pod. Se Average estiver selecionada, o valor de cada dado de monitoramento será o valor médio de todos os contêineres no pod.
Tabela 4 Métricas de monitoramento do pod Métrica
Descrição
CPU Usage (%)
Uma métrica indica o uso da CPU do pod
CPU Usage (%) = núcleos de CPU usados/número total de núcleos de CPU limitados de todos os contêineres em execução no pod (Se os núcleos de CPU limitados de todos os contêineres em execução não forem especificados, o número de núcleos de CPU do nó será usado.)
Used CPU Cores (cores)
Uma métrica indica o número de núcleos de CPU usados
Physical Memory Usage (%)
Uma métrica indica o uso de memória física do pod
Physical Memory Usage (%) = memória física usada/soma dos limites de memória física de todos os contêineres em execução no pod (Se não especificado, o valor da memória física do nó é usado.)
Used Physical Memory (GiB)
Uma métrica indica a quantidade de memória física usada
Disk Read Rate
Uma métrica indica o volume de dados lido de um disco por segundo. A unidade é KB/s.
Disk Write Rate
Uma métrica indica o volume de dados gravado em um disco por segundo. A unidade é KB/s.
Downlink Rate (BPS) (KB/s)
Uma métrica indica a velocidade na qual os dados são baixados da Internet
Uplink Rate (BPS) (KB/s)
Uma métrica indica a velocidade na qual os dados são carregados do nó para a Internet
GPU Usage (%)
Uma métrica indica o uso da GPU do pod
GPU Memory Usage (%)
Uma métrica indica a porcentagem da memória da GPU usada em relação à capacidade de memória da GPU
GPU Memory Usage (%) = memória usada da GPU/capacidade da memória da GPU
Used GPU Memory (GiB)
Uma métrica indica a memória da GPU usada do pod