Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Atualizado em 2024-11-28 GMT+08:00

Diagnóstico de integridade

O CCE fornece diagnóstico de integridade com um clique em clusters, nós, cargas de trabalho, complementos principais e dependências externas para ajudá-lo a localizar rapidamente falhas de cluster (se houver). Esta seção descreve como realizar o diagnóstico de integridade em um cluster.

Pré-requisitos

  • Você obteve permissões de recurso.
  • A versão do cluster é posterior à v1.17.
  • O cluster está em execução.

Caminho de navegação

  1. Efetue logon no console do CCE e clique no nome do cluster para acessar o console do cluster.
  2. Escolha Monitoring Center no painel de navegação e clique na guia Health Diagnosis.

    Você pode realizar diagnósticos básicos sem ativar o Centro de monitoramento. Para experimentar mais serviços de diagnóstico, ative o Centro de monitoramento consultando Ativar o Centro de monitoramento.

Configurar uma inspeção agendada

No canto superior direito da guia Health Diagnosis, ative Scheduled Inspection e configure a hora de início da inspeção. A tarefa de inspeção será iniciada automaticamente no horário especificado. Um cluster pode ser agendado para ser inspecionado apenas uma vez por dia.

Diagnóstico de integridade manual

Ao usar o diagnóstico de saúde pela primeira vez, clique em Diagnose Now para iniciar o diagnóstico. Depois que o diagnóstico for concluído, a página será atualizada automaticamente para exibir o resultado do diagnóstico. Os itens normais são ocultos por padrão no resultado.

Os problemas do Kubernetes serão resumidos a partir dos itens anormais. Sugestões de solução de problemas também serão fornecidas. Você pode clicar em View Diagnosis Details para exibir detalhes sobre um item de diagnóstico específico e recursos anormais relacionados. Em alguns casos, também há documentos de solução de problemas na página de detalhes do diagnóstico para sua referência.

Figura 1 Resultado do diagnóstico

Itens de inspeção

Dimensão

Cenário

Item de inspeção

Cluster

Planejamento de recursos do cluster

Se o HA está ativado para os nós principais

Se as solicitações de CPU dos pods no cluster excederam 80% da CPU do cluster

Se os limites de CPU dos pods no cluster excederam 150% da CPU do cluster

Se as solicitações de memória dos pods no cluster excederam 80% da memória do cluster

Se os limites de memória dos pods no cluster excederam 150% da memória do cluster

Se a versão do cluster expirou

O&M de cluster

Se kube-prometheus-stack é normal

Se o log-agent é normal

Se o npd é normal

Configuração do cluster

Se os grupos de segurança estão configurados corretamente

Complementos principais

Status do coredns

Se o uso da CPU de coredns excedeu 80% nas últimas 24 horas

Se o uso de memória de coredns excedeu 80% nas últimas 24 horas

Se o coredns não conseguir resolver nomes de domínio nas últimas 24 horas

Se a latência P99 de coredns excedeu 5s nas últimas 24 horas

Se o coredns é normal

Status do everest

Se o everest é normal

Se o uso da CPU do everest excedeu 80% nas últimas 24 horas

Se o uso de memória do everest excedeu 80% nas últimas 24 horas

Estado de kube-prometheus-stack

Se o uso da CPU do kube-prometheus-stack excedeu 80% nas últimas 24 horas

Se o uso de memória do kube-prometheus-stack excedeu 80% nas últimas 24 horas

Se kube-prometheus-stack é normal

Se ocorreu falta de memória (OOM) no kube-prometheus-stack nas últimas 24 horas

Se o uso de PVC do prometheus-server excedeu 80% quando kube-prometheus-stack é implementado no modo de servidor

Status do log-agent

Se o log-agent é normal

Se os grupos de log do LTS e o fluxo de log são criados com êxito

Se a estruturação de log está ativada para grupos de log do LTS

Status do autoscaler

Se o autoscaler está disponível quando o dimensionamento automático está ativado para pools de nós

Status do nó

Se os nós estão prontos

Se os nós podem ser agendados

Se o kubelet é normal

Configuração do nó

Se as solicitações de memória de pods em um nó excederam 80% da memória do nó

Se as solicitações de CPU de pods em um nó excederam 80% da CPU do nó

Se os limites de memória dos pods em um nó excederam 150% da memória do nó

Se os limites de CPU dos pods em um nó excederam 150% da CPU do nó

Marcas d'água de recursos de nós

Se o uso da CPU de um nó excedeu 80% nas últimas 24 horas

Se o uso de memória de um nó excedeu 80% nas últimas 24 horas

Se o uso do disco de um nó excedeu 80%

Se o número de PIDs para um nó excede o limite

Se a OOM ocorreu em um nó nas últimas 24 horas

Carga de trabalho

Status do pod

Se os pods são normais

Carga de trabalho do pod

Se a OOM ocorreu em um pod nas últimas 24 horas

Se o uso da CPU de um pod excedeu 80% nas últimas 24 horas

Se o uso de memória de um pod excedeu 80% nas últimas 24 horas

Configuração do pod

Se as solicitações são configuradas para contêineres em um pod

Se os limites são configurados para contêineres em um pod

Configuração da sonda de pod

Se as sondas de vivacidade estão configuradas para contêineres em um pod

Se as sondas de prontidão estão configuradas para contêineres em um pod

Dependência externa

Cotas de recursos de um nó

Se 90% ou mais da cota de disco EVS foi utilizada

Se 90% ou mais da cota do ECS foi utilizada