Diagnóstico de integridade
O CCE fornece diagnóstico de integridade com um clique em clusters, nós, cargas de trabalho, complementos principais e dependências externas para ajudá-lo a localizar rapidamente falhas de cluster (se houver). Esta seção descreve como realizar o diagnóstico de integridade em um cluster.
Pré-requisitos
- Você obteve permissões de recurso.
- A versão do cluster é posterior à v1.17.
- O cluster está em execução.
Caminho de navegação
- Efetue logon no console do CCE e clique no nome do cluster para acessar o console do cluster.
- Escolha Monitoring Center no painel de navegação e clique na guia Health Diagnosis.
Você pode realizar diagnósticos básicos sem ativar o Centro de monitoramento. Para experimentar mais serviços de diagnóstico, ative o Centro de monitoramento consultando Ativar o Centro de monitoramento.
Configurar uma inspeção agendada
No canto superior direito da guia Health Diagnosis, ative Scheduled Inspection e configure a hora de início da inspeção. A tarefa de inspeção será iniciada automaticamente no horário especificado. Um cluster pode ser agendado para ser inspecionado apenas uma vez por dia.
Diagnóstico de integridade manual
Ao usar o diagnóstico de saúde pela primeira vez, clique em Diagnose Now para iniciar o diagnóstico. Depois que o diagnóstico for concluído, a página será atualizada automaticamente para exibir o resultado do diagnóstico. Os itens normais são ocultos por padrão no resultado.
Os problemas do Kubernetes serão resumidos a partir dos itens anormais. Sugestões de solução de problemas também serão fornecidas. Você pode clicar em View Diagnosis Details para exibir detalhes sobre um item de diagnóstico específico e recursos anormais relacionados. Em alguns casos, também há documentos de solução de problemas na página de detalhes do diagnóstico para sua referência.
Itens de inspeção
Dimensão |
Cenário |
Item de inspeção |
---|---|---|
Cluster |
Planejamento de recursos do cluster |
Se o HA está ativado para os nós principais |
Se as solicitações de CPU dos pods no cluster excederam 80% da CPU do cluster |
||
Se os limites de CPU dos pods no cluster excederam 150% da CPU do cluster |
||
Se as solicitações de memória dos pods no cluster excederam 80% da memória do cluster |
||
Se os limites de memória dos pods no cluster excederam 150% da memória do cluster |
||
Se a versão do cluster expirou |
||
O&M de cluster |
Se kube-prometheus-stack é normal |
|
Se o log-agent é normal |
||
Se o npd é normal |
||
Configuração do cluster |
Se os grupos de segurança estão configurados corretamente |
|
Complementos principais |
Status do coredns |
Se o uso da CPU de coredns excedeu 80% nas últimas 24 horas |
Se o uso de memória de coredns excedeu 80% nas últimas 24 horas |
||
Se o coredns não conseguir resolver nomes de domínio nas últimas 24 horas |
||
Se a latência P99 de coredns excedeu 5s nas últimas 24 horas |
||
Se o coredns é normal |
||
Status do everest |
Se o everest é normal |
|
Se o uso da CPU do everest excedeu 80% nas últimas 24 horas |
||
Se o uso de memória do everest excedeu 80% nas últimas 24 horas |
||
Estado de kube-prometheus-stack |
Se o uso da CPU do kube-prometheus-stack excedeu 80% nas últimas 24 horas |
|
Se o uso de memória do kube-prometheus-stack excedeu 80% nas últimas 24 horas |
||
Se kube-prometheus-stack é normal |
||
Se ocorreu falta de memória (OOM) no kube-prometheus-stack nas últimas 24 horas |
||
Se o uso de PVC do prometheus-server excedeu 80% quando kube-prometheus-stack é implementado no modo de servidor |
||
Status do log-agent |
Se o log-agent é normal |
|
Se os grupos de log do LTS e o fluxo de log são criados com êxito |
||
Se a estruturação de log está ativada para grupos de log do LTS |
||
Status do autoscaler |
Se o autoscaler está disponível quando o dimensionamento automático está ativado para pools de nós |
|
Nó |
Status do nó |
Se os nós estão prontos |
Se os nós podem ser agendados |
||
Se o kubelet é normal |
||
Configuração do nó |
Se as solicitações de memória de pods em um nó excederam 80% da memória do nó |
|
Se as solicitações de CPU de pods em um nó excederam 80% da CPU do nó |
||
Se os limites de memória dos pods em um nó excederam 150% da memória do nó |
||
Se os limites de CPU dos pods em um nó excederam 150% da CPU do nó |
||
Marcas d'água de recursos de nós |
Se o uso da CPU de um nó excedeu 80% nas últimas 24 horas |
|
Se o uso de memória de um nó excedeu 80% nas últimas 24 horas |
||
Se o uso do disco de um nó excedeu 80% |
||
Se o número de PIDs para um nó excede o limite |
||
Se a OOM ocorreu em um nó nas últimas 24 horas |
||
Carga de trabalho |
Status do pod |
Se os pods são normais |
Carga de trabalho do pod |
Se a OOM ocorreu em um pod nas últimas 24 horas |
|
Se o uso da CPU de um pod excedeu 80% nas últimas 24 horas |
||
Se o uso de memória de um pod excedeu 80% nas últimas 24 horas |
||
Configuração do pod |
Se as solicitações são configuradas para contêineres em um pod |
|
Se os limites são configurados para contêineres em um pod |
||
Configuração da sonda de pod |
Se as sondas de vivacidade estão configuradas para contêineres em um pod |
|
Se as sondas de prontidão estão configuradas para contêineres em um pod |
||
Dependência externa |
Cotas de recursos de um nó |
Se 90% ou mais da cota de disco EVS foi utilizada |
Se 90% ou mais da cota do ECS foi utilizada |