Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Central de ajuda/ Cloud Container Engine/ Guia de usuário/ Operações de alto risco e soluções
Atualizado em 2024-11-28 GMT+08:00

Operações de alto risco e soluções

Durante a implementação ou execução do serviço, você pode acionar operações de alto risco em diferentes níveis, causando falhas ou interrupção do serviço. Para ajudá-lo a estimar melhor e evitar riscos de operação, esta seção apresenta as consequências e soluções de operações de alto risco de várias dimensões, como clusters, nós, rede, balanceamento de carga, logs e discos EVS.

Clusters e nós

Tabela 1 Operações de alto risco e soluções

Categoria

Operação

Impacto

Solução

Nó principal

Modificar o grupo de segurança de um nó em um cluster

O nó principal pode estar indisponível.

NOTA:

Regra de nomeação de um nó principal: Cluster name-cce-control-Random number

Restaure o grupo de segurança referindo-se à "Criação de um cluster" e permitir que o tráfego do grupo de segurança passe.

Deixar o nó expirar ou destruir o nó

O nó principal estará indisponível.

Esta operação não pode ser desfeita.

Reinstalar o SO

Os componentes no nó principal serão excluídos.

Esta operação não pode ser desfeita.

Atualizar componentes no nó principal ou etcd

O cluster pode estar indisponível.

Volte para a versão original.

Excluir ou formatando dados do diretório principal, como /etc/kubernetes no nó

O nó principal estará indisponível.

Esta operação não pode ser desfeita.

Alterar o endereço IP do nó

O nó principal estará indisponível.

Altere o endereço IP de volta para o original.

Modificar parâmetros de componentes principais (como etcd, kube-apiserver e docker)

O nó principal pode estar indisponível.

Restaure as configurações de parâmetro para os valores recomendados. Para mais detalhes, consulte Gerenciamento de configuração de cluster.

Substituir o principal ou o certificado do etcd

O cluster pode estar indisponível.

Esta operação não pode ser desfeita.

Nó de trabalho

Modificar o grupo de segurança de um nó em um cluster

O nó pode estar indisponível.

NOTA:

Regra de nomeação de um nó de trabalho: Cluster name-cce-node-Random number

Restaure o grupo de segurança e permita que o tráfego do grupo de segurança passe completamente.

Excluir o nó

O nó ficará indisponível.

Esta operação não pode ser desfeita.

Reinstalar o SO

Os componentes do nó são excluídos e o nó fica indisponível.

Redefina o nó. Para mais detalhes, consulte Redefinição de um nó.

Atualizar o kernel do nó

O nó pode estar indisponível ou a rede pode estar anormal.

NOTA:

A execução do nó depende da versão do kernel do sistema. Não use o comando yum update para atualizar ou reinstalar o kernel do sistema operacional de um nó, a menos que seja necessário. (Reinstalar o kernel do sistema operacional usando a imagem original ou outras imagens é uma operação arriscada.)

Se o sistema operacional for EulerOS 2.2, restaure o nó ou a conectividade de rede consultando O que fazer se a rede do contêiner ficar indisponível depois que yum update for usado para atualizar o sistema operacional?

Se o sistema operacional não é EulerOS 2.2, você pode redefinir o nó. Para mais detalhes, consulte Redefinição de um nó.

Alterar o endereço IP do nó

O nó ficará indisponível.

Altere o endereço IP de volta para o original.

Modificar parâmetros de componentes principais (como kubelet e kube-proxy)

O nó pode ficar indisponível e os componentes podem ficar inseguros se as configurações relacionadas à segurança forem modificadas.

Restaure as configurações de parâmetro para os valores recomendados. Para mais detalhes, consulte Configuração de um pool de nós.

Modificar a configuração do SO

O nó pode estar indisponível.

Restaure os itens de configuração ou redefina o nó. Para mais detalhes, consulte Redefinição de um nó.

Excluindo ou modificando os diretórios /opt/cloud/cce e /var/paas e excluindo o disco de dados

O nó ficará despreparado.

Redefina o nó. Para mais detalhes, consulte Redefinição de um nó.

Modificar a permissão do diretório de nó e a permissão do diretório de contêiner

As permissões serão anormais.

Não é aconselhado a modificar as permissões. Restaure as permissões se elas forem modificadas.

Formatar ou particionar de discos do sistema, discos de Docker e discos de kubelet em nós.

O nó pode estar indisponível.

Redefina o nó. Para mais detalhes, consulte Redefinição de um nó.

Instalar outros softwares nos nós

Isso pode causar exceções nos componentes do Kubernetes instalados no nó e tornar o nó indisponível.

Desinstale o software que foi instalado e restaure ou redefina o nó. Para mais detalhes, consulte Redefinição de um nó.

Modificar configurações do NetworkManager

O nó ficará indisponível.

Redefina o nó. Para mais detalhes, consulte Redefinição de um nó.

Exclua imagens do sistema, como cce-pause, do nó.

Os contêineres não podem ser criados e as imagens do sistema não podem ser extraídas.

Copie a imagem de outro nó normal para restauração.

Rede e balanceamento de carga

Tabela 2 Operações de alto risco e soluções

Operação

Impacto

Como evitar/corrigir

Alterar o valor do parâmetro do kernel net.ipv4.ip_forward para 0

A rede se torna inacessível.

Altere o valor para 1.

Alterando o valor do parâmetro do kernel net.ipv4.tcp_tw_recycle para 1

O serviço de NAT torna-se anormal.

Altere o valor para 0.

Alterar o valor do parâmetro do kernel net.ipv4.tcp_tw_reuse para 1

A rede torna-se anormal.

Altere o valor para 0.

Não configurar o grupo de segurança do nó para permitir que pacotes UDP passem pela porta 53 do bloco CIDR do contêiner

O DNS no cluster não pode funcionar corretamente.

Restaure o grupo de segurança referindo-se a Compra de um cluster do CCE e permitir que o tráfego do grupo de segurança passe completamente.

Criar um ouvinte personalizado no console do ELB para o balanceador de carga gerenciado pelo CCE

Os itens modificados são redefinidos pelo CCE ou a entrada é defeituosa.

Use o arquivo YAML do Serviço para criar automaticamente um ouvinte.

Vincular um back-end definido pelo usuário no console do ELB ao balanceador de carga gerenciado pelo CCE.

Não vincule manualmente qualquer back-end.

Alterar certificado ELB no console do ELB para o balanceador de carga gerenciado pelo CCE.

Use o arquivo YAML da entrada para gerenciar certificados automaticamente.

Alterar o nome do ouvinte no console do ELB para o ouvinte do ELB gerenciado pelo CCE.

Não altere o nome do ouvinte do ELB gerenciado pelo CCE.

Alterar a descrição de balanceadores de carga, ouvintes e políticas de encaminhamento gerenciadas pelo CCE no console do ELB.

Não modifique a descrição de balanceadores de carga, ouvintes ou políticas de encaminhamento gerenciadas pela CCE.

Apagar recursos de CRD de network-attachment-definitions de default-network.

A rede de contêineres é desconectada ou o cluster não é excluído.

Se os recursos forem excluídos por engano, use as configurações corretas para criar os recursos de rede padrão.

Logs

Tabela 3 Operações de alto risco e soluções

Operação

Impacto

Solução

Excluir o diretório /tmp/ccs-log-collector/pos na máquina de host

Os logs são coletados repetidamente.

Nenhuma

Excluir o diretório /tmp/ccs-log-collector/buffer na máquina de host

Logs são perdidos.

Nenhuma

Discos EVS

Tabela 4 Operações de alto risco e soluções

Operação

Impacto

Solução

Observações

Desmontar manualmente um disco EVS no console

Um erro de I/O ocorre quando os dados são gravados em um pod.

Exclua o caminho de montagem do nó e programe o pod novamente.

O arquivo no pod registra o local onde os arquivos devem ser coletados.

Desmontar o caminho de montagem do disco no nó

Os dados do pod são gravados em um disco local.

Volte a montar o caminho correspondente para o pod.

O buffer contém arquivos de cache de log a serem consumidos.

Operar discos EVS no nó

Os dados do pod são gravados em um disco local.

Nenhuma

Nenhuma