Operações de alto risco e soluções
Durante a implementação ou execução do serviço, você pode acionar operações de alto risco em diferentes níveis, causando falhas ou interrupção do serviço. Para ajudá-lo a estimar melhor e evitar riscos de operação, esta seção apresenta as consequências e soluções de operações de alto risco de várias dimensões, como clusters, nós, rede, balanceamento de carga, logs e discos EVS.
Clusters e nós
Categoria |
Operação |
Impacto |
Solução |
---|---|---|---|
Nó principal |
Modificar o grupo de segurança de um nó em um cluster |
O nó principal pode estar indisponível.
NOTA:
Regra de nomeação de um nó principal: Cluster name-cce-control-Random number |
Restaure o grupo de segurança referindo-se à "Criação de um cluster" e permitir que o tráfego do grupo de segurança passe. |
Deixar o nó expirar ou destruir o nó |
O nó principal estará indisponível. |
Esta operação não pode ser desfeita. |
|
Reinstalar o SO |
Os componentes no nó principal serão excluídos. |
Esta operação não pode ser desfeita. |
|
Atualizar componentes no nó principal ou etcd |
O cluster pode estar indisponível. |
Volte para a versão original. |
|
Excluir ou formatando dados do diretório principal, como /etc/kubernetes no nó |
O nó principal estará indisponível. |
Esta operação não pode ser desfeita. |
|
Alterar o endereço IP do nó |
O nó principal estará indisponível. |
Altere o endereço IP de volta para o original. |
|
Modificar parâmetros de componentes principais (como etcd, kube-apiserver e docker) |
O nó principal pode estar indisponível. |
Restaure as configurações de parâmetro para os valores recomendados. Para mais detalhes, consulte Gerenciamento de configuração de cluster. |
|
Substituir o principal ou o certificado do etcd |
O cluster pode estar indisponível. |
Esta operação não pode ser desfeita. |
|
Nó de trabalho |
Modificar o grupo de segurança de um nó em um cluster |
O nó pode estar indisponível.
NOTA:
Regra de nomeação de um nó de trabalho: Cluster name-cce-node-Random number |
Restaure o grupo de segurança e permita que o tráfego do grupo de segurança passe completamente. |
Excluir o nó |
O nó ficará indisponível. |
Esta operação não pode ser desfeita. |
|
Reinstalar o SO |
Os componentes do nó são excluídos e o nó fica indisponível. |
Redefina o nó. Para mais detalhes, consulte Redefinição de um nó. |
|
Atualizar o kernel do nó |
O nó pode estar indisponível ou a rede pode estar anormal.
NOTA:
A execução do nó depende da versão do kernel do sistema. Não use o comando yum update para atualizar ou reinstalar o kernel do sistema operacional de um nó, a menos que seja necessário. (Reinstalar o kernel do sistema operacional usando a imagem original ou outras imagens é uma operação arriscada.) |
Se o sistema operacional for EulerOS 2.2, restaure o nó ou a conectividade de rede consultando O que fazer se a rede do contêiner ficar indisponível depois que yum update for usado para atualizar o sistema operacional? Se o sistema operacional não é EulerOS 2.2, você pode redefinir o nó. Para mais detalhes, consulte Redefinição de um nó. |
|
Alterar o endereço IP do nó |
O nó ficará indisponível. |
Altere o endereço IP de volta para o original. |
|
Modificar parâmetros de componentes principais (como kubelet e kube-proxy) |
O nó pode ficar indisponível e os componentes podem ficar inseguros se as configurações relacionadas à segurança forem modificadas. |
Restaure as configurações de parâmetro para os valores recomendados. Para mais detalhes, consulte Configuração de um pool de nós. |
|
Modificar a configuração do SO |
O nó pode estar indisponível. |
Restaure os itens de configuração ou redefina o nó. Para mais detalhes, consulte Redefinição de um nó. |
|
Excluindo ou modificando os diretórios /opt/cloud/cce e /var/paas e excluindo o disco de dados |
O nó ficará despreparado. |
Redefina o nó. Para mais detalhes, consulte Redefinição de um nó. |
|
Modificar a permissão do diretório de nó e a permissão do diretório de contêiner |
As permissões serão anormais. |
Não é aconselhado a modificar as permissões. Restaure as permissões se elas forem modificadas. |
|
Formatar ou particionar de discos do sistema, discos de Docker e discos de kubelet em nós. |
O nó pode estar indisponível. |
Redefina o nó. Para mais detalhes, consulte Redefinição de um nó. |
|
Instalar outros softwares nos nós |
Isso pode causar exceções nos componentes do Kubernetes instalados no nó e tornar o nó indisponível. |
Desinstale o software que foi instalado e restaure ou redefina o nó. Para mais detalhes, consulte Redefinição de um nó. |
|
Modificar configurações do NetworkManager |
O nó ficará indisponível. |
Redefina o nó. Para mais detalhes, consulte Redefinição de um nó. |
|
Exclua imagens do sistema, como cce-pause, do nó. |
Os contêineres não podem ser criados e as imagens do sistema não podem ser extraídas. |
Copie a imagem de outro nó normal para restauração. |
Rede e balanceamento de carga
Operação |
Impacto |
Como evitar/corrigir |
---|---|---|
Alterar o valor do parâmetro do kernel net.ipv4.ip_forward para 0 |
A rede se torna inacessível. |
Altere o valor para 1. |
Alterando o valor do parâmetro do kernel net.ipv4.tcp_tw_recycle para 1 |
O serviço de NAT torna-se anormal. |
Altere o valor para 0. |
Alterar o valor do parâmetro do kernel net.ipv4.tcp_tw_reuse para 1 |
A rede torna-se anormal. |
Altere o valor para 0. |
Não configurar o grupo de segurança do nó para permitir que pacotes UDP passem pela porta 53 do bloco CIDR do contêiner |
O DNS no cluster não pode funcionar corretamente. |
Restaure o grupo de segurança referindo-se a Compra de um cluster do CCE e permitir que o tráfego do grupo de segurança passe completamente. |
Criar um ouvinte personalizado no console do ELB para o balanceador de carga gerenciado pelo CCE |
Os itens modificados são redefinidos pelo CCE ou a entrada é defeituosa. |
Use o arquivo YAML do Serviço para criar automaticamente um ouvinte. |
Vincular um back-end definido pelo usuário no console do ELB ao balanceador de carga gerenciado pelo CCE. |
Não vincule manualmente qualquer back-end. |
|
Alterar certificado ELB no console do ELB para o balanceador de carga gerenciado pelo CCE. |
Use o arquivo YAML da entrada para gerenciar certificados automaticamente. |
|
Alterar o nome do ouvinte no console do ELB para o ouvinte do ELB gerenciado pelo CCE. |
Não altere o nome do ouvinte do ELB gerenciado pelo CCE. |
|
Alterar a descrição de balanceadores de carga, ouvintes e políticas de encaminhamento gerenciadas pelo CCE no console do ELB. |
Não modifique a descrição de balanceadores de carga, ouvintes ou políticas de encaminhamento gerenciadas pela CCE. |
|
Apagar recursos de CRD de network-attachment-definitions de default-network. |
A rede de contêineres é desconectada ou o cluster não é excluído. |
Se os recursos forem excluídos por engano, use as configurações corretas para criar os recursos de rede padrão. |
Logs
Operação |
Impacto |
Solução |
---|---|---|
Excluir o diretório /tmp/ccs-log-collector/pos na máquina de host |
Os logs são coletados repetidamente. |
Nenhuma |
Excluir o diretório /tmp/ccs-log-collector/buffer na máquina de host |
Logs são perdidos. |
Nenhuma |
Discos EVS
Operação |
Impacto |
Solução |
Observações |
---|---|---|---|
Desmontar manualmente um disco EVS no console |
Um erro de I/O ocorre quando os dados são gravados em um pod. |
Exclua o caminho de montagem do nó e programe o pod novamente. |
O arquivo no pod registra o local onde os arquivos devem ser coletados. |
Desmontar o caminho de montagem do disco no nó |
Os dados do pod são gravados em um disco local. |
Volte a montar o caminho correspondente para o pod. |
O buffer contém arquivos de cache de log a serem consumidos. |
Operar discos EVS no nó |
Os dados do pod são gravados em um disco local. |
Nenhuma |
Nenhuma |