Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Centro de ayuda/ Cloud Container Engine/ Guía del usuario/ Operaciones y soluciones de alto riesgo
Actualización más reciente 2024-09-10 GMT+08:00

Operaciones y soluciones de alto riesgo

Durante el despliegue de servicio o la ejecución, puede activar las operaciones de alto riesgo en diferentes niveles, causando fallas de servicio o interrupción. Para ayudarle a estimar mejor y evitar los riesgos de operación, esta sección presenta las consecuencias y soluciones de las operaciones de alto riesgo desde múltiples dimensiones, como clústeres, nodos, redes, balanceo de carga, logs y discos de EVS.

Clústeres y nodos

Tabla 1 Operaciones y soluciones de alto riesgo

Categoría

Operación

Impacto

Solución

Nodo principal

Modificación del grupo de seguridad de un nodo en un clúster

El nodo principal puede no estar disponible.

NOTA:

Regla de nombre de un nodo principal: Cluster name-cce-control-Random number

Restaure el grupo de seguridad haciendo referencia a Compra de un clúster de CCE y permita que el tráfico del grupo de seguridad pase a través.

Dejar que el nodo caduque o destruir el nodo

El nodo principal dejará de estar disponible.

Esta operación no se puede deshacer.

Reinstalación del SO

Se eliminarán los componentes del nodo principal.

Esta operación no se puede deshacer.

Actualización de componentes en el nodo principal o de etcd

Es posible que el clúster no esté disponible.

Vuelve a la versión original.

Eliminar o formatear datos del directorio central como /etc/kubernetes en el nodo

El nodo principal dejará de estar disponible.

Esta operación no se puede deshacer.

Cambiar la dirección IP del nodo

El nodo principal dejará de estar disponible.

Vuelva a cambiar la dirección IP a la original.

Modificación de los parámetros de los componentes principales (como etcd, kube-apiserver y docker)

El nodo principal puede no estar disponible.

Restaure la configuración de los parámetros a los valores recomendados. Para obtener más información, véase Gestión de configuración de clúster.

Sustitución del certificado principal o etcd

Es posible que el clúster no esté disponible.

Esta operación no se puede deshacer.

Nodo de trabajo

Modificación del grupo de seguridad de un nodo en un clúster

Es posible que el nodo no esté disponible.

NOTA:

Regla de nombre de un nodo de trabajo: Cluster name-cce-node-Random number

Restaure el grupo de seguridad haciendo referencia a Compra de un clúster de CCE y permita que el tráfico del grupo de seguridad pase a través.

Eliminar el nodo

El nodo dejará de estar disponible.

Esta operación no se puede deshacer.

Reinstalación del SO

Los componentes del nodo se eliminan y el nodo no está disponible.

Restablezca el nodo. Para obtener más información, véase Restablecimiento de un nodo.

Actualización del kernel del nodo

El nodo puede no estar disponible o la red puede ser anormal.

NOTA:

La ejecución del nodo depende de la versión del kernel del sistema. No utilice el comando yum update para actualizar o reinstalar el núcleo del sistema operativo de un nodo a menos que sea necesario. (Reinstalar el kernel del sistema operativo usando la imagen original u otras imágenes es una operación arriesgada.)

Si el sistema operativo es EulerOS 2.2, restaure el nodo o la conectividad de red consultando ¿Qué puedo hacer si la red de contenedores no está disponible después de la actualización yum se utiliza para actualizar el sistema operativo?

Si el sistema operativo no es EulerOS 2.2, puede restablecer el nodo. Para más detalles, véase Restablecimiento de un nodo.

Cambio de la dirección IP del nodo

El nodo dejará de estar disponible.

Vuelva a cambiar la dirección IP a la original.

Modificación de los parámetros de los componentes principales (como kubelet y kube-proxy)

El nodo puede no estar disponible, y los componentes pueden ser inseguros si se modifican las configuraciones relacionadas con la seguridad.

Restaure la configuración de los parámetros a los valores recomendados. Para obtener más información, véase Configuración de un grupo de nodos.

Modificación de la configuración del SO

Es posible que el nodo no esté disponible.

Restaure los elementos de configuración o restablezca el nodo. Para obtener más información, véase Restablecimiento de un nodo.

Eliminar o modificar los directorios /opt/cloud/cce y /var/paas y eliminar el disco de datos

El nodo no estará listo.

Puede restablecer el nodo. Para obtener más información, véase Restablecimiento de un nodo.

Modificación del permiso de directorio de nodo y del permiso de directorio contenedor

Los permisos serán anormales.

No se recomienda modificar los permisos. Restaure los permisos si se modifican.

Formatear o particionar discos del sistema, discos de Docker y discos de kubelet en nodos.

Es posible que el nodo no esté disponible.

Restablezca el nodo. Para obtener más información, véase Restablecimiento de un nodo.

Instalación de otro software en nodos

Esto puede provocar excepciones en los componentes de Kubernetes instalados en el nodo y hacer que el nodo no esté disponible.

Desinstale el software que se ha instalado y restaure o restablezca el nodo. Para obtener más información, véase Restablecimiento de un nodo.

Modificación de las configuraciones de NetworkManager

El nodo dejará de estar disponible.

Restablezca el nodo. Para obtener más información, véase Restablecimiento de un nodo.

Eliminar imágenes del sistema como cfe-pause del nodo.

No se pueden crear contenedores y no se pueden extraer imágenes del sistema.

Copie la imagen de otro nodo normal para su restauración.

Redes y balanceo de carga

Tabla 2 Operaciones y soluciones de alto riesgo

Operación

Impacto

Cómo evitar/reparar

Cambiar el valor del parámetro del núcleo net.ipv4.ip_forward a 0

La red se vuelve inaccesible.

Cambie el valor a 1.

Cambiar el valor del parámetro del núcleo net.ipv4.tcp_tw_recycle a 1

El servicio NAT se vuelve anormal.

Cambie el valor a 0.

Cambiar el valor del parámetro del núcleo net.ipv4.tcp_tw_reuse a 1

La red se vuelve anormal.

Cambie el valor a 0.

No configurar el grupo de seguridad de nodo para permitir que los paquetes UDP pasen a través del puerto 53 del bloque CIDR de contenedor

El DNS del clúster no puede funcionar correctamente.

Restaure el grupo de seguridad haciendo referencia a Compra de un clúster de CCE y permita que el tráfico del grupo de seguridad pase a través.

Crear un oyente personalizado en la consola de ELB para el balanceador de carga gestionado por CCE

Los elementos modificados son restablecidos por CCE o la entrada es defectuosa.

Utilizar el archivo YAML del Service para crear automáticamente un oyente.

Vincular un backend definido por el usuario en la consola de ELB al balanceador de carga gestionado por CCE.

No vincular manualmente ningún backend.

Cambiar el certificado de ELB en la consola de ELB para el balanceador de carga gestionado por CCE.

Utilice el archivo YAML de la entrada para gestionar automáticamente los certificados.

Cambiar el nombre de oyente en la consola de ELB para el oyente de ELB gestionado por CCE.

No cambie el nombre del ELB oyente gestionado por CCE.

Cambio de la descripción de balanceadores de carga, oyentes y políticas de reenvío gestionadas por CCE en la consola de ELB.

No modifique la descripción de balanceadores de carga, oyentes o políticas de reenvío gestionadas por CCE.

Elimine los recursos de CRD de las definiciones de network-attachment de default-network.

La red de contenedor está desconectada o el clúster no se puede eliminar.

Si los recursos se eliminan por error, utilice las configuraciones correctas para crear los recursos de red predeterminados.

Logs

Tabla 3 Operaciones y soluciones de alto riesgo

Operación

Impacto

Solución

Eliminar el directorio /tmp/ccs-log-collector/pos de la máquina host

Los logs se recopilan repetidamente.

Ninguna

Eliminar el directorio /tmp/ccs-log-collector/buffer de la máquina host

Los logs se pierden.

Ninguna

Discos de EVS

Tabla 4 Operaciones y soluciones de alto riesgo

Operación

Impacto

Solución

Notas

Desmontar manualmente de un disco de EVS en la consola

Se notifica un error de E/S cuando se escriben los datos de pod en el disco.

Elimine la ruta de montaje del nodo y vuelva a programar el pod.

El archivo en el pod registra la ubicación donde se van a recopilar los archivos.

Desmontar la ruta de montaje en disco en el nodo

Los datos de pod se escriben en un disco local.

Vuelva a montar la ruta correspondiente al pod.

El búfer contiene archivos de caché de log que se van a consumir.

Funcionar los discos de EVS en el nodo

Los datos de pod se escriben en un disco local.

Ninguna

Ninguna