Operaciones y soluciones de alto riesgo
Durante el despliegue de servicio o la ejecución, puede activar las operaciones de alto riesgo en diferentes niveles, causando fallas de servicio o interrupción. Para ayudarle a estimar mejor y evitar los riesgos de operación, esta sección presenta las consecuencias y soluciones de las operaciones de alto riesgo desde múltiples dimensiones, como clústeres, nodos, redes, balanceo de carga, logs y discos de EVS.
Clústeres y nodos
Categoría |
Operación |
Impacto |
Solución |
---|---|---|---|
Nodo principal |
Modificación del grupo de seguridad de un nodo en un clúster |
El nodo principal puede no estar disponible.
NOTA:
Regla de nombre de un nodo principal: Cluster name-cce-control-Random number |
Restaure el grupo de seguridad haciendo referencia a Compra de un clúster de CCE y permita que el tráfico del grupo de seguridad pase a través. |
Dejar que el nodo caduque o destruir el nodo |
El nodo principal dejará de estar disponible. |
Esta operación no se puede deshacer. |
|
Reinstalación del SO |
Se eliminarán los componentes del nodo principal. |
Esta operación no se puede deshacer. |
|
Actualización de componentes en el nodo principal o de etcd |
Es posible que el clúster no esté disponible. |
Vuelve a la versión original. |
|
Eliminar o formatear datos del directorio central como /etc/kubernetes en el nodo |
El nodo principal dejará de estar disponible. |
Esta operación no se puede deshacer. |
|
Cambiar la dirección IP del nodo |
El nodo principal dejará de estar disponible. |
Vuelva a cambiar la dirección IP a la original. |
|
Modificación de los parámetros de los componentes principales (como etcd, kube-apiserver y docker) |
El nodo principal puede no estar disponible. |
Restaure la configuración de los parámetros a los valores recomendados. Para obtener más información, véase Gestión de configuración de clúster. |
|
Sustitución del certificado principal o etcd |
Es posible que el clúster no esté disponible. |
Esta operación no se puede deshacer. |
|
Nodo de trabajo |
Modificación del grupo de seguridad de un nodo en un clúster |
Es posible que el nodo no esté disponible.
NOTA:
Regla de nombre de un nodo de trabajo: Cluster name-cce-node-Random number |
Restaure el grupo de seguridad haciendo referencia a Compra de un clúster de CCE y permita que el tráfico del grupo de seguridad pase a través. |
Eliminar el nodo |
El nodo dejará de estar disponible. |
Esta operación no se puede deshacer. |
|
Reinstalación del SO |
Los componentes del nodo se eliminan y el nodo no está disponible. |
Restablezca el nodo. Para obtener más información, véase Restablecimiento de un nodo. |
|
Actualización del kernel del nodo |
El nodo puede no estar disponible o la red puede ser anormal.
NOTA:
La ejecución del nodo depende de la versión del kernel del sistema. No utilice el comando yum update para actualizar o reinstalar el núcleo del sistema operativo de un nodo a menos que sea necesario. (Reinstalar el kernel del sistema operativo usando la imagen original u otras imágenes es una operación arriesgada.) |
Si el sistema operativo es EulerOS 2.2, restaure el nodo o la conectividad de red consultando ¿Qué puedo hacer si la red de contenedores no está disponible después de la actualización yum se utiliza para actualizar el sistema operativo? Si el sistema operativo no es EulerOS 2.2, puede restablecer el nodo. Para más detalles, véase Restablecimiento de un nodo. |
|
Cambio de la dirección IP del nodo |
El nodo dejará de estar disponible. |
Vuelva a cambiar la dirección IP a la original. |
|
Modificación de los parámetros de los componentes principales (como kubelet y kube-proxy) |
El nodo puede no estar disponible, y los componentes pueden ser inseguros si se modifican las configuraciones relacionadas con la seguridad. |
Restaure la configuración de los parámetros a los valores recomendados. Para obtener más información, véase Configuración de un grupo de nodos. |
|
Modificación de la configuración del SO |
Es posible que el nodo no esté disponible. |
Restaure los elementos de configuración o restablezca el nodo. Para obtener más información, véase Restablecimiento de un nodo. |
|
Eliminar o modificar los directorios /opt/cloud/cce y /var/paas y eliminar el disco de datos |
El nodo no estará listo. |
Puede restablecer el nodo. Para obtener más información, véase Restablecimiento de un nodo. |
|
Modificación del permiso de directorio de nodo y del permiso de directorio contenedor |
Los permisos serán anormales. |
No se recomienda modificar los permisos. Restaure los permisos si se modifican. |
|
Formatear o particionar discos del sistema, discos de Docker y discos de kubelet en nodos. |
Es posible que el nodo no esté disponible. |
Restablezca el nodo. Para obtener más información, véase Restablecimiento de un nodo. |
|
Instalación de otro software en nodos |
Esto puede provocar excepciones en los componentes de Kubernetes instalados en el nodo y hacer que el nodo no esté disponible. |
Desinstale el software que se ha instalado y restaure o restablezca el nodo. Para obtener más información, véase Restablecimiento de un nodo. |
|
Modificación de las configuraciones de NetworkManager |
El nodo dejará de estar disponible. |
Restablezca el nodo. Para obtener más información, véase Restablecimiento de un nodo. |
|
Eliminar imágenes del sistema como cfe-pause del nodo. |
No se pueden crear contenedores y no se pueden extraer imágenes del sistema. |
Copie la imagen de otro nodo normal para su restauración. |
Redes y balanceo de carga
Operación |
Impacto |
Cómo evitar/reparar |
---|---|---|
Cambiar el valor del parámetro del núcleo net.ipv4.ip_forward a 0 |
La red se vuelve inaccesible. |
Cambie el valor a 1. |
Cambiar el valor del parámetro del núcleo net.ipv4.tcp_tw_recycle a 1 |
El servicio NAT se vuelve anormal. |
Cambie el valor a 0. |
Cambiar el valor del parámetro del núcleo net.ipv4.tcp_tw_reuse a 1 |
La red se vuelve anormal. |
Cambie el valor a 0. |
No configurar el grupo de seguridad de nodo para permitir que los paquetes UDP pasen a través del puerto 53 del bloque CIDR de contenedor |
El DNS del clúster no puede funcionar correctamente. |
Restaure el grupo de seguridad haciendo referencia a Compra de un clúster de CCE y permita que el tráfico del grupo de seguridad pase a través. |
Crear un oyente personalizado en la consola de ELB para el balanceador de carga gestionado por CCE |
Los elementos modificados son restablecidos por CCE o la entrada es defectuosa. |
Utilizar el archivo YAML del Service para crear automáticamente un oyente. |
Vincular un backend definido por el usuario en la consola de ELB al balanceador de carga gestionado por CCE. |
No vincular manualmente ningún backend. |
|
Cambiar el certificado de ELB en la consola de ELB para el balanceador de carga gestionado por CCE. |
Utilice el archivo YAML de la entrada para gestionar automáticamente los certificados. |
|
Cambiar el nombre de oyente en la consola de ELB para el oyente de ELB gestionado por CCE. |
No cambie el nombre del ELB oyente gestionado por CCE. |
|
Cambio de la descripción de balanceadores de carga, oyentes y políticas de reenvío gestionadas por CCE en la consola de ELB. |
No modifique la descripción de balanceadores de carga, oyentes o políticas de reenvío gestionadas por CCE. |
|
Elimine los recursos de CRD de las definiciones de network-attachment de default-network. |
La red de contenedor está desconectada o el clúster no se puede eliminar. |
Si los recursos se eliminan por error, utilice las configuraciones correctas para crear los recursos de red predeterminados. |
Logs
Operación |
Impacto |
Solución |
---|---|---|
Eliminar el directorio /tmp/ccs-log-collector/pos de la máquina host |
Los logs se recopilan repetidamente. |
Ninguna |
Eliminar el directorio /tmp/ccs-log-collector/buffer de la máquina host |
Los logs se pierden. |
Ninguna |
Discos de EVS
Operación |
Impacto |
Solución |
Notas |
---|---|---|---|
Desmontar manualmente de un disco de EVS en la consola |
Se notifica un error de E/S cuando se escriben los datos de pod en el disco. |
Elimine la ruta de montaje del nodo y vuelva a programar el pod. |
El archivo en el pod registra la ubicación donde se van a recopilar los archivos. |
Desmontar la ruta de montaje en disco en el nodo |
Los datos de pod se escriben en un disco local. |
Vuelva a montar la ruta correspondiente al pod. |
El búfer contiene archivos de caché de log que se van a consumir. |
Funcionar los discos de EVS en el nodo |
Los datos de pod se escriben en un disco local. |
Ninguna |
Ninguna |