¿Qué debo hacer si la suspensión de E/S ocurre ocasionalmente cuando se usan discos SCSI de EVS?
Síntoma
Cuando se utilizan los discos SCSI de EVS y se crean y eliminan contenedores en un nodo CentOS, los discos se montan y desmontan con frecuencia. La velocidad de lectura/escritura del disco del sistema puede aumentar instantáneamente. Como resultado, el sistema se suspende, lo que afecta al nodo normal que se ejecuta.
Cuando se produce este problema, se muestra la siguiente información en el log dmesg:
Attached SCSI disk task jdb2/xxx blocked for more than 120 seconds.
Por ejemplo:
Causa posible
Después de agregar un dispositivo PCI al BUS 0, el núcleo del SO Linux atravesará todos los puentes PCI montados en el BUS 0 varias veces, y estos puentes PCI no pueden funcionar correctamente durante este período. Durante este período, si el puente PCI utilizado por el dispositivo se actualiza, debido a un defecto del núcleo, el dispositivo considera que el puente PCI es anormal, y el dispositivo entra en un modo de falla y no puede funcionar normalmente. Si el front-end está escribiendo datos en el espacio de configuración PCI para que el back-end procese las E/S de disco, la operación de escritura puede eliminarse. Como resultado, el back-end no puede recibir notificaciones para procesar nuevas solicitudes en el anillo de E/S. Finalmente, se produce la suspensión de E/S de front-end.
Este problema es causado por un defecto del kernel de Linux. Para obtener más información, consulte los defectos en las distribuciones de Linux.
Impacto
Los núcleos de CentOS Linux de versiones anteriores a 3.10.0-1127.el7 se ven afectados.
Solución
Actualice el núcleo a una versión posterior restableciendo el nodo. Para obtener más información, consulte Restablecimiento de un nodo.
Ejecución de nodo Preguntas frecuentes
- ¿Qué debo hacer si un clúster está disponible pero algunos nodos no están disponibles?
- ¿Cómo soluciono los problemas de la falla al iniciar sesión de forma remota en un nodo en un clúster de CCE?
- ¿Cómo inicio sesión en un nodo usando una contraseña y restablezco la contraseña?
- ¿Cómo puedo recopilar logs de nodos en un clúster de CCE?
- ¿Qué puedo hacer si la red de contenedores no está disponible después de actualizar el sistema operativo?
- ¿Qué debo hacer si el disco vdb de un nodo está dañado y el nodo no se puede recuperar después del restablecimiento?
- ¿Qué puertos se utilizan para instalar kubelet en los nodos del clúster de CCE?
- ¿Cómo configuro un pod para usar la capacidad de aceleración de un nodo de GPU?
- ¿Qué debo hacer si la suspensión de E/S ocurre ocasionalmente cuando se usan discos SCSI de EVS?
- ¿Qué debo hacer si los logs excesivos de auditoría de Docker afectan a la E/S del disco?
- ¿Cómo soluciono un contenedor o nodo anormal debido a que no hay espacio en disco de thin pool?
- ¿En qué puertos escucha un nodo?
- ¿Cómo puedo rectificar fallas cuando se utiliza el controlador de NVIDIA para iniciar contenedores en nodos de GPU?
Comentarios
¿Le pareció útil esta página?
Deje algún comentariomore