Quando OOM do contêiner ocorre no nó de CentOS com uma versão anterior do kernel, o sistema de arquivos Ext4 é ocasionalmente suspenso
Sintoma
Se a versão do kernel de um nó do CentOS 7.6 for anterior a 3.10.0-1160.66.1.el7.x86_64 e o OOM ocorrer em contêineres no nó, todos os contêineres no nó podem falhar ao serem acessados, e processos como Docker e jdb estão no estado D. A falha é corrigida depois que o nó é reiniciado.
Possível causa
Quando o uso de memória de um contêiner de serviço excede o limite de memória do contêiner, OOM de cgroup é acionado e o contêiner é encerrado pelo kernel do sistema. O OOM de cgroup de contêiner ocasionalmente aciona a suspensão do sistema de arquivos ext4 no CentOS 7, e o ext4/jbd2 é suspenso permanentemente devido a um deadlock. Todas as tarefas que realizam operações de I/O no sistema de arquivos são afetadas.
Clique em here para mais informações.
Solução
- Solução temporária: reinicie o nó para corrigir temporariamente a falha.
- Solução a longo prazo:
- se a versão do cluster for 1.19.16-r0, 1.21.7-r0, 1.23.5-r0, 1.25.1-r0 ou posterior, redefina o sistema operacional do nó para a versão mais recente.
- Se a versão do cluster não atender aos requisitos, atualize o cluster para a versão especificada e, em seguida, redefina o sistema operacional do nó para a versão mais recente.