Processo de solução de problemas
Sintoma
Falhou em um trabalho de treinamento usando uma imagem personalizada.
Método de localização
- Determine a fonte da imagem.
- Verifique se a imagem de base da imagem personalizada é do ModelArts. Use uma imagem de base fornecida pelo ModelArts para criar uma imagem personalizada. Para obter detalhes, consulte Uso de uma imagem de base para criar uma imagem de treinamento.
- Se a imagem for de um terceiro, verifique com o criador da imagem personalizada como usar essa imagem.
- Determine o tamanho da imagem personalizada.
Não utilize uma imagem personalizada com mais de 15 GB. O tamanho não deve exceder metade do espaço do mecanismo de contêiner do pool de recursos. Caso contrário, a hora de início do trabalho de treinamento será afetada.
O espaço do mecanismo de contêiner do pool de recursos públicos do ModelArts é de 50 GB. Por padrão, o espaço do mecanismo de contêiner do pool de recursos dedicados também é de 50 GB. Você pode personalizar o espaço do mecanismo de contêiner ao criar um pool de recursos dedicados.
- Determine o tipo de erro.
- Se uma mensagem de erro for exibida indicando que não foi possível encontrar um arquivo, consulte Mensagem de erro "No such file or directory" exibida em logs do trabalho de treinamento.
- Se uma mensagem de erro for exibida indicando que um pacote não pôde ser encontrado, consulte Mensagem de erro "No module named .*" exibida em logs do trabalho de treinamento.
- Ocorreu um erro no script de inicialização do Ascend ou no script de inicialização.
Verifique se o script é obtido a partir do site oficial e se o script é usado estritamente seguindo as instruções fornecidas em documentos oficiais. Por exemplo, verifique se o nome e o caminho do script estão corretos.
- A versão do driver é incompatível com o driver subjacente.
Antes de atualizar o driver de uma imagem personalizada, verifique se a versão atualizada é suportada pelo driver subjacente. Obtenha as versões de driver suportadas.
- Você não tem permissão para acessar um arquivo.
A causa possível é que o usuário da imagem personalizada é diferente daquele do contêiner de trabalho. Nesse caso, modifique o Dockerfile.
RUN if id -u ma-user > /dev/null 2>&1 ; \ then echo 'The ModelArts user already exists.' ; \ else echo 'The ModelArts user does not exist.' && \ groupadd ma-group -g 1000 && \ useradd -d /home/ma-user -m -u 1000 -g 1000 -s /bin/bash ma-user ; fi && \ chmod 770 /home/ma-user && \ chmod 770 /root && \ usermod -a -G root ma-user
- Para outros problemas, procure soluções em casos de falha de treinamento.
Resumo e sugestões
Antes de usar uma imagem personalizada para trabalhos de treinamento, crie a imagem seguindo as especificações de imagem personalizadas que também fornece exemplos de ponta a ponta para sua referência.