Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Atualizado em 2024-09-14 GMT+08:00

Processo de solução de problemas

Sintoma

Falhou em um trabalho de treinamento usando uma imagem personalizada.

Método de localização

  1. Determine a fonte da imagem.
    • Verifique se a imagem de base da imagem personalizada é do ModelArts. Use uma imagem de base fornecida pelo ModelArts para criar uma imagem personalizada. Para obter detalhes, consulte Uso de uma imagem de base para criar uma imagem de treinamento.
    • Se a imagem for de um terceiro, verifique com o criador da imagem personalizada como usar essa imagem.
  2. Determine o tamanho da imagem personalizada.

    Não utilize uma imagem personalizada com mais de 15 GB. O tamanho não deve exceder metade do espaço do mecanismo de contêiner do pool de recursos. Caso contrário, a hora de início do trabalho de treinamento será afetada.

    O espaço do mecanismo de contêiner do pool de recursos públicos do ModelArts é de 50 GB. Por padrão, o espaço do mecanismo de contêiner do pool de recursos dedicados também é de 50 GB. Você pode personalizar o espaço do mecanismo de contêiner ao criar um pool de recursos dedicados.

  3. Determine o tipo de erro.
    • Se uma mensagem de erro for exibida indicando que não foi possível encontrar um arquivo, consulte Mensagem de erro "No such file or directory" exibida em logs do trabalho de treinamento.
    • Se uma mensagem de erro for exibida indicando que um pacote não pôde ser encontrado, consulte Mensagem de erro "No module named .*" exibida em logs do trabalho de treinamento.
    • Ocorreu um erro no script de inicialização do Ascend ou no script de inicialização.

      Verifique se o script é obtido a partir do site oficial e se o script é usado estritamente seguindo as instruções fornecidas em documentos oficiais. Por exemplo, verifique se o nome e o caminho do script estão corretos.

    • A versão do driver é incompatível com o driver subjacente.

      Antes de atualizar o driver de uma imagem personalizada, verifique se a versão atualizada é suportada pelo driver subjacente. Obtenha as versões de driver suportadas.

    • Você não tem permissão para acessar um arquivo.

      A causa possível é que o usuário da imagem personalizada é diferente daquele do contêiner de trabalho. Nesse caso, modifique o Dockerfile.

      RUN if id -u ma-user > /dev/null 2>&1 ; \
      then echo 'The ModelArts user already exists.' ; \
      else echo 'The ModelArts user does not exist.' && \
      groupadd ma-group -g 1000 && \
      useradd -d /home/ma-user -m -u 1000 -g 1000 -s /bin/bash ma-user ; fi && \
      chmod 770 /home/ma-user && \
      chmod 770 /root && \
      usermod -a -G root ma-user
    • Para outros problemas, procure soluções em casos de falha de treinamento.

Resumo e sugestões

Antes de usar uma imagem personalizada para trabalhos de treinamento, crie a imagem seguindo as especificações de imagem personalizadas que também fornece exemplos de ponta a ponta para sua referência.