Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Actualización más reciente 2024-09-14 GMT+08:00

Proceso de solución de problemas

Síntoma

Error en un trabajo de entrenamiento con una imagen personalizada.

Método de localización

  1. Determine el origen de la imagen.
    • Verifique si la imagen base de la imagen personalizada es de ModelArts. Utilice una imagen base proporcionada por ModelArts para crear una imagen personalizada. Para obtener más información, véase Uso de una imagen base para crear una imagen de entrenamiento.
    • Si la imagen es de un tercero, consulte con el creador de la imagen personalizada para saber cómo usarla.
  2. Determine el tamaño de la imagen personalizada.

    No utilice una imagen personalizada de más de 15 GB. El tamaño no debe exceder la mitad del espacio del motor del contenedor del grupo de recursos. De lo contrario, la hora de inicio del trabajo de entrenamiento se ve afectada.

    El espacio del motor de contenedor del grupo de recursos público de ModelArts es de 50 GB. Por defecto, el espacio del motor del contenedor del recurso de grupo dedicado también es de 50 GB. Puede personalizar el espacio del motor del contenedor al crear un grupo de recursos dedicado.

  3. Determine el tipo de error.
    • Si aparece un mensaje de error que indica que no se ha encontrado un archivo, véase Mensaje de error "No hay ningún archivo o directorio" en logs de trabajo de entrenamiento.
    • Si aparece un mensaje de error que indica que no se ha encontrado un paquete, véase Mensaje de error "No hay módulo con nombre .*" en logs de trabajos de entrenamiento.
    • Se produjo un error en el script de inicio de Ascend o en el script de inicialización.

      Verifique si el script se ha obtenido del sitio web oficial y si el script se utiliza estrictamente siguiendo las instrucciones proporcionadas en los documentos oficiales. Por ejemplo, verifique si el nombre y la ruta del script son correctos.

    • La versión del controlador no es compatible con el controlador subyacente.

      Antes de actualizar el controlador de una imagen personalizada, compruebe si la versión actualizada es compatible con el controlador subyacente. Obtenga las versiones de controlador admitidas.

    • No tiene permiso para acceder a un archivo.

      La posible causa es que el usuario de la imagen personalizada es diferente al del contenedor de trabajos. En este caso, modifique el Dockerfile.

      RUN if id -u ma-user > /dev/null 2>&1 ; \
      then echo 'The ModelArts user already exists.' ; \
      else echo 'The ModelArts user does not exist.' && \
      groupadd ma-group -g 1000 && \
      useradd -d /home/ma-user -m -u 1000 -g 1000 -s /bin/bash ma-user ; fi && \
      chmod 770 /home/ma-user && \
      chmod 770 /root && \
      usermod -a -G root ma-user
    • Para otros problemas, busque soluciones en casos de fallas de entrenamiento.

Resumen y sugerencias

Antes de usar una imagen personalizada para los trabajos de entrenamiento, cree la imagen siguiendo las especificaciones de imagen personalizada, que también proporciona ejemplos de extremo a extremo para su referencia.