- Descripción general del servicio
- Preparaciones
-
DevEnviron
- Introducción a DevEnviron
- Escenarios de aplicación
-
Gestión de instancias de notebook
- Creación de una instancia de notebook
- Acceso a una instancia de notebook
- Búsqueda, inicio, detención o supresión de instancias de notebook
- Cambio de una imagen de instancia de notebook
- Cambio de la variante de una instancia de notebook
- Selección de almacenamiento en DevEnviron
- Montaje dinámico de un sistema de archivos paralelo de OBS
- Ampliación dinámica de la capacidad del disco de EVS
- Modificación de la configuración de SSH para una instancia de notebook
- Consulta de las instancias de notebook de todos los usuarios de IAM con una cuenta de tenant
- Consulta de eventos de notebook
- Informes de alarmas del directorio de caché de notebook
-
JupyterLab
- Proceso de operación de JupyterLab
- Descripción y operaciones comunes de JupyterLab
- Complemento de parametrización de código
- Uso del SDK de ModelArts
- Uso de complemento de Git
- Entrenamiento de modelo visualizado
- Carga y descarga de datos en notebook
-
IDE local
- Proceso de operación en un IDE local
- IDE local (PyCharm)
- IDE local (VS Code)
- IDE local (acceso con SSH)
-
Referencia de comandos de ModelArts CLI
- Descripción de ModelArts CLI
- (Opcional) Instalación de ma-cli localmente
- Completado automático para comandos de ma-cli
- Autenticación de ma-cli
-
Comando de creación de ma-cli Image
- Comando de creación de ma-cli Image
- Obtención de una plantilla de creación de imágenes
- Carga de una plantilla de creación de imágenes
- Obtención de imágenes de ModelArts registradas
- Creación de una imagen en notebook de ModelArts
- Obtención de cachés de creación de imágenes en el notebook de ModelArts
- Borrado de cachés de creación de imágenes en el notebook de ModelArts
- Registro de imágenes de SWR con la gestión de imágenes de ModelArts
- Cancelación del registro de una imagen en la gestión de imágenes de ModelArts
- Depuración de una imagen de SWR en un ECS
-
Uso del comando ma-cli ma-job para enviar un trabajo de entrenamiento de ModelArts
- Descripción del comando ma-cli ma-job
- Obtención de trabajos de entrenamiento de ModelArts
- Envío de un trabajo de entrenamiento de ModelArts
- Obtención de logs de trabajos de entrenamiento de ModelArts
- Obtención de eventos de trabajo de entrenamiento de ModelArts
- Obtención de motores de IA de ModelArts para entrenamiento
- Obtención de especificaciones de recursos de ModelArts para entrenamiento
- Detención de un trabajo de entrenamiento de ModelArts
- Uso del comando ma-cli dli-job para enviar un trabajo de DLI Spark
- Uso de ma-cli para copiar datos de OBS
-
Implementación de inferencia
- Introducción a la Inferencia
- Gestión de aplicaciones de IA
-
Despliegue de una aplicación de IA como servicio
-
Despliegue de aplicaciones de IA como servicios en tiempo real
- Despliegue como servicio en tiempo real
- Consulta de detalles del servicio
- Prueba del servicio desplegado
- Acceso a los servicios en tiempo real
- Integración de un servicio en tiempo real
- Cloud Shell
- Despliegue de aplicaciones de IA como servicios por lotes
- Actualización de un servicio
- Inicio, parada, supresión o reinicio de un servicio
- Consulta de eventos de servicio
-
Despliegue de aplicaciones de IA como servicios en tiempo real
-
Especificaciones de inferencia
- Especificaciones del paquete de modelo
-
Plantillas de modelo
- Introducción a las plantillas de modelo
-
Plantillas
- Plantilla de clasificación de imágenes basada en TensorFlow
- Plantilla general de TensorFlow-py27
- Plantilla general de TensorFlow-py36
- Plantilla general MXNet-py27
- Plantilla general MXNet-py36
- Plantilla general PyTorch-py27
- Plantilla general PyTorch-py36
- Plantilla general Caffe-CPU-py27
- Plantilla general Caffe-GPU-py27
- Plantilla general Caffe-CPU-py36
- Plantilla general Caffe-GPU-py36
- Plantilla Arm-Ascend
- Modos de entrada y salida
- Ejemplos de scripts personalizados
- ModelArts monitoreo en Cloud Eye
-
Contenedores de Docker con ModelArts
- Gestión de imágenes
-
Uso de una imagen preestablecida
- Imágenes preestablecidas en notebook
- Imagen de base de entrenamiento
- Imágenes de base de inferencia
- Uso de imágenes personalizadas en instancias de notebook
-
Uso de una imagen personalizada para entrenar modelos (entrenamiento de modelos)
- Descripción general
-
Ejemplo: creación de una imagen personalizada para entrenamiento
- Ejemplo: creación de una imagen personalizada para el entrenamiento (PyTorch + CPU/GPU)
- Ejemplo: creación de una imagen personalizada para entrenamiento (MPI + CPU/GPU)
- Ejemplo: creación de una imagen personalizada para entrenamiento (Horovod-PyTorch y GPU)
- Ejemplo: creación de una imagen personalizada para entrenamiento (MindSpore y GPU)
- Ejemplo: creación de una imagen personalizada para entrenamiento (TensorFlow y GPU)
- Preparación de una imagen de entrenamiento
- Creación de un algoritmo mediante una imagen personalizada
- Uso de una imagen personalizada para crear un trabajo de entrenamiento basado en CPU o GPU
- Proceso de solución de problemas
- Uso de una imagen personalizada para crear aplicaciones de IA para el despliegue de inferencia
-
Preguntas frecuentes
- ¿Cómo puedo iniciar sesión en SWR y cargar imágenes en él?
- ¿Cómo configuro variables de entorno para una imagen?
- ¿Cómo uso Docker para iniciar una imagen guardada con una instancia de notebook?
- ¿Cómo configuro un origen de Conda en un entorno de desarrollo de notebook?
- ¿Cuáles son las versiones de software admitidas para una imagen personalizada?
- Cambios de modificaciones
-
Referencia de la API
- Antes de comenzar
- Llamar a las API
-
Gestión de datos
- API de gestión de datos
-
Gestión de conjuntos de datos
- Consulta de la lista de conjuntos de datos
- Creación de un conjunto de datos
- Consulta de detalles acerca de un conjunto de datos
- Modificación de un conjunto de datos
- Eliminación de un conjunto de datos
- Consulta de estadísticas de conjunto de datos
- Consulta de los datos de supervisión de un conjunto de datos
- Gestión de versiones de conjuntos de datos
-
Gestión de muestras
- Consulta de la lista de muestra
- Adición de muestras en lotes
- Eliminación de muestras en lotes
- Consulta de detalles acerca de una muestra
- Obtención de la condición de búsqueda de muestra
- Consulta de la lista de muestra de una tarea de etiquetado de equipo por página
- Consulta de detalles acerca de ejemplos de etiquetado de equipos
- Gestión de etiquetas
- Etiquetado manual
-
Gestión de tareas de etiquetado
- Consulta de la lista de tareas de etiquetado de equipos de un conjunto de datos
- Creación de una tarea de etiquetado de equipo
- Consulta de detalles acerca de una tarea de etiquetado de equipo
- Inicio de una tarea de etiquetado de equipo
- Actualización de una tarea de etiquetado de equipo
- Eliminación de una tarea de etiquetado de equipo
- Creación de una Tarea de Aceptación de Etiquetado de Equipo
- Consulta del Informe de una Tarea de Aceptación de Etiquetado de Equipo
- Actualización del estado de una tarea de aceptación de etiquetado de equipo
- Consulta de detalles Acerca de las estadísticas de tareas de etiquetado de equipos
- Consulta de detalles acerca del progreso de un miembro de la tarea de etiquetado de equipo
- Consulta de la lista de tareas de etiquetado de equipos por un miembro del equipo
- Gestión de procesos de etiquetado de equipos
- Gestión de equipos de etiquetado
-
Labeling Team Member Management
- Envío de un correo electrónico a un miembro del equipo de etiquetado
- Consulta de la lista de todos los miembros del equipo de etiquetado
- Consulta de la lista de miembros del equipo de etiquetado
- Creación de un miembro del equipo de etiquetado
- Eliminación de etiquetado de miembros del equipo en lotes
- Consulta de detalles acerca de miembros de equipo de etiquetado
- Actualización de un miembro del equipo de etiquetado
- Eliminación de un miembro del equipo de etiquetado
- Tarea de importación de datos
- Tarea de exportación de datos
- Tarea de sincronización de datos
- Tarea inteligente
- Tarea de procesamiento
-
DevEnviron (Recomendado)
-
Gestión de instancias de DevEnviron
- Consulta de imágenes admitidas
- Consulta de Instancias de Notebook
- Creación de una instancia de notebook
- Consulta de detalles de una instancia de notebook
- Actualización de una instancia de Notebook
- Supresión de una instancia de Notebook
- Consulta de variantes disponibles para una instancia de notebook
- Consulta de la duración disponible de una instancia de Notebook en ejecución
- Prolongación de una instancia de Notebook
- Inicio de una instancia de Notebook
- Detención de una instancia de Notebook
- Montaje de almacenamiento OBS
-
Gestión de instancias de DevEnviron
-
Gestión de la formación (recomendada)
- Gestión de algoritmos
-
Gestión de trabajos de entrenamiento
- Creación de un trabajo de entrenamiento
- Consulta de los detalles de un trabajo de formación
- Modificación de la descripción de un trabajo de formación
- Supresión de un trabajo de entrenamiento
- Finalización de un trabajo de entrenamiento
- Consulta de los logs de una tarea especificada en un trabajo de entrenamiento determinado (vista previa)
- Consulta de los logs de una etiqueta especificada en un trabajo de entrenamiento determinado (URL OBS)
- Consulta de las métricas en ejecución de una tarea especificada en un trabajo de entrenamiento
- Consulta de una lista de trabajos de formación
- Especificaciones de recursos y motores
- Gestión de modelos
-
Gestión de servicios
- Implementación de un modelo como servicio
- Consulta de una lista de servicios
- Consulta de los detalles sobre un servicio
- Actualización de configuraciones de servicio
- Consulta de información de supervisión del servicio
- Consulta de registros de actualización del servicio
- Consulta de registros de eventos de servicio
- Eliminación de un servicio
- Consulta de especificaciones de implementación de servicios admitidos
- Consulta de grupos de recursos dedicados
- Gestión de autorizaciones
- Casos de uso
- Políticas de permisos y acciones admitidas
- Parámetros comunes
- Historial de revisiones
-
Preguntas frecuentes
-
Cuestiones generales
- ¿Qué es ModelArts?
- ¿Cuáles son las relaciones entre ModelArts y otros servicios?
- ¿Cuáles son las diferencias entre ModelArts y DLS?
- ¿Cómo puedo comprar o activar ModelArts?
- ¿Qué chips de Ascend son compatibles?
- ¿Cómo obtengo una clave de acceso?
- ¿Cómo subo datos a OBS?
- What Do I Do If the System Displays a Message Indicating that the AK/SK Pair Is Unavailable?
- ¿Qué debo hacer si se muestra un mensaje que indica permisos insuficientes cuando utilizo ModelArts?
- ¿Cómo uso ModelArts para entrenar modelos basados en datos estructurados?
- ¿Qué son las Regiones y las AZ?
- ¿Cómo puedo comprobar si ModelArts y un bucket de OBS están en la misma región?
- ¿Cómo puedo ver todos los archivos almacenados en OBS de ModelArts?
- ¿Por qué se muestra el error: 403 Forbidden cuando realizo operaciones en OBS?
- ¿Dónde se almacenan los conjuntos de datos de ModelArts en un contenedor?
- ¿Qué marcos de IA admite ModelArts?
- ¿Cuáles son las funciones del entrenamiento y la inferencia de ModelArts?
- ¿Cómo puedo ver un ID de cuenta y un ID de usuario de IAM?
- ¿Puede la identificación asistida por IA de ModelArts identificar una etiqueta específica?
- ¿Cómo utiliza ModelArts las etiquetas para gestionar recursos por grupo?
- ¿Cómo puedo ver todas las métricas de supervisión de ModelArts?
- ¿Por qué el trabajo sigue en cola cuando los recursos son suficientes?
-
Facturación
- ¿Cómo puedo ver los trabajos de ModelArts que se están facturando?
- ¿Cómo puedo ver los detalles de consumo de ModelArts?
- ¿Se me cobrará por cargar conjuntos de datos a ModelArts?
- ¿Qué debo hacer para evitar la facturación innecesaria después de etiquetar conjuntos de datos y salir?
- ¿Cómo dejo de facturar un proyecto ExeML de ModelArts?
- ¿Cómo dejo de facturar si no uso ModelArts?
- ¿Cómo se facturan los trabajos de entrenamiento?
- ¿Por qué continúa la facturación después de que se eliminen todos los proyectos?
- ¿Necesito comprar recursos de pago por uso?
-
ExeML
- Consultoría funcional
- Preparación de datos
- Creación de un proyecto
- Etiquetado de datos
-
Training Models
- ¿Qué debo hacer cuando el botón Train no está disponible después de crear un proyecto de clasificación de imágenes y etiquetar las imágenes?
- ¿Cómo realizo entrenamiento incremental en un proyecto ExeML?
- ¿Puedo descargar un modelo entrenado usando ExeML?
- ¿Por qué falla el entrenamiento de ExeML?
- ¿Qué hago si se produjo un error de imagen durante el entrenamiento del modelo con ExeML?
- ¿Qué hago si se produjo el error de ModelArts.0010 cuando uso ExeML para iniciar el entrenamiento como usuario de IAM?
- ¿Cuál es la velocidad de entrenamiento de cada parámetro en la configuración de preferencias de entrenamiento de ExeML?
- ¿Qué hago si "ERROR:input key sound is not in model" ocurre cuando uso ExeML para la predicción de clasificación de sonido?
- Despliegue de modelos
-
Gestión de datos
- ¿Hay límites de tamaño para las imágenes que se van a cargar?
- ¿Qué hago si no se pueden mostrar las imágenes de un conjunto de datos?
- ¿Cómo integro múltiples conjuntos de datos de detección de objetos en un conjunto de datos?
- ¿Qué hago si se ha producido un error al importar un conjunto de datos?
- ¿Se puede etiquetar un conjunto de datos de tabla?
- ¿Qué hago para importar datos etiquetados localmente a ModelArts?
- ¿Por qué los datos no se importan con el archivo de manifiesto?
- ¿Dónde se almacenan los resultados de etiquetado?
- ¿Cómo descargo los resultados de etiquetado en un PC local?
- ¿Por qué los miembros del equipo no pueden recibir correos electrónicos para una tarea de etiquetado de equipo?
- ¿Pueden dos cuentas etiquetar simultáneamente un conjunto de datos?
- ¿Cómo se distribuyen los datos entre los miembros del equipo durante el etiquetado del equipo?
- ¿Puedo eliminar un anotador de un equipo de etiquetado con una tarea de etiquetado asignada? ¿Cuál es el impacto en el resultado del etiquetado después de la eliminación? Si no se puede eliminar el anotador, ¿puedo separar el resultado de etiquetado del anotador?
- ¿Cómo defino un ejemplo difícil en el etiquetado de datos? ¿Qué muestras se identifican como ejemplos duros?
- ¿Puedo agregar varios cuadros de etiquetado a una imagen de conjunto de datos de detección de objetos?
- ¿Cómo fusiono dos conjuntos de datos?
- ¿Qué significan las opciones para aceptar una tarea de etiquetado de equipo?
- ¿Por qué se muestran las imágenes en diferentes ángulos bajo la misma cuenta?
- ¿Necesito entrenar datos de nuevo si se agregan datos nuevos después de completar el etiquetado automático?
- ¿Por qué el sistema muestra un mensaje que indica que mi etiqueta no se guarda en ModelArts?
- ¿Se puede identificar una etiqueta entre varias etiquetas?
- ¿Por qué las imágenes recién agregadas no se etiquetan automáticamente después de activar la amplificación de datos?
- ¿Por qué no se pueden mostrar o reproducir los vídeos de un conjunto de datos de vídeo?
- ¿Por qué todas las muestras etiquetadas almacenadas en un bucket de OBS se muestran como sin etiqueta en ModelArts después de sincronizar el origen de datos?
- ¿Cómo uso Soft-NMS para reducir la superposición de cajas delimitadoras?
- ¿Por qué se pierden las etiquetas de imagen de ModelArts?
- ¿Cómo agrego imágenes a un conjunto de datos de validación o entrenamiento?
- ¿Puedo personalizar etiquetas para un conjunto de datos de detección de objetos?
- ¿Para qué se puede utilizar la gestión de datos de ModelArts?
- ¿Por qué no puedo encontrar mi bucket de OBS creado después de seleccionar una ruta OBS de ModelArts?
- ¿Se borrarán mis conjuntos de datos de la versión antigua después de que se interrumpa la versión antigua? Los conjuntos de datos existentes y los nuevos creados en la versión anterior se conservarán después de que se interrumpa la versión anterior.
- ¿Por qué mi nueva versión de conjunto de datos no está disponible en versiones?
- ¿Cómo puedo ver el tamaño de un conjunto de datos?
- ¿Cómo puedo ver los detalles de etiquetado de un nuevo conjunto de datos?
- ¿Cómo puedo exportar datos etiquetados?
- ¿Por qué no puedo encontrar mi conjunto de datos recién creado?
- ¿Qué hago si la cuota de la base de datos es incorrecta?
- ¿Cómo divido un conjunto de datos?
- ¿Cómo puedo eliminar una imagen de conjunto de datos?
- ¿Por qué no hay muestra en el conjunto de datos de ModelArts descargado desde AI Gallery y luego desde un bucket de OBS?
-
Notebook (Nueva Versión)
- Restricciones
-
Carga o descarga de datos
- ¿Cómo cargo un archivo desde una instancia de Notebook a OBS o descargo un archivo desde OBS a una instancia de Notebook?
- ¿Cómo cargo archivos locales a una instancia de Notebook?
- ¿Cómo puedo importar archivos grandes a una instancia de notebook?
- Where Will the Data Be Uploaded to?
- ¿Cómo descargo archivos de una instancia de Notebook a un equipo local?
- ¿Cómo puedo copiar datos del entorno de desarrollo del notebook A al notebook B?
-
Almacenamiento de datos
- ¿Cómo cambio el nombre de un archivo de OBS?
- ¿Todavía existen archivos en /cache después de que se detenga o reinicie una instancia de notebook? ¿Cómo puedo evitar un reinicio?
- ¿Cómo uso la biblioteca de pandas para procesar datos en los bucket de OBS?
- ¿Cómo accedo al bucket de OBS de otra cuenta desde una instancia de Notebook?
- Configuraciones de entorno
-
Instancias de notebook
- ¿Qué hago si no puedo acceder a mi instancia de notebook?
- ¿Qué debo hacer cuando el sistema muestra un mensaje de error que indica que no queda espacio después de ejecutar el comando pip install?
- ¿Qué hago si se muestra "Read timed out" después de ejecutar pip install?
- ¿Qué hago si el código se puede ejecutar pero no se puede guardar y se muestra el mensaje de error "save error"?
- ¿Por qué se notifica un error de tiempo de espera de solicitud cuando hago clic en el botón Open de una instancia de Notebook?
-
Code Execution
- ¿Qué hago si una instancia de notebook no ejecuta mi código?
- ¿Por qué se descompone la instancia cuando se muestra el núcleo muerto durante la ejecución del código de entrenamiento?
- ¿Qué hago si cudaCheckError ocurre durante el entrenamiento?
- ¿Qué debo hacer si DevEnviron genera espacio insuficiente?
- ¿Por qué se descompone la instancia del notebook cuando se utiliza opencv.imshow?
- ¿Por qué no se puede encontrar la ruta de acceso de un archivo de texto generado en el sistema operativo Windows en una instancia de notebook?
- ¿Qué debo hacer si JupyterLab no se guarda ningún archivo?
-
VS Code
- ¿Qué hago si falló la instalación de un complemento remoto?
- ¿Qué hago si solo se puede conectar una instancia de notebook reiniciada después de eliminar localmente known_hosts.?
- ¿Qué hago si no se puede acceder al código fuente cuando uso VS Code para la depuración?
- ¿Qué hago si se muestra un mensaje que indica un nombre de usuario o una dirección de correo electrónico incorrectos cuando uso VS Code para enviar el código?
- ¿Cómo puedo ver los logs remotos en VS Code?
- ¿Cómo puedo abrir el archivo de configuración de VS Code settings.json?
- ¿Cómo cambio el color de fondo del VS Code al verde claro?
- How Can I Set the Default Remote Plug-in in VS Code?
- ¿Cómo puedo instalar un complemento local en el extremo remoto o un complemento remoto en el extremo local con VS Code?
-
Fallas en el acceso al entorno de desarrollo con VS Code
- ¿Cuándo lo hago si no se muestra la ventana de VS Code?
- What Do I Do If a Remote Connection Failed After VS Code Is Opened?
- ¿Qué hago si se muestra el mensaje de error "Could not establish connection to xxx" durante una conexión remota?
- ¿Qué hago si la conexión a un entorno de desarrollo remoto permanece en estado "Setting up SSH Host xxx: Downloading VS Code Server locally" por más de 10 minutos?
- ¿Qué debo hacer si la conexión a un entorno de desarrollo remoto permanece en el estado de "Setting up SSH Host xxx: Downloading VS Code Server locally" por más de 10 minutos?
- ¿Qué hago si la conexión a un entorno de desarrollo remoto permanece en el estado de "ModelArts Remote Connect: Connecting to instance xxx..." durante más de 10 minutos?
- ¿Qué hago si una conexión remota está en el estado de reintento?
- ¿Qué hago si se muestra el mensaje de error "The VS Code Server failed to start"?
- ¿Qué hago si se muestra el mensaje de error "Permissions for 'x:/xxx.pem' are too open"?
- ¿Qué hago si se muestra un mensaje de error Bad owner or permissions on C:\Users\Administrator/.ssh/config" o "Connection permission denied (publickey)"?
- ¿Qué hago si se muestra el mensaje de error "ssh: connect to host xxx.pem port xxxxx: Connection refused"?
- ¿Qué hago si se muestra el mensaje de error "ssh: connect to host ModelArts-xxx port xxx: Connection timed out"?
- What Do I Do If Error Message "Load key "C:/Users/xx/test1/xxx.pem": invalid format" Is Displayed?
- ¿Qué hago si se muestra el mensaje de error "An SSH installation couldn't be found" o "Could not establish connection to instance xxx: 'ssh' ..."?
- ¿Qué hago si se muestra un mensaje de error "no such identity: C:/Users/xx /test.pem: No such file or directory"?
- ¿Qué hago si se muestra el mensaje de error "Host key verification failed" o "Port forwarding is disabled"?
- ¿Qué hago si se muestra el mensaje de error "Failed to install the VS Code Server" o "tar: Error is not recoverable: exiting now"?
- ¿Qué hago si se muestra el mensaje de error "XHR failed" cuando se accede a una instancia de notebook remota a través de VS Code?
- ¿Qué hago para una conexión de VS Code desconectada automáticamente si no se realiza ninguna operación durante mucho tiempo?
- ¿Qué hago si toma mucho tiempo configurar una conexión remota después de actualizar automáticamente VS Code?
- ¿Qué hago si se muestra el mensaje de error "Connection reset" durante una conexión de SSH?
- ¿Qué puedo hacer si una instancia de Notebook se desconecta o se atasca con frecuencia después de usar MobaXterm para conectarme a la instancia de Notebook en modo SSH?
-
Otros
- ¿Cómo uso varias tarjetas de Ascend para la depuración en una instancia de notebook?
- ¿Por qué la velocidad de entrenamiento es similar cuando se usan diferentes variantes para notebook?
- ¿Cómo realizo entrenamiento incremental cuando uso MoXing?
- ¿Cómo puedo ver el uso de la GPU en el notebook?
- ¿Cómo puedo obtener el uso de GPU con el código?
- ¿Qué indicadores de rendimiento en tiempo real de un chip Ascend puedo ver?
- ¿El sistema detiene o elimina automáticamente una instancia de notebook si no habilito la parada automática?
- ¿Cuáles son las relaciones entre los archivos almacenados en el JupyterLab, Terminal y OBS?
- ¿Cómo puedo migrar datos de una instancia de notebook de versión antigua a una de versión nueva?
- ¿Cómo uso los conjuntos de datos creados en ModelArts en una instancia de notebook?
- pip y comandos comunes
- ¿Cuáles son los tamaños de los directorios /cache para diferentes especificaciones de notebook de DevEnviron?
-
Trabajos de entrenamiento
-
Consultoría funcional
- ¿Cuáles son los requisitos de formato para los algoritmos importados desde un entorno local?
- ¿Cuáles son las soluciones para el underfitting?
- ¿Cuáles son las precauciones para cambiar los trabajos de entrenamiento de la versión antigua a la nueva?
- ¿Cómo obtengo un modelo de ModelArts entrenado?
- ¿Cómo configuro el entorno de tiempo de ejecución del motor de IA Scikit_Learn 0.18.1?
- ¿Deben ser categóricos los hiperparámetros optimizados usando un algoritmo de TPE?
- ¿Para qué se utiliza TensorBoard en los trabajos de visualización de modelos?
- ¿Cómo obtengo RANK_TABLE_FILE en ModelArts para el entrenamiento distribuido?
- ¿Cómo obtengo las versiones CUDA y cuDNN de una imagen personalizada?
- ¿Cómo obtengo un archivo de instalación de MoXing?
- En un entrenamiento con multinodo, el nodo de PS TensorFlow que funciona como un servidor se suspenderá continuamente. ¿Cómo determina ModelArts si el entrenamiento está completo? ¿Qué nodo es un trabajador?
- ¿Cómo instalo MoXing para una imagen personalizada?
-
Lectura de datos durante el entrenamiento
- ¿Cómo configuro los datos de entrada y salida para los modelos de entrenamiento de ModelArts?
- ¿Cómo mejoro la eficiencia del entrenamiento reduciendo la interacción con OBS?
- ¿Por qué la eficiencia de lectura de datos es baja cuando se leen un gran número de archivos de datos durante el entrenamiento?
-
Compilación del código de entrenamiento
- ¿Cómo creo un trabajo de entrenamiento cuando el modelo que se va a entrenar hace referencia a un paquete de dependencia?
- What Is the Common File Path for Training Jobs?
- ¿Cómo instalo una biblioteca de la que depende C++?
- ¿Cómo puedo comprobar si una copia de carpeta está completa durante el entrenamiento laboral?
- ¿Cómo cargo algunos parámetros bien entrenados durante el entrenamiento laboral?
- ¿Cómo obtengo los parámetros del trabajo de entrenamiento del archivo de arranque del trabajo de entrenamiento?
- ¿Por qué no puedo usar os.system ('cd xxx') para acceder a la carpeta correspondiente durante el entrenamiento laboral?
- ¿Cómo invoco un script de Shell en un trabajo de entrenamiento para ejecutar el archivo .sh?
- ¿Cómo obtengo la ruta para almacenar el archivo de dependencia en el código de entrenamiento?
- ¿Cuál es la ruta de acceso del archivo si se hace referencia a un archivo del directorio modelo en un paquete personalizado de Python?
-
Creación de un trabajo de entrenamiento
- ¿Qué puedo hacer si se muestra el mensaje "Object directory size/quantity exceeds the limit" al crear un trabajo de entrenamiento?
- ¿Cuáles son las precauciones para establecer parámetros de entrenamiento?
- ¿Cuáles son los tamaños de los directorios /cache para diferentes especificaciones de recursos en el entorno de entrenamiento?
- ¿Es seguro el directorio /cache de un trabajo de entrenamiento?
- ¿Por qué un trabajo de entrenamiento siempre está en cola?
- Gestión de versiones de trabajos de entrenamiento
-
Consulta de detalles de trabajo
- ¿Cómo puedo comprobar el uso de recursos de un trabajo de entrenamiento?
- ¿Cómo accedo a los antecedentes de un trabajo de entrenamiento?
- ¿Hay algún conflicto cuando los modelos de dos trabajos de entrenamiento se guardan en el mismo directorio de un contenedor?
- Solo se conservan tres dígitos válidos en un log de salida del entrenamiento. ¿Se puede cambiar el valor de loss?
- ¿Se puede descargar o migrar un modelo entrenado a otra cuenta? ¿Cómo obtengo la ruta de descarga?
-
Consultoría funcional
- Gestión de modelos
-
Despliegue del servicio
-
Consultoría funcional
- ¿Qué tipos de servicios se pueden desplegar modelos en ModelArts?
- ¿Cuáles son las diferencias entre los servicios en tiempo real y los servicios por lotes?
- ¿Por qué no puedo seleccionar los recursos de Ascend 310?
- ¿Pueden desplegarse localmente los modelos entrenados por ModelArts?
- ¿Cuál es el tamaño máximo de un organismo de solicitud de inferencia?
- ¿Se pueden facturar los servicios en tiempo real sobre una base anual/mensual?
- ¿Cómo selecciono las especificaciones del nodo informático para desplegar un servicio?
- ¿Qué es la versión de CUDA para desplegar un servicio en GPU?
-
Servicios en tiempo real
- ¿Qué hago si se produce un conflicto en el paquete de dependencia de Python de un script de predicción personalizado cuando despliego un servio en tiempo real?
- ¿Cómo acelero la predicción en tiempo real?
- ¿Cuál es el formato de una API de servicio en tiempo real?
- ¿Cómo puedo comprobar si un modelo causa un error cuando se ejecuta un servicio en tiempo real pero la predicción ha fallado?
- ¿Cómo relleno el encabezado de solicitud y el cuerpo de solicitud de una solicitud de inferencia cuando se está ejecutando un servicio en tiempo real?
- ¿Por qué no puedo acceder a la dirección de solicitud de inferencia obtenida desde el cliente iniciador?
- ¿Qué hago si no se extrae una imagen cuando se despliega, inicia, actualiza o modifica un servicio en tiempo real?
- ¿Qué hago si una imagen se reinicia repetidamente cuando se despliega, inicia, actualiza o modifica un servicio en tiempo real?
- ¿Qué hago si falló la comprobación del estado de un contenedor cuando se despliega, inicia, actualiza o modifica un servicio en tiempo real?
- ¿Qué hago si los recursos son insuficientes cuando se despliega, inicia, actualiza o modifica un servicio en tiempo real?
- ¿Qué hago si falló el despliegue de un servicio debido a una cuota insuficiente?
- ¿Por qué falló el despliegue de mi servicio con el tiempo de espera deel despliegue adecuado configurado?
-
Consultoría funcional
-
Grupos de recursos
- ¿Puedo usar ECS para crear un grupo de recursos dedicado para ModelArts?
- ¿Puedo desplegar varios servicios en un nodo de grupo de recursos dedicado?
- ¿Cómo se factura un nodo recién agregado a un grupo de recursos dedicado?
- ¿Cuáles son las diferencias entre un grupo de recursos públicos y un grupo de recursos dedicado?
- How Do I Log In to a Dedicated Resource Pool Node Through SSH?
- ¿Cómo se ponen en cola los trabajos de entrenamiento?
- ¿Qué hago si los recursos son insuficientes para mirar un nuevo servicio en tiempo real después de detener un servicio en tiempo real en un grupo de recursos dedicado?
- ¿Se puede utilizar un grupo de recursos público para la conexión de red entre ModelArts y el servicio de autenticación para ejecutar algoritmos?
- ¿Por qué un grupo de recursos dedicado que no se crea todavía se muestra en la consola después de que se elimina?
- ¿Cómo agrego una interconexión de VPC entre un grupo de recursos dedicado y un SFS?
- ¿Qué debo hacer si un trabajo de entrenamiento siempre está esperando en una cola de recursos?
-
API/SDK
- ¿Se pueden usar las API o los SDK de ModelArts para descargar modelos a una PC local?
- ¿Qué entornos de instalación admiten los SDK de ModelArts?
- ¿Utiliza ModelArts la API de OBS para acceder a archivos de OBS por una intranet o Internet?
- ¿Cómo obtengo una curva de uso de recursos de trabajo después de enviar un trabajo de entrenamiento llamando a una API?
- Historial de cambios
-
Cuestiones generales
- Pasos iniciales
-
Resource Management
- Grupo de recursos
-
Clúster elástico
- Actualizaciones integrales a las funciones de gestión de grupo de recursos de ModelArts
- Creación de un grupo de recursos
- Consulta de detalles sobre un grupo de recursos
- Cambio de tamaño de un grupo de recursos
- Establecimiento de una política de renovación
- Modificación de la política de caducidad
- Migración del espacio de trabajo
- Cambio de tipos de trabajos soportados por un grupo de recursos
- Actualización de un controlador de grupo de recursos
- Eliminación de un grupo de recursos
- Estado anormal de un grupo de recursos dedicado
- Red de ModelArts
- Nodos de ModelArts
- Logs de auditoría
-
Recursos de monitoreo
- Descripción general
- Uso de Grafana para consultar métricas de monitoreo de AOM
- Consulta de todas las métricas de control de ModelArts en la consola de AOM
-
Prácticas recomendadas
- Muestras oficiales
-
Gestión de permisos
- Conceptos básicos
- Mecanismos de gestión de permiso
-
Prácticas de configuración en escenarios típicos
- Asignación de permisos a los usuarios individuales para utilizar ModelArts
- Asignación de permisos básicos para utilizar ModelArts
- Asignación separada de permisos a administradores y desarrolladores
- Consulta de todas las instancias de notebook de un proyecto de IAM
- Inicio de sesión en un contenedor de entrenamiento con Cloud Shell
- Prohibición de que un usuario utilice un grupo de recursos público
- Concesión de permisos de acceso a la carpeta SFS Turbo a usuarios de IAM
- Preguntas frecuentes
- Notebook
-
Entrenamiento de modelos
- Uso de un algoritmo personalizado para crear un modelo de reconocimiento de dígitos escrito a mano
- Ejemplo: creación de una imagen personalizada para el entrenamiento (PyTorch + CPU/GPU)
- Ejemplo: creación de una imagen personalizada para entrenamiento (MPI + CPU/GPU)
- Ejemplo: creación de una imagen personalizada para entrenamiento (Horovod-PyTorch y GPU)
- Ejemplo: creación de una imagen personalizada para entrenamiento (MindSpore y GPU)
- Ejemplo: creación de una imagen personalizada para entrenamiento (TensorFlow y GPU)
-
Inferencia del modelo
- Creación de una imagen personalizada y su uso para crear una aplicación de IA
- Habilitación de un servicio de inferencia para acceder a Internet
- O&M de extremo a extremo para servicios de inferencia
- Creación de una aplicación de IA con un motor personalizado
- Creación de una aplicación de IA con un modelo grande y despliegue de un servicio en tiempo real
- Migración de un marco de inferencia de terceros a un motor de inferencia personalizado
- Acceso de alta velocidad a servicios de inferencia por interconexión de las VPC
- Desarrollo de procesos completos de servicios de WebSocket en tiempo real
- Actualmente, el contenido no está disponible en el idioma seleccionado. Sugerimos consultar la versión en inglés.
- What's New
- Function Overview
- Product Bulletin
-
Billing
- Billing Modes
- Billing Item
- Billing Examples
- Changing the Billing Mode
- Renewal
- Bills
- About Arrears
- Stopping Billing
- Cost Management
-
Billing FAQs
- How Do I View the ModelArts Jobs Being Billed?
- How Do I View ModelArts Expenditure Details?
- How Do I Stop Billing If I Do Not Use ModelArts?
- Will I Be Charged for Uploading Datasets to ModelArts?
- What Should I Do to Avoid Unnecessary Billing After I Label Datasets and Exit?
- How Do I Stop Billing for a ModelArts ExeML Project?
- How Are Training Jobs Billed?
- Why Does Billing Continue After All Projects Are Deleted?
-
ModelArts User Guide (Standard)
- ModelArts Standard Usage
- ModelArts Standard Preparations
-
ModelArts Standard Resource Management
- About ModelArts Standard Resource Pools
- Creating a Standard Dedicated Resource Pool
-
Managing Standard Dedicated Resource Pools
- Viewing Details About a Standard Dedicated Resource Pool
- Resizing a Standard Dedicated Resource Pool
- Upgrading the Standard Dedicated Resource Pool Driver
- Rectifying a Faulty Node in a Standard Dedicated Resource Pool
- Modifying the Job Types Supported by a Standard Dedicated Resource Pool
- Migrating Standard Dedicated Resource Pools and Networks to Other Workspaces
- Configuring the Standard Dedicated Resource Pool to Access the Internet
- Using TMS Tags to Manage Resources by Group
- Managing Free Nodes in a Standard Dedicated Resource Pool
- Releasing Standard Dedicated Resource Pools and Deleting the Network
- Using ExeML for Zero-Code AI Development
-
Using Workflows for Low-Code AI Development
- What Is Workflow?
- Managing a Workflow
- Workflow Development Command Reference
-
Development Environments
- Application Scenarios
- Creating a Notebook Instance
-
Using a Notebook Instance for AI Development Through JupyterLab
- Using JupyterLab to Develop and Debug Code Online
- Common Functions of JupyterLab
- Using Git to Clone the Code Repository in JupyterLab
- Creating a Scheduled Job in JupyterLab
- Uploading Files to JupyterLab
- Downloading a File from JupyterLab to a Local PC
- Using MindInsight Visualization Jobs in JupyterLab
- Using TensorBoard Visualization Jobs in JupyterLab
- Using Notebook Instances Remotely Through PyCharm
- Using Notebook Instances Remotely Through VS Code
- Using a Notebook Instance Remotely with SSH
- Managing Notebook Instances
- ModelArts CLI Command Reference
- Using Moxing Commands in a Notebook Instance
-
Data Management
- Introduction to Data Preparation
- Getting Started
- Creating a Dataset
- Importing Data
- Data Analysis and Preview
- Labeling Data
- Publishing Data
- Exporting Data
- Introduction to Data Labeling
- Manual Labeling
- Auto Labeling
- Team Labeling
-
Model Training
- Model Training Process
- Preparing Model Training Code
- Preparing a Model Training Image
- Creating a Debug Training Job
- Creating an Algorithm
- Creating a Production Training Job
- Distributed Model Training
- Incremental Model Training
- Automatic Model Tuning (AutoSearch)
- High Model Training Reliability
-
Managing Model Training Jobs
- Viewing Training Job Details
- Viewing the Resource Usage of a Training Job
- Viewing the Model Evaluation Result
- Viewing Training Job Events
- Viewing Training Job Logs
- Priority of a Training Job
- Using Cloud Shell to Debug a Production Training Job
- Rebuilding, Stopping, or Deleting a Training Job
- Managing Environment Variables of a Training Container
- Viewing Training Job Tags
-
Inference Deployment
- Overview
- Creating a Model
- Model Creation Specifications
- Deploying a Model as Real-Time Inference Jobs
- Deploying a Model as a Batch Inference Service
- Managing ModelArts Models
-
Managing a Synchronous Real-Time Service
- Viewing Details About a Real-Time Service
- Viewing Events of a Real-Time Service
- Managing the Lifecycle of a Real-Time Service
- Modifying a Real-Time Service
- Viewing Performance Metrics of a Real-Time Service on Cloud Eye
- Integrating a Real-Time Service API into the Production Environment
- Configuring Auto Restart upon a Real-Time Service Fault
- Managing Batch Inference Jobs
-
Image Management
- Application Scenarios of Custom Images
- Preset Images Supported by ModelArts
- Creating a Custom Image for a Notebook Instance
-
Creating a Custom Image for Model Training
- Creating a Custom Training Image
- Creating a Custom Training Image Using a Preset Image
- Migrating Existing Images to ModelArts
- Creating a Custom Training Image (PyTorch + Ascend)
- Creating a Custom Training Image (PyTorch + CPU/GPU)
- Creating a Custom Training Image (MPI + CPU/GPU)
- Creating a Custom Training Image (Tensorflow + GPU)
- Creating a Custom Training Image (MindSpore + Ascend)
- Creating a Custom Image for Inference
- Resource Monitoring
- Viewing Audit Logs
-
ModelArts User Guide (Lite Server)
- Before You Start
- Enabling Lite Server Resources
- Configuring Lite Server Resources
- Using Lite Server Resources
- Managing Lite Server Resources
-
ModelArts User Guide (Lite Cluster)
- Before You Start
- Enabling Lite Cluster Resources
- Configuring Lite Cluster Resources
- Using Lite Cluster Resources
-
Managing Lite Server Resources
- Managing Lite Cluster Resources
- Managing Lite Cluster Resource Pools
- Managing Lite Cluster Node Pools
- Managing Lite Cluster Nodes
- Resizing a Lite Cluster Resource Pool
- Upgrading the Lite Cluster Resource Pool Driver
- Upgrading the Driver of a Lite Cluster Resource Pool Node
- Managing Free Nodes in a Lite Cluster Resource Pool
- Monitoring Lite Cluster Resources
- Releasing Lite Cluster Resources
- AI Gallery
-
SDK Reference
- Before You Start
- SDK Overview
- Getting Started
- (Optional) Installing the ModelArts SDK Locally
- Session Authentication
- OBS Management
- Data Management
-
Training Management (New Version)
- Training Jobs
- APIs for Resources and Engine Specifications
-
Training Management (Old Version)
- Training Jobs
- Training Job Versions
- Training Job Parameter Configuration
-
Visualization Jobs
- Creating a Visualization Job
- Querying the List of Visualization Job Objects
- Querying the List of Visualization Jobs
- Querying the Details About a Visualization Job
- Modifying the Description of a Visualization Job
- Stopping a Visualization Job
- Restarting a Visualization Job
- Deleting a Visualization Job
- Resource and Engine Specifications
- Job Statuses
- Model Management
-
Service Management
- Service Management Overview
- Deploying a Local Service for Debugging
- Deploying a Real-Time Service
- Obtaining Details About a Service
- Testing an Inference Service
- Obtaining Services
- Obtaining Service Objects
- Updating Service Configurations
- Obtaining Service Monitoring Information
- Obtaining Service Logs
- Delete a Service
- Change History
-
Troubleshooting
- General Issues
- ExeML
-
DevEnviron
-
Environment Configuration Faults
- Disk Space Used Up
- An Error Is Reported When Conda Is Used to Install Keras 2.3.1 in Notebook
- Error "HTTP error 404 while getting xxx" Is Reported During Dependency Installation in a Notebook
- The numba Library Has Been Installed in a Notebook Instance and Error "import numba ModuleNotFoundError: No module named 'numba'" Is Reported
- What Do I Do If Files Fail to Be Saved in JupyterLab?
- Instance Faults
- Code Running Failures
- JupyterLab Plug-in Faults
-
Failures to Access the Development Environment Through VS Code
- What Do I Do If the VS Code Window Is Not Displayed?
- What Do I Do If a Remote Connection Failed After VS Code Is Opened?
- What Do I Do If I Failed to Access the Development Environment Through VS Code?
- What Do I Do If Error Message "Could not establish connection to xxx" Is Displayed During a Remote Connection?
- What Do I Do If the Connection to a Remote Development Environment Remains in "Setting up SSH Host xxx: Downloading VS Code Server locally" State for More Than 10 Minutes?
- What Do I Do If the Connection to a Remote Development Environment Remains in the State of "Setting up SSH Host xxx: Downloading VS Code Server locally" for More Than 10 Minutes?
- What Do I Do If a Remote Connection Is in the Retry State?
- What Do I Do If Error Message "The VS Code Server failed to start" Is Displayed?
- What Do I Do If Error Message "Permissions for 'x:/xxx.pem' are too open" Is Displayed?
- Error Message "Bad owner or permissions on C:\Users\Administrator/.ssh/config" Is Displayed
- Error Message "Connection permission denied (publickey)" Is Displayed
- What Do I Do If Error Message "ssh: connect to host xxx.pem port xxxxx: Connection refused" Is Displayed?
- What Do I Do If Error Message "ssh: connect to host ModelArts-xxx port xxx: Connection timed out" Is Displayed?
- What Do I Do If Error Message "Load key "C:/Users/xx/test1/xxx.pem": invalid format" Is Displayed?
- What Do I Do If Error Message "An SSH installation couldn't be found" or "Could not establish connection to instance xxx: 'ssh' ..." Is Displayed?
- What Do I Do If Error Message "no such identity: C:/Users/xx /test.pem: No such file or directory" Is Displayed?
- What Do I Do If Error Message "Host key verification failed" or "Port forwarding is disabled" Is Displayed?
- What Do I Do If Error Message "Failed to install the VS Code Server" or "tar: Error is not recoverable: exiting now" Is Displayed?
- What Do I Do If Error Message "XHR failed" Is Displayed When a Remote Notebook Instance Is Accessed Through VS Code?
- What Do I Do for an Automatically Disconnected VS Code Connection If No Operation Is Performed for a Long Time?
- What Do I Do If It Takes a Long Time to Set Up a Remote Connection After VS Code Is Automatically Upgraded?
- What Do I Do If Error Message "Connection reset" Is Displayed During an SSH Connection?
- What Can I Do If a Notebook Instance Is Frequently Disconnected or Stuck After I Use MobaXterm to Connect to the Notebook Instance in SSH Mode?
- What Do I Do If Error Message "Missing GLIBC, Missing required dependencies" Is Displayed When I Access the Development Environment Through VS Code?
- What Do I Do If an Error Message Is Displayed Indicating That ms-vscode-remote.remot-sdh Is Uninstalled Due To a Reported Issue When Using VSCode-huawei?
- Instance Directory in VS Code Does Not Match That on the Cloud When VS Code Is Used to Connect to an Instance
-
Save an Image Failures
- Troubleshooting for Custom Images in Notebook Instances
- What If the Error Message "there are processes in 'D' status, please check process status using'ps -aux' and kill all the 'D' status processes" or "Buildimge,False,Error response from daemon,Cannot pause container xxx" Is Displayed When I Save an Image?
- What Do I Do If Error "container size %dG is greater than threshold %dG" Is Displayed When I Save an Image?
- What Do I Do If Error "too many layers in your image" Is Displayed When I Save an Image?
- What Do I Do If Error "The container size (xG) is greater than the threshold (25G)" Is Reported When I Save an Image?
- No Kernel Is Displayed After a Notebook Instance Created Using a Custom Image Is Started
- Some Extra Packages Are Found in the Conda Environment Built Using a Custom Image
- Failed to Create a Custom Image Using ma-cli and an Error Is Displayed Indicating that the File Does Not Exist
- Error Message "Unexpected error from cudaGetDeviceCount" Is Displayed When Torch Is Used
- Other Faults
-
Environment Configuration Faults
-
Training Jobs
-
OBS Operation Issues
- Error in File Reading
- Error Message Is Displayed Repeatedly When a TensorFlow-1.8 Job Is Connected to OBS
- TensorFlow Stops Writing TensorBoard to OBS When the Size of Written Data Reaches 5 GB
- Error "Unable to connect to endpoint" Error Occurs When a Model Is Saved
- Error Message "BrokenPipeError: Broken pipe" Displayed When OBS Data Is Copied
- Error Message "ValueError: Invalid endpoint: obs.xxxx.com" Displayed in Logs
- Error Message "errorMessage:The specified key does not exist" Displayed in Logs
-
In-Cloud Migration Adaptation Issues
- Failed to Import a Module
- Error Message "No module named .*" Displayed in Training Job Logs
- Failed to Install a Third-Party Package
- Failed to Download the Code Directory
- Error Message "No such file or directory" Displayed in Training Job Logs
- Failed to Find the .so File During Training
- ModelArts Training Job Failed to Parse Parameters and an Error Is Displayed in the Log
- Training Output Path Is Used by Another Job
- Error Message "RuntimeError: std::exception" Displayed for a PyTorch 1.0 Engine
- Error Message "retCode=0x91, [the model stream execute failed]" Displayed in MindSpore Logs
- Error Occurred When Pandas Reads Data from an OBS File If MoXing Is Used to Adapt to an OBS Path
- Error Message "Please upgrade numpy to >= xxx to use this pandas version" Displayed in Logs
- Reinstalled CUDA Version Does Not Match the One in the Target Image
- Error ModelArts.2763 Occurred During Training Job Creation
- Error Message "AttributeError: module '***' has no attribute '***'" Displayed Training Job Logs
- System Container Exits Unexpectedly
-
Hard Faults Due to Space Limit
- Downloading Files Timed Out or No Space Left for Reading Data
- Insufficient Container Space for Copying Data
- Error Message "No space left" Displayed When a TensorFlow Multi-node Job Downloads Data to /cache
- Size of the Log File Has Reached the Limit
- Error Message "write line error" Displayed in Logs
- Error Message "No space left on device" Displayed in Logs
- Training Job Failed Due to OOM
- Common Issues Related to Insufficient Disk Space and Solutions
- Internet Access Issues
- Permission Issues
-
GPU Issues
- Error Message "No CUDA-capable device is detected" Displayed in Logs
- Error Message "RuntimeError: connect() timed out" Displayed in Logs
- Error Message "cuda runtime error (10) : invalid device ordinal at xxx" Displayed in Logs
- Error Message "RuntimeError: Cannot re-initialize CUDA in forked subprocess" Displayed in Logs
- No GPU Is Found for a Training Job
-
Service Code Issues
- Error Message "pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields" Displayed in Logs
- Error Message "max_pool2d_with_indices_out_cuda_frame failed with error code 0" Displayed in Logs
- Training Job Failed with Error Code 139
- Debugging Training Code in the Cloud Environment If a Training Job Failed
- Error Message "'(slice(0, 13184, None), slice(None, None, None))' is an invalid key" Displayed in Logs
- Error Message "DataFrame.dtypes for data must be int, float or bool" Displayed in Logs
- Error Message "CUDNN_STATUS_NOT_SUPPORTED" Displayed in Logs
- Error Message "Out of bounds nanosecond timestamp" Displayed in Logs
- Error Message "Unexpected keyword argument passed to optimizer" Displayed in Logs
- Error Message "no socket interface found" Displayed in Logs
- Error Message "Runtimeerror: Dataloader worker (pid 46212) is killed by signal: Killed BP" Displayed in Logs
- Error Message "AttributeError: 'NoneType' object has no attribute 'dtype'" Displayed in Logs
- Error Message "No module name 'unidecode'" Displayed in Logs
- Distributed Tensorflow Cannot Use tf.variable
- When MXNet Creates kvstore, the Program Is Blocked and No Error Is Reported
- ECC Error Occurs in the Log, Causing Training Job Failure
- Training Job Failed Because the Maximum Recursion Depth Is Exceeded
- Training Using a Built-in Algorithm Failed Due to a bndbox Error
- Training Job Process Exits Unexpectedly
- Stopped Training Job Process
-
Running a Training Job Failed
- Troubleshooting a Training Job Failure
- An NCCL Error Occurs When a Training Job Fails to Be Executed
- Troubleshooting Process
- A Training Job Created Using a Custom Image Is Always in the Running State
- Failed to Find the Boot File When a Training Job Is Created Using a Custom Image
- Running a Job Failed Due to Persistently Rising Memory Usage
- Training Jobs Created in a Dedicated Resource Pool
- Training Performance Issues
-
OBS Operation Issues
-
Inference Deployment
-
Model Management
- Failed to Create a Model
- Suspended Account or Insufficient Permission to Import Models
- Failed to Build an Image or Import a File During Model Creation
- Obtaining the Directory Structure in the Target Image When Importing an AI Application Through OBS
- Failed to Obtain Certain Logs on the ModelArts Log Query Page
- Failed to Download a pip Package When an AI Application Is Created Using OBS
- Failed to Use a Custom Image to Create an AI application
- Insufficient Disk Space Is Displayed When a Service Is Deployed After an AI Application Is Imported
- Error Occurred When a Created AI Application Is Deployed as a Service
- Invalid Runtime Dependency Configured in an Imported Custom Image
- Garbled Characters Displayed in an AI Application Name Returned When AI Application Details Are Obtained Through an API
- The Model or Image Exceeded the Size Limit for AI Application Import
- A Single Model File to Be Imported Exceeds the Size Limit (5 GB)
- Creating a Model Failed Due to Image Building Timeout
-
Service Deployment
- Error Occurred When a Custom Image Model Is Deployed as a Real-Time Service
- Alarm Status of a Deployed Real-Time Service
- Failed to Start a Service
- Failed to Pull an Image When a Service Is Deployed, Started, Upgraded, or Modified
- Image Restarts Repeatedly When a Service Is Deployed, Started, Upgraded, or Modified
- Container Health Check Fails When a Service Is Deployed, Started, Upgraded, or Modified
- Resources Are Insufficient When a Service Is Deployed, Started, Upgraded, or Modified
- Error Occurred When a CV2 Model Package Is Used to Deploy a Real-Time Service
- Service Is Consistently Being Deployed
- A Started Service Is Intermittently in the Alarm State
- Failed to Deploy a Service and Error "No Module named XXX" Occurred
- Insufficient Permission to or Unavailable Input/Output OBS Path of a Batch Service
- Error "No CUDA runtime is found" Occurred When a Real-Time Service Is Deployed
- What Can I Do if the Memory Is Insufficient?
-
Service Prediction
- Service Prediction Failed
- Error "APIG.XXXX" Occurred in a Prediction Failure
- Error ModelArts.4206 Occurred in Real-Time Service Prediction
- Error ModelArts.4302 Occurred in Real-Time Service Prediction
- Error ModelArts.4503 Occurred in Real-Time Service Prediction
- Error MR.0105 Occurred in Real-Time Service Prediction
- Method Not Allowed
- Request Timed Out
- Error Occurred When an API Is Called for Deploying a Model Created Using a Custom Image
- Error "DL.0105" Occurred During Real-Time Inference
-
Model Management
-
MoXing
- Error Occurs When MoXing Is Used to Copy Data
- How Do I Disable the Warmup Function of the Mox?
- Pytorch Mox Logs Are Repeatedly Generated
- Failed to Perform Local Fine Tuning on the Checkpoint Generated by moxing.tensorflow
- Copying Data Using MoXing Is Slow and the Log Is Repeatedly Printed in a Training Job
- Failed to Access a Folder Using MoXing and Read the Folder Size Using get_size
- APIs or SDKs
- Videos
- User Guide (ExeML)
-
Workflows
- MLOps Overview
- What Is Workflow?
- How to Use a Workflow?
-
How to Develop a Workflow?
- Concepts
- Parameter Configuration
- Unified Storage
- Phase Type
- Branch Control
- Data Selection Among Multiple Inputs
- Creating a Workflow
- Debugging a Workflow
- Publishing a Workflow
- Advanced Capabilities
- FAQs
-
Model Development (To Be Offline)
- Introduction to Model Development
- Preparing Data
- Preparing Algorithms
-
Performing a Training
- Creating a Training Job
- Viewing Training Job Details
- Viewing Training Job Events
- Training Job Logs
- Cloud Shell
- Viewing the Resource Usage of a Training Job
- Evaluation Results
- Viewing Training Tags
- Viewing Fault Recovery Details
- Viewing Environment Variables of a Training Container
- Stopping, Rebuilding, or Searching for a Training Job
- Releasing Training Job Resources
- Advanced Training Operations
- Distributed Training
- Automatic Model Tuning (AutoSearch)
- MoXing Developer Guide
-
Data Preparation and Analytics
- Introduction to Data Preparation
- Getting Started
- Creating a Dataset
- Importing Data
- Data Analysis and Preview
- Labeling Data
- Publishing Data
- Exporting Data
- Data Labeling
-
User Guide for Senior AI Engineers (To Be Offline)
- Operation Guide
- Data Management (Old Version to Be Terminated)
- Training Management (Old Version )
- Resource Pools (Old Version to Be Terminated)
- Custom Images
- Permissions Management
- Audit Logs
- Change History
Mostrar todo
Copiado.
Comando de creación de ma-cli Image
El comando ma-cli image se puede usar para obtener imágenes registradas, obtener o cargar plantillas de creación de imágenes, crear imágenes con Dockerfiles, obtener o borrar cachés de creación de imágenes, registrar o cancelar el registro de imágenes y depurar si las imágenes se pueden usar en instancias de notebook. Para obtener más detalles, ejecute el comando ma-cli image -h.
Comandos para crear una imagen
$ ma-cli image -h Usage: ma-cli image [OPTIONS] COMMAND [ARGS]... Obtain registered images, register or unregister images, debug images, and create images in Notebook. Options: -H, -h, --help Show this message and exit. Commands: add-template, at List build-in dockerfile templates. build Build docker image in Notebook. debug Debug SWR image as a Notebook in ECS. df Query disk usage. get-image, gi Query registered image in ModelArts. get-template, gt List build-in dockerfile templates. prune Prune image build cache. register Register image to ModelArts. unregister Unregister image from ModelArts.
Comando |
Descripción |
---|---|
get-template |
Obtener una plantilla de creación de imágenes. |
add-template |
Cargar una plantilla de creación de imágenes. |
get-image |
Obtener las imágenes de ModelArts registradas. |
register |
Registre imágenes de SWR con gestión de imágenes de ModelArts. |
unregister |
Cancelar el registro de una imagen registrada de la gestión de imágenes de ModelArts. |
build |
Crear una imagen con un Dockerfile (solo compatible con el notebook de ModelArts). |
df |
Obtenga la caché de creación de imágenes, que solo se puede utilizar en el notebook de ModelArts. |
prune |
Borrar la caché de creación de imágenes, que solo se puede utilizar en el notebook de ModelArts. |
debug |
Depurar una imagen de SWR en un ECS para verificar si la imagen se puede usar en notebook de ModelArts. (Solo se pueden utilizar los ECS con Docker instalado) |