ModelArts
ModelArts
Todos los resultados de "
" dentro de este producto
Todos los resultados de "
" dentro de este producto
Descripción general del servicio
Infografías
Qué es ModelArts
Qué es ModelArts
Funciones
Conocimiento básico
Introducción al ciclo de vida del desarrollo de la IA
Conceptos básicos del desarrollo de IA
Conceptos comunes de ModelArts
Introducción a las herramientas de desarrollo
Entrenamiento de modelos
Despliegue de modelos
Servicios relacionados
Cómo accedo a ModelArts
Gestión de permisos
Seguridad
Responsabilidades compartidas
Identificación y gestión de activos
Autenticación de identidad y control de acceso
Protección de datos
Auditoría y registro
Resiliencia del servicio
Monitoreo de riesgos
Recuperación de fallas
Gestión de actualizaciones
Certificados
Límite de seguridad
Cuotas
Preparaciones
Registro de una cuenta de Huawei Cloud
Configuración de la autorización de acceso (configuración global)
Creación de un bucket de OBS
(Opcional) Compra de un paquete
DevEnviron
Introducción a DevEnviron
Escenarios de aplicación
Gestión de instancias de notebook
Creación de una instancia de notebook
Acceso a una instancia de notebook
Búsqueda, inicio, detención o supresión de instancias de notebook
Cambio de una imagen de instancia de notebook
Cambio de la variante de una instancia de notebook
Selección de almacenamiento en DevEnviron
Montaje dinámico de un sistema de archivos paralelo de OBS
Ampliación dinámica de la capacidad del disco de EVS
Modificación de la configuración de SSH para una instancia de notebook
Consulta de las instancias de notebook de todos los usuarios de IAM con una cuenta de tenant
Consulta de eventos de notebook
Informes de alarmas del directorio de caché de notebook
JupyterLab
Proceso de operación de JupyterLab
Descripción y operaciones comunes de JupyterLab
Complemento de parametrización de código
Uso del SDK de ModelArts
Uso de complemento de Git
Entrenamiento de modelo visualizado
Introducción a la visualización de trabajos de entrenamiento
Trabajos de visualización de MindInsight
Trabajos de visualización de TensorBoard
Carga y descarga de datos en notebook
Carga de archivos a JupyterLab
Escenarios
Carga de archivos desde una ruta local a JupyterLab
Carga de escenarios y de entradas
Carga de un archivo local menos de 100 MB a JupyterLab
Carga de un archivo local con un tamaño que varía de 100 MB a 5 GB a JupyterLab
Carga de un archivo local más de 5 GB a JupyterLab
Clonación de un repositorio de código abierto de GitHub
Carga de archivos de OBS a JupyterLab
Carga de archivos remotos a JupyterLab
Descarga de un archivo de JupyterLab a una ruta local
IDE local
Proceso de operación en un IDE local
IDE local (PyCharm)
Conexión a una instancia de notebook con PyCharm Toolkit
PyCharm Toolkit
Descarga e instalación de PyCharm Toolkit
Conexión a una instancia de notebook con PyCharm Toolkit
Conexión manual a una instancia de notebook con PyCharm
Envío de un trabajo de entrenamiento con PyCharm Toolkit
Envío de un trabajo de entrenamiento (Nueva versión)
Detención de un trabajo de entrenamiento
Consulta de logs de entrenamiento
Carga de datos en una instancia de notebook con PyCharm
IDE local (VS Code)
Conexión a una instancia de notebook por VS Code
Instalación de VS Code
Conexión a una instancia de notebook a través del VS Code Toolkit
Conexión manual a una instancia de notebook por VS Code
Depuración remota en VS Code
Carga y descarga de archivos en VS Code
IDE local (acceso con SSH)
Referencia de comandos de ModelArts CLI
Descripción de ModelArts CLI
(Opcional) Instalación de ma-cli localmente
Completado automático para comandos de ma-cli
Autenticación de ma-cli
Comando de creación de ma-cli Image
Comando de creación de ma-cli Image
Obtención de una plantilla de creación de imágenes
Carga de una plantilla de creación de imágenes
Obtención de imágenes de ModelArts registradas
Creación de una imagen en notebook de ModelArts
Obtención de cachés de creación de imágenes en el notebook de ModelArts
Borrado de cachés de creación de imágenes en el notebook de ModelArts
Registro de imágenes de SWR con la gestión de imágenes de ModelArts
Cancelación del registro de una imagen en la gestión de imágenes de ModelArts
Depuración de una imagen de SWR en un ECS
Uso del comando ma-cli ma-job para enviar un trabajo de entrenamiento de ModelArts
Descripción del comando ma-cli ma-job
Obtención de trabajos de entrenamiento de ModelArts
Envío de un trabajo de entrenamiento de ModelArts
Obtención de logs de trabajos de entrenamiento de ModelArts
Obtención de eventos de trabajo de entrenamiento de ModelArts
Obtención de motores de IA de ModelArts para entrenamiento
Obtención de especificaciones de recursos de ModelArts para entrenamiento
Detención de un trabajo de entrenamiento de ModelArts
Uso del comando ma-cli dli-job para enviar un trabajo de DLI Spark
Descripción
Consulta de trabajos de DLI Spark
Envío de un trabajo de DLI Spark
Consulta de logs de ejecución de DLI Spark
Consulta de colas de DLI
Obtención de recursos del grupo de DLI
Carga de archivos locales o archivos de OBS en un grupo de DLI
Detención de un trabajo de DLI Spark
Uso de ma-cli para copiar datos de OBS
Implementación de inferencia
Introducción a la Inferencia
Gestión de aplicaciones de IA
Introducción a la gestión de aplicaciones de IA
Creación de una aplicación de IA
Importación de un metamodelo desde un trabajo de entrenamiento
Importación de un metamodelo desde una plantilla
Importación de un metamodelo desde OBS
Importación de un metamodelo desde una imagen de contenedor
Consulta de la lista de aplicaciones de IA
Consulta de detalles sobre una aplicación de IA
Gestión de versiones de aplicaciones de IA
Consulta de eventos de una aplicación de IA
Despliegue de una aplicación de IA como servicio
Despliegue de aplicaciones de IA como servicios en tiempo real
Despliegue como servicio en tiempo real
Consulta de detalles del servicio
Prueba del servicio desplegado
Acceso a los servicios en tiempo real
Acceso a un servicio en tiempo real
Modo de autenticación
Acceso autenticado mediante un token
Acceso autenticado con una AK/SK
Acceso autenticado mediante una aplicación
Modo de acceso
Acceso a un servicio en tiempo real (canal de red pública)
Acceso a un servicio en tiempo real (canal de VPC de alta velocidad)
Acceso a un servicio en tiempo real con WebSocket
Server-Sent Events
Integración de un servicio en tiempo real
Cloud Shell
Despliegue de aplicaciones de IA como servicios por lotes
Despliegue como servicio por lotes
Consulta de detalles de un servicio por lotes
Consulta del resultado de la predicción del servicio por lotes
Actualización de un servicio
Inicio, parada, supresión o reinicio de un servicio
Consulta de eventos de servicio
Especificaciones de inferencia
Especificaciones del paquete de modelo
Introducción a las especificaciones del paquete modelo
Especificaciones para editar un archivo de configuración de modelo
Especificaciones para escribir el código de inferencia de modelo
Plantillas de modelo
Introducción a las plantillas de modelo
Plantillas
Plantilla de clasificación de imágenes basada en TensorFlow
Plantilla general de TensorFlow-py27
Plantilla general de TensorFlow-py36
Plantilla general MXNet-py27
Plantilla general MXNet-py36
Plantilla general PyTorch-py27
Plantilla general PyTorch-py36
Plantilla general Caffe-CPU-py27
Plantilla general Caffe-GPU-py27
Plantilla general Caffe-CPU-py36
Plantilla general Caffe-GPU-py36
Plantilla Arm-Ascend
Modos de entrada y salida
Modo de detección de objetos incorporado
Modo de procesamiento de imágenes incorporado
Modo de análisis predictivo incorporado
Modo indefinido
Ejemplos de scripts personalizados
TensorFlow
TensorFlow 2.1
PyTorch
Caffe
XGBoost
PySpark
Aprendizaje de Scikit
ModelArts monitoreo en Cloud Eye
Métricas de ModelArts
Configuración de reglas de alarma
Consulta de métricas de monitoreo
Contenedores de Docker con ModelArts
Gestión de imágenes
Uso de una imagen preestablecida
Imágenes preestablecidas en notebook
Imágenes de base de notebook
Lista de imágenes base de notebook
Imagen de base de notebook con PyTorch (x86)
Imagen de base de notebook con Tensorflow (x86)
Imagen de base de notebook con MindSpore (x86)
Imagen de base de notebook con imagen dedicada personalizada (x86)
Imagen de base de entrenamiento
Imágenes de base de entrenamiento disponibles
Entrenamiento de imagen de base (PyTorch)
Entrenamiento de imagen de base (TensorFlow)
Entrenamiento de imagen de base (Horovod)
Entrenamiento de imagen de base (MPI)
Inicio del entrenamiento con una imagen preestablecida
PyTorch
TensorFlow
Horovod/MPI/MindSpore-GPU
Imágenes de base de inferencia
Imágenes de base de inferencia disponibles
Imágenes de base de inferencia con TensorFlow (CPU/GPU)
Imágenes base de inferencia con PyTorch (CPU/GPU)
Imágenes base de inferencia con MindSpore (CPU/GPU)
Uso de imágenes personalizadas en instancias de notebook
Registro de una imagen en ModelArts
Creación de una imagen personalizada
Guardar una instancia de Notebook como una imagen personalizada
Guardar una imagen de entorno de notebook
Uso de una imagen personalizada para crear una instancia de notebook
Creación y uso de una imagen personalizada en notebook
Escenarios de aplicación y proceso
Paso 1 Crear una imagen personalizada
Paso 2 Registrar una nueva imagen
Paso 3 Usar una nueva imagen para crear un entorno de desarrollo
Creación de una imagen personalizada en un ECS y su uso en notebook
Escenarios de aplicación y proceso
Paso 1 Preparar un servidor de Docker y configurar un entorno
Paso 2 Crear una imagen personalizada
Paso 3 Registrar una nueva imagen
Paso 5 Crear e iniciar un entorno de desarrollo
Uso de una imagen personalizada para entrenar modelos (entrenamiento de modelos)
Descripción general
Ejemplo: creación de una imagen personalizada para entrenamiento
Ejemplo: creación de una imagen personalizada para el entrenamiento (PyTorch + CPU/GPU)
Ejemplo: creación de una imagen personalizada para entrenamiento (MPI + CPU/GPU)
Ejemplo: creación de una imagen personalizada para entrenamiento (Horovod-PyTorch y GPU)
Ejemplo: creación de una imagen personalizada para entrenamiento (MindSpore y GPU)
Ejemplo: creación de una imagen personalizada para entrenamiento (TensorFlow y GPU)
Preparación de una imagen de entrenamiento
Especificaciones a las Imágenes personalizadas para trabajos de entrenamiento
Migración de una imagen al entrenamiento de ModelArts
Uso de una imagen de base para crear una imagen de entrenamiento
Instalación de MLNX_OFED en una imagen de contenedor
Creación de un algoritmo mediante una imagen personalizada
Uso de una imagen personalizada para crear un trabajo de entrenamiento basado en CPU o GPU
Proceso de solución de problemas
Uso de una imagen personalizada para crear aplicaciones de IA para el despliegue de inferencia
Especificaciones de imágenes personalizadas para crear aplicaciones de IA
Creación de una imagen personalizada y su uso para crear una aplicación de IA
Preguntas frecuentes
¿Cómo puedo iniciar sesión en SWR y cargar imágenes en él?
¿Cómo configuro variables de entorno para una imagen?
¿Cómo uso Docker para iniciar una imagen guardada con una instancia de notebook?
¿Cómo configuro un origen de Conda en un entorno de desarrollo de notebook?
¿Cuáles son las versiones de software admitidas para una imagen personalizada?
Cambios de modificaciones
Referencia de la API
Antes de comenzar
Descripción general
Invocación de la API
Endpoint
Restricciones
Conceptos básicos.
Llamar a las API
Making an API Request
Autenticación
Respuesta
Gestión de datos
API de gestión de datos
Gestión de conjuntos de datos
Consulta de la lista de conjuntos de datos
Creación de un conjunto de datos
Consulta de detalles acerca de un conjunto de datos
Modificación de un conjunto de datos
Eliminación de un conjunto de datos
Consulta de estadísticas de conjunto de datos
Consulta de los datos de supervisión de un conjunto de datos
Gestión de versiones de conjuntos de datos
Consulta de la lista de versiones del conjunto de datos
Creación de una versión de etiquetado de conjunto de datos
Consulta de detalles acerca de una versión de conjunto de datos
Eliminación de una versión de etiquetado de conjunto de datos
Gestión de muestras
Consulta de la lista de muestra
Adición de muestras en lotes
Eliminación de muestras en lotes
Consulta de detalles acerca de una muestra
Obtención de la condición de búsqueda de muestra
Consulta de la lista de muestra de una tarea de etiquetado de equipo por página
Consulta de detalles acerca de ejemplos de etiquetado de equipos
Gestión de etiquetas
Consulta de la lista de etiquetas de conjunto de datos
Creación de una etiqueta de conjunto de datos
Modificación de etiquetas en lotes
Eliminación de etiquetas en lotes
Actualización de una etiqueta por nombres de etiqueta
Eliminación de una etiqueta y los archivos que sólo contienen la etiqueta
Etiquetado manual
Actualización de etiquetas de muestra en lotes
Gestión de tareas de etiquetado
Consulta de la lista de tareas de etiquetado de equipos de un conjunto de datos
Creación de una tarea de etiquetado de equipo
Consulta de detalles acerca de una tarea de etiquetado de equipo
Inicio de una tarea de etiquetado de equipo
Actualización de una tarea de etiquetado de equipo
Eliminación de una tarea de etiquetado de equipo
Creación de una Tarea de Aceptación de Etiquetado de Equipo
Consulta del Informe de una Tarea de Aceptación de Etiquetado de Equipo
Actualización del estado de una tarea de aceptación de etiquetado de equipo
Consulta de detalles Acerca de las estadísticas de tareas de etiquetado de equipos
Consulta de detalles acerca del progreso de un miembro de la tarea de etiquetado de equipo
Consulta de la lista de tareas de etiquetado de equipos por un miembro del equipo
Gestión de procesos de etiquetado de equipos
Envío de Ejemplos de Comentarios de Revisión de una Tarea de Aceptación
Revisión de los resultados del etiquetado del equipo
Actualización de etiquetas de muestras de etiquetado de equipos en lotes
Gestión de equipos de etiquetado
Consulta de la lista de equipos de etiquetado
Creación de un equipo de etiquetado
Consulta de detalles acerca de un equipo de etiquetado
Actualización de un equipo de etiquetado
Eliminación de un equipo de etiquetado
Labeling Team Member Management
Envío de un correo electrónico a un miembro del equipo de etiquetado
Consulta de la lista de todos los miembros del equipo de etiquetado
Consulta de la lista de miembros del equipo de etiquetado
Creación de un miembro del equipo de etiquetado
Eliminación de etiquetado de miembros del equipo en lotes
Consulta de detalles acerca de miembros de equipo de etiquetado
Actualización de un miembro del equipo de etiquetado
Eliminación de un miembro del equipo de etiquetado
Tarea de importación de datos
Consulta de la lista de tareas de importación de conjunto de datos
Creación de una tarea de importación
Consulta de detalles acerca de una tarea de importación de conjunto de datos
Tarea de exportación de datos
Consulta de la lista de tareas de exportación de conjunto de datos
Creación de una Tarea de Exportación de Conjunto de Datos
Consulta del estado de una tarea de exportación de conjunto de datos
Tarea de sincronización de datos
Sincronización de un conjunto de datos
Consulta del estado de una tarea de sincronización de conjunto de datos
Tarea inteligente
Consulta de lista de ejemplo de etiquetado automático
Consulta de detalles acerca de un ejemplo de etiquetado automático
Consulta de la lista de tareas inteligentes por página
Inicio de tareas inteligentes
Obtención de información sobre tareas inteligentes
Detener una tarea inteligente
Tarea de procesamiento
Consulta de la lista de tareas de procesamiento
Creación de una tarea de procesamiento
Consulta de detalles acerca de una tarea de procesamiento
Actualización de una tarea de procesamiento
Eliminación de una tarea de procesamiento
DevEnviron (Recomendado)
Gestión de instancias de DevEnviron
Consulta de imágenes admitidas
Consulta de Instancias de Notebook
Creación de una instancia de notebook
Consulta de detalles de una instancia de notebook
Actualización de una instancia de Notebook
Supresión de una instancia de Notebook
Consulta de variantes disponibles para una instancia de notebook
Consulta de la duración disponible de una instancia de Notebook en ejecución
Prolongación de una instancia de Notebook
Inicio de una instancia de Notebook
Detención de una instancia de Notebook
Montaje de almacenamiento OBS
Obtención de las instancias de Notebook con almacenamiento OBS montado
Montaje de almacenamiento OBS
Obtención de detalles acerca de una instancia de notebook con almacenamiento de OBS montado
Desmontaje de almacenamiento OBS de una Instancia de Notebook
Gestión de la formación (recomendada)
Gestión de algoritmos
Creación de un algoritmo
Consulta de la lista de algoritmos
Consulta de detalles del algoritmo
Modificación de un algoritmo
Eliminación de un algoritmo
Gestión de trabajos de entrenamiento
Creación de un trabajo de entrenamiento
Consulta de los detalles de un trabajo de formación
Modificación de la descripción de un trabajo de formación
Supresión de un trabajo de entrenamiento
Finalización de un trabajo de entrenamiento
Consulta de los logs de una tarea especificada en un trabajo de entrenamiento determinado (vista previa)
Consulta de los logs de una etiqueta especificada en un trabajo de entrenamiento determinado (URL OBS)
Consulta de las métricas en ejecución de una tarea especificada en un trabajo de entrenamiento
Consulta de una lista de trabajos de formación
Especificaciones de recursos y motores
Consultar la lista pública de variantes respaldada por un trabajo de entrenamiento
Consulta de la lista de motores de IA admitidos por un trabajo de formación
Gestión de modelos
Importación de un modelo
Consulta de una lista de modelos
Consulta de los detalles sobre un modelo
Eliminación de un modelo
Gestión de servicios
Implementación de un modelo como servicio
Consulta de una lista de servicios
Consulta de los detalles sobre un servicio
Actualización de configuraciones de servicio
Consulta de información de supervisión del servicio
Consulta de registros de actualización del servicio
Consulta de registros de eventos de servicio
Eliminación de un servicio
Consulta de especificaciones de implementación de servicios admitidos
Consulta de grupos de recursos dedicados
Gestión de autorizaciones
Configuración de Autorización
Consulta de una lista de autorización
Eliminación de Autorización
Creación de una delegación de ModelArts
Casos de uso
Gestión de la autorización de ModelArts
Políticas de permisos y acciones admitidas
Introducción
Permisos de DevEnviron
Permisos de trabajo de entrenamiento
Permisos de gestión de modelos
Permisos de gestión de servicios
Parámetros comunes
Status Code
Códigos de error
Obtención de un ID y un nombre de proyecto
Obtención de un nombre de cuenta y su ID
Obtención de un nombre de usuario e ID
Historial de revisiones
Preguntas frecuentes
Cuestiones generales
¿Qué es ModelArts?
¿Cuáles son las relaciones entre ModelArts y otros servicios?
¿Cuáles son las diferencias entre ModelArts y DLS?
¿Cómo puedo comprar o activar ModelArts?
¿Qué chips de Ascend son compatibles?
¿Cómo obtengo una clave de acceso?
¿Cómo subo datos a OBS?
What Do I Do If the System Displays a Message Indicating that the AK/SK Pair Is Unavailable?
¿Qué debo hacer si se muestra un mensaje que indica permisos insuficientes cuando utilizo ModelArts?
¿Cómo uso ModelArts para entrenar modelos basados en datos estructurados?
¿Qué son las Regiones y las AZ?
¿Cómo puedo comprobar si ModelArts y un bucket de OBS están en la misma región?
¿Cómo puedo ver todos los archivos almacenados en OBS de ModelArts?
¿Por qué se muestra el error: 403 Forbidden cuando realizo operaciones en OBS?
¿Dónde se almacenan los conjuntos de datos de ModelArts en un contenedor?
¿Qué marcos de IA admite ModelArts?
¿Cuáles son las funciones del entrenamiento y la inferencia de ModelArts?
¿Cómo puedo ver un ID de cuenta y un ID de usuario de IAM?
¿Puede la identificación asistida por IA de ModelArts identificar una etiqueta específica?
¿Cómo utiliza ModelArts las etiquetas para gestionar recursos por grupo?
¿Cómo puedo ver todas las métricas de supervisión de ModelArts?
¿Por qué el trabajo sigue en cola cuando los recursos son suficientes?
Facturación
¿Cómo puedo ver los trabajos de ModelArts que se están facturando?
¿Cómo puedo ver los detalles de consumo de ModelArts?
¿Se me cobrará por cargar conjuntos de datos a ModelArts?
¿Qué debo hacer para evitar la facturación innecesaria después de etiquetar conjuntos de datos y salir?
¿Cómo dejo de facturar un proyecto ExeML de ModelArts?
¿Cómo dejo de facturar si no uso ModelArts?
¿Cómo se facturan los trabajos de entrenamiento?
¿Por qué continúa la facturación después de que se eliminen todos los proyectos?
¿Necesito comprar recursos de pago por uso?
ExeML
Consultoría funcional
¿Qué es ExeML?
¿Qué son la clasificación de imágenes y la detección de objetos?
¿Cuáles son las diferencias entre ExeML y los algoritmos suscritos?
Preparación de datos
¿Cuáles son los requisitos para los datos de entrenamiento cuando crea un proyecto de análisis predictivo en ExeML?
¿Qué formatos de imágenes son compatibles con los proyectos de detección de objetos o clasificación de imágenes?
Creación de un proyecto
¿Hay un límite en el número de proyectos de ExeML que se pueden crear?
¿Por qué no hay datos disponibles en la ruta de entrada del conjunto de datos cuando creo un proyecto?
Etiquetado de datos
¿Puedo agregar varias etiquetas a una imagen para un proyecto de detección de objetos?
Why Are Some Images Displayed as Unlabeled After I Upload Labeled Images in an Object Detection Job?
Training Models
¿Qué debo hacer cuando el botón Train no está disponible después de crear un proyecto de clasificación de imágenes y etiquetar las imágenes?
¿Cómo realizo entrenamiento incremental en un proyecto ExeML?
¿Puedo descargar un modelo entrenado usando ExeML?
¿Por qué falla el entrenamiento de ExeML?
¿Qué hago si se produjo un error de imagen durante el entrenamiento del modelo con ExeML?
¿Qué hago si se produjo el error de ModelArts.0010 cuando uso ExeML para iniciar el entrenamiento como usuario de IAM?
¿Cuál es la velocidad de entrenamiento de cada parámetro en la configuración de preferencias de entrenamiento de ExeML?
¿Qué hago si "ERROR:input key sound is not in model" ocurre cuando uso ExeML para la predicción de clasificación de sonido?
Despliegue de modelos
¿Qué tipo de servicio se despliega en ExeML?
Gestión de datos
¿Hay límites de tamaño para las imágenes que se van a cargar?
¿Qué hago si no se pueden mostrar las imágenes de un conjunto de datos?
¿Cómo integro múltiples conjuntos de datos de detección de objetos en un conjunto de datos?
¿Qué hago si se ha producido un error al importar un conjunto de datos?
¿Se puede etiquetar un conjunto de datos de tabla?
¿Qué hago para importar datos etiquetados localmente a ModelArts?
¿Por qué los datos no se importan con el archivo de manifiesto?
¿Dónde se almacenan los resultados de etiquetado?
¿Cómo descargo los resultados de etiquetado en un PC local?
¿Por qué los miembros del equipo no pueden recibir correos electrónicos para una tarea de etiquetado de equipo?
¿Pueden dos cuentas etiquetar simultáneamente un conjunto de datos?
¿Cómo se distribuyen los datos entre los miembros del equipo durante el etiquetado del equipo?
¿Puedo eliminar un anotador de un equipo de etiquetado con una tarea de etiquetado asignada? ¿Cuál es el impacto en el resultado del etiquetado después de la eliminación? Si no se puede eliminar el anotador, ¿puedo separar el resultado de etiquetado del anotador?
¿Cómo defino un ejemplo difícil en el etiquetado de datos? ¿Qué muestras se identifican como ejemplos duros?
¿Puedo agregar varios cuadros de etiquetado a una imagen de conjunto de datos de detección de objetos?
¿Cómo fusiono dos conjuntos de datos?
¿Qué significan las opciones para aceptar una tarea de etiquetado de equipo?
¿Por qué se muestran las imágenes en diferentes ángulos bajo la misma cuenta?
¿Necesito entrenar datos de nuevo si se agregan datos nuevos después de completar el etiquetado automático?
¿Por qué el sistema muestra un mensaje que indica que mi etiqueta no se guarda en ModelArts?
¿Se puede identificar una etiqueta entre varias etiquetas?
¿Por qué las imágenes recién agregadas no se etiquetan automáticamente después de activar la amplificación de datos?
¿Por qué no se pueden mostrar o reproducir los vídeos de un conjunto de datos de vídeo?
¿Por qué todas las muestras etiquetadas almacenadas en un bucket de OBS se muestran como sin etiqueta en ModelArts después de sincronizar el origen de datos?
¿Cómo uso Soft-NMS para reducir la superposición de cajas delimitadoras?
¿Por qué se pierden las etiquetas de imagen de ModelArts?
¿Cómo agrego imágenes a un conjunto de datos de validación o entrenamiento?
¿Puedo personalizar etiquetas para un conjunto de datos de detección de objetos?
¿Para qué se puede utilizar la gestión de datos de ModelArts?
¿Por qué no puedo encontrar mi bucket de OBS creado después de seleccionar una ruta OBS de ModelArts?
¿Se borrarán mis conjuntos de datos de la versión antigua después de que se interrumpa la versión antigua? Los conjuntos de datos existentes y los nuevos creados en la versión anterior se conservarán después de que se interrumpa la versión anterior.
¿Por qué mi nueva versión de conjunto de datos no está disponible en versiones?
¿Cómo puedo ver el tamaño de un conjunto de datos?
¿Cómo puedo ver los detalles de etiquetado de un nuevo conjunto de datos?
¿Cómo puedo exportar datos etiquetados?
¿Por qué no puedo encontrar mi conjunto de datos recién creado?
¿Qué hago si la cuota de la base de datos es incorrecta?
¿Cómo divido un conjunto de datos?
¿Cómo puedo eliminar una imagen de conjunto de datos?
¿Por qué no hay muestra en el conjunto de datos de ModelArts descargado desde AI Gallery y luego desde un bucket de OBS?
Notebook (Nueva Versión)
Restricciones
¿Se admite la escalada de privilegios sudo?
¿ModelArts soporta apt-get?
¿Es compatible el motor Keras?
¿ModelArts es compatible con el motor de Caffe?
¿Puedo instalar MoXing en un entorno local?
¿Se pueden iniciar sesión de forma remota en las instancias de notebook?
Carga o descarga de datos
¿Cómo cargo un archivo desde una instancia de Notebook a OBS o descargo un archivo desde OBS a una instancia de Notebook?
¿Cómo cargo archivos locales a una instancia de Notebook?
¿Cómo puedo importar archivos grandes a una instancia de notebook?
Where Will the Data Be Uploaded to?
¿Cómo descargo archivos de una instancia de Notebook a un equipo local?
¿Cómo puedo copiar datos del entorno de desarrollo del notebook A al notebook B?
Almacenamiento de datos
¿Cómo cambio el nombre de un archivo de OBS?
¿Todavía existen archivos en /cache después de que se detenga o reinicie una instancia de notebook? ¿Cómo puedo evitar un reinicio?
¿Cómo uso la biblioteca de pandas para procesar datos en los bucket de OBS?
¿Cómo accedo al bucket de OBS de otra cuenta desde una instancia de Notebook?
Configuraciones de entorno
¿Cómo puedo activar la función de terminal en DevEnviron de ModelArts?
¿Cómo instalo las bibliotecas externas en una instancia de notebook?
¿Cómo puedo resolver la visualización de fuentes anormales en un notebook de ModelArts al que se accede desde iOS?
Instancias de notebook
¿Qué hago si no puedo acceder a mi instancia de notebook?
¿Qué debo hacer cuando el sistema muestra un mensaje de error que indica que no queda espacio después de ejecutar el comando pip install?
¿Qué hago si se muestra "Read timed out" después de ejecutar pip install?
¿Qué hago si el código se puede ejecutar pero no se puede guardar y se muestra el mensaje de error "save error"?
¿Por qué se notifica un error de tiempo de espera de solicitud cuando hago clic en el botón Open de una instancia de Notebook?
Code Execution
¿Qué hago si una instancia de notebook no ejecuta mi código?
¿Por qué se descompone la instancia cuando se muestra el núcleo muerto durante la ejecución del código de entrenamiento?
¿Qué hago si cudaCheckError ocurre durante el entrenamiento?
¿Qué debo hacer si DevEnviron genera espacio insuficiente?
¿Por qué se descompone la instancia del notebook cuando se utiliza opencv.imshow?
¿Por qué no se puede encontrar la ruta de acceso de un archivo de texto generado en el sistema operativo Windows en una instancia de notebook?
¿Qué debo hacer si JupyterLab no se guarda ningún archivo?
VS Code
¿Qué hago si falló la instalación de un complemento remoto?
¿Qué hago si solo se puede conectar una instancia de notebook reiniciada después de eliminar localmente known_hosts.?
¿Qué hago si no se puede acceder al código fuente cuando uso VS Code para la depuración?
¿Qué hago si se muestra un mensaje que indica un nombre de usuario o una dirección de correo electrónico incorrectos cuando uso VS Code para enviar el código?
¿Cómo puedo ver los logs remotos en VS Code?
¿Cómo puedo abrir el archivo de configuración de VS Code settings.json?
¿Cómo cambio el color de fondo del VS Code al verde claro?
How Can I Set the Default Remote Plug-in in VS Code?
¿Cómo puedo instalar un complemento local en el extremo remoto o un complemento remoto en el extremo local con VS Code?
Fallas en el acceso al entorno de desarrollo con VS Code
¿Cuándo lo hago si no se muestra la ventana de VS Code?
What Do I Do If a Remote Connection Failed After VS Code Is Opened?
¿Qué hago si se muestra el mensaje de error "Could not establish connection to xxx" durante una conexión remota?
¿Qué hago si la conexión a un entorno de desarrollo remoto permanece en estado "Setting up SSH Host xxx: Downloading VS Code Server locally" por más de 10 minutos?
¿Qué debo hacer si la conexión a un entorno de desarrollo remoto permanece en el estado de "Setting up SSH Host xxx: Downloading VS Code Server locally" por más de 10 minutos?
¿Qué hago si la conexión a un entorno de desarrollo remoto permanece en el estado de "ModelArts Remote Connect: Connecting to instance xxx..." durante más de 10 minutos?
¿Qué hago si una conexión remota está en el estado de reintento?
¿Qué hago si se muestra el mensaje de error "The VS Code Server failed to start"?
¿Qué hago si se muestra el mensaje de error "Permissions for 'x:/xxx.pem' are too open"?
¿Qué hago si se muestra un mensaje de error Bad owner or permissions on C:\Users\Administrator/.ssh/config" o "Connection permission denied (publickey)"?
¿Qué hago si se muestra el mensaje de error "ssh: connect to host xxx.pem port xxxxx: Connection refused"?
¿Qué hago si se muestra el mensaje de error "ssh: connect to host ModelArts-xxx port xxx: Connection timed out"?
What Do I Do If Error Message "Load key "C:/Users/xx/test1/xxx.pem": invalid format" Is Displayed?
¿Qué hago si se muestra el mensaje de error "An SSH installation couldn't be found" o "Could not establish connection to instance xxx: 'ssh' ..."?
¿Qué hago si se muestra un mensaje de error "no such identity: C:/Users/xx /test.pem: No such file or directory"?
¿Qué hago si se muestra el mensaje de error "Host key verification failed" o "Port forwarding is disabled"?
¿Qué hago si se muestra el mensaje de error "Failed to install the VS Code Server" o "tar: Error is not recoverable: exiting now"?
¿Qué hago si se muestra el mensaje de error "XHR failed" cuando se accede a una instancia de notebook remota a través de VS Code?
¿Qué hago para una conexión de VS Code desconectada automáticamente si no se realiza ninguna operación durante mucho tiempo?
¿Qué hago si toma mucho tiempo configurar una conexión remota después de actualizar automáticamente VS Code?
¿Qué hago si se muestra el mensaje de error "Connection reset" durante una conexión de SSH?
¿Qué puedo hacer si una instancia de Notebook se desconecta o se atasca con frecuencia después de usar MobaXterm para conectarme a la instancia de Notebook en modo SSH?
Otros
¿Cómo uso varias tarjetas de Ascend para la depuración en una instancia de notebook?
¿Por qué la velocidad de entrenamiento es similar cuando se usan diferentes variantes para notebook?
¿Cómo realizo entrenamiento incremental cuando uso MoXing?
¿Cómo puedo ver el uso de la GPU en el notebook?
¿Cómo puedo obtener el uso de GPU con el código?
¿Qué indicadores de rendimiento en tiempo real de un chip Ascend puedo ver?
¿El sistema detiene o elimina automáticamente una instancia de notebook si no habilito la parada automática?
¿Cuáles son las relaciones entre los archivos almacenados en el JupyterLab, Terminal y OBS?
¿Cómo puedo migrar datos de una instancia de notebook de versión antigua a una de versión nueva?
¿Cómo uso los conjuntos de datos creados en ModelArts en una instancia de notebook?
pip y comandos comunes
¿Cuáles son los tamaños de los directorios /cache para diferentes especificaciones de notebook de DevEnviron?
Trabajos de entrenamiento
Consultoría funcional
¿Cuáles son los requisitos de formato para los algoritmos importados desde un entorno local?
¿Cuáles son las soluciones para el underfitting?
¿Cuáles son las precauciones para cambiar los trabajos de entrenamiento de la versión antigua a la nueva?
¿Cómo obtengo un modelo de ModelArts entrenado?
¿Cómo configuro el entorno de tiempo de ejecución del motor de IA Scikit_Learn 0.18.1?
¿Deben ser categóricos los hiperparámetros optimizados usando un algoritmo de TPE?
¿Para qué se utiliza TensorBoard en los trabajos de visualización de modelos?
¿Cómo obtengo RANK_TABLE_FILE en ModelArts para el entrenamiento distribuido?
¿Cómo obtengo las versiones CUDA y cuDNN de una imagen personalizada?
¿Cómo obtengo un archivo de instalación de MoXing?
En un entrenamiento con multinodo, el nodo de PS TensorFlow que funciona como un servidor se suspenderá continuamente. ¿Cómo determina ModelArts si el entrenamiento está completo? ¿Qué nodo es un trabajador?
¿Cómo instalo MoXing para una imagen personalizada?
Lectura de datos durante el entrenamiento
¿Cómo configuro los datos de entrada y salida para los modelos de entrenamiento de ModelArts?
¿Cómo mejoro la eficiencia del entrenamiento reduciendo la interacción con OBS?
¿Por qué la eficiencia de lectura de datos es baja cuando se leen un gran número de archivos de datos durante el entrenamiento?
Compilación del código de entrenamiento
¿Cómo creo un trabajo de entrenamiento cuando el modelo que se va a entrenar hace referencia a un paquete de dependencia?
What Is the Common File Path for Training Jobs?
¿Cómo instalo una biblioteca de la que depende C++?
¿Cómo puedo comprobar si una copia de carpeta está completa durante el entrenamiento laboral?
¿Cómo cargo algunos parámetros bien entrenados durante el entrenamiento laboral?
¿Cómo obtengo los parámetros del trabajo de entrenamiento del archivo de arranque del trabajo de entrenamiento?
¿Por qué no puedo usar os.system ('cd xxx') para acceder a la carpeta correspondiente durante el entrenamiento laboral?
¿Cómo invoco un script de Shell en un trabajo de entrenamiento para ejecutar el archivo .sh?
¿Cómo obtengo la ruta para almacenar el archivo de dependencia en el código de entrenamiento?
¿Cuál es la ruta de acceso del archivo si se hace referencia a un archivo del directorio modelo en un paquete personalizado de Python?
Creación de un trabajo de entrenamiento
¿Qué puedo hacer si se muestra el mensaje "Object directory size/quantity exceeds the limit" al crear un trabajo de entrenamiento?
¿Cuáles son las precauciones para establecer parámetros de entrenamiento?
¿Cuáles son los tamaños de los directorios /cache para diferentes especificaciones de recursos en el entorno de entrenamiento?
¿Es seguro el directorio /cache de un trabajo de entrenamiento?
¿Por qué un trabajo de entrenamiento siempre está en cola?
Gestión de versiones de trabajos de entrenamiento
¿Un trabajo de entrenamiento apoya llamadas programadas o periódicas?
Consulta de detalles de trabajo
¿Cómo puedo comprobar el uso de recursos de un trabajo de entrenamiento?
¿Cómo accedo a los antecedentes de un trabajo de entrenamiento?
¿Hay algún conflicto cuando los modelos de dos trabajos de entrenamiento se guardan en el mismo directorio de un contenedor?
Solo se conservan tres dígitos válidos en un log de salida del entrenamiento. ¿Se puede cambiar el valor de loss?
¿Se puede descargar o migrar un modelo entrenado a otra cuenta? ¿Cómo obtengo la ruta de descarga?
Gestión de modelos
Importación de modelos
¿Cómo puedo importar el modelo .h5 de Keras a ModelArts?
¿Cómo edito los parámetros de dependencia del paquete de instalación en un archivo de configuración de modelo al importar un modelo?
¿Cómo cambio el puerto predeterminado para crear un servicio en tiempo real usando una imagen personalizada?
¿Qué hago si se produce una excepción de modelo al desplegar un modelo de imagen personalizado?
Despliegue del servicio
Consultoría funcional
¿Qué tipos de servicios se pueden desplegar modelos en ModelArts?
¿Cuáles son las diferencias entre los servicios en tiempo real y los servicios por lotes?
¿Por qué no puedo seleccionar los recursos de Ascend 310?
¿Pueden desplegarse localmente los modelos entrenados por ModelArts?
¿Cuál es el tamaño máximo de un organismo de solicitud de inferencia?
¿Se pueden facturar los servicios en tiempo real sobre una base anual/mensual?
¿Cómo selecciono las especificaciones del nodo informático para desplegar un servicio?
¿Qué es la versión de CUDA para desplegar un servicio en GPU?
Servicios en tiempo real
¿Qué hago si se produce un conflicto en el paquete de dependencia de Python de un script de predicción personalizado cuando despliego un servio en tiempo real?
¿Cómo acelero la predicción en tiempo real?
¿Cuál es el formato de una API de servicio en tiempo real?
¿Cómo puedo comprobar si un modelo causa un error cuando se ejecuta un servicio en tiempo real pero la predicción ha fallado?
¿Cómo relleno el encabezado de solicitud y el cuerpo de solicitud de una solicitud de inferencia cuando se está ejecutando un servicio en tiempo real?
¿Por qué no puedo acceder a la dirección de solicitud de inferencia obtenida desde el cliente iniciador?
¿Qué hago si no se extrae una imagen cuando se despliega, inicia, actualiza o modifica un servicio en tiempo real?
¿Qué hago si una imagen se reinicia repetidamente cuando se despliega, inicia, actualiza o modifica un servicio en tiempo real?
¿Qué hago si falló la comprobación del estado de un contenedor cuando se despliega, inicia, actualiza o modifica un servicio en tiempo real?
¿Qué hago si los recursos son insuficientes cuando se despliega, inicia, actualiza o modifica un servicio en tiempo real?
¿Qué hago si falló el despliegue de un servicio debido a una cuota insuficiente?
¿Por qué falló el despliegue de mi servicio con el tiempo de espera deel despliegue adecuado configurado?
Grupos de recursos
¿Puedo usar ECS para crear un grupo de recursos dedicado para ModelArts?
¿Puedo desplegar varios servicios en un nodo de grupo de recursos dedicado?
¿Cómo se factura un nodo recién agregado a un grupo de recursos dedicado?
¿Cuáles son las diferencias entre un grupo de recursos públicos y un grupo de recursos dedicado?
How Do I Log In to a Dedicated Resource Pool Node Through SSH?
¿Cómo se ponen en cola los trabajos de entrenamiento?
¿Qué hago si los recursos son insuficientes para mirar un nuevo servicio en tiempo real después de detener un servicio en tiempo real en un grupo de recursos dedicado?
¿Se puede utilizar un grupo de recursos público para la conexión de red entre ModelArts y el servicio de autenticación para ejecutar algoritmos?
¿Por qué un grupo de recursos dedicado que no se crea todavía se muestra en la consola después de que se elimina?
¿Cómo agrego una interconexión de VPC entre un grupo de recursos dedicado y un SFS?
¿Qué debo hacer si un trabajo de entrenamiento siempre está esperando en una cola de recursos?
API/SDK
¿Se pueden usar las API o los SDK de ModelArts para descargar modelos a una PC local?
¿Qué entornos de instalación admiten los SDK de ModelArts?
¿Utiliza ModelArts la API de OBS para acceder a archivos de OBS por una intranet o Internet?
¿Cómo obtengo una curva de uso de recursos de trabajo después de enviar un trabajo de entrenamiento llamando a una API?
Historial de cambios
Pasos iniciales
Cómo usar ModelArts
Desarrolladores de servicios: Construir modelos con ExeML
Resource Management
Grupo de recursos
Clúster elástico
Actualizaciones integrales a las funciones de gestión de grupo de recursos de ModelArts
Creación de un grupo de recursos
Consulta de detalles sobre un grupo de recursos
Cambio de tamaño de un grupo de recursos
Establecimiento de una política de renovación
Modificación de la política de caducidad
Migración del espacio de trabajo
Cambio de tipos de trabajos soportados por un grupo de recursos
Actualización de un controlador de grupo de recursos
Eliminación de un grupo de recursos
Estado anormal de un grupo de recursos dedicado
Red de ModelArts
Nodos de ModelArts
Logs de auditoría
Operaciones de clave registradas por CTS
Consulta de logs de auditoria
Recursos de monitoreo
Descripción general
Uso de Grafana para consultar métricas de monitoreo de AOM
Procedimiento
Instalación y configuración de Grafana
Instalación y configuración de Grafana en Windows
Instalación y configuración de Grafana en Linux
Instalación y configuración de Grafana en una instancia de notebook
Configuración de un origen de datos de Grafana
Uso de Grafana para configurar paneles y consultar datos de métrica
Consulta de todas las métricas de control de ModelArts en la consola de AOM
Prácticas recomendadas
Muestras oficiales
Gestión de permisos
Conceptos básicos
Mecanismos de gestión de permiso
IAM
Delegaciones y dependencias
Espacio de trabajo
Prácticas de configuración en escenarios típicos
Asignación de permisos a los usuarios individuales para utilizar ModelArts
Asignación de permisos básicos para utilizar ModelArts
Escenarios
Paso 1 Cree un grupo de usuarios y agregue datos al grupo de usuarios
Paso 2 Asignar permisos para el uso de servicios en la nube
Paso 3 Configurar la autorización de acceso a ModelArts basada en agentes para el usuario
Paso 4 Verificar los datos de usuario
Asignación separada de permisos a administradores y desarrolladores
Consulta de todas las instancias de notebook de un proyecto de IAM
Inicio de sesión en un contenedor de entrenamiento con Cloud Shell
Prohibición de que un usuario utilice un grupo de recursos público
Concesión de permisos de acceso a la carpeta SFS Turbo a usuarios de IAM
Preguntas frecuentes
¿Qué debo hacer si se muestra un mensaje que indica permisos insuficientes cuando utilizo ModelArts?
Notebook
Creación, migración y gestión de entornos virtuales de Conda basados en SFS
Entrenamiento de modelos
Uso de un algoritmo personalizado para crear un modelo de reconocimiento de dígitos escrito a mano
Ejemplo: creación de una imagen personalizada para el entrenamiento (PyTorch + CPU/GPU)
Ejemplo: creación de una imagen personalizada para entrenamiento (MPI + CPU/GPU)
Ejemplo: creación de una imagen personalizada para entrenamiento (Horovod-PyTorch y GPU)
Ejemplo: creación de una imagen personalizada para entrenamiento (MindSpore y GPU)
Ejemplo: creación de una imagen personalizada para entrenamiento (TensorFlow y GPU)
Inferencia del modelo
Creación de una imagen personalizada y su uso para crear una aplicación de IA
Habilitación de un servicio de inferencia para acceder a Internet
O&M de extremo a extremo para servicios de inferencia
Creación de una aplicación de IA con un motor personalizado
Creación de una aplicación de IA con un modelo grande y despliegue de un servicio en tiempo real
Migración de un marco de inferencia de terceros a un motor de inferencia personalizado
Acceso de alta velocidad a servicios de inferencia por interconexión de las VPC
Desarrollo de procesos completos de servicios de WebSocket en tiempo real
What's New
Function Overview
Product Bulletin
[Notice] Huawei Cloud ModelArts Has Discontinued the Old Version of Training Management
Billing
Billing Modes
Overview
Yearly/Monthly
Pay-per-Use
Billing Item
ExeML
Data Management
Development Environment
Model Training
AI Application
Inference Deployment
Dedicated Resource Pool
Billing Examples
Changing the Billing Mode
Overview
Changing the Billing Mode from Pay-per-Use to Yearly/Monthly
Changing the Billing Mode from Yearly/Monthly to Pay-per-Use
Renewal
Overview
Manual Renewal
Auto-Renewal
Bills
About Arrears
Stopping Billing
Cost Management
Billing FAQs
How Do I View the ModelArts Jobs Being Billed?
How Do I View ModelArts Expenditure Details?
How Do I Stop Billing If I Do Not Use ModelArts?
Will I Be Charged for Uploading Datasets to ModelArts?
What Should I Do to Avoid Unnecessary Billing After I Label Datasets and Exit?
How Do I Stop Billing for a ModelArts ExeML Project?
How Are Training Jobs Billed?
Why Does Billing Continue After All Projects Are Deleted?
ModelArts User Guide (Standard)
ModelArts Standard Usage
ModelArts Standard Preparations
Configuring Access Authorization for ModelArts Standard
Configuring Agency Authorization for ModelArts with One Click
Creating an IAM User and Granting ModelArts Permissions
Creating and Managing a Workspace
Creating an OBS Bucket for ModelArts to Store Data
ModelArts Standard Resource Management
About ModelArts Standard Resource Pools
Creating a Standard Dedicated Resource Pool
Managing Standard Dedicated Resource Pools
Viewing Details About a Standard Dedicated Resource Pool
Resizing a Standard Dedicated Resource Pool
Upgrading the Standard Dedicated Resource Pool Driver
Rectifying a Faulty Node in a Standard Dedicated Resource Pool
Modifying the Job Types Supported by a Standard Dedicated Resource Pool
Migrating Standard Dedicated Resource Pools and Networks to Other Workspaces
Configuring the Standard Dedicated Resource Pool to Access the Internet
Using TMS Tags to Manage Resources by Group
Releasing Standard Dedicated Resource Pools and Deleting the Network
Using ExeML for Zero-Code AI Development
Introduction to ExeML
Using ExeML for Image Classification
Preparing Image Classification Data
Creating an Image Classification Project
Labeling Image Classification Data
Training an Image Classification Model
Deploying an Image Classification Service
Using ExeML for Object Detection
Preparing Object Detection Data
Creating an Object Detection Project
Labeling Object Detection Data
Training an Object Detection Model
Deploying an Object Detection Service
Using ExeML for Predictive Analytics
Preparing Predictive Analysis Data
Creating a Predictive Analytics Project
Training a Predictive Analysis Model
Deploying a Predictive Analytics Service
Using ExeML for Sound Classification
Preparing Sound Classification Data
Creating a Sound Classification Project
Labeling Sound Classification Data
Training a Sound Classification Model
Deploying a Sound Classification Service
Using ExeML for Text Classification
Preparing Text Classification Data
Creating a Text Classification Project
Labeling Text Classification Data
Training a Text Classification Model
Deploying a Text Classification Service
Tips
How Do I Quickly Create an OBS Bucket and a Folder When Creating a Project?
Where Are Models Generated by ExeML Stored? What Other Operations Are Supported?
Using Workflows for Low-Code AI Development
What Is Workflow?
Managing a Workflow
Searching for a Workflow
Viewing the Running Records of a Workflow
Managing a Workflow
Retrying, Stopping, or Running a Workflow Phase
Workflow Development Command Reference
Core Concepts of Workflow Development
Configuring Workflow Parameters
Configuring the Input and Output Paths of a Workflow
Creating Workflow Phases
Creating a Dataset Phase
Creating a Dataset Labeling Phase
Creating a Dataset Import Phase
Creating a Dataset Release Phase
Creating a Training Job Phase
Creating a Model Registration Phase
Creating a Service Deployment Phase
Creating a Multi-Branch Workflow
Multi-Branch Workflow
Creating a Condition Phase to Control Branch Execution
Configuring Phase Parameters to Control Branch Execution
Configuring Multi-Branch Phase Data
Creating a Workflow
Publishing a Workflow
Publishing a Workflow to ModelArts
Publishing a Workflow to AI Gallery
Advanced Workflow Capabilities
Using Big Data Capabilities (DLI/MRS) in a Workflow
Specifying Certain Phases to Run in a Workflow
Development Environments
Application Scenarios
Creating a Notebook Instance
Using a Notebook Instance for AI Development Through JupyterLab
Using JupyterLab to Develop and Debug Code Online
Common Functions of JupyterLab
Using Git to Clone the Code Repository in JupyterLab
Uploading Files to JupyterLab
Uploading Files from a Local Path to JupyterLab
Cloning GitHub Open-Source Repository Files to JupyterLab
Uploading OBS Files to JupyterLab
Uploading Remote Files to JupyterLab
Downloading a File from JupyterLab to a Local PC
Using MindInsight Visualization Jobs in JupyterLab
Using TensorBoard Visualization Jobs in JupyterLab
Using Notebook Instances Remotely Through PyCharm
Connecting to a Notebook Instance Through PyCharm Toolkit
Manually Connecting to a Notebook Instance Through PyCharm
Uploading Data to a Notebook Instance Through PyCharm
Using Notebook Instances Remotely Through VS Code
Connecting to a Notebook Instance Through VS Code
Installing VS Code
Connecting to a Notebook Instance Through VS Code Toolkit
Manually Connecting to a Notebook Instance Through VS Code
Uploading and Downloading Files in VS Code
Using a Notebook Instance Remotely with SSH
Managing Notebook Instances
Searching for a Notebook Instance
Updating a Notebook Instance
Starting, Stopping, or Deleting a Notebook Instance
Saving a Notebook Instance
Dynamically Expanding EVS Disk Capacity
Dynamically Mounting an OBS Parallel File System
Viewing Notebook Events
Notebook Cache Directory Alarm Reporting
ModelArts CLI Command Reference
ModelArts CLI Commands
(Optional) Installing ma-cli Locally
Autocompletion for ma-cli Commands
ma-cli Authentication
ma-cli image Commands for Building Images
ma-cli ma-job Commands for Training Jobs
ma-cli dli-job Commands for Submitting DLI Spark Jobs
Using ma-cli to Copy OBS Data
Using Moxing Commands in a Notebook Instance
Introduction to MoXing Framework
Getting Started
Introducing MoXing Framework
Mapping Between mox.file and Local APIs and Switchover
Sample Code for Common Operations
Sample Code for Advanced Applications
Data Management
Introduction to Data Preparation
Getting Started
Creating a Dataset
Dataset Overview
Creating a Dataset
Modifying a Dataset
Importing Data
Introduction to Data Importing
Importing Data from OBS
Introduction to Importing Data from OBS
Importing Data from an OBS Path
Specifications for Importing Data from an OBS Directory
Importing a Manifest File
Specifications for Importing a Manifest File
Importing Data from DLI
Importing Data from MRS
Importing Data from DWS
Importing Data from Local Files
Data Analysis and Preview
Auto Grouping
Data Filtering
Data Feature Analysis
Labeling Data
Publishing Data
Introduction to Data Publishing
Publishing a Data Version
Managing Data Versions
Exporting Data
Introduction to Exporting Data
Exporting Data to a New Dataset
Exporting Data to OBS
Model Training
Model Training Process
Preparing Model Training Code
Boot File of a Preset Image
Developing Code for Training Using a Preset Image
Developing Code for Training Using a Custom Image
Preparing a Model Training Image
Creating a Debug Training Job
Using PyCharm Toolkit to Create and Debug a Training Job
Creating an Algorithm
Creating a Production Training Job
Incremental Model Training
Distributed Model Training
Overview
Creating a Single-Node Multi-Card Distributed Training Job (DataParallel)
Creating a Multiple-Node Multi-Card Distributed Training Job (DistributedDataParallel)
Example: Creating a DDP Distributed Training Job (PyTorch + GPU)
Example: Creating a DDP Distributed Training Job (PyTorch + NPU)
Automatic Model Tuning (AutoSearch)
Overview
Creating a Training Job for Automatic Model Tuning
High Model Training Reliability
Training Job Fault Tolerance Check
Training Log Failure Analysis
Detecting Training Job Suspension
Training Job Rescheduling
Resumable Training
Enabling Unconditional Auto Restart
Managing Model Training Jobs
Viewing Training Job Details
Viewing the Resource Usage of a Training Job
Viewing the Model Evaluation Result
Viewing Training Job Events
Viewing Training Job Logs
Priority of a Training Job
Using Cloud Shell to Debug a Production Training Job
Rebuilding, Stopping, or Deleting a Training Job
Managing Environment Variables of a Training Container
Viewing Training Job Tags
Inference Deployment
Overview
Creating an AI Application
Creation Methods
Importing a Meta Model from a Training Job
Importing a Meta Model from OBS
Importing a Meta Model from a Container Image
Specifications for Creating an AI Application
Model Package Structure
Specifications for Editing a Model Configuration File
Specifications for Writing a Model Inference Code File
Specifications for Using a Custom Engine to Create an AI Model
Examples of Custom Scripts
Deploying an AI Application as Real-Time Inference Jobs
Deploying and Using Real-Time Inference
Deploying a Model as a Real-Time Service
Authentication Methods for Accessing Real-time Services
Accessing a Real-Time Service Through Token-based Authentication
Accessing a Real-Time Service Through AK/SK-based Authentication
Accessing a Real-Time Service Through App Authentication
Accessing a Real-Time Service Through Different Channels
Accessing a Real-Time Service Through a Public Network
Accessing a Real-Time Service Through a VPC High-Speed Channel
Accessing a Real-Time Service Using Different Protocols
Accessing a Real-Time Service Using WebSocket
Accessing a Real-Time Service Using Server-Sent Events
Deploying an AI Application as a Batch Inference Service
Managing AI Applications
Viewing Details About an AI Application
Viewing Events of an AI Application
Managing AI Application Versions
Managing a Synchronous Real-Time Service
Viewing Details About a Real-Time Service
Viewing Events of a Real-Time Service
Managing the Lifecycle of a Real-Time Service
Modifying a Real-Time Service
Viewing Performance Metrics of a Real-Time Service on Cloud Eye
Integrating a Real-Time Service API into the Production Environment
Managing Batch Inference Jobs
Viewing Details About a Batch Service
Viewing Events of a Batch Service
Managing the Lifecycle of a Batch Service
Modifying a Batch Service
Image Management
Application Scenarios of Custom Images
Preset Images Supported by ModelArts
ModelArts Preset Image Updates
ModelArts Unified Images
Preset Dedicated Images in Notebook Instances
Preset Dedicated Images for Training
Preset Dedicated Images for Inference
Creating a Custom Image for a Notebook Instance
Creating a Custom Image
Creating a Custom Image on ECS and Using It
Creating a Custom Image Using Dockerfile
Creating a Custom Image Using the Image Saving Function
Creating a Custom Image for Model Training
Creating a Custom Training Image
Creating a Custom Training Image Using a Preset Image
Migrating Existing Images to ModelArts
Creating a Custom Training Image (PyTorch + CPU/GPU)
Creating a Custom Training Image (MPI + CPU/GPU)
Creating a Custom Training Image (Tensorflow + GPU)
Creating a Custom Training Image (MindSpore + Ascend)
Creating a Custom Image for Inference
Creating a Custom Image for an AI Application
Creating a Custom Image in a Notebook Instance Using the Image Saving Function
Creating a Custom Image in a Notebook Instance Using Dockerfile
Creating a Custom Image on ECS
Resource Monitoring
Overview
Viewing Monitoring Metrics on the ModelArts Console
Viewing All ModelArts Monitoring Metrics on the AOM Console
Using Grafana to View AOM Monitoring Metrics
Installing and Configuring Grafana
Installing and Configuring Grafana on Windows
Installing and Configuring Grafana on Linux
Installing and Configuring Grafana on a Notebook Instance
Configuring a Grafana Data Source
Configuring a Dashboard to View Metric Data
Viewing Audit Logs
ModelArts Key Operations Traced by CTS
Viewing ModelArts Audit Logs
ModelArts User Guide (Lite Server)
Before You Start
Using Lite Server
High-Risk Operations
Mapping Between Compute Resources and Image Versions
Enabling Lite Server Resources
Configuring Lite Server Resources
Configuration Process
Configuring the Network
Configuring the Storage
Configuring the Software Environment
Configuring the Software Environment on the NPU Server
Configuring the Software Environment on the GPU Server
Using Lite Server Resources
PyTorch GPU Training and Inference Guide for GPT-2
Managing Lite Server Resources
Viewing Lite Server Details
Starting or Stopping the Lite Server
Synchronizing the Lite Server Status
Changing Lite Server OS
Monitoring Lite Server Resources
Using CES to Monitor Lite Server Resources
Using DCGM to Monitor Lite Server Resources
Collecting and Uploading NPU Logs
Releasing Lite Server Resources
ModelArts User Guide (Lite Cluster)
Before You Start
Usage Process
High-Risk Operations
Software Versions Required by Different Models
Enabling Lite Cluster Resources
Configuring Lite Cluster Resources
Configuring the Lite Cluster Environment
Configuring the Lite Cluster Network
Configuring kubectl
Configuring Lite Cluster Storage
(Optional) Configuring the Driver
(Optional) Configuring Image Pre-provisioning
Using Lite Cluster Resources
Using Snt9B for Distributed Training in a Lite Cluster Resource Pool
Performing PyTorch NPU Distributed Training In a ModelArts Lite Resource Pool Using Ranktable-based Route Planning
Using Snt9B for Inference in a Lite Cluster Resource Pool
Managing Lite Server Resources
Lite Cluster Resource Management
Managing Lite Cluster Nodes
Managing Lite Cluster Node Pools
Managing Lite Cluster Resource Pool Tags
Resizing a Lite Cluster Resource Pool
Upgrading the Lite Cluster Resource Pool Driver
Monitoring Lite Cluster Resources
Viewing Lite Cluster Monitoring Metrics on AOM
Viewing Lite Cluster Monitoring Metrics Using Prometheus
Releasing Lite Cluster Resources
AI Gallery
AI Gallery
Free Assets
My Gallery
Subscription & Use
Searching for and Adding an Asset to Favorites
Subscribing to Free Algorithms
Subscribing to a Workflow
Publish & Share
Publishing a Free Algorithm
Publishing a Free Model
Change History
SDK Reference
Before You Start
SDK Overview
Getting Started
(Optional) Installing the ModelArts SDK Locally
Session Authentication
(Optional) Session Authentication
Authentication Using the Username and Password
AK/SK-based Authentication
OBS Management
Overview of OBS Management
Transferring Files (Recommended)
Uploading a File to OBS
Uploading a Folder to OBS
Downloading a File from OBS
Downloading a Folder from OBS
Data Management
Managing Datasets
Querying a Dataset List
Creating a Dataset
Querying Details About a Dataset
Modifying a Dataset
Deleting a Dataset
Managing Dataset Versions
Obtaining a Dataset Version List
Creating a Dataset Version
Querying Details About a Dataset Version
Deleting a Dataset Version
Managing Samples
Querying a Sample List
Querying Details About a Sample
Deleting Samples in a Batch
Managing Dataset Import Tasks
Querying a Dataset Import Task List
Creating a Dataset Import Task
Querying the Status of a Dataset Import Task
Managing Export Tasks
Querying a Dataset Export Task List
Creating a Dataset Export Task
Querying the Status of a Dataset Export Task
Managing Manifest Files
Overview of Manifest Management
Parsing a Manifest File
Creating and Saving a Manifest File
Parsing a Pascal VOC File
Creating and Saving a Pascal VOC File
Managing Labeling Jobs
Creating a Labeling Job
Obtaining the Labeling Job List of a Dataset
Obtaining Details About a Labeling Job
Training Management (New Version)
Training Jobs
Creating a Training Job
Debugging a Training Job
Using the SDK to Debug a Multi-Node Distributed Training Job
Using the SDK to Debug a Single-Node Training Job
Obtaining Training Jobs
Obtaining the Details About a Training Job
Modifying the Description of a Training Job
Deleting a Training Job
Terminating a Training Job
Obtaining Training Logs
Obtaining the Runtime Metrics of a Training Job
APIs for Resources and Engine Specifications
Obtaining Resource Flavors
Obtaining Engine Types
Training Management (Old Version)
Training Jobs
Creating a Training Job
Debugging a Training Job
Querying the List of Training Jobs
Querying the Details About a Training Job
Modifying the Description of a Training Job
Obtaining the Name of a Training Job Log File
Querying Training Job Logs
Deleting a Training Job
Training Job Versions
Creating a Training Job Version
Querying the List of Training Job Versions
Querying the Details About a Training Job Version
Stopping a Training Job Version
Deleting a Training Job Version
Training Job Parameter Configuration
Creating a Training Job Configuration
Querying the List of Training Job Parameter Configuration Objects
Querying the List of Training Job Configurations
Querying the Details About a Training Job Configuration
Modifying a Training Job Configuration
Deleting a Training Job Configuration
Visualization Jobs
Creating a Visualization Job
Querying the List of Visualization Job Objects
Querying the List of Visualization Jobs
Querying the Details About a Visualization Job
Modifying the Description of a Visualization Job
Stopping a Visualization Job
Restarting a Visualization Job
Deleting a Visualization Job
Resource and Engine Specifications
Querying a Built-in Algorithm
Querying the List of Resource Flavors
Querying the List of Engine Types
Job Statuses
Model Management
Debugging a Model
Importing a Model
Obtaining Models
Obtaining Model Objects
Obtaining Details About a Model
Deleting a Model
Service Management
Service Management Overview
Deploying a Local Service for Debugging
Deploying a Real-Time Service
Obtaining Details About a Service
Testing an Inference Service
Obtaining Services
Obtaining Service Objects
Updating Service Configurations
Obtaining Service Monitoring Information
Obtaining Service Logs
Delete a Service
Change History
Troubleshooting
General Issues
Incorrect OBS Path on ModelArts
ExeML
Preparing Data
Failed to Publish a Dataset Version
Invalid Dataset Version
Training a Model
Failed to Create an ExeML-powered Training Job
ExeML-powered Training Job Failed
Failed to Train a Model and Error KMS.0314 Occurred
Deploying a Model
Failed to Submit the Real-time Service Deployment Task
Failed to Deploy a Real-time Service
Publishing a Model
Failed to Submit the Model Publishing Task
Failed to Publish a Model
DevEnviron
Environment Configuration Faults
Disk Space Used Up
An Error Is Reported When Conda Is Used to Install Keras 2.3.1 in Notebook
Error "HTTP error 404 while getting xxx" Is Reported During Dependency Installation in a Notebook
The numba Library Has Been Installed in a Notebook Instance and Error "import numba ModuleNotFoundError: No module named 'numba'" Is Reported
Instance Faults
Failed to Create a Notebook Instance and JupyterProcessKilled Is Displayed in Events
What Do I Do If I Cannot Access My Notebook Instance?
What Should I Do When the System Displays an Error Message Indicating that No Space Left After I Run the pip install Command?
What Do I Do If the Code Can Be Run But Cannot Be Saved, and the Error Message "save error" Is Displayed?
Why Is a Request Timeout Error Reported When I Click the Open Button of a Notebook Instance?
ModelArts.6333 Error Occurs
What Can I Do If a Message Is Displayed Indicating that the Token Does Not Exist or Is Lost When I Open a Notebook Instance?
Code Running Failures
Error Occurs When Using a Notebook Instance to Run Code, Indicating That No File Is Found in /tmp
What Do I Do If a Notebook Instance Won't Run My Code?
Why Does the Instance Break Down When dead kernel Is Displayed During Training Code Running?
What Do I Do If cudaCheckError Occurs During Training?
What Do I Do If Insufficient Space Is Displayed in DevEnviron?
Why Does the Notebook Instance Break Down When opencv.imshow Is Used?
Why Cannot the Path of a Text File Generated in Windows OS Be Found In a Notebook Instance?
What Do I Do If No Kernel Is Displayed After a Notebook File Is Created?
JupyterLab Plug-in Faults
What Do I Do If the Git Plug-in Password Is Invalid?
Save an Image Failures
What If the Error Message "there are processes in 'D' status, please check process status using'ps -aux' and kill all the 'D' status processes" or "Buildimge,False,Error response from daemon,Cannot pause container xxx" Is Displayed When I Save an Image?
What Do I Do If Error "container size %dG is greater than threshold %dG" Is Displayed When I Save an Image?
What Do I Do If Error "too many layers in your image" Is Displayed When I Save an Image?
What Do I Do If Error "The container size (xG) is greater than the threshold (25G)" Is Reported When I Save an Image?
Other Faults
Failed to Open the checkpoints Folder in Notebook
Failed to Use a Purchased Dedicated Resource Pool to Create New-Version Notebook Instances
Error Message "Permission denied" Is Displayed When the tensorboard Command Is Used to Open a Log File in a Notebook Instance
Training Jobs
OBS Operation Issues
Error in File Reading
Error Message Is Displayed Repeatedly When a TensorFlow-1.8 Job Is Connected to OBS
TensorFlow Stops Writing TensorBoard to OBS When the Size of Written Data Reaches 5 GB
Error "Unable to connect to endpoint" Error Occurs When a Model Is Saved
Error Message "BrokenPipeError: Broken pipe" Displayed When OBS Data Is Copied
Error Message "ValueError: Invalid endpoint: obs.xxxx.com" Displayed in Logs
Error Message "errorMessage:The specified key does not exist" Displayed in Logs
In-Cloud Migration Adaptation Issues
Failed to Import a Module
Error Message "No module named .*" Displayed in Training Job Logs
Failed to Install a Third-Party Package
Failed to Download the Code Directory
Error Message "No such file or directory" Displayed in Training Job Logs
Failed to Find the .so File During Training
ModelArts Training Job Failed to Parse Parameters and an Error Is Displayed in the Log
Training Output Path Is Used by Another Job
Error Message "RuntimeError: std::exception" Displayed for a PyTorch 1.0 Engine
Error Message "retCode=0x91, [the model stream execute failed]" Displayed in MindSpore Logs
Error Occurred When Pandas Reads Data from an OBS File If MoXing Is Used to Adapt to an OBS Path
Error Message "Please upgrade numpy to >= xxx to use this pandas version" Displayed in Logs
Reinstalled CUDA Version Does Not Match the One in the Target Image
Error ModelArts.2763 Occurred During Training Job Creation
Error Message "AttributeError: module '***' has no attribute '***'" Displayed Training Job Logs
System Container Exits Unexpectedly
Hard Faults Due to Space Limit
Downloading Files Timed Out or No Space Left for Reading Data
Insufficient Container Space for Copying Data
Error Message "No space left" Displayed When a TensorFlow Multi-node Job Downloads Data to /cache
Size of the Log File Has Reached the Limit
Error Message "write line error" Displayed in Logs
Error Message "No space left on device" Displayed in Logs
Training Job Failed Due to OOM
Common Issues Related to Insufficient Disk Space and Solutions
Internet Access Issues
Error Message "Network is unreachable" Displayed in Logs
URL Connection Timed Out in a Running Training Job
Permission Issues
What Should I Do If Error "stat:403 reason:Forbidden" Is Displayed in Logs When a Training Job Accesses OBS
Error Message "Permission denied" Displayed in Logs
GPU Issues
Error Message "No CUDA-capable device is detected" Displayed in Logs
Error Message "RuntimeError: connect() timed out" Displayed in Logs
Error Message "cuda runtime error (10) : invalid device ordinal at xxx" Displayed in Logs
Error Message "RuntimeError: Cannot re-initialize CUDA in forked subprocess" Displayed in Logs
No GPU Is Found for a Training Job
Service Code Issues
Error Message "pandas.errors.ParserError: Error tokenizing data. C error: Expected .* fields" Displayed in Logs
Error Message "max_pool2d_with_indices_out_cuda_frame failed with error code 0" Displayed in Logs
Training Job Failed with Error Code 139
Debugging Training Code in the Cloud Environment If a Training Job Failed
Error Message "'(slice(0, 13184, None), slice(None, None, None))' is an invalid key" Displayed in Logs
Error Message "DataFrame.dtypes for data must be int, float or bool" Displayed in Logs
Error Message "CUDNN_STATUS_NOT_SUPPORTED" Displayed in Logs
Error Message "Out of bounds nanosecond timestamp" Displayed in Logs
Error Message "Unexpected keyword argument passed to optimizer" Displayed in Logs
Error Message "no socket interface found" Displayed in Logs
Error Message "Runtimeerror: Dataloader worker (pid 46212) is killed by signal: Killed BP" Displayed in Logs
Error Message "AttributeError: 'NoneType' object has no attribute 'dtype'" Displayed in Logs
Error Message "No module name 'unidecode'" Displayed in Logs
Distributed Tensorflow Cannot Use tf.variable
When MXNet Creates kvstore, the Program Is Blocked and No Error Is Reported
ECC Error Occurs in the Log, Causing Training Job Failure
Training Job Failed Because the Maximum Recursion Depth Is Exceeded
Training Using a Built-in Algorithm Failed Due to a bndbox Error
Training Job Status Is Reviewing Job Initialization
Training Job Process Exits Unexpectedly
Stopped Training Job Process
Training Job Suspended
Locating Training Job Suspension
Data Replication Suspension
Suspension Before Training
Suspension During Training
Suspension in the Last Training Epoch
Running a Training Job Failed
Troubleshooting a Training Job Failure
An NCCL Error Occurs When a Training Job Fails to Be Executed
Troubleshooting Process
A Training Job Created Using a Custom Image Is Always in the Running State
Failed to Find the Boot File When a Training Job Is Created Using a Custom Image
Running a Job Failed Due to Persistently Rising Memory Usage
Training Jobs Created in a Dedicated Resource Pool
No Cloud Storage Name or Mount Path Displayed on the Page for Creating a Training Job
Storage Volume Failed to Be Mounted to the Pod During Training Job Creation
Training Performance Issues
Training Performance Deteriorated
Inference Deployment
AI Application Management
Creating an AI Application Failed
Suspended Account or Insufficient Permission to Import AI Applications
Failed to Build an Image or Import a File When an IAM user Creates an AI Application
Obtaining the Directory Structure in the Target Image When Importing an AI Application Through OBS
Failed to Obtain Certain Logs on the ModelArts Log Query Page
Failed to Download a pip Package When an AI Application Is Created Using OBS
Failed to Use a Custom Image to Create an AI application
Insufficient Disk Space Is Displayed When a Service Is Deployed After an AI Application Is Imported
Error Occurred When a Created AI Application Is Deployed as a Service
Invalid Runtime Dependency Configured in an Imported Custom Image
Garbled Characters Displayed in an AI Application Name Returned When AI Application Details Are Obtained Through an API
The Model or Image Exceeded the Size Limit for AI Application Import
A Single Model File Exceeded the Size Limit (5 GB) for AI Application Import
Creating an AI Application Failed Due to Image Building Timeout
Service Deployment
Error Occurred When a Custom Image Model Is Deployed as a Real-Time Service
Alarm Status of a Deployed Real-Time Service
Failed to Start a Service
What Do I Do If an Image Fails to Be Pulled When a Service Is Deployed, Started, Upgraded, or Modified?
What Do I Do If an Image Restarts Repeatedly When a Service Is Deployed, Started, Upgraded, or Modified?
What Do I Do If a Container Health Check Fails When a Service Is Deployed, Started, Upgraded, or Modified?
What Do I Do If Resources Are Insufficient When a Service Is Deployed, Started, Upgraded, or Modified?
Error Occurred When a CV2 Model Package Is Used to Deploy a Real-Time Service
Service Is Consistently Being Deployed
A Started Service Is Intermittently in the Alarm State
Failed to Deploy a Service and Error "No Module named XXX" Occurred
Insufficient Permission to or Unavailable Input/Output OBS Path of a Batch Service
Error "No CUDA runtime is found" Occurred When a Real-Time Service Is Deployed
What Can I Do if the Memory Is Insufficient?
Service Prediction
Service Prediction Failed
Error "APIG.XXXX" Occurred in a Prediction Failure
Error ModelArts.4206 Occurred in Real-Time Service Prediction
Error ModelArts.4302 Occurred in Real-Time Service Prediction
Error ModelArts.4503 Occurred in Real-Time Service Prediction
Error MR.0105 Occurred in Real-Time Service Prediction
Method Not Allowed
Request Timed Out
Error Occurred When an API Is Called for Deploying a Model Created Using a Custom Image
Error "DL.0105" Occurred During Real-Time Inference
MoXing
Error Occurs When MoXing Is Used to Copy Data
How Do I Disable the Warmup Function of the Mox?
Pytorch Mox Logs Are Repeatedly Generated
Does moxing.tensorflow Contain the Entire TensorFlow? How Do I Perform Local Fine Tune on the Generated Checkpoint?
Copying Data Using MoXing Is Slow and the Log Is Repeatedly Printed in a Training Job
Failed to Access a Folder Using MoXing and Read the Folder Size Using get_size
APIs or SDKs
"ERROR: Could not install packages due to an OSError" Occurred During ModelArts SDK Installation
Error Occurred During Service Deployment After the Target Path to a File Downloaded Through a ModelArts SDK Is Set to a File Name
A Training Job Created Using an API Is Abnormal
Change History
Videos
User Guide (ExeML)
ExeML (New Version)
Introduction to ExeML
Image Classification
Preparing Data
Creating a Project
Labeling Data
Training a Model
Deploying a Model as a Service
Object Detection
Preparing Data
Creating a Project
Labeling Data
Training a Model
Deploying a Model as a Service
Predictive Analytics
Preparing Data
Creating a Project
Training a Model
Deploying a Model as a Service
Sound Classification
Preparing Data
Creating a Project
Labeling Data
Training a Model
Deploying a Model as a Service
Text Classification
Preparing Data
Creating a Project
Labeling Data
Training a Model
Deploying a Model as a Service
Tips
How Do I Quickly Create an OBS Bucket and a Folder When Creating a Project?
Where Are Models Generated by ExeML Stored? What Other Operations Are Supported?
ExeML (Old Version)
Introduction to ExeML
Image Classification
Preparing Data
Creating a Project
Labeling Data
Training a Model
Deploying a Model as a Service
Object Detection
Preparing Data
Creating a Project
Labeling Data
Training a Model
Deploying a Model as a Service
Predictive Analytics
Preparing Data
Creating a Project
Selecting a Label Column
Training a Model
Deploying a Model as a Service
Sound Classification
Preparing Data
Creating a Project
Labeling Data
Training a Model
Deploying a Model as a Service
Text Classification
Preparing Data
Creating a Project
Labeling Data
Training a Model
Deploying a Model as a Service
Tips
How Do I Quickly Create an OBS Bucket and a Folder When Creating a Project?
How Do I View the Added Data in an ExeML Project?
How Do I Perform Incremental Training in an ExeML Project?
Where Are Models Generated by ExeML Stored? What Other Operations Are Supported?
Upgrading a Project Version
Workflows
MLOps Overview
What Is Workflow?
How to Use a Workflow?
Configuring a Workflow
Configuration Entries
Runtime Configurations
Resource Configurations
Tag Configuration
SMN
Input and Output Configurations
Phase Parameters
Saving Configurations
Starting, Stopping, Searching for, Copying, or Deleting a Workflow
Viewing Workflow Execution Records
Retrying, Stopping, or Proceeding a Phase
Partial Execution
How to Develop a Workflow?
Concepts
Workflow
Step
Data
Development State
Running State
Parameter Configuration
Function
Parameter Overview
Examples
Unified Storage
Function
Common Usage
Advanced Usage
Example
Operations
Phase Type
Dataset Creation Phase
Function
Parameter Overview
Examples
Labeling Phase
Function
Parameter Overview
Examples
Dataset Import Phase
Function
Parameter Overview
Examples
Dataset Release Phase
Function
Parameter Overview
Examples
Job Phase
Function
Parameter Overview
Obtaining Resources
Examples
Model Registration Phase
Function
Parameter Overview
Examples
Service Deployment Phase
Function
Parameter Overview
Examples
Configuration Operations
Condition Phase
Function
Parameter Overview
Examples
Branch Control
Data Selection Among Multiple Inputs
Creating a Workflow
Debugging a Workflow
Publishing a Workflow
Publishing a Workflow to the Running State
Publishing a Workflow to AI Gallery
Advanced Capabilities
Partial Execution
Using Big Data Capabilities (DLI/MRS) in a Workflow
FAQs
How Do I Obtain Training Specifications During Debugging in the Development State?
How Do I Implement Multiple Branches?
How Do I Import Objects?
How Do I Locate Running Errors?
Model Development
Introduction to Model Development
Preparing Data
Preparing Algorithms
Introduction to Algorithm Preparation
Using a Preset Image (Custom Script)
Overview
Developing a Custom Script
Creating an Algorithm
Using Custom Images
Viewing Algorithm Details
Searching for an Algorithm
Deleting an Algorithm
Performing a Training
Creating a Training Job
Viewing Training Job Details
Viewing Training Job Events
Training Job Logs
Introduction to Training Job Logs
Common Logs
Viewing Training Job Logs
Locating Faults by Analyzing Training Logs
Cloud Shell
Logging In to a Training Container Using Cloud Shell
Keeping a Training Job Running
Preventing Cloud Shell Session from Disconnection
Viewing the Resource Usage of a Training Job
Evaluation Results
Viewing Training Tags
Viewing Fault Recovery Details
Viewing Environment Variables of a Training Container
Stopping, Rebuilding, or Searching for a Training Job
Releasing Training Job Resources
Advanced Training Operations
Automatic Recovery from a Training Fault
Training Fault Tolerance Check
Unconditional Auto Restart
Resumable Training and Incremental Training
Detecting Training Job Suspension
Priority of a Training Job
Permission to Set the Highest Job Priority
Distributed Training
Distributed Training Functions
Single-Node Multi-Card Training Using DataParallel
Multi-Node Multi-Card Training Using DistributedDataParallel
Distributed Debugging Adaptation and Code Example
Sample Code of Distributed Training
Example of Starting PyTorch DDP Training Based on a Training Job
Automatic Model Tuning (AutoSearch)
Introduction to Hyperparameter Search
Search Algorithm
Bayesian Optimization (SMAC)
TPE Algorithm
Simulated Annealing Algorithm
Creating a Hyperparameter Search Job
MoXing Developer Guide
Introduction to MoXing Framework
Getting Started
Introducing MoXing Framework
Mapping Between mox.file and Local APIs and Switchover
Sample Code for Common Operations
Sample Code for Advanced Applications
Data Preparation and Analytics
Introduction to Data Preparation
Getting Started
Creating a Dataset
Dataset Overview
Creating a Dataset
Modifying a Dataset
Importing Data
Introduction to Data Importing
Importing Data from OBS
Introduction to Importing Data from OBS
Importing Data from an OBS Path
Specifications for Importing Data from an OBS Directory
Importing a Manifest File
Specifications for Importing a Manifest File
Importing Data from DLI
Importing Data from MRS
Importing Data from DWS
Importing Data from Local Files
Data Analysis and Preview
Auto Grouping
Data Filtering
Data Feature Analysis
Labeling Data
Publishing Data
Introduction to Data Publishing
Publishing a Data Version
Managing Data Versions
Exporting Data
Introduction to Exporting Data
Exporting Data to a New Dataset
Exporting Data to OBS
Data Labeling
Introduction to Data Labeling
Manual Labeling
Creating a Labeling Job
Image Labeling
Image Classification
Object Detection
Image Segmentation
Text Labeling
Text Classification
Named Entity Recognition
Text Triplet
Audio Labeling
Sound Classification
Speech Labeling
Speech Paragraph Labeling
Video Labeling
Viewing Labeling Jobs
Viewing My Created Labeling Jobs
Viewing My Participated Labeling Jobs
Auto Labeling
Creating an Auto Labeling Job
Confirming Hard Examples
Team Labeling
Team Labeling Overview
Creating and Managing Teams
Managing Teams
Managing Team Members
Creating a Team Labeling Job
Logging In to ModelArts
Starting a Team Labeling Job
Reviewing Team Labeling Results
Accepting Team Labeling Results
User Guide for Senior AI Engineers (To Be Offline)
Operation Guide
Data Management (Old Version to Be Terminated)
Introduction to Data Management
Creating a Dataset (Old Version)
Labeling Data
Image Classification
Object Detection
Image Segmentation
Text Classification
Named Entity Recognition
Text Triplet
Sound Classification
Speech Labeling
Speech Paragraph Labeling
Video Labeling
Importing Data
Import Operation
Specifications for Importing Data from an OBS Directory
Specifications for Importing the Manifest File
Exporting Data
Modifying a Dataset
Publishing a Dataset
Deleting a Dataset
Managing Dataset Versions
Auto Labeling
Confirming Hard Examples
Auto Grouping
Data Features
Team Labeling
Introduction to Team Labeling
Team Management
Member Management
Managing Team Labeling Tasks
Data Processing
Introduction to Data Processing
Creating a Data Processing Task
Managing and Viewing Data Processing Tasks
Built-in Operators
Data Validation
Data Cleansing
Data Selection
Data Selection (Hard Examples)
Data Augmentation (Data Amplification)
Data Augmentation (Image Generation)
Training Management (Old Version )
Introduction to Model Training
Frequently-used Frameworks
Creating a Training Job
Introduction to Training Jobs
Using Existing Algorithms to Train Models
Using Frequently-used Frameworks to Train Models
Using Custom Images to Train Models
Stopping or Deleting a Job
Managing Training Job Versions
Viewing Job Details
Managing Job Parameters
Adding the Evaluation Code
Managing Visualization Jobs
Resource Pools (Old Version to Be Terminated)
Custom Images
Introduction to Custom Images
Creating and Uploading a Custom Image
Using Custom Images to Train Models (Old Version to Be Terminated)
Specifications for Custom Images Used for Training Jobs
Creating a Training Job Using a Custom Image (GPU)
Example: Creating a Training Job Using a Custom Image
Permissions Management
Creating a User and Granting Permissions
Creating a Custom Policy
Audit Logs
Key Operations Recorded by CTS
Viewing Audit Logs
Change History