Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ ModelArts/ Implementación de inferencia/ Despliegue de una aplicación de IA como servicio/ Despliegue de aplicaciones de IA como servicios en tiempo real/ Despliegue como servicio en tiempo real

Actualización más reciente 2025-12-12 GMT+08:00

Ver PDF

Despliegue como servicio en tiempo real

Después de preparar una aplicación de IA, puede desplegarla como un servicio en tiempo real e invocar al servicio para la predicción.

Restricciones

Un usuario puede desplegar un máximo de 20 servicios en tiempo real.

Requisitos previos

Se han preparado los datos. Específicamente, ha creado una aplicación de IA en el estado Normal de ModelArts.
La cuenta no está en mora para garantizar los recursos disponibles para la ejecución del servicio.

Procedimiento

Inicie sesión en la consola de gestión de ModelArts. En el panel de navegación izquierdo, elija Service Deployment > Real-Time Services. La lista de servicios en tiempo real se muestra por defecto.
En la lista de servicios en tiempo real, haga clic en Deploy en el extremo superior izquierdo. Se muestra la página Deploy.

Establezca parámetros para un servicio en tiempo real.

Establezca información básica acerca del despliegue del modelo. Para obtener detalles sobre los parámetros, véase Tabla 1.

**Tabla 1** Parámetros básicos
Parámetro	Descripción
Name	Nombre del servicio en tiempo real. Establezca este parámetro como se le solicite.
Auto Stop	Después de activar este parámetro y establecer el tiempo de parada automática, un servicio se detiene automáticamente a la hora especificada. Si este parámetro está desactivado, un servicio en tiempo real se mantiene en ejecución y facturación. La función puede ayudarlo a evitar la facturación innecesaria. La función de parada automática está activada de forma predeterminada y el valor predeterminado es 1 hour later. Las opciones son 1 hour later, 2 hours later, 4 hours later, 6 hours later y Custom. Si selecciona Custom, puede escribir cualquier entero de 1 a 24 horas en el cuadro de texto de la derecha.
Description	Breve descripción del servicio en tiempo real.

Ingrese la información clave, incluidas las configuraciones del grupo de recursos y de la aplicación de IA. Para más detalles, véase Tabla 2.

**Tabla 2** Parámetros
Parámetro	Subparámetro	Descripción
Resource Pool	Public Resource Pool	Los recursos de cómputo de CPU/GPU están disponibles para que los seleccione. Los estándares de precios para los grupos de recursos con diferentes variantes son diferentes. Para obtener más información, véase Detalles de precios de productos. El grupo de recursos público solo soporta el modo de facturación de pago por uso.
Resource Pool	Dedicated Resource Pool	Seleccione una especificación de las especificaciones del grupo de recursos dedicados. Los grupos físicos con subgrupos lógicos creados no se admiten temporalmente. NOTA: Los datos de los grupos de recursos dedicados de la versión anterior se migrarán gradualmente a los grupos de recursos dedicados de la nueva versión. Para los usuarios nuevos y los existentes que han migrado datos de los grupos de recursos dedicados de versiones anteriores a los nuevos, solo hay una entrada para los de versiones nuevas en la consola de gestión de ModelArts. Para los usuarios existentes que no han migrado datos de los grupos de recursos dedicados de versiones anteriores a nuevos, hay dos entradas para los grupos en la consola de gestión de ModelArts, donde la entrada marcada con New es para la nueva versión. Para obtener más información sobre la nueva versión de los grupos de recursos dedicados, véase Actualizaciones amplias de las funciones de gestión del grupo de recursos de ModelArts.
AI Application and Configuration	AI Application Source	Seleccione My AI Applications o My Subscriptions según sus requisitos.
	AI Application and Version	Seleccione la aplicación de IA y la versión que están en el estado Normal.
	Traffic Ratio (%)	Establezca la proporción de tráfico del nodo de instancia actual. Las solicitudes de invocaciones de servicio se asignan a la versión actual en función de esta proporción. Si despliega solo una versión de una aplicación de IA, establezca este parámetro en 100%. Si selecciona varias versiones para la versión intermedia, asegúrese de que la suma de las relaciones de tráfico de estas versiones sea 100%.
	Specifications	Seleccione las especificaciones disponibles según la lista mostrada en la consola. Las especificaciones en gris no se pueden utilizar en el entorno actual. Si las especificaciones de los grupos de recursos públicos no están disponibles, no hay ningún grupo de recursos públicos disponible en el entorno actual. En este caso, utilice un grupo de recursos dedicado o póngase en contacto con el administrador para crear un grupo de recursos público. NOTA: Cuando se utiliza la variante seleccionada para desplegar el servicio, se genera el consumo necesario del sistema. Por lo tanto, los recursos realmente ocupados por el servicio son ligeramente mayores que la variante seleccionada.
	Compute Nodes	Establezca el número de instancias para la versión actual de la aplicación de IA. Si establece el número de nodos en 1, se utilizará el modo de cómputo independiente. Si establece el número de nodos en un valor mayor que 1, se utilizará el modo de cómputo distribuido. Seleccione un modo de cómputo basado en los requisitos reales.
	Environment Variable	Establezca las variables de entorno e inyéctelas en el pod. Para garantizar la seguridad de los datos, no introduzca la información confidencial como contraseñas de texto sin formato en las variables de entorno.
	Timeout	Tiempo de espera de un único modelo, incluido el tiempo de despliegue y de inicio. El valor predeterminado es 20 minutos. El valor debe estar dentro del rango de 3 a 120.
	Add AI Application Version and Configuration	Si la aplicación de IA seleccionada tiene varias versiones, puede agregar varias versiones y configurar una relación de tráfico. Puede usar la versión intermedia para actualizar sin problemas la versión de la aplicación de IA. NOTA: Las especificaciones de cómputo gratuito no admiten la versión intermedia de varias versiones.
	Mount Storage	Este parámetro se muestra cuando el grupo de recursos es un grupo de recursos dedicado. Esta función montará un volumen de almacenamiento para calcular nodos (instancias de cómputo) como un directorio local cuando el servicio se está ejecutando. Se recomienda cuando el modelo o los datos de entrada son grandes. Hay dos tipos de volúmenes: sistema de archivos paralelo de OBS y sistema de archivos de SFS. Actualmente, solo se admiten los sistemas de archivos paralelos de OBS. Sistema de archivos paralelo de OBS Source Path: seleccione la ruta de almacenamiento del archivo paralelo. No se puede seleccionar un sistema de archivos paralelo de OBS entre regiones. Mount Path: introduzca la ruta de montaje del contenedor, por ejemplo, /tmp. Para evitar excepciones de contenedor, no monte el almacenamiento en un directorio del sistema como / o /var/run. Es una buena práctica montar el contenedor en un directorio vacío. Si el directorio no está vacío, asegúrese de que no haya archivos que afecten al inicio del contenedor en el directorio. De lo contrario, dichos archivos se reemplazarán, lo que provocará errores al iniciar el contenedor y crear la carga de trabajo. La ruta de montaje debe comenzar con una barra diagonal (/) y puede contener un máximo de 1,024 caracteres, incluidas las letras, los dígitos y los siguientes caracteres especiales: \ _ -. Sistema de archivos de SFS (no soportado) NOTA: El montaje de almacenamiento solo puede ser utilizado por servicios desplegados en un grupo de recursos dedicado.
Traffic Limit	N/A	Número máximo de veces que se puede acceder a un servicio en un segundo. Puede establecer este parámetro según sea necesario.
WebSocket	N/A	Si se debe desplegar un servicio en tiempo real como servicio de WebSocket. Para obtener más información sobre los servicios en tiempo real de WebSocket, véase Desarrollo de proceso completo de servicios en tiempo real de WebSocket. NOTA: Esta función solo se admite si la aplicación de IA es compatible con WebSocket y proviene de una imagen de contenedor. Una vez habilitada esta función, no se pueden configurar Traffic Limit ni Data Collection. Este parámetro no se puede cambiar una vez desplegado el servicio.
Runtime Log Output	N/A	Esta función está deshabilitada por defecto. Los logs de tiempo de ejecución de los servicios en tiempo real se almacenan solo en el sistema de logs de ModelArts. Puede consultar los logs de tiempo de ejecución en la pestaña Logs de la página de detalles del servicio. Si esta función está habilitada, los logs de tiempo de ejecución de los servicios en tiempo real se exportarán y almacenarán en Log Tank Service (LTS). LTS crea automáticamente grupos de logs y flujos de logs y cachés ejecuta logs generados en un plazo de siete días de forma predeterminada. Para obtener más detalles sobre la función de gestión de logs LTS, véase Log Tank Service. NOTA: Esto no se puede deshabilitar una vez que está habilitado. Se le facturarán las funciones de consulta de logs y almacenamiento de logs proporcionadas por LTS. Para obtener más detalles, véase la sección Detalles de precios de LTS.
Application Authentication	Application	Deshabilitada por defecto. Para habilitar esta función, véase Acceso autenticado mediante una aplicación para obtener más detalles y configure los parámetros según sea necesario.

Figura 1 Configuración de la información de la aplicación de IA
haga clic para agrandar

(Opcional) Configure los ajustes avanzados.

**Tabla 3** Configuración avanzada
Parámetro	Descripción
Tags	ModelArts puede trabajar con Tag Management Service (TMS). Al crear tareas que consumen recursos de ModelArts, por ejemplo, trabajos de entrenamiento, configure etiquetas para estas tareas de modo que ModelArts pueda usar etiquetas para gestionar recursos por grupo. Para obtener más información sobre cómo usar etiquetas, véase ¿Cómo usa ModelArts etiquetas para gestionar recursos por grupo? NOTA: Puede seleccionar una etiqueta de TMS predefinida de la lista desplegable de etiquetas o personalizar una etiqueta. Las etiquetas predefinidas están disponibles para todos los recursos de servicio que admiten etiquetas. Las etiquetas personalizadas solo están disponibles para los recursos de servicio del usuario que las ha creado.

Después de confirmar la información introducida, complete el despliegue del servicio como se le solicite. Por lo general, los trabajos de despliegue de servicio se ejecutan durante un período de tiempo, que puede ser de varios minutos o decenas de minutos, dependiendo de la cantidad de datos y recursos seleccionados.

Una vez desplegado un servicio en tiempo real, se inicia de inmediato.

Puede ir a la lista de servicios en tiempo real para comprobar si se ha completado el despliegue del servicio en tiempo real. En la lista de servicios en tiempo real, después de que el estado del servicio recién desplegado cambie de Deploying a Running, el servicio se despliega correctamente.

Tema principal: Despliegue de aplicaciones de IA como servicios en tiempo real

Tema anterior: Despliegue de aplicaciones de IA como servicios en tiempo real

Tema siguiente: Consulta de detalles del servicio

Comentarios

¿Le pareció útil esta página?

Sí No

Deje algún comentario

Muchas gracias por sus comentarios. Seguiremos trabajando para mejorar la documentación.

El sistema está ocupado. Vuelva a intentarlo más tarde.