Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ ModelArts/ Resource Management/ Recursos de monitoreo/ Consulta de todas las métricas de control de ModelArts en la consola de AOM

Actualización más reciente 2025-12-12 GMT+08:00

Ver PDF

Consulta de todas las métricas de control de ModelArts en la consola de AOM

ModelArts periódicamente recopila el uso de métricas clave (como GPU, NPU, CPU y memoria) de cada nodo en un grupo de recursos, así como el uso de métricas clave de entorno de desarrollo, de trabajos de entrenamiento y de servicios de inferencia y luego reporta los datos a AOM. Puede ver la información en AOM.

Inicie sesión en la consola y busque AOM para ir a la consola de AOM.
Seleccione Monitoring > Metric Monitoring. En la página Metric Monitoring que aparece en pantalla, haga clic en Add Metric.
Agregue métricas y haga clic en Confirm.
- Add By: seleccione Dimension.
- Metric Name: Haga clic en Custom Metrics. Seleccione los deseados para la consulta. Para obtener más información, véase Tabla 1, Tabla 2 y Tabla 3.
- Dimension: introduzca la etiqueta para filtrar la métrica. Para más detalles, véase Tabla 4. A continuación se muestra un ejemplo.

Consulte las métricas.

haga clic para agrandar

**Tabla 1** Métricas de contenedores
Categoría	Nombre	Métrica	Descripción	Unidad	Rango de valor
CPU	Uso de CPU	ma_container_cpu_util	Uso de CPU de un objeto medido	%	0%–100%
	Núcleos de CPU usados	ma_container_cpu_used_core	Número de núcleos de CPU utilizados por un objeto medido	Núcleos	≥ 0
	Total de núcleos de CPU	ma_container_cpu_limit_core	Número total de núcleos de CPU que se han aplicado a un objeto medido	Núcleos	≥ 1
Memoria	Memoria física total	ma_container_memory_capacity_megabytes	Memoria física total aplicada a un objeto medido	MB	≥ 0
	Uso de la memoria física	ma_container_memory_util	Porcentaje de la memoria física utilizada en relación con la memoria física total	%	0%–100%
	Memoria física usada	ma_container_memory_used_megabytes	Memoria física utilizada por un objeto medido (container_memory_working_set_bytes en el espacio de trabajo actual) (Uso de memoria en un conjunto de trabajo = página anónima activa y caché, y página horneada en archivos ≤ container_memory_usage_bytes)	MB	≥ 0
Almacenamiento	Velocidad de lectura de los discos	ma_container_disk_read_kilobytes	Volumen de datos leídos de un disco por segundo	KB/s	≥ 0
Almacenamiento	Velocidad de escritura del disco	ma_container_disk_write_kilobytes	Volumen de datos escritos en un disco por segundo	KB/s	≥ 0
Memoria de la GPU	Memoria total de la GPU	ma_container_gpu_mem_total_megabytes	Memoria total de la GPU de un trabajo de entrenamiento	MB	> 0
	Uso de la memoria de GPU	ma_container_gpu_mem_util	Porcentaje de la memoria de la GPU utilizada con respecto a la memoria total de la GPU	%	0%–100%
	Memoria de GPU usada	ma_container_gpu_mem_used_megabytes	Memoria de GPU utilizada por un objeto medido	MB	≥ 0
GPU	Uso de GPU	ma_container_gpu_util	Uso de GPU de un objeto medido	%	0%–100%
	Uso del ancho de banda de la memoria de la GPU	ma_container_gpu_mem_copy_util	Uso del ancho de banda de memoria de la GPU de un objeto medido. Por ejemplo, el ancho de banda de memoria máximo de la NVIDIA GPU V100 es de 900 GB/s. Si el ancho de banda de memoria actual es de 450 GB/s, el uso del ancho de banda de memoria es del 50 %.	%	0%–100%
	Uso del codificador de GPU	ma_container_gpu_enc_util	Uso del codificador de GPU de un objeto medido	%	%
	Uso del decodificador de GPU	ma_container_gpu_dec_util	Uso del decodificador de GPU de un objeto medido	%	%
	Temperatura de la GPU	DCGM_FI_DEV_GPU_TEMP	Temperatura de la GPU	°C	Número natural
	Potencia de la GPU	DCGM_FI_DEV_POWER_USAGE	Potencia de la GPU	Watt (W)	> 0
	Temperatura de memoria de GPU	DCGM_FI_DEV_MEMORY_TEMP	Temperatura de memoria de GPU	°C	Número natural
E/S de red	Velocidad de enlace descendente (BPS)	ma_container_network_receive_bytes	Tasa de tráfico entrante de un objeto medido	Bytes/s	≥ 0
	Velocidad de enlace descendente (PPS)	ma_container_network_receive_packets	Número de paquetes de datos recibidos por una NIC por segundo	Paquetes/s	≥ 0
	Tasa de error de enlace descendente	ma_container_network_receive_error_packets	Número de paquetes de error recibidos por una NIC por segundo	Paquetes/s	≥ 0
	Velocidad de enlace ascendente (BPS)	ma_container_network_transmit_bytes	Tasa de tráfico saliente de un objeto medido	Bytes/s	≥ 0
	Tasa de error de enlace ascendente	ma_container_network_transmit_error_packets	Número de paquetes de error enviados por una NIC por segundo	Paquetes/s	≥ 0
	Velocidad de enlace ascendente (PPS)	ma_container_network_transmit_packets	Número de paquetes de datos enviados por una NIC por segundo	Paquetes/s	≥ 0
Métricas de servicio de notebook	Tamaño de directorio de caché de notebook	ma_container_notebook_cache_dir_size_bytes	Se conecta un disco local de alta velocidad al directorio /cache para instancias de notebook de GPU. Esta métrica indica el tamaño total del directorio.	Bytes	≥ 0
Métricas de servicio de notebook	Uso de directorio de caché de notebook	ma_container_notebook_cache_dir_util	Se conecta un disco local de alta velocidad al directorio /cache para instancias de notebook de GPU. Esta métrica indica la utilización del directorio.	%	0%–100%

**Tabla 2** Métricas de nodo (recogidas solo en grupos de recursos dedicados)
Categoría	Nombre	Métrica	Descripción	Unidad	Rango de valor
CPU	Total de núcleos de CPU	ma_node_cpu_limit_core	Número total de núcleos de CPU que se han aplicado a un objeto medido	Núcleos	≥ 1
	Núcleos de CPU usados	ma_node_cpu_used_core	Número de núcleos de CPU utilizados por un objeto medido	Núcleos	≥ 0
	Uso de CPU	ma_node_cpu_util	Uso de CPU de un objeto medido	%	0%–100%
	Tiempo de espera de E/S de CPU	ma_node_cpu_iowait_counter	Tiempo de espera de E/S de disco acumulado desde el inicio del sistema	jiffies	≥ 0
Memoria	Uso de la memoria física	ma_node_memory_util	Porcentaje de la memoria física utilizada en relación con la memoria física total	%	0%–100%
Memoria	Memoria física total	ma_node_memory_total_megabytes	Memoria física total aplicada a un objeto medido	MB	≥ 0
E/S de red	Velocidad de enlace descendente (BPS)	ma_node_network_receive_rate_bytes_seconds	Tasa de tráfico entrante de un objeto medido	Bytes/s	≥ 0
E/S de red	Velocidad de enlace ascendente (BPS)	ma_node_network_transmit_rate_bytes_seconds	Tasa de tráfico saliente de un objeto medido	Bytes/s	≥ 0
Almacenamiento	Velocidad de lectura de los discos	ma_node_disk_read_rate_kilobytes_seconds	Volumen de datos leídos de un disco por segundo (Solo se recopilan los discos de datos utilizados por contenedores.)	KB/s	≥ 0
	Velocidad de escritura del disco	ma_node_disk_write_rate_kilobytes_seconds	Volumen de datos escritos en un disco por segundo (Solo se recopilan los discos de datos utilizados por contenedores.)	KB/s	≥ 0
	Caché total	ma_node_cache_space_capacity_megabytes	Caché total del espacio de Kubernetes	MB	≥ 0
	Caché usada	ma_node_cache_space_used_capacity_megabytes	Caché usada del espacio de Kubernetes	MB	≥ 0
	Espacio total del contenedor	ma_node_container_space_capacity_megabytes	Espacio total del contenedor	MB	≥ 0
	Espacio usado de contenedor	ma_node_container_space_used_capacity_megabytes	Espacio usado de contenedor	MB	≥ 0
	Información del disco	ma_node_disk_info	Información básica del disco	N/A	≥ 0
	Total de lecturas	ma_node_disk_reads_completed_total	Número total de lecturas exitosas	N/A	≥ 0
	Lecturas combinadas	ma_node_disk_reads_merged_total	Número de lecturas combinadas	N/A	≥ 0
	Bytes leídos	ma_node_disk_read_bytes_total	Número total de bytes que se leen correctamente	Bytes	≥ 0
	Tiempo dedicado para lectura	ma_node_disk_read_time_seconds_total	Tiempo dedicado a todas las lecturas	Segundos	≥ 0
	Total de escrituras	ma_node_disk_writes_completed_total	Número total de escrituras exitosas	N/A	≥ 0
	Escrituras combinadas	ma_node_disk_writes_merged_total	Número de escrituras combinadas	N/A	≥ 0
	Bytes escritos	ma_node_disk_written_bytes_total	Número total de bytes que se escriben correctamente	Bytes	≥ 0
	Tiempo dedicado para escritura	ma_node_disk_write_time_seconds_total	Tiempo dedicado en todas las operaciones de escritura	Segundos	≥ 0
	E/S en curso	ma_node_disk_io_now	Cantidad de E/S en curso	N/A	≥ 0
	Duración de ejecución de E/S	ma_node_disk_io_time_seconds_total	Time spent on executing I/Os	Segundos	≥ 0
	Tiempo ponderado de ejecución de E/S	ma_node_disk_io_time_weighted_seconds_tota	Número ponderado de segundos dedicados a E/S	Segundos	≥ 0
GPU	Uso de GPU	ma_node_gpu_util	Uso de GPU de un objeto medido	%	0%–100%
	Memoria total de la GPU	ma_node_gpu_mem_total_megabytes	Memoria total de la GPU de un objeto medido	MB	> 0
	Uso de la memoria de GPU	ma_node_gpu_mem_util	Porcentaje de la memoria de la GPU utilizada con respecto a la memoria total de la GPU	%	0%–100%
	Memoria de GPU usada	ma_node_gpu_mem_used_megabytes	Memoria de GPU utilizada por un objeto medido	MB	≥ 0
	Tareas en una GPU compartida	node_gpu_share_job_count	Número de tareas que se ejecutan en una GPU compartida	Número	≥ 0
	Temperatura de la GPU	DCGM_FI_DEV_GPU_TEMP	Temperatura de la GPU	°C	Número natural
	Potencia de la GPU	DCGM_FI_DEV_POWER_USAGE	Potencia de la GPU	Watt (W)	> 0
	Temperatura de memoria de GPU	DCGM_FI_DEV_MEMORY_TEMP	Temperatura de memoria de GPU	°C	Número natural
InfiniBand o red de RoCE	Cantidad total de datos recibidos por una NIC	ma_node_infiniband_port_received_data_bytes_total	Número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), recibidos en todos los VL desde el puerto.	(contando en palabras dobles, 32 bits)	≥ 0
InfiniBand o red de RoCE	Cantidad total de datos enviados por una NIC	ma_node_infiniband_port_transmitted_data_bytes_total	El número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), transmitidos en todos los VL desde el puerto.	(contando en palabras dobles, 32 bits)	≥ 0
Estado de montaje de NFS	Tiempo de congestión de Getattr de NFS	ma_node_mountstats_getattr_backlog_wait	Getattr es una operación de NFS que recupera los atributos de un archivo o directorio, como tamaño, permisos, propietario, etc. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.	ms	≥ 0
	Tiempo de ida y vuelta de Getattr de NFS	ma_node_mountstats_getattr_rtt	Getattr es una operación de NFS que recupera los atributos de un archivo o directorio, como tamaño, permisos, propietario, etc. RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.	ms	≥ 0
	Tiempo de congestión de acceso de NFS	ma_node_mountstats_access_backlog_wait	El acceso es una operación de NFS que comprueba los permisos de acceso de un archivo o directorio para un usuario determinado. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.	ms	≥ 0
	Tiempo de ida y vuelta de acceso de NFS	ma_node_mountstats_access_rtt	El acceso es una operación de NFS que comprueba los permisos de acceso de un archivo o directorio para un usuario determinado. RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.	ms	≥ 0
	Tiempo de congestión de búsqueda de NFS	ma_node_mountstats_lookup_backlog_wait	La búsqueda es una operación de NFS que resuelve un nombre de archivo en un directorio en un controlador de archivo. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.	ms	≥ 0
	Tiempo de ida y vuelta de búsqueda de NFS	ma_node_mountstats_lookup_rtt	La búsqueda es una operación de NFS que resuelve un nombre de archivo en un directorio en un controlador de archivo. RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.	ms	≥ 0
	Tiempo de congestión de lectura de NFS	ma_node_mountstats_read_backlog_wait	Leer es una operación de NFS que lee datos de un archivo. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.	ms	≥ 0
	Tiempo de ida y vuelta de lectura de NFS	ma_node_mountstats_read_rtt	Leer es una operación de NFS que lee datos de un archivo. RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.	ms	≥ 0
	Tiempo de congestión de escritura de NFS	ma_node_mountstats_write_backlog_wait	Write es una operación de NFS que escribe datos en un archivo. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.	ms	≥ 0
	Tiempo de ida y vuelta de escritura de NFS	ma_node_mountstats_write_rtt	Write es una operación de NFS que escribe datos en un archivo. RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.	ms	≥ 0

**Tabla 3** Diagnóstico (InfiniBand, recopilado solo en los grupos de recursos dedicados)
Categoría	Nombre	Métrica	Descripción	Unidad	Rango de valor
InfiniBand o red de RoCE	PortXmitData	infiniband_port_xmit_data_total	El número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), transmitidos en todos los VL desde el puerto.	Recuento total	Número natural
	PortRcvData	infiniband_port_rcv_data_total	Número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), recibidos en todos los VL desde el puerto.	Recuento total	Número natural
	SymbolErrorCounter	infiniband_symbol_error_counter_total	Número total de errores de enlace menores detectados en uno o más carriles físicos.	Recuento total	Número natural
	LinkErrorRecoveryCounter	infiniband_link_error_recovery_counter_total	Número total de veces que la máquina de estado de entrenamiento de puerto ha completado con éxito el proceso de recuperación de error de enlace.	Recuento total	Número natural
	PortRcvErrors	infiniband_port_rcv_errors_total	Número total de paquetes que contienen errores recibidos en el puerto, incluido: Errores físicos locales (ICRC, VCRC, LPCRC y todos los errores físicos que provocan la entrada en los estados BAD PACKET o BAD PACKET DISCARD de la máquina de estado del receptor de paquetes) Errores mal formados del paquete de datos (LVer, longitud, VL) Errores de paquetes de enlace mal formados (operando, longitud, VL) Paquetes descartados debido al desbordamiento de búfer (desbordamiento)	Recuento total	Número natural
	LocalLinkIntegrityErrors	infiniband_local_link_integrity_errors_total	Este contador indica el número de reintentos iniciados por un receptor de capa de transferencia de enlace.	Recuento total	Número natural
	PortRcvRemotePhysicalErrors	infiniband_port_rcv_remote_physical_errors_total	Número total de paquetes marcados con el delimitador EBP recibidos en el puerto.	Recuento total	Número natural
	PortRcvSwitchRelayErrors	infiniband_port_rcv_switch_relay_errors_total	Número total de paquetes recibidos en el puerto que fueron descartados cuando no pudieron ser reenviados por el switch relay por las siguientes razones: Mapeo de DLID Mapeo de VL Bucle (puerto de salida = puerto de entrada)	Recuento total	Número natural
	PortXmitWait	infiniband_port_transmit_wait_total	El número de ticks durante los cuales el puerto tenía datos para transmitir, pero no se envió ningún dato durante todo el tick (ya sea por falta de créditos o por falta de arbitraje).	Recuento total	Número natural
	PortXmitDiscards	infiniband_port_xmit_discards_total	Número total de paquetes salientes descartados por el puerto porque el puerto está inactivo o congestionado.	Recuento total	Número natural

**Tabla 4** Nombres de las métricas
Clasificación	Métrica	Descripción
Métricas de contenedores	modelarts_service	Servicio al que pertenece un contenedor, que puede ser notebook, train o infer
	instance_name	Nombre del pod al que pertenece el contenedor
	service_id	ID de instancia o trabajo que se muestra en la página, por ejemplo, cf55829e-9bd3-48fa-8071-7ae870dae93a para un entorno de desarrollo 9f322d5a-b1d2-4370-94df-5a87de27d36e para un trabajo de entrenamiento
	node_ip	Dirección IP del nodo al que pertenece el contenedor
	container_id	ID de contenedor
	cid	ID de clúster
	container_name	Nombre del contenedor
	project_id	ID de proyecto de la cuenta a la que pertenece el usuario
	user_id	ID de usuario de la cuenta a la que pertenece el usuario que envía el trabajo
	pool_id	ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico
	pool_name	Nombre de un grupo de recursos correspondiente a un grupo de recursos dedicado físico
	logical_pool_id	ID de un subgrupo lógico
	logical_pool_name	Nombre de un subgrupo lógico
	gpu_uuid	UUID de la GPU utilizada por el contenedor
	gpu_index	Índice de la GPU utilizada por el contenedor
	gpu_type	Tipo de GPU utilizada por el contenedor
	account_name	Nombre de la cuenta del creador de una tarea de entrenamiento, de inferencia o de entorno de desarrollo
	user_name	Nombre de usuario del creador de una tarea de entrenamiento, de inferencia o de entorno de desarrollo
	task_creation_time	Hora en la que se crea una tarea de entrenamiento, de inferencia o de entorno de desarrollo
	task_name	Nombre de una tarea de entrenamiento, de inferencia o de entorno de desarrollo
	task_spec_code	Especificaciones de una tarea de entrenamiento, de inferencia o de entorno de desarrollo
	cluster_name	Nombre del clúster de CCE
Métricas de nodos	cid	ID del clúster de CCE al que pertenece el nodo
	node_ip	Dirección IP del nodo
	host_name	Nombre de host de un nodo
	pool_id	ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico
	project_id	ID de proyecto del usuario en un grupo de recursos físico dedicado
	gpu_uuid	UUID de una GPU de nodo
	gpu_index	Índice de una GPU de nodo
	gpu_type	Tipo de GPU de nodo
	device_name	Nombre del dispositivo de una NIC de InfiniBand o de red de RoCE
	port	Número de puerto de la NIC de InfiniBand
	physical_state	Estado de cada puerto de la NIC de InfiniBand
	firmware_version	Versión de firmware de la NIC de InfiniBand
	filesystem	Sistema de archivos montado en NFS
	mount_point	Punto de montaje de NFS
Diagnos	cid	ID del clúster de CCE al que pertenece el nodo con la GPU equipada
	node_ip	Dirección IP del nodo donde reside la GPU
	pool_id	ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico
	project_id	ID de proyecto del usuario en un grupo de recursos físico dedicado
	gpu_uuid	UUID de GPU
	gpu_index	Índice de una GPU de nodo
	gpu_type	Tipo de GPU de nodo
	device_name	Nombre de un dispositivo de red o de disco
	port	Número de puerto de la NIC de InfiniBand
	physical_state	Estado de cada puerto de la NIC de InfiniBand
	firmware_version	Versión de firmware de la NIC de InfiniBand

Tema principal: Recursos de monitoreo

Tema anterior: Uso de Grafana para configurar paneles y consultar datos de métrica

Comentarios

¿Le pareció útil esta página?

Sí No

Deje algún comentario

Muchas gracias por sus comentarios. Seguiremos trabajando para mejorar la documentación.

El sistema está ocupado. Vuelva a intentarlo más tarde.

¿Cuáles de los siguientes problemas se presentaron?

Contenido diferente a la de la IU del producto

Descripciones poco claras

Falta de ejemplos o código

Pasos incorrectos

No puedo encontrar lo que necesito

Falta de prácticas recomendadas

Comentarios (opcional)

0/500

Seleccione al menos un tipo de problema e ingrese sus comentarios o sugerencias.

Ingrese 500 caracteres como máximo.

Enviar Cancelar