Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.

Centro de ayuda/ ModelArts/ Preguntas frecuentes/ Cuestiones generales/ ¿Cómo puedo ver todas las métricas de supervisión de ModelArts?

Actualización más reciente 2025-12-16 GMT+08:00

Ver PDF

¿Cómo puedo ver todas las métricas de supervisión de ModelArts?

Inicie sesión en la consola de Huawei Cloud y busque AOM para ir a la consola de AOM.

Elija Monitoring > Metric Monitoring. En la página Metric Monitoring que se muestra, haga clic en Add Metric.

Agregue una métrica para la consulta.

Add By: Seleccione Dimension.
Metric Name: Haga clic en Custom Metrics y seleccione los que desee para la consulta. Para obtener más información, consulte Tabla 1, Tabla 2 y Tabla 3.
Dimension: Ingrese la etiqueta para filtrar la métrica. Para obtener más información, véase Tabla 4. A continuación se muestra un ejemplo.

haga clic para agrandar

Haga clic en Confirm. Se muestra la información de la métrica.

haga clic para agrandar

**Tabla 1** Métricas de contenedores
Clasificación	Nombre	Métrica	Descripción	Unidad	Rango de valores
CPU	Uso de CPU	ma_container_cpu_util	Uso de CPU de un objeto medido	%	0%–100%
	Núcleos de CPU usados	ma_container_cpu_used_core	Número de núcleos de CPU utilizados por un objeto medido	Núcleos	≥ 0
	Total de núcleos de CPU	ma_container_cpu_limit_core	Número total de núcleos de CPU que se han aplicado a un objeto medido	Núcleos	≥ 1
Memoria	Memoria física total	ma_container_memory_capacity_megabytes	Memoria física total aplicada a un objeto medido	MB	≥ 0
	Uso de la memoria física	ma_container_memory_util	Porcentaje de la memoria física utilizada en relación con la memoria física total	%	0%–100%
	Memoria física usada	ma_container_memory_used_megabytes	Memoria física que ha sido utilizada por un objeto medido (container_memory_working_set_bytes en el conjunto de trabajo actual) (Uso de memoria en un conjunto de trabajo = página anónima y cache activos, y la página file-baked ≤ container_memory_usage_bytes)	MB	≥ 0
Almacenamiento	Velocidad de lectura de los discos	ma_container_disk_read_kilobytes	Volumen de datos leídos de un disco por segundo	KB/s	≥ 0
Almacenamiento	Velocidad de escritura del disco	ma_container_disk_write_kilobytes	Volumen de datos escritos en un disco por segundo	KB/s	≥ 0
Memoria de la GPU	Memoria total de la GPU	ma_container_gpu_mem_total_megabytes	Memoria total de la GPU de un trabajo de entrenamiento	MB	> 0
	Uso de la memoria de GPU	ma_container_gpu_mem_util	Porcentaje de la memoria de la GPU utilizada con respecto a la memoria total de la GPU	%	0%–100%
	Memoria de GPU usada	ma_container_gpu_mem_used_megabytes	Memoria de GPU utilizada por un objeto medido	MB	≥ 0
GPU	Uso de GPU	ma_container_gpu_util	Uso de GPU de un objeto medido	%	0%–100%
	Uso del ancho de banda de la memoria de la GPU	ma_container_gpu_mem_copy_util	Uso del ancho de banda de memoria de la GPU de un objeto medido. Por ejemplo, el ancho de banda de memoria máximo de la NVIDIA GPU V100 es de 900 GB/s. Si el ancho de banda de memoria actual es de 450 GB/s, el uso del ancho de banda de memoria es del 50%.	%	0%–100%
	Uso del codificador de GPU	ma_container_gpu_enc_util	Uso del codificador de GPU de un objeto medido	%	%
	Uso del decodificador de GPU	ma_container_gpu_dec_util	Uso del decodificador de GPU de un objeto medido	%	%
E/S de red	Velocidad de enlace descendente (BPS)	ma_container_network_receive_bytes	Tasa de tráfico entrante de un objeto medido	Bytes/s	≥ 0
	Velocidad de enlace descendente (PPS)	ma_container_network_receive_packets	Número de paquetes de datos recibidos por una NIC por segundo	Paquetes/s	≥ 0
	Tasa de error de enlace descendente	ma_container_network_receive_error_packets	Número de paquetes de error recibidos por una NIC por segundo	Paquetes/s	≥ 0
	Velocidad de enlace ascendente (BPS)	ma_container_network_transmit_bytes	Tasa de tráfico saliente de un objeto medido	Bytes/s	≥ 0
	Tasa de error de enlace ascendente	ma_container_network_transmit_error_packets	Número de paquetes de error enviados por una NIC por segundo	Paquetes/s	≥ 0
	Velocidad de enlace ascendente (PPS)	ma_container_network_transmit_packets	Número de paquetes de datos enviados por una NIC por segundo	Paquetes/s	≥ 0
NPU	Uso de NPU	ma_container_npu_util	Uso de NPU de un objeto medido	0%–100%	%
	Uso de memoria de NPU	ma_container_npu_memory_util	Porcentaje de la memoria de NPU usada respecto a la memoria total de NPU	0%–100%	%
	Memoria usada de NPU	ma_container_npu_memory_used_megabytes	Memoria utilizada de NPU por un objeto medido	≥ 0	MB
	Memoria total de NPU	ma_container_npu_memory_total_megabytes	Memoria total de NPU de un objeto medido	> 0	MB

**Tabla 2** Métricas de nodo (recogidas solo en grupos de recursos dedicados)
Clasificación	Nombre	Métrica	Descripción	Unidad	Rango de valores
CPU	Total de núcleos de CPU	ma_node_cpu_limit_core	Número total de núcleos de CPU que se han aplicado a un objeto medido	Núcleos	≥ 1
	Núcleos de CPU usados	ma_node_cpu_used_core	Número de núcleos de CPU utilizados por un objeto medido	Núcleos	≥ 0
	Uso de CPU	ma_node_cpu_util	Uso de CPU de un objeto medido	%	0%–100%
Memoria	Uso de la memoria física	ma_node_memory_util	Porcentaje de la memoria física utilizada en relación con la memoria física total	%	0%–100%
Memoria	Memoria física total	ma_node_memory_total_megabytes	Memoria física total aplicada a un objeto medido	MB	≥ 0
E/S de red	Velocidad de enlace descendente (BPS)	ma_node_network_receive_rate_bytes_seconds	Tasa de tráfico entrante de un objeto medido	Bytes/s	≥ 0
E/S de red	Velocidad de enlace ascendente (BPS)	ma_node_network_transmit_rate_bytes_seconds	Tasa de tráfico saliente de un objeto medido	Bytes/s	≥ 0
Almacenamiento	Velocidad de lectura de los discos	ma_node_disk_read_rate_kilobytes_seconds	Volumen de datos leídos de un disco por segundo (Solo se recopilan los discos de datos utilizados por contenedores.)	KB/s	≥ 0
	Velocidad de escritura del disco	ma_node_disk_write_rate_kilobytes_seconds	Volumen de datos escritos en un disco por segundo (Solo se recopilan los discos de datos utilizados por contenedores.)	KB/s	≥ 0
	Caché total	ma_node_cache_space_capacity_megabytes	Caché total del espacio de Kubernetes	MB	≥ 0
	Caché Usada	ma_node_cache_space_used_capacity_megabytes	Caché usada del espacio de Kubernetes	MB	≥ 0
	Espacio total del contenedor	ma_node_container_space_capacity_megabytes	Espacio total del contenedor	MB	≥ 0
	Espacio usado de contenedor	ma_node_container_space_used_capacity_megabytes	Espacio usado de contenedor	MB	≥ 0
GPU	Uso de GPU	ma_node_gpu_util	Uso de GPU de un objeto medido	%	0%–100%
	Memoria total de la GPU	ma_node_gpu_mem_total_megabytes	Memoria total de la GPU de un objeto medido	MB	> 0
	Uso de la memoria de GPU	ma_node_gpu_mem_util	Porcentaje de la memoria de la GPU utilizada con respecto a la memoria total de la GPU	%	0%–100%
	Memoria de GPU usada	ma_node_gpu_mem_used_megabytes	Memoria de GPU utilizada por un objeto medido	MB	≥ 0
	Tareas en una GPU compartida	node_gpu_share_job_count	Número de tareas que se ejecutan en una GPU compartida	Número	≥ 0
NPU	Uso de NPU	ma_node_npu_util	Uso de NPU de un objeto medido	%	0%–100%
	Uso de memoria de NPU	ma_node_npu_memory_util	Porcentaje de la memoria de NPU usada respecto a la memoria total de NPU	%	0%–100%
	Memoria usada de NPU	ma_node_npu_memory_used_megabytes	Memoria utilizada de NPU por un objeto medido	MB	≥ 0
	Memoria total de NPU	ma_node_npu_memory_total_megabytes	Memoria total de NPU de un objeto medido	MB	> 0
InfiniBand o RoCE network	Cantidad total de datos recibidos por una NIC	ma_node_infiniband_port_received_data_bytes_total	Número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), recibidos en todos los VL desde el puerto.	contando en palabras dobles, 32 bits	≥ 0
InfiniBand o RoCE network	Cantidad total de datos enviados por una NIC	ma_node_infiniband_port_transmitted_data_bytes_total	El número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), transmitidos en todos los VL desde el puerto.	contando en palabras dobles, 32 bits	≥ 0

**Tabla 3** Perfilado y diagnóstico (GPU | IB, recopilados solo en grupos de recursos dedicados)
Clasificación	Nombre	Métrica	Descripción	Unidad	Rango de valores
GPU	Temperatura de la GPU	DCGM_FI_DEV_GPU_TEMP	Temperatura de la GPU	°C	Número natural
	Potencia de la GPU	DCGM_FI_DEV_POWER_USAGE	Potencia de la GPU	W	Número natural
	Temperatura de la memoria	DCGM_FI_DEV_MEMORY_TEMP	Temperatura de la memoria	°C	Número natural
	Actividad del motor de gráficos	DCGM_FI_PROF_GR_ENGINE_ACTIVE	Porcentaje del tiempo cuando el motor gráfico o de computación está en el estado activo dentro de un período de tiempo. Este es un valor promedio de todos los motores gráficos o de computación. Un motor gráfico o de computación activo indica que el contexto gráfico o de computación está asociado con un subproceso y que el contexto gráfico o de computación está ocupado.	Porcentaje (fracción)	0-1.0
	Ocupación de SM	DCGM_FI_PROF_SM_OCCUPANCY	Relación entre el número de haces de hilos que residen en el SM y el número máximo de haces de hilos que pueden residir en el SM dentro de un período de tiempo Este es un valor promedio de todos los SM dentro de un periodo de tiempo. Un valor alto no significa un uso alto de GPU. Solo cuando el ancho de banda de memoria de la GPU es limitado, un alto valor de cargas de trabajo (DCGM_FI_PROF_DRAM_ACTIVE) indica un uso más eficiente de la GPU.	Porcentaje (fracción)	0-1.0
	Actividad de Tensor	DCGM_FI_PROF_PIPE_TENSOR_ACTIVE	Fracción del período durante el cual el tubo tensor (HMMA/IMMA) está activo Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo. Un valor más alto indica una mayor utilización de núcleos tensores. El valor 1 (100%) indica que se envía una instrucción de tensor cada ciclo de instrucción en todo el período (una instrucción se completa en dos ciclos). Si el valor es 0.2 (20%), las posibles causas son las siguientes: Durante todo el período, el 20% de los núcleos tensores de SM funcionan al 100% de utilización. Durante todo el período, todos los núcleos tensores de SM funcionan con una utilización del 20%. Durante 1/5 de todo el período, todos los núcleos tensores de SM funcionan al 100% de utilización. Otras combinaciones	Porcentaje (fracción)	0-1.0
	Uso de BW de memoria	DCGM_FI_PROF_DRAM_ACTIVE	Porcentaje del tiempo para enviar o recibir datos desde la memoria del dispositivo en un período de tiempo Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo. Un valor más alto indica una mayor utilización de la memoria del dispositivo. El valor 1 (100%) indica que una instrucción de DRAM se ejecuta una vez por ciclo a lo largo de un período (el valor máximo puede alcanzarse en un pico de aproximadamente 0.8). Si el valor es 0.2 (20%), indicando que los datos se leen o se escriben en la memoria del dispositivo durante el 20% del ciclo dentro de un periodo.	Porcentaje (fracción)	0-1.0
	Actividad del motor FP16	DCGM_FI_PROF_PIPE_FP16_ACTIVE	Fracción del período durante el cual el tubo FP16 (media precisión) está activo Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo. Un valor mayor indica un mayor uso de núcleos de FP16. El valor 1 (100%) indica que la instrucción de FP16 se ejecuta cada dos ciclos (por ejemplo, tarjetas Volta) en un periodo. Si el valor es 0.2 (20%), las posibles causas son las siguientes: During the entire period, 20% of the SM FP16 cores run at 100% utilization. Durante todo el período, todos los núcleos de SM de FP16 funcionan con una utilización del 20%. Durante 1/5 de todo el período, todos los núcleos de SM de FP16 funcionan al 100% de utilización. Otras combinaciones	Porcentaje (fracción)	0-1.0
	Actividad del motor FP32	DCGM_FI_PROF_PIPE_FP32_ACTIVE	Fracción del período durante el cual el tubo de adición múltiple fusionado (FMA) está activo. Multiplicar-añadir se aplica a FP32 (precisión simple) y enteros. Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo. Un valor mayor indica un mayor uso de núcleos de FP32. El valor 1 (100%) indica que la instrucción de FP32 se ejecuta cada dos ciclos (por ejemplo, tarjetas Volta) en un periodo. Si el valor es 0.2 (20%), las posibles causas son las siguientes: Durante todo el período, el 20% de los núcleos de SM de FP32 funcionan al 100% de utilización. Durante todo el período, todos los núcleos de SM de FP32 funcionan con una utilización del 20%. Durante 1/5 de todo el período, todos los núcleos de SM de FP32 funcionan al 100% de utilización. Otras combinaciones	Porcentaje (fracción)	0-1.0
	Actividad del motor FP64	DCGM_FI_PROF_PIPE_FP64_ACTIVE	Fracción del período durante el cual el tubo FP64 (doble precisión) está activo Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo. Un valor mayor indica un mayor uso de núcleos de FP64. El valor 1 (100%) indica que la instrucción de FP64 se ejecuta cada cuatro ciclos (por ejemplo, tarjetas Volta) en un período. Si el valor es 0.2 (20%), las posibles causas son las siguientes: Durante todo el período, el 20% de los núcleos de SM de FP64 funcionan al 100% de utilización. Durante todo el período, todos los núcleos de SM de FP64 funcionan con una utilización del 20%. Durante 1/5 de todo el período, todos los núcleos de SM de FP64 funcionan al 100% de utilización. Otras combinaciones	Porcentaje (fracción)	0-1.0
	Actividad de SM	DCGM_FI_PROF_SM_ACTIVE	Fracción del tiempo durante el cual al menos un haga de hilos está activo en un SM dentro de un periodo de tiempo. Este es un valor promedio de todos los SM y es insensible al número de hilos en cada bloque. Un paquete de subprocesos está activo después de ser programado y asignado con recursos. El conjunto de hilos puede estar en el estado informático o en un estado no informático (por ejemplo, esperando una solicitud de memoria). Si el valor es inferior a 0.5, las GPU no se utilizan de manera eficiente. El valor debe ser mayor que 0.8. Por ejemplo, una GPU tiene N SM: Una función de núcleo utiliza N bloques de subproceso para ejecutarse en todos los SM en un periodo. En este caso, el valor es 1 (100%). Una función del núcleo ejecuta N/5 bloques de subprocesos en un periodo. En este caso, el valor es 0.2. Una función del núcleo utiliza N bloques de subprocesos y ejecuta solo 1/5 de ciclos en un periodo. En este caso, el valor es 0.2.	Porcentaje (fracción)	0-1.0
	Ancho de banda de PCIe	DCGM_FI_PROF_PCIE_TX_BYTES DCGM_FI_PROF_PCIE_RX_BYTES	Velocidad de datos transmitidos o recibidos a través del bus de PCIe, incluido el encabezado del protocolo y la carga útil de datos Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo. La tasa se promedia durante el período. Por ejemplo, si se transmite 1 GB de datos dentro de 1 segundo, la velocidad de transmisión es 1 GB/s independientemente de si los datos se transmiten a una velocidad o ráfaga constante. Teóricamente, el ancho de banda máximo PCIe Gen3 es de 985 MB/s por canal.	Bytes/s	≥ 0
	Ancho de banda de NVLink	DCGM_FI_PROF_NVLINK_RX_BYTES DCGM_FI_PROF_NVLINK_TX_BYTES	Velocidad a la que se transmiten o reciben datos con NVLink, excluido el encabezado del protocolo Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo. La tasa se promedia durante el período. Por ejemplo, si se transmite 1 GB de datos dentro de 1 segundo, la velocidad de transmisión es 1 GB/s independientemente de si los datos se transmiten a una velocidad o ráfaga constante. Teóricamente, el ancho de banda máximo de NVLink Gen2 es de 25 GB/s por enlace en cada dirección.	Bytes/s	≥ 0
InfiniBand o RoCE network	PortXmitData	infiniband_port_xmit_data_total	El número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), transmitidos en todos los VL desde el puerto.	Recuento total	Número natural
	PortRcvData	infiniband_port_rcv_data_total	Número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), recibidos en todos los VL desde el puerto.	Recuento total	Número natural
	SymbolErrorCounter	infiniband_symbol_error_counter_total	Número total de errores de enlace menores detectados en uno o más carriles físicos.	Recuento total	Número natural
	LinkErrorRecoveryCounter	infiniband_link_error_recovery_counter_total	Número total de veces que la máquina de estado de entrenamiento de puerto ha completado con éxito el proceso de recuperación de error de enlace.	Recuento total	Número natural
	PortRcvErrors	infiniband_port_rcv_errors_total	Número total de paquetes que contienen errores recibidos en el puerto, incluido: Errores físicos locales (ICRC, VCRC, LPCRC y todos los errores físicos que provocan la entrada en los estados BAD PACKET o BAD PACKET DISCARD de la máquina de estado del receptor de paquetes) Errores mal formados del paquete de datos (LVer, longitud, VL) Errores de paquetes de enlace mal formados (operando, longitud, VL) Paquetes descartados debido al desbordamiento de búfer (desbordamiento)	Recuento total	Número natural
	LocalLinkIntegrityErrors	infiniband_local_link_integrity_errors_total	Este contador indica el número de reintentos iniciados por un receptor de capa de transferencia de enlace.	Recuento total	Número natural
	PortRcvRemotePhysicalErrors	infiniband_port_rcv_remote_physical_errors_total	Número total de paquetes marcados con el delimitador EBP recibidos en el puerto.	Recuento total	Número natural
	PortRcvSwitchRelayErrors	infiniband_port_rcv_switch_relay_errors_total	Número total de paquetes recibidos en el puerto que fueron descartados cuando no pudieron ser reenviados por el switch relay por las siguientes razones: Asignación de DLID Asignación de VL Bucle (puerto de salida = puerto de entrada)	Recuento total	Número natural
	PortXmitWait	infiniband_port_transmit_wait_total	El número de ticks durante los cuales el puerto tenía datos para transmitir, pero no se envió ningún dato durante todo el tick (ya sea por falta de créditos o por falta de arbitraje).	Recuento total	Número natural
	PortXmitDiscards	infiniband_port_xmit_discards_total	Número total de paquetes salientes descartados por el puerto porque el puerto está inactivo o congestionado.	Recuento total	Número natural

**Tabla 4** Nombres de las métricas
Clasificación	Métrica	Descripción
Métricas de contenedores	modelarts_service	Servicio al que pertenece un contenedor, que puede ser notebook, train o infer
	instance_name	Nombre del pod al que pertenece el contenedor
	service_id	ID de instancia o trabajo que se muestra en la página, por ejemplo, cf55829e-9bd3-48fa-8071-7ae870dae93a para un entorno de desarrollo 9f322d5a-b1d2-4370-94df-5a87de27d36e para un trabajo de entrenamiento
	node_ip	Dirección IP del nodo al que pertenece el contenedor
	container_id	ID del contenedor
	cid	ID del clúster
	container_name	Nombre del contenedor
	project_id	ID de proyecto de la cuenta a la que pertenece el usuario
	npu_id	Identificación de la tarjeta Ascend, por ejemplo davinci0
	gpu_uuid	UUID de la GPU utilizada por el contenedor
Métricas de nodos	cid	ID del clúster de CCE al que pertenece el nodo
	node_ip	Dirección IP del nodo
	pool_id	ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico
	project_id	ID de proyecto del usuario en un grupo de recursos físico dedicado
	npu_id	Identificación de la tarjeta Ascend, por ejemplo davinci0
	gpu_uuid	UUID de una GPU de nodo
	device_name	Nombre del dispositivo de una NIC de red InfiniBand o RoCE
Perfilado y diagnóstico	cid	ID del clúster de CCE al que pertenece el nodo donde reside la GPU
	node_ip	Dirección IP del nodo donde reside la GPU
	pool_id	ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico
	project_id	ID de proyecto del usuario en un grupo de recursos físico dedicado
	gpu_uuid	UUID de GPU
	device_name	Nombre del dispositivo de una NIC de red InfiniBand o RoCE

Tema principal: Cuestiones generales

Comentarios

¿Le pareció útil esta página?

Sí No

Deje algún comentario

Muchas gracias por sus comentarios. Seguiremos trabajando para mejorar la documentación.

El sistema está ocupado. Vuelva a intentarlo más tarde.