Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Centro de ayuda> ModelArts> Preguntas frecuentes> Cuestiones generales> ¿Cómo puedo ver todas las métricas de supervisión de ModelArts?
Actualización más reciente 2023-10-09 GMT+08:00

¿Cómo puedo ver todas las métricas de supervisión de ModelArts?

  1. Inicie sesión en la consola de Huawei Cloud y busque AOM para ir a la consola de AOM.
  1. Elija Monitoring > Metric Monitoring. En la página Metric Monitoring que se muestra, haga clic en Add Metric.

  1. Agregue una métrica para la consulta.

  • Add By: Seleccione Dimension.
  • Metric Name: Haga clic en Custom Metrics y seleccione los que desee para la consulta. Para obtener más información, consulte Tabla 1, Tabla 2 y Tabla 3.
  • Dimension: Ingrese la etiqueta para filtrar la métrica. Para obtener más información, véase Tabla 4. A continuación se muestra un ejemplo.

  1. Haga clic en Confirm. Se muestra la información de la métrica.

Tabla 1 Métricas de contenedores

Clasificación

Nombre

Métrica

Descripción

Unidad

Rango de valores

CPU

Uso de CPU

ma_container_cpu_util

Uso de CPU de un objeto medido

%

0%–100%

Núcleos de CPU usados

ma_container_cpu_used_core

Número de núcleos de CPU utilizados por un objeto medido

Núcleos

≥ 0

Total de núcleos de CPU

ma_container_cpu_limit_core

Número total de núcleos de CPU que se han aplicado a un objeto medido

Núcleos

≥ 1

Memoria

Memoria física total

ma_container_memory_capacity_megabytes

Memoria física total aplicada a un objeto medido

MB

≥ 0

Uso de la memoria física

ma_container_memory_util

Porcentaje de la memoria física utilizada en relación con la memoria física total

%

0%–100%

Memoria física usada

ma_container_memory_used_megabytes

Memoria física que ha sido utilizada por un objeto medido (container_memory_working_set_bytes en el conjunto de trabajo actual) (Uso de memoria en un conjunto de trabajo = página anónima y cache activos, y la página file-baked ≤ container_memory_usage_bytes)

MB

≥ 0

Almacenamiento

Velocidad de lectura de los discos

ma_container_disk_read_kilobytes

Volumen de datos leídos de un disco por segundo

KB/s

≥ 0

Velocidad de escritura del disco

ma_container_disk_write_kilobytes

Volumen de datos escritos en un disco por segundo

KB/s

≥ 0

Memoria de la GPU

Memoria total de la GPU

ma_container_gpu_mem_total_megabytes

Memoria total de la GPU de un trabajo de entrenamiento

MB

> 0

Uso de la memoria de GPU

ma_container_gpu_mem_util

Porcentaje de la memoria de la GPU utilizada con respecto a la memoria total de la GPU

%

0%–100%

Memoria de GPU usada

ma_container_gpu_mem_used_megabytes

Memoria de GPU utilizada por un objeto medido

MB

≥ 0

GPU

Uso de GPU

ma_container_gpu_util

Uso de GPU de un objeto medido

%

0%–100%

Uso del ancho de banda de la memoria de la GPU

ma_container_gpu_mem_copy_util

Uso del ancho de banda de memoria de la GPU de un objeto medido. Por ejemplo, el ancho de banda de memoria máximo de la NVIDIA GPU V100 es de 900 GB/s. Si el ancho de banda de memoria actual es de 450 GB/s, el uso del ancho de banda de memoria es del 50%.

%

0%–100%

Uso del codificador de GPU

ma_container_gpu_enc_util

Uso del codificador de GPU de un objeto medido

%

%

Uso del decodificador de GPU

ma_container_gpu_dec_util

Uso del decodificador de GPU de un objeto medido

%

%

E/S de red

Velocidad de enlace descendente (BPS)

ma_container_network_receive_bytes

Tasa de tráfico entrante de un objeto medido

Bytes/s

≥ 0

Velocidad de enlace descendente (PPS)

ma_container_network_receive_packets

Número de paquetes de datos recibidos por una NIC por segundo

Paquetes/s

≥ 0

Tasa de error de enlace descendente

ma_container_network_receive_error_packets

Número de paquetes de error recibidos por una NIC por segundo

Paquetes/s

≥ 0

Velocidad de enlace ascendente (BPS)

ma_container_network_transmit_bytes

Tasa de tráfico saliente de un objeto medido

Bytes/s

≥ 0

Tasa de error de enlace ascendente

ma_container_network_transmit_error_packets

Número de paquetes de error enviados por una NIC por segundo

Paquetes/s

≥ 0

Velocidad de enlace ascendente (PPS)

ma_container_network_transmit_packets

Número de paquetes de datos enviados por una NIC por segundo

Paquetes/s

≥ 0

NPU

Uso de NPU

ma_container_npu_util

Uso de NPU de un objeto medido

0%–100%

%

Uso de memoria de NPU

ma_container_npu_memory_util

Porcentaje de la memoria de NPU usada respecto a la memoria total de NPU

0%–100%

%

Memoria usada de NPU

ma_container_npu_memory_used_megabytes

Memoria utilizada de NPU por un objeto medido

≥ 0

MB

Memoria total de NPU

ma_container_npu_memory_total_megabytes

Memoria total de NPU de un objeto medido

> 0

MB

Tabla 2 Métricas de nodo (recogidas solo en grupos de recursos dedicados)

Clasificación

Nombre

Métrica

Descripción

Unidad

Rango de valores

CPU

Total de núcleos de CPU

ma_node_cpu_limit_core

Número total de núcleos de CPU que se han aplicado a un objeto medido

Núcleos

≥ 1

Núcleos de CPU usados

ma_node_cpu_used_core

Número de núcleos de CPU utilizados por un objeto medido

Núcleos

≥ 0

Uso de CPU

ma_node_cpu_util

Uso de CPU de un objeto medido

%

0%–100%

Memoria

Uso de la memoria física

ma_node_memory_util

Porcentaje de la memoria física utilizada en relación con la memoria física total

%

0%–100%

Memoria física total

ma_node_memory_total_megabytes

Memoria física total aplicada a un objeto medido

MB

≥ 0

E/S de red

Velocidad de enlace descendente (BPS)

ma_node_network_receive_rate_bytes_seconds

Tasa de tráfico entrante de un objeto medido

Bytes/s

≥ 0

Velocidad de enlace ascendente (BPS)

ma_node_network_transmit_rate_bytes_seconds

Tasa de tráfico saliente de un objeto medido

Bytes/s

≥ 0

Almacenamiento

Velocidad de lectura de los discos

ma_node_disk_read_rate_kilobytes_seconds

Volumen de datos leídos de un disco por segundo (Solo se recopilan los discos de datos utilizados por contenedores.)

KB/s

≥ 0

Velocidad de escritura del disco

ma_node_disk_write_rate_kilobytes_seconds

Volumen de datos escritos en un disco por segundo (Solo se recopilan los discos de datos utilizados por contenedores.)

KB/s

≥ 0

Caché total

ma_node_cache_space_capacity_megabytes

Caché total del espacio de Kubernetes

MB

≥ 0

Caché Usada

ma_node_cache_space_used_capacity_megabytes

Caché usada del espacio de Kubernetes

MB

≥ 0

Espacio total del contenedor

ma_node_container_space_capacity_megabytes

Espacio total del contenedor

MB

≥ 0

Espacio usado de contenedor

ma_node_container_space_used_capacity_megabytes

Espacio usado de contenedor

MB

≥ 0

GPU

Uso de GPU

ma_node_gpu_util

Uso de GPU de un objeto medido

%

0%–100%

Memoria total de la GPU

ma_node_gpu_mem_total_megabytes

Memoria total de la GPU de un objeto medido

MB

> 0

Uso de la memoria de GPU

ma_node_gpu_mem_util

Porcentaje de la memoria de la GPU utilizada con respecto a la memoria total de la GPU

%

0%–100%

Memoria de GPU usada

ma_node_gpu_mem_used_megabytes

Memoria de GPU utilizada por un objeto medido

MB

≥ 0

Tareas en una GPU compartida

node_gpu_share_job_count

Número de tareas que se ejecutan en una GPU compartida

Número

≥ 0

NPU

Uso de NPU

ma_node_npu_util

Uso de NPU de un objeto medido

%

0%–100%

Uso de memoria de NPU

ma_node_npu_memory_util

Porcentaje de la memoria de NPU usada respecto a la memoria total de NPU

%

0%–100%

Memoria usada de NPU

ma_node_npu_memory_used_megabytes

Memoria utilizada de NPU por un objeto medido

MB

≥ 0

Memoria total de NPU

ma_node_npu_memory_total_megabytes

Memoria total de NPU de un objeto medido

MB

> 0

InfiniBand o RoCE network

Cantidad total de datos recibidos por una NIC

ma_node_infiniband_port_received_data_bytes_total

Número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), recibidos en todos los VL desde el puerto.

contando en palabras dobles, 32 bits

≥ 0

Cantidad total de datos enviados por una NIC

ma_node_infiniband_port_transmitted_data_bytes_total

El número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), transmitidos en todos los VL desde el puerto.

contando en palabras dobles, 32 bits

≥ 0

Tabla 3 Perfilado y diagnóstico (GPU | IB, recopilados solo en grupos de recursos dedicados)

Clasificación

Nombre

Métrica

Descripción

Unidad

Rango de valores

GPU

Temperatura de la GPU

DCGM_FI_DEV_GPU_TEMP

Temperatura de la GPU

°C

Número natural

Potencia de la GPU

DCGM_FI_DEV_POWER_USAGE

Potencia de la GPU

W

Número natural

Temperatura de la memoria

DCGM_FI_DEV_MEMORY_TEMP

Temperatura de la memoria

°C

Número natural

Actividad del motor de gráficos

DCGM_FI_PROF_GR_ENGINE_ACTIVE

Porcentaje del tiempo cuando el motor gráfico o de computación está en el estado activo dentro de un período de tiempo. Este es un valor promedio de todos los motores gráficos o de computación. Un motor gráfico o de computación activo indica que el contexto gráfico o de computación está asociado con un subproceso y que el contexto gráfico o de computación está ocupado.

Porcentaje (fracción)

0-1.0

Ocupación de SM

DCGM_FI_PROF_SM_OCCUPANCY

Relación entre el número de haces de hilos que residen en el SM y el número máximo de haces de hilos que pueden residir en el SM dentro de un período de tiempo

Este es un valor promedio de todos los SM dentro de un periodo de tiempo.

Un valor alto no significa un uso alto de GPU. Solo cuando el ancho de banda de memoria de la GPU es limitado, un alto valor de cargas de trabajo (DCGM_FI_PROF_DRAM_ACTIVE) indica un uso más eficiente de la GPU.

Porcentaje (fracción)

0-1.0

Actividad de Tensor

DCGM_FI_PROF_PIPE_TENSOR_ACTIVE

Fracción del período durante el cual el tubo tensor (HMMA/IMMA) está activo

Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo.

Un valor más alto indica una mayor utilización de núcleos tensores.

El valor 1 (100%) indica que se envía una instrucción de tensor cada ciclo de instrucción en todo el período (una instrucción se completa en dos ciclos).

Si el valor es 0.2 (20%), las posibles causas son las siguientes:

Durante todo el período, el 20% de los núcleos tensores de SM funcionan al 100% de utilización.

Durante todo el período, todos los núcleos tensores de SM funcionan con una utilización del 20%.

Durante 1/5 de todo el período, todos los núcleos tensores de SM funcionan al 100% de utilización.

Otras combinaciones

Porcentaje (fracción)

0-1.0

Uso de BW de memoria

DCGM_FI_PROF_DRAM_ACTIVE

Porcentaje del tiempo para enviar o recibir datos desde la memoria del dispositivo en un período de tiempo

Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo.

Un valor más alto indica una mayor utilización de la memoria del dispositivo.

El valor 1 (100%) indica que una instrucción de DRAM se ejecuta una vez por ciclo a lo largo de un período (el valor máximo puede alcanzarse en un pico de aproximadamente 0.8).

Si el valor es 0.2 (20%), indicando que los datos se leen o se escriben en la memoria del dispositivo durante el 20% del ciclo dentro de un periodo.

Porcentaje (fracción)

0-1.0

Actividad del motor FP16

DCGM_FI_PROF_PIPE_FP16_ACTIVE

Fracción del período durante el cual el tubo FP16 (media precisión) está activo

Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo.

Un valor mayor indica un mayor uso de núcleos de FP16.

El valor 1 (100%) indica que la instrucción de FP16 se ejecuta cada dos ciclos (por ejemplo, tarjetas Volta) en un periodo.

Si el valor es 0.2 (20%), las posibles causas son las siguientes:

During the entire period, 20% of the SM FP16 cores run at 100% utilization.

Durante todo el período, todos los núcleos de SM de FP16 funcionan con una utilización del 20%.

Durante 1/5 de todo el período, todos los núcleos de SM de FP16 funcionan al 100% de utilización.

Otras combinaciones

Porcentaje (fracción)

0-1.0

Actividad del motor FP32

DCGM_FI_PROF_PIPE_FP32_ACTIVE

Fracción del período durante el cual el tubo de adición múltiple fusionado (FMA) está activo. Multiplicar-añadir se aplica a FP32 (precisión simple) y enteros.

Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo.

Un valor mayor indica un mayor uso de núcleos de FP32.

El valor 1 (100%) indica que la instrucción de FP32 se ejecuta cada dos ciclos (por ejemplo, tarjetas Volta) en un periodo.

Si el valor es 0.2 (20%), las posibles causas son las siguientes:

Durante todo el período, el 20% de los núcleos de SM de FP32 funcionan al 100% de utilización.

Durante todo el período, todos los núcleos de SM de FP32 funcionan con una utilización del 20%.

Durante 1/5 de todo el período, todos los núcleos de SM de FP32 funcionan al 100% de utilización.

Otras combinaciones

Porcentaje (fracción)

0-1.0

Actividad del motor FP64

DCGM_FI_PROF_PIPE_FP64_ACTIVE

Fracción del período durante el cual el tubo FP64 (doble precisión) está activo

Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo.

Un valor mayor indica un mayor uso de núcleos de FP64.

El valor 1 (100%) indica que la instrucción de FP64 se ejecuta cada cuatro ciclos (por ejemplo, tarjetas Volta) en un período.

Si el valor es 0.2 (20%), las posibles causas son las siguientes:

Durante todo el período, el 20% de los núcleos de SM de FP64 funcionan al 100% de utilización.

Durante todo el período, todos los núcleos de SM de FP64 funcionan con una utilización del 20%.

Durante 1/5 de todo el período, todos los núcleos de SM de FP64 funcionan al 100% de utilización.

Otras combinaciones

Porcentaje (fracción)

0-1.0

Actividad de SM

DCGM_FI_PROF_SM_ACTIVE

Fracción del tiempo durante el cual al menos un haga de hilos está activo en un SM dentro de un periodo de tiempo.

Este es un valor promedio de todos los SM y es insensible al número de hilos en cada bloque.

Un paquete de subprocesos está activo después de ser programado y asignado con recursos. El conjunto de hilos puede estar en el estado informático o en un estado no informático (por ejemplo, esperando una solicitud de memoria).

Si el valor es inferior a 0.5, las GPU no se utilizan de manera eficiente. El valor debe ser mayor que 0.8.

Por ejemplo, una GPU tiene N SM:

Una función de núcleo utiliza N bloques de subproceso para ejecutarse en todos los SM en un periodo. En este caso, el valor es 1 (100%).

Una función del núcleo ejecuta N/5 bloques de subprocesos en un periodo. En este caso, el valor es 0.2.

Una función del núcleo utiliza N bloques de subprocesos y ejecuta solo 1/5 de ciclos en un periodo. En este caso, el valor es 0.2.

Porcentaje (fracción)

0-1.0

Ancho de banda de PCIe

DCGM_FI_PROF_PCIE_TX_BYTES

DCGM_FI_PROF_PCIE_RX_BYTES

Velocidad de datos transmitidos o recibidos a través del bus de PCIe, incluido el encabezado del protocolo y la carga útil de datos

Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo.

La tasa se promedia durante el período. Por ejemplo, si se transmite 1 GB de datos dentro de 1 segundo, la velocidad de transmisión es 1 GB/s independientemente de si los datos se transmiten a una velocidad o ráfaga constante. Teóricamente, el ancho de banda máximo PCIe Gen3 es de 985 MB/s por canal.

Bytes/s

≥ 0

Ancho de banda de NVLink

DCGM_FI_PROF_NVLINK_RX_BYTES

DCGM_FI_PROF_NVLINK_TX_BYTES

Velocidad a la que se transmiten o reciben datos con NVLink, excluido el encabezado del protocolo

Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo.

La tasa se promedia durante el período. Por ejemplo, si se transmite 1 GB de datos dentro de 1 segundo, la velocidad de transmisión es 1 GB/s independientemente de si los datos se transmiten a una velocidad o ráfaga constante. Teóricamente, el ancho de banda máximo de NVLink Gen2 es de 25 GB/s por enlace en cada dirección.

Bytes/s

≥ 0

InfiniBand o RoCE network

PortXmitData

infiniband_port_xmit_data_total

El número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), transmitidos en todos los VL desde el puerto.

Recuento total

Número natural

PortRcvData

infiniband_port_rcv_data_total

Número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), recibidos en todos los VL desde el puerto.

Recuento total

Número natural

SymbolErrorCounter

infiniband_symbol_error_counter_total

Número total de errores de enlace menores detectados en uno o más carriles físicos.

Recuento total

Número natural

LinkErrorRecoveryCounter

infiniband_link_error_recovery_counter_total

Número total de veces que la máquina de estado de entrenamiento de puerto ha completado con éxito el proceso de recuperación de error de enlace.

Recuento total

Número natural

PortRcvErrors

infiniband_port_rcv_errors_total

Número total de paquetes que contienen errores recibidos en el puerto, incluido:

Errores físicos locales (ICRC, VCRC, LPCRC y todos los errores físicos que provocan la entrada en los estados BAD PACKET o BAD PACKET DISCARD de la máquina de estado del receptor de paquetes)

Errores mal formados del paquete de datos (LVer, longitud, VL)

Errores de paquetes de enlace mal formados (operando, longitud, VL)

Paquetes descartados debido al desbordamiento de búfer (desbordamiento)

Recuento total

Número natural

LocalLinkIntegrityErrors

infiniband_local_link_integrity_errors_total

Este contador indica el número de reintentos iniciados por un receptor de capa de transferencia de enlace.

Recuento total

Número natural

PortRcvRemotePhysicalErrors

infiniband_port_rcv_remote_physical_errors_total

Número total de paquetes marcados con el delimitador EBP recibidos en el puerto.

Recuento total

Número natural

PortRcvSwitchRelayErrors

infiniband_port_rcv_switch_relay_errors_total

Número total de paquetes recibidos en el puerto que fueron descartados cuando no pudieron ser reenviados por el switch relay por las siguientes razones:

Asignación de DLID

Asignación de VL

Bucle (puerto de salida = puerto de entrada)

Recuento total

Número natural

PortXmitWait

infiniband_port_transmit_wait_total

El número de ticks durante los cuales el puerto tenía datos para transmitir, pero no se envió ningún dato durante todo el tick (ya sea por falta de créditos o por falta de arbitraje).

Recuento total

Número natural

PortXmitDiscards

infiniband_port_xmit_discards_total

Número total de paquetes salientes descartados por el puerto porque el puerto está inactivo o congestionado.

Recuento total

Número natural

Para obtener más información sobre las métricas de una red InfiniBand o RoCE, consulte los documentos de NVIDIA Mellanox.

Para obtener más información sobre las métricas de perfiles de GPU, consulte los documentos de NVIDIA.

Tabla 4 Nombres de las métricas

Clasificación

Métrica

Descripción

Métricas de contenedores

modelarts_service

Servicio al que pertenece un contenedor, que puede ser notebook, train o infer

instance_name

Nombre del pod al que pertenece el contenedor

service_id

ID de instancia o trabajo que se muestra en la página, por ejemplo, cf55829e-9bd3-48fa-8071-7ae870dae93a para un entorno de desarrollo

9f322d5a-b1d2-4370-94df-5a87de27d36e para un trabajo de entrenamiento

node_ip

Dirección IP del nodo al que pertenece el contenedor

container_id

ID del contenedor

cid

ID del clúster

container_name

Nombre del contenedor

project_id

ID de proyecto de la cuenta a la que pertenece el usuario

npu_id

Identificación de la tarjeta Ascend, por ejemplo davinci0

gpu_uuid

UUID de la GPU utilizada por el contenedor

Métricas de nodos

cid

ID del clúster de CCE al que pertenece el nodo

node_ip

Dirección IP del nodo

pool_id

ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico

project_id

ID de proyecto del usuario en un grupo de recursos físico dedicado

npu_id

Identificación de la tarjeta Ascend, por ejemplo davinci0

gpu_uuid

UUID de una GPU de nodo

device_name

Nombre del dispositivo de una NIC de red InfiniBand o RoCE

Perfilado y diagnóstico

cid

ID del clúster de CCE al que pertenece el nodo donde reside la GPU

node_ip

Dirección IP del nodo donde reside la GPU

pool_id

ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico

project_id

ID de proyecto del usuario en un grupo de recursos físico dedicado

gpu_uuid

UUID de GPU

device_name

Nombre del dispositivo de una NIC de red InfiniBand o RoCE

Cuestiones generales Preguntas frecuentes

more