¿Cómo puedo ver todas las métricas de supervisión de ModelArts?
- Inicie sesión en la consola de Huawei Cloud y busque AOM para ir a la consola de AOM.
- Elija Monitoring > Metric Monitoring. En la página Metric Monitoring que se muestra, haga clic en Add Metric.
- Add By: Seleccione Dimension.
- Metric Name: Haga clic en Custom Metrics y seleccione los que desee para la consulta. Para obtener más información, consulte Tabla 1, Tabla 2 y Tabla 3.
- Dimension: Ingrese la etiqueta para filtrar la métrica. Para obtener más información, véase Tabla 4. A continuación se muestra un ejemplo.
- Haga clic en Confirm. Se muestra la información de la métrica.
Clasificación |
Nombre |
Métrica |
Descripción |
Unidad |
Rango de valores |
---|---|---|---|---|---|
CPU |
Uso de CPU |
ma_container_cpu_util |
Uso de CPU de un objeto medido |
% |
0%–100% |
Núcleos de CPU usados |
ma_container_cpu_used_core |
Número de núcleos de CPU utilizados por un objeto medido |
Núcleos |
≥ 0 |
|
Total de núcleos de CPU |
ma_container_cpu_limit_core |
Número total de núcleos de CPU que se han aplicado a un objeto medido |
Núcleos |
≥ 1 |
|
Memoria |
Memoria física total |
ma_container_memory_capacity_megabytes |
Memoria física total aplicada a un objeto medido |
MB |
≥ 0 |
Uso de la memoria física |
ma_container_memory_util |
Porcentaje de la memoria física utilizada en relación con la memoria física total |
% |
0%–100% |
|
Memoria física usada |
ma_container_memory_used_megabytes |
Memoria física que ha sido utilizada por un objeto medido (container_memory_working_set_bytes en el conjunto de trabajo actual) (Uso de memoria en un conjunto de trabajo = página anónima y cache activos, y la página file-baked ≤ container_memory_usage_bytes) |
MB |
≥ 0 |
|
Almacenamiento |
Velocidad de lectura de los discos |
ma_container_disk_read_kilobytes |
Volumen de datos leídos de un disco por segundo |
KB/s |
≥ 0 |
Velocidad de escritura del disco |
ma_container_disk_write_kilobytes |
Volumen de datos escritos en un disco por segundo |
KB/s |
≥ 0 |
|
Memoria de la GPU |
Memoria total de la GPU |
ma_container_gpu_mem_total_megabytes |
Memoria total de la GPU de un trabajo de entrenamiento |
MB |
> 0 |
Uso de la memoria de GPU |
ma_container_gpu_mem_util |
Porcentaje de la memoria de la GPU utilizada con respecto a la memoria total de la GPU |
% |
0%–100% |
|
Memoria de GPU usada |
ma_container_gpu_mem_used_megabytes |
Memoria de GPU utilizada por un objeto medido |
MB |
≥ 0 |
|
GPU |
Uso de GPU |
ma_container_gpu_util |
Uso de GPU de un objeto medido |
% |
0%–100% |
Uso del ancho de banda de la memoria de la GPU |
ma_container_gpu_mem_copy_util |
Uso del ancho de banda de memoria de la GPU de un objeto medido. Por ejemplo, el ancho de banda de memoria máximo de la NVIDIA GPU V100 es de 900 GB/s. Si el ancho de banda de memoria actual es de 450 GB/s, el uso del ancho de banda de memoria es del 50%. |
% |
0%–100% |
|
Uso del codificador de GPU |
ma_container_gpu_enc_util |
Uso del codificador de GPU de un objeto medido |
% |
% |
|
Uso del decodificador de GPU |
ma_container_gpu_dec_util |
Uso del decodificador de GPU de un objeto medido |
% |
% |
|
E/S de red |
Velocidad de enlace descendente (BPS) |
ma_container_network_receive_bytes |
Tasa de tráfico entrante de un objeto medido |
Bytes/s |
≥ 0 |
Velocidad de enlace descendente (PPS) |
ma_container_network_receive_packets |
Número de paquetes de datos recibidos por una NIC por segundo |
Paquetes/s |
≥ 0 |
|
Tasa de error de enlace descendente |
ma_container_network_receive_error_packets |
Número de paquetes de error recibidos por una NIC por segundo |
Paquetes/s |
≥ 0 |
|
Velocidad de enlace ascendente (BPS) |
ma_container_network_transmit_bytes |
Tasa de tráfico saliente de un objeto medido |
Bytes/s |
≥ 0 |
|
Tasa de error de enlace ascendente |
ma_container_network_transmit_error_packets |
Número de paquetes de error enviados por una NIC por segundo |
Paquetes/s |
≥ 0 |
|
Velocidad de enlace ascendente (PPS) |
ma_container_network_transmit_packets |
Número de paquetes de datos enviados por una NIC por segundo |
Paquetes/s |
≥ 0 |
|
NPU |
Uso de NPU |
ma_container_npu_util |
Uso de NPU de un objeto medido |
0%–100% |
% |
Uso de memoria de NPU |
ma_container_npu_memory_util |
Porcentaje de la memoria de NPU usada respecto a la memoria total de NPU |
0%–100% |
% |
|
Memoria usada de NPU |
ma_container_npu_memory_used_megabytes |
Memoria utilizada de NPU por un objeto medido |
≥ 0 |
MB |
|
Memoria total de NPU |
ma_container_npu_memory_total_megabytes |
Memoria total de NPU de un objeto medido |
> 0 |
MB |
Clasificación |
Nombre |
Métrica |
Descripción |
Unidad |
Rango de valores |
---|---|---|---|---|---|
CPU |
Total de núcleos de CPU |
ma_node_cpu_limit_core |
Número total de núcleos de CPU que se han aplicado a un objeto medido |
Núcleos |
≥ 1 |
Núcleos de CPU usados |
ma_node_cpu_used_core |
Número de núcleos de CPU utilizados por un objeto medido |
Núcleos |
≥ 0 |
|
Uso de CPU |
ma_node_cpu_util |
Uso de CPU de un objeto medido |
% |
0%–100% |
|
Memoria |
Uso de la memoria física |
ma_node_memory_util |
Porcentaje de la memoria física utilizada en relación con la memoria física total |
% |
0%–100% |
Memoria física total |
ma_node_memory_total_megabytes |
Memoria física total aplicada a un objeto medido |
MB |
≥ 0 |
|
E/S de red |
Velocidad de enlace descendente (BPS) |
ma_node_network_receive_rate_bytes_seconds |
Tasa de tráfico entrante de un objeto medido |
Bytes/s |
≥ 0 |
Velocidad de enlace ascendente (BPS) |
ma_node_network_transmit_rate_bytes_seconds |
Tasa de tráfico saliente de un objeto medido |
Bytes/s |
≥ 0 |
|
Almacenamiento |
Velocidad de lectura de los discos |
ma_node_disk_read_rate_kilobytes_seconds |
Volumen de datos leídos de un disco por segundo (Solo se recopilan los discos de datos utilizados por contenedores.) |
KB/s |
≥ 0 |
Velocidad de escritura del disco |
ma_node_disk_write_rate_kilobytes_seconds |
Volumen de datos escritos en un disco por segundo (Solo se recopilan los discos de datos utilizados por contenedores.) |
KB/s |
≥ 0 |
|
Caché total |
ma_node_cache_space_capacity_megabytes |
Caché total del espacio de Kubernetes |
MB |
≥ 0 |
|
Caché Usada |
ma_node_cache_space_used_capacity_megabytes |
Caché usada del espacio de Kubernetes |
MB |
≥ 0 |
|
Espacio total del contenedor |
ma_node_container_space_capacity_megabytes |
Espacio total del contenedor |
MB |
≥ 0 |
|
Espacio usado de contenedor |
ma_node_container_space_used_capacity_megabytes |
Espacio usado de contenedor |
MB |
≥ 0 |
|
GPU |
Uso de GPU |
ma_node_gpu_util |
Uso de GPU de un objeto medido |
% |
0%–100% |
Memoria total de la GPU |
ma_node_gpu_mem_total_megabytes |
Memoria total de la GPU de un objeto medido |
MB |
> 0 |
|
Uso de la memoria de GPU |
ma_node_gpu_mem_util |
Porcentaje de la memoria de la GPU utilizada con respecto a la memoria total de la GPU |
% |
0%–100% |
|
Memoria de GPU usada |
ma_node_gpu_mem_used_megabytes |
Memoria de GPU utilizada por un objeto medido |
MB |
≥ 0 |
|
Tareas en una GPU compartida |
node_gpu_share_job_count |
Número de tareas que se ejecutan en una GPU compartida |
Número |
≥ 0 |
|
NPU |
Uso de NPU |
ma_node_npu_util |
Uso de NPU de un objeto medido |
% |
0%–100% |
Uso de memoria de NPU |
ma_node_npu_memory_util |
Porcentaje de la memoria de NPU usada respecto a la memoria total de NPU |
% |
0%–100% |
|
Memoria usada de NPU |
ma_node_npu_memory_used_megabytes |
Memoria utilizada de NPU por un objeto medido |
MB |
≥ 0 |
|
Memoria total de NPU |
ma_node_npu_memory_total_megabytes |
Memoria total de NPU de un objeto medido |
MB |
> 0 |
|
InfiniBand o RoCE network |
Cantidad total de datos recibidos por una NIC |
ma_node_infiniband_port_received_data_bytes_total |
Número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), recibidos en todos los VL desde el puerto. |
contando en palabras dobles, 32 bits |
≥ 0 |
Cantidad total de datos enviados por una NIC |
ma_node_infiniband_port_transmitted_data_bytes_total |
El número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), transmitidos en todos los VL desde el puerto. |
contando en palabras dobles, 32 bits |
≥ 0 |
Clasificación |
Nombre |
Métrica |
Descripción |
Unidad |
Rango de valores |
---|---|---|---|---|---|
GPU |
Temperatura de la GPU |
DCGM_FI_DEV_GPU_TEMP |
Temperatura de la GPU |
°C |
Número natural |
Potencia de la GPU |
DCGM_FI_DEV_POWER_USAGE |
Potencia de la GPU |
W |
Número natural |
|
Temperatura de la memoria |
DCGM_FI_DEV_MEMORY_TEMP |
Temperatura de la memoria |
°C |
Número natural |
|
Actividad del motor de gráficos |
DCGM_FI_PROF_GR_ENGINE_ACTIVE |
Porcentaje del tiempo cuando el motor gráfico o de computación está en el estado activo dentro de un período de tiempo. Este es un valor promedio de todos los motores gráficos o de computación. Un motor gráfico o de computación activo indica que el contexto gráfico o de computación está asociado con un subproceso y que el contexto gráfico o de computación está ocupado. |
Porcentaje (fracción) |
0-1.0 |
|
Ocupación de SM |
DCGM_FI_PROF_SM_OCCUPANCY |
Relación entre el número de haces de hilos que residen en el SM y el número máximo de haces de hilos que pueden residir en el SM dentro de un período de tiempo Este es un valor promedio de todos los SM dentro de un periodo de tiempo. Un valor alto no significa un uso alto de GPU. Solo cuando el ancho de banda de memoria de la GPU es limitado, un alto valor de cargas de trabajo (DCGM_FI_PROF_DRAM_ACTIVE) indica un uso más eficiente de la GPU. |
Porcentaje (fracción) |
0-1.0 |
|
Actividad de Tensor |
DCGM_FI_PROF_PIPE_TENSOR_ACTIVE |
Fracción del período durante el cual el tubo tensor (HMMA/IMMA) está activo Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo. Un valor más alto indica una mayor utilización de núcleos tensores. El valor 1 (100%) indica que se envía una instrucción de tensor cada ciclo de instrucción en todo el período (una instrucción se completa en dos ciclos). Si el valor es 0.2 (20%), las posibles causas son las siguientes: Durante todo el período, el 20% de los núcleos tensores de SM funcionan al 100% de utilización. Durante todo el período, todos los núcleos tensores de SM funcionan con una utilización del 20%. Durante 1/5 de todo el período, todos los núcleos tensores de SM funcionan al 100% de utilización. Otras combinaciones |
Porcentaje (fracción) |
0-1.0 |
|
Uso de BW de memoria |
DCGM_FI_PROF_DRAM_ACTIVE |
Porcentaje del tiempo para enviar o recibir datos desde la memoria del dispositivo en un período de tiempo Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo. Un valor más alto indica una mayor utilización de la memoria del dispositivo. El valor 1 (100%) indica que una instrucción de DRAM se ejecuta una vez por ciclo a lo largo de un período (el valor máximo puede alcanzarse en un pico de aproximadamente 0.8). Si el valor es 0.2 (20%), indicando que los datos se leen o se escriben en la memoria del dispositivo durante el 20% del ciclo dentro de un periodo. |
Porcentaje (fracción) |
0-1.0 |
|
Actividad del motor FP16 |
DCGM_FI_PROF_PIPE_FP16_ACTIVE |
Fracción del período durante el cual el tubo FP16 (media precisión) está activo Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo. Un valor mayor indica un mayor uso de núcleos de FP16. El valor 1 (100%) indica que la instrucción de FP16 se ejecuta cada dos ciclos (por ejemplo, tarjetas Volta) en un periodo. Si el valor es 0.2 (20%), las posibles causas son las siguientes: During the entire period, 20% of the SM FP16 cores run at 100% utilization. Durante todo el período, todos los núcleos de SM de FP16 funcionan con una utilización del 20%. Durante 1/5 de todo el período, todos los núcleos de SM de FP16 funcionan al 100% de utilización. Otras combinaciones |
Porcentaje (fracción) |
0-1.0 |
|
Actividad del motor FP32 |
DCGM_FI_PROF_PIPE_FP32_ACTIVE |
Fracción del período durante el cual el tubo de adición múltiple fusionado (FMA) está activo. Multiplicar-añadir se aplica a FP32 (precisión simple) y enteros. Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo. Un valor mayor indica un mayor uso de núcleos de FP32. El valor 1 (100%) indica que la instrucción de FP32 se ejecuta cada dos ciclos (por ejemplo, tarjetas Volta) en un periodo. Si el valor es 0.2 (20%), las posibles causas son las siguientes: Durante todo el período, el 20% de los núcleos de SM de FP32 funcionan al 100% de utilización. Durante todo el período, todos los núcleos de SM de FP32 funcionan con una utilización del 20%. Durante 1/5 de todo el período, todos los núcleos de SM de FP32 funcionan al 100% de utilización. Otras combinaciones |
Porcentaje (fracción) |
0-1.0 |
|
Actividad del motor FP64 |
DCGM_FI_PROF_PIPE_FP64_ACTIVE |
Fracción del período durante el cual el tubo FP64 (doble precisión) está activo Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo. Un valor mayor indica un mayor uso de núcleos de FP64. El valor 1 (100%) indica que la instrucción de FP64 se ejecuta cada cuatro ciclos (por ejemplo, tarjetas Volta) en un período. Si el valor es 0.2 (20%), las posibles causas son las siguientes: Durante todo el período, el 20% de los núcleos de SM de FP64 funcionan al 100% de utilización. Durante todo el período, todos los núcleos de SM de FP64 funcionan con una utilización del 20%. Durante 1/5 de todo el período, todos los núcleos de SM de FP64 funcionan al 100% de utilización. Otras combinaciones |
Porcentaje (fracción) |
0-1.0 |
|
Actividad de SM |
DCGM_FI_PROF_SM_ACTIVE |
Fracción del tiempo durante el cual al menos un haga de hilos está activo en un SM dentro de un periodo de tiempo. Este es un valor promedio de todos los SM y es insensible al número de hilos en cada bloque. Un paquete de subprocesos está activo después de ser programado y asignado con recursos. El conjunto de hilos puede estar en el estado informático o en un estado no informático (por ejemplo, esperando una solicitud de memoria). Si el valor es inferior a 0.5, las GPU no se utilizan de manera eficiente. El valor debe ser mayor que 0.8. Por ejemplo, una GPU tiene N SM: Una función de núcleo utiliza N bloques de subproceso para ejecutarse en todos los SM en un periodo. En este caso, el valor es 1 (100%). Una función del núcleo ejecuta N/5 bloques de subprocesos en un periodo. En este caso, el valor es 0.2. Una función del núcleo utiliza N bloques de subprocesos y ejecuta solo 1/5 de ciclos en un periodo. En este caso, el valor es 0.2. |
Porcentaje (fracción) |
0-1.0 |
|
Ancho de banda de PCIe |
DCGM_FI_PROF_PCIE_TX_BYTES DCGM_FI_PROF_PCIE_RX_BYTES |
Velocidad de datos transmitidos o recibidos a través del bus de PCIe, incluido el encabezado del protocolo y la carga útil de datos Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo. La tasa se promedia durante el período. Por ejemplo, si se transmite 1 GB de datos dentro de 1 segundo, la velocidad de transmisión es 1 GB/s independientemente de si los datos se transmiten a una velocidad o ráfaga constante. Teóricamente, el ancho de banda máximo PCIe Gen3 es de 985 MB/s por canal. |
Bytes/s |
≥ 0 |
|
Ancho de banda de NVLink |
DCGM_FI_PROF_NVLINK_RX_BYTES DCGM_FI_PROF_NVLINK_TX_BYTES |
Velocidad a la que se transmiten o reciben datos con NVLink, excluido el encabezado del protocolo Este es un valor promedio dentro de un período de tiempo, no un valor instantáneo. La tasa se promedia durante el período. Por ejemplo, si se transmite 1 GB de datos dentro de 1 segundo, la velocidad de transmisión es 1 GB/s independientemente de si los datos se transmiten a una velocidad o ráfaga constante. Teóricamente, el ancho de banda máximo de NVLink Gen2 es de 25 GB/s por enlace en cada dirección. |
Bytes/s |
≥ 0 |
|
InfiniBand o RoCE network |
PortXmitData |
infiniband_port_xmit_data_total |
El número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), transmitidos en todos los VL desde el puerto. |
Recuento total |
Número natural |
PortRcvData |
infiniband_port_rcv_data_total |
Número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), recibidos en todos los VL desde el puerto. |
Recuento total |
Número natural |
|
SymbolErrorCounter |
infiniband_symbol_error_counter_total |
Número total de errores de enlace menores detectados en uno o más carriles físicos. |
Recuento total |
Número natural |
|
LinkErrorRecoveryCounter |
infiniband_link_error_recovery_counter_total |
Número total de veces que la máquina de estado de entrenamiento de puerto ha completado con éxito el proceso de recuperación de error de enlace. |
Recuento total |
Número natural |
|
PortRcvErrors |
infiniband_port_rcv_errors_total |
Número total de paquetes que contienen errores recibidos en el puerto, incluido: Errores físicos locales (ICRC, VCRC, LPCRC y todos los errores físicos que provocan la entrada en los estados BAD PACKET o BAD PACKET DISCARD de la máquina de estado del receptor de paquetes) Errores mal formados del paquete de datos (LVer, longitud, VL) Errores de paquetes de enlace mal formados (operando, longitud, VL) Paquetes descartados debido al desbordamiento de búfer (desbordamiento) |
Recuento total |
Número natural |
|
LocalLinkIntegrityErrors |
infiniband_local_link_integrity_errors_total |
Este contador indica el número de reintentos iniciados por un receptor de capa de transferencia de enlace. |
Recuento total |
Número natural |
|
PortRcvRemotePhysicalErrors |
infiniband_port_rcv_remote_physical_errors_total |
Número total de paquetes marcados con el delimitador EBP recibidos en el puerto. |
Recuento total |
Número natural |
|
PortRcvSwitchRelayErrors |
infiniband_port_rcv_switch_relay_errors_total |
Número total de paquetes recibidos en el puerto que fueron descartados cuando no pudieron ser reenviados por el switch relay por las siguientes razones: Asignación de DLID Asignación de VL Bucle (puerto de salida = puerto de entrada) |
Recuento total |
Número natural |
|
PortXmitWait |
infiniband_port_transmit_wait_total |
El número de ticks durante los cuales el puerto tenía datos para transmitir, pero no se envió ningún dato durante todo el tick (ya sea por falta de créditos o por falta de arbitraje). |
Recuento total |
Número natural |
|
PortXmitDiscards |
infiniband_port_xmit_discards_total |
Número total de paquetes salientes descartados por el puerto porque el puerto está inactivo o congestionado. |
Recuento total |
Número natural |
Para obtener más información sobre las métricas de una red InfiniBand o RoCE, consulte los documentos de NVIDIA Mellanox.
Para obtener más información sobre las métricas de perfiles de GPU, consulte los documentos de NVIDIA.
Clasificación |
Métrica |
Descripción |
---|---|---|
Métricas de contenedores |
modelarts_service |
Servicio al que pertenece un contenedor, que puede ser notebook, train o infer |
instance_name |
Nombre del pod al que pertenece el contenedor |
|
service_id |
ID de instancia o trabajo que se muestra en la página, por ejemplo, cf55829e-9bd3-48fa-8071-7ae870dae93a para un entorno de desarrollo 9f322d5a-b1d2-4370-94df-5a87de27d36e para un trabajo de entrenamiento |
|
node_ip |
Dirección IP del nodo al que pertenece el contenedor |
|
container_id |
ID del contenedor |
|
cid |
ID del clúster |
|
container_name |
Nombre del contenedor |
|
project_id |
ID de proyecto de la cuenta a la que pertenece el usuario |
|
npu_id |
Identificación de la tarjeta Ascend, por ejemplo davinci0 |
|
gpu_uuid |
UUID de la GPU utilizada por el contenedor |
|
Métricas de nodos |
cid |
ID del clúster de CCE al que pertenece el nodo |
node_ip |
Dirección IP del nodo |
|
pool_id |
ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico |
|
project_id |
ID de proyecto del usuario en un grupo de recursos físico dedicado |
|
npu_id |
Identificación de la tarjeta Ascend, por ejemplo davinci0 |
|
gpu_uuid |
UUID de una GPU de nodo |
|
device_name |
Nombre del dispositivo de una NIC de red InfiniBand o RoCE |
|
Perfilado y diagnóstico |
cid |
ID del clúster de CCE al que pertenece el nodo donde reside la GPU |
node_ip |
Dirección IP del nodo donde reside la GPU |
|
pool_id |
ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico |
|
project_id |
ID de proyecto del usuario en un grupo de recursos físico dedicado |
|
gpu_uuid |
UUID de GPU |
|
device_name |
Nombre del dispositivo de una NIC de red InfiniBand o RoCE |