Consulta de todas las métricas de control de ModelArts en la consola de AOM
ModelArts periódicamente recopila el uso de métricas clave (como GPU, NPU, CPU y memoria) de cada nodo en un grupo de recursos, así como el uso de métricas clave de entorno de desarrollo, de trabajos de entrenamiento y de servicios de inferencia y luego reporta los datos a AOM. Puede ver la información en AOM.
- Inicie sesión en la consola y busque AOM para ir a la consola de AOM.
- Seleccione Monitoring > Metric Monitoring. En la página Metric Monitoring que aparece en pantalla, haga clic en Add Metric.
- Agregue métricas y haga clic en Confirm.
- Add By: seleccione Dimension.
- Metric Name: Haga clic en Custom Metrics. Seleccione los deseados para la consulta. Para obtener más información, véase Tabla 1, Tabla 2 y Tabla 3.
- Dimension: introduzca la etiqueta para filtrar la métrica. Para más detalles, véase Tabla 4. A continuación se muestra un ejemplo.
- Consulte las métricas.
Tabla 1 Métricas de contenedores Categoría
Nombre
Métrica
Descripción
Unidad
Rango de valor
CPU
Uso de CPU
ma_container_cpu_util
Uso de CPU de un objeto medido
%
0%–100%
Núcleos de CPU usados
ma_container_cpu_used_core
Número de núcleos de CPU utilizados por un objeto medido
Núcleos
≥ 0
Total de núcleos de CPU
ma_container_cpu_limit_core
Número total de núcleos de CPU que se han aplicado a un objeto medido
Núcleos
≥ 1
Memoria
Memoria física total
ma_container_memory_capacity_megabytes
Memoria física total aplicada a un objeto medido
MB
≥ 0
Uso de la memoria física
ma_container_memory_util
Porcentaje de la memoria física utilizada en relación con la memoria física total
%
0%–100%
Memoria física usada
ma_container_memory_used_megabytes
Memoria física utilizada por un objeto medido (container_memory_working_set_bytes en el espacio de trabajo actual)
(Uso de memoria en un conjunto de trabajo = página anónima activa y caché, y página horneada en archivos ≤ container_memory_usage_bytes)
MB
≥ 0
Almacenamiento
Velocidad de lectura de los discos
ma_container_disk_read_kilobytes
Volumen de datos leídos de un disco por segundo
KB/s
≥ 0
Velocidad de escritura del disco
ma_container_disk_write_kilobytes
Volumen de datos escritos en un disco por segundo
KB/s
≥ 0
Memoria de la GPU
Memoria total de la GPU
ma_container_gpu_mem_total_megabytes
Memoria total de la GPU de un trabajo de entrenamiento
MB
> 0
Uso de la memoria de GPU
ma_container_gpu_mem_util
Porcentaje de la memoria de la GPU utilizada con respecto a la memoria total de la GPU
%
0%–100%
Memoria de GPU usada
ma_container_gpu_mem_used_megabytes
Memoria de GPU utilizada por un objeto medido
MB
≥ 0
GPU
Uso de GPU
ma_container_gpu_util
Uso de GPU de un objeto medido
%
0%–100%
Uso del ancho de banda de la memoria de la GPU
ma_container_gpu_mem_copy_util
Uso del ancho de banda de memoria de la GPU de un objeto medido. Por ejemplo, el ancho de banda de memoria máximo de la NVIDIA GPU V100 es de 900 GB/s. Si el ancho de banda de memoria actual es de 450 GB/s, el uso del ancho de banda de memoria es del 50 %.
%
0%–100%
Uso del codificador de GPU
ma_container_gpu_enc_util
Uso del codificador de GPU de un objeto medido
%
%
Uso del decodificador de GPU
ma_container_gpu_dec_util
Uso del decodificador de GPU de un objeto medido
%
%
Temperatura de la GPU
DCGM_FI_DEV_GPU_TEMP
Temperatura de la GPU
°C
Número natural
Potencia de la GPU
DCGM_FI_DEV_POWER_USAGE
Potencia de la GPU
Watt (W)
> 0
Temperatura de memoria de GPU
DCGM_FI_DEV_MEMORY_TEMP
Temperatura de memoria de GPU
°C
Número natural
E/S de red
Velocidad de enlace descendente (BPS)
ma_container_network_receive_bytes
Tasa de tráfico entrante de un objeto medido
Bytes/s
≥ 0
Velocidad de enlace descendente (PPS)
ma_container_network_receive_packets
Número de paquetes de datos recibidos por una NIC por segundo
Paquetes/s
≥ 0
Tasa de error de enlace descendente
ma_container_network_receive_error_packets
Número de paquetes de error recibidos por una NIC por segundo
Paquetes/s
≥ 0
Velocidad de enlace ascendente (BPS)
ma_container_network_transmit_bytes
Tasa de tráfico saliente de un objeto medido
Bytes/s
≥ 0
Tasa de error de enlace ascendente
ma_container_network_transmit_error_packets
Número de paquetes de error enviados por una NIC por segundo
Paquetes/s
≥ 0
Velocidad de enlace ascendente (PPS)
ma_container_network_transmit_packets
Número de paquetes de datos enviados por una NIC por segundo
Paquetes/s
≥ 0
Métricas de servicio de notebook
Tamaño de directorio de caché de notebook
ma_container_notebook_cache_dir_size_bytes
Se conecta un disco local de alta velocidad al directorio /cache para instancias de notebook de GPU. Esta métrica indica el tamaño total del directorio.
Bytes
≥ 0
Uso de directorio de caché de notebook
ma_container_notebook_cache_dir_util
Se conecta un disco local de alta velocidad al directorio /cache para instancias de notebook de GPU. Esta métrica indica la utilización del directorio.
%
0%–100%
Tabla 2 Métricas de nodo (recogidas solo en grupos de recursos dedicados) Categoría
Nombre
Métrica
Descripción
Unidad
Rango de valor
CPU
Total de núcleos de CPU
ma_node_cpu_limit_core
Número total de núcleos de CPU que se han aplicado a un objeto medido
Núcleos
≥ 1
Núcleos de CPU usados
ma_node_cpu_used_core
Número de núcleos de CPU utilizados por un objeto medido
Núcleos
≥ 0
Uso de CPU
ma_node_cpu_util
Uso de CPU de un objeto medido
%
0%–100%
Tiempo de espera de E/S de CPU
ma_node_cpu_iowait_counter
Tiempo de espera de E/S de disco acumulado desde el inicio del sistema
jiffies
≥ 0
Memoria
Uso de la memoria física
ma_node_memory_util
Porcentaje de la memoria física utilizada en relación con la memoria física total
%
0%–100%
Memoria física total
ma_node_memory_total_megabytes
Memoria física total aplicada a un objeto medido
MB
≥ 0
E/S de red
Velocidad de enlace descendente (BPS)
ma_node_network_receive_rate_bytes_seconds
Tasa de tráfico entrante de un objeto medido
Bytes/s
≥ 0
Velocidad de enlace ascendente (BPS)
ma_node_network_transmit_rate_bytes_seconds
Tasa de tráfico saliente de un objeto medido
Bytes/s
≥ 0
Almacenamiento
Velocidad de lectura de los discos
ma_node_disk_read_rate_kilobytes_seconds
Volumen de datos leídos de un disco por segundo (Solo se recopilan los discos de datos utilizados por contenedores.)
KB/s
≥ 0
Velocidad de escritura del disco
ma_node_disk_write_rate_kilobytes_seconds
Volumen de datos escritos en un disco por segundo (Solo se recopilan los discos de datos utilizados por contenedores.)
KB/s
≥ 0
Caché total
ma_node_cache_space_capacity_megabytes
Caché total del espacio de Kubernetes
MB
≥ 0
Caché usada
ma_node_cache_space_used_capacity_megabytes
Caché usada del espacio de Kubernetes
MB
≥ 0
Espacio total del contenedor
ma_node_container_space_capacity_megabytes
Espacio total del contenedor
MB
≥ 0
Espacio usado de contenedor
ma_node_container_space_used_capacity_megabytes
Espacio usado de contenedor
MB
≥ 0
Información del disco
ma_node_disk_info
Información básica del disco
N/A
≥ 0
Total de lecturas
ma_node_disk_reads_completed_total
Número total de lecturas exitosas
N/A
≥ 0
Lecturas combinadas
ma_node_disk_reads_merged_total
Número de lecturas combinadas
N/A
≥ 0
Bytes leídos
ma_node_disk_read_bytes_total
Número total de bytes que se leen correctamente
Bytes
≥ 0
Tiempo dedicado para lectura
ma_node_disk_read_time_seconds_total
Tiempo dedicado a todas las lecturas
Segundos
≥ 0
Total de escrituras
ma_node_disk_writes_completed_total
Número total de escrituras exitosas
N/A
≥ 0
Escrituras combinadas
ma_node_disk_writes_merged_total
Número de escrituras combinadas
N/A
≥ 0
Bytes escritos
ma_node_disk_written_bytes_total
Número total de bytes que se escriben correctamente
Bytes
≥ 0
Tiempo dedicado para escritura
ma_node_disk_write_time_seconds_total
Tiempo dedicado en todas las operaciones de escritura
Segundos
≥ 0
E/S en curso
ma_node_disk_io_now
Cantidad de E/S en curso
N/A
≥ 0
Duración de ejecución de E/S
ma_node_disk_io_time_seconds_total
Time spent on executing I/Os
Segundos
≥ 0
Tiempo ponderado de ejecución de E/S
ma_node_disk_io_time_weighted_seconds_tota
Número ponderado de segundos dedicados a E/S
Segundos
≥ 0
GPU
Uso de GPU
ma_node_gpu_util
Uso de GPU de un objeto medido
%
0%–100%
Memoria total de la GPU
ma_node_gpu_mem_total_megabytes
Memoria total de la GPU de un objeto medido
MB
> 0
Uso de la memoria de GPU
ma_node_gpu_mem_util
Porcentaje de la memoria de la GPU utilizada con respecto a la memoria total de la GPU
%
0%–100%
Memoria de GPU usada
ma_node_gpu_mem_used_megabytes
Memoria de GPU utilizada por un objeto medido
MB
≥ 0
Tareas en una GPU compartida
node_gpu_share_job_count
Número de tareas que se ejecutan en una GPU compartida
Número
≥ 0
Temperatura de la GPU
DCGM_FI_DEV_GPU_TEMP
Temperatura de la GPU
°C
Número natural
Potencia de la GPU
DCGM_FI_DEV_POWER_USAGE
Potencia de la GPU
Watt (W)
> 0
Temperatura de memoria de GPU
DCGM_FI_DEV_MEMORY_TEMP
Temperatura de memoria de GPU
°C
Número natural
InfiniBand o red de RoCE
Cantidad total de datos recibidos por una NIC
ma_node_infiniband_port_received_data_bytes_total
Número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), recibidos en todos los VL desde el puerto.
(contando en palabras dobles, 32 bits)
≥ 0
Cantidad total de datos enviados por una NIC
ma_node_infiniband_port_transmitted_data_bytes_total
El número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), transmitidos en todos los VL desde el puerto.
(contando en palabras dobles, 32 bits)
≥ 0
Estado de montaje de NFS
Tiempo de congestión de Getattr de NFS
ma_node_mountstats_getattr_backlog_wait
Getattr es una operación de NFS que recupera los atributos de un archivo o directorio, como tamaño, permisos, propietario, etc. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.
ms
≥ 0
Tiempo de ida y vuelta de Getattr de NFS
ma_node_mountstats_getattr_rtt
Getattr es una operación de NFS que recupera los atributos de un archivo o directorio, como tamaño, permisos, propietario, etc.
RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.
ms
≥ 0
Tiempo de congestión de acceso de NFS
ma_node_mountstats_access_backlog_wait
El acceso es una operación de NFS que comprueba los permisos de acceso de un archivo o directorio para un usuario determinado. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.
ms
≥ 0
Tiempo de ida y vuelta de acceso de NFS
ma_node_mountstats_access_rtt
El acceso es una operación de NFS que comprueba los permisos de acceso de un archivo o directorio para un usuario determinado. RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.
ms
≥ 0
Tiempo de congestión de búsqueda de NFS
ma_node_mountstats_lookup_backlog_wait
La búsqueda es una operación de NFS que resuelve un nombre de archivo en un directorio en un controlador de archivo. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.
ms
≥ 0
Tiempo de ida y vuelta de búsqueda de NFS
ma_node_mountstats_lookup_rtt
La búsqueda es una operación de NFS que resuelve un nombre de archivo en un directorio en un controlador de archivo. RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.
ms
≥ 0
Tiempo de congestión de lectura de NFS
ma_node_mountstats_read_backlog_wait
Leer es una operación de NFS que lee datos de un archivo. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.
ms
≥ 0
Tiempo de ida y vuelta de lectura de NFS
ma_node_mountstats_read_rtt
Leer es una operación de NFS que lee datos de un archivo. RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.
ms
≥ 0
Tiempo de congestión de escritura de NFS
ma_node_mountstats_write_backlog_wait
Write es una operación de NFS que escribe datos en un archivo. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.
ms
≥ 0
Tiempo de ida y vuelta de escritura de NFS
ma_node_mountstats_write_rtt
Write es una operación de NFS que escribe datos en un archivo. RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.
ms
≥ 0
Tabla 3 Diagnóstico (InfiniBand, recopilado solo en los grupos de recursos dedicados) Categoría
Nombre
Métrica
Descripción
Unidad
Rango de valor
InfiniBand o red de RoCE
PortXmitData
infiniband_port_xmit_data_total
El número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), transmitidos en todos los VL desde el puerto.
Recuento total
Número natural
PortRcvData
infiniband_port_rcv_data_total
Número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), recibidos en todos los VL desde el puerto.
Recuento total
Número natural
SymbolErrorCounter
infiniband_symbol_error_counter_total
Número total de errores de enlace menores detectados en uno o más carriles físicos.
Recuento total
Número natural
LinkErrorRecoveryCounter
infiniband_link_error_recovery_counter_total
Número total de veces que la máquina de estado de entrenamiento de puerto ha completado con éxito el proceso de recuperación de error de enlace.
Recuento total
Número natural
PortRcvErrors
infiniband_port_rcv_errors_total
Número total de paquetes que contienen errores recibidos en el puerto, incluido:
Errores físicos locales (ICRC, VCRC, LPCRC y todos los errores físicos que provocan la entrada en los estados BAD PACKET o BAD PACKET DISCARD de la máquina de estado del receptor de paquetes)
Errores mal formados del paquete de datos (LVer, longitud, VL)
Errores de paquetes de enlace mal formados (operando, longitud, VL)
Paquetes descartados debido al desbordamiento de búfer (desbordamiento)
Recuento total
Número natural
LocalLinkIntegrityErrors
infiniband_local_link_integrity_errors_total
Este contador indica el número de reintentos iniciados por un receptor de capa de transferencia de enlace.
Recuento total
Número natural
PortRcvRemotePhysicalErrors
infiniband_port_rcv_remote_physical_errors_total
Número total de paquetes marcados con el delimitador EBP recibidos en el puerto.
Recuento total
Número natural
PortRcvSwitchRelayErrors
infiniband_port_rcv_switch_relay_errors_total
Número total de paquetes recibidos en el puerto que fueron descartados cuando no pudieron ser reenviados por el switch relay por las siguientes razones:
Mapeo de DLID
Mapeo de VL
Bucle (puerto de salida = puerto de entrada)
Recuento total
Número natural
PortXmitWait
infiniband_port_transmit_wait_total
El número de ticks durante los cuales el puerto tenía datos para transmitir, pero no se envió ningún dato durante todo el tick (ya sea por falta de créditos o por falta de arbitraje).
Recuento total
Número natural
PortXmitDiscards
infiniband_port_xmit_discards_total
Número total de paquetes salientes descartados por el puerto porque el puerto está inactivo o congestionado.
Recuento total
Número natural
Tabla 4 Nombres de las métricas Clasificación
Métrica
Descripción
Métricas de contenedores
modelarts_service
Servicio al que pertenece un contenedor, que puede ser notebook, train o infer
instance_name
Nombre del pod al que pertenece el contenedor
service_id
ID de instancia o trabajo que se muestra en la página, por ejemplo, cf55829e-9bd3-48fa-8071-7ae870dae93a para un entorno de desarrollo
9f322d5a-b1d2-4370-94df-5a87de27d36e para un trabajo de entrenamiento
node_ip
Dirección IP del nodo al que pertenece el contenedor
container_id
ID de contenedor
cid
ID de clúster
container_name
Nombre del contenedor
project_id
ID de proyecto de la cuenta a la que pertenece el usuario
user_id
ID de usuario de la cuenta a la que pertenece el usuario que envía el trabajo
pool_id
ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico
pool_name
Nombre de un grupo de recursos correspondiente a un grupo de recursos dedicado físico
logical_pool_id
ID de un subgrupo lógico
logical_pool_name
Nombre de un subgrupo lógico
gpu_uuid
UUID de la GPU utilizada por el contenedor
gpu_index
Índice de la GPU utilizada por el contenedor
gpu_type
Tipo de GPU utilizada por el contenedor
account_name
Nombre de la cuenta del creador de una tarea de entrenamiento, de inferencia o de entorno de desarrollo
user_name
Nombre de usuario del creador de una tarea de entrenamiento, de inferencia o de entorno de desarrollo
task_creation_time
Hora en la que se crea una tarea de entrenamiento, de inferencia o de entorno de desarrollo
task_name
Nombre de una tarea de entrenamiento, de inferencia o de entorno de desarrollo
task_spec_code
Especificaciones de una tarea de entrenamiento, de inferencia o de entorno de desarrollo
cluster_name
Nombre del clúster de CCE
Métricas de nodos
cid
ID del clúster de CCE al que pertenece el nodo
node_ip
Dirección IP del nodo
host_name
Nombre de host de un nodo
pool_id
ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico
project_id
ID de proyecto del usuario en un grupo de recursos físico dedicado
gpu_uuid
UUID de una GPU de nodo
gpu_index
Índice de una GPU de nodo
gpu_type
Tipo de GPU de nodo
device_name
Nombre del dispositivo de una NIC de InfiniBand o de red de RoCE
port
Número de puerto de la NIC de InfiniBand
physical_state
Estado de cada puerto de la NIC de InfiniBand
firmware_version
Versión de firmware de la NIC de InfiniBand
filesystem
Sistema de archivos montado en NFS
mount_point
Punto de montaje de NFS
Diagnos
cid
ID del clúster de CCE al que pertenece el nodo con la GPU equipada
node_ip
Dirección IP del nodo donde reside la GPU
pool_id
ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico
project_id
ID de proyecto del usuario en un grupo de recursos físico dedicado
gpu_uuid
UUID de GPU
gpu_index
Índice de una GPU de nodo
gpu_type
Tipo de GPU de nodo
device_name
Nombre de un dispositivo de red o de disco
port
Número de puerto de la NIC de InfiniBand
physical_state
Estado de cada puerto de la NIC de InfiniBand
firmware_version
Versión de firmware de la NIC de InfiniBand