Exibição de todas as métricas de monitoramento do ModelArts no console do AOM
O ModelArts coleta periodicamente o uso de métricas criticais (como GPUs, NPUs, CPUs e memória) de cada nó em um pool de recursos, bem como o uso de métricas criticais do ambiente de desenvolvimento, trabalhos de treinamento e serviços de inferência, e reporta os dados ao AOM. Você pode ver as informações no AOM.
- Faça logon no console e procure por AOM para ir para o console do AOM.
- Escolha Monitoring > Metric Monitoring. Na página Metric Monitoring exibida, clique em Add Metric.
- Adicione métricas e clique em Confirm.
- Add By: selecione Dimension.
- Metric Name: clique em Custom Metrics. Selecione as desejadas para consulta. Para obter detalhes, consulte Tabela 1, Tabela 2 e Tabela 3.
- Dimension: insira a tag para filtrar a métrica. Para mais detalhes, consulte Tabela 4. O seguinte mostra um exemplo.
- Veja as métricas.
Tabela 1 Métricas de contêiner Categoria
Nome
Métrica
Descrição
Unidade
Intervalo de valor
CPU
CPU Usage
ma_container_cpu_util
Uso da CPU de um objeto medido
%
0%–100%
Used CPU Cores
ma_container_cpu_used_core
Número de núcleos de CPU usados por um objeto medido
Núcleos
≥ 0
Total CPU Cores
ma_container_cpu_limit_core
Número total de núcleos de CPU que foram aplicados a um objeto medido
Núcleos
≥ 1
Memória
Total Physical Memory
ma_container_memory_capacity_megabytes
Memória física total que foi aplicada para um objeto medido
MB
≥ 0
Physical Memory Usage
ma_container_memory_util
Porcentagem da memória física usada em relação à memória física total
%
0%–100%
Used Physical Memory
ma_container_memory_used_megabytes
Memória física que foi usada por um objeto medido (container_memory_working_set_bytes no conjunto de trabalho atual)
(Uso de memória em um conjunto de trabalho = página anônima ativa e cache, e a página de arquivo ≤ container_memory_usage_bytes)
MB
≥ 0
Armazenamento
Disk Read Rate
ma_container_disk_read_kilobytes
Volume de dados lidos de um disco por segundo
KB/S
≥ 0
Disk Write Rate
ma_container_disk_write_kilobytes
Volume de dados gravados em um disco por segundo
KB/S
≥ 0
Memória de GPU
Total GPU Memory
ma_container_gpu_mem_total_megabytes
Memória total da GPU de um trabalho de treinamento
MB
> 0
GPU Memory Usage
ma_container_gpu_mem_util
Porcentagem da memória da GPU usada em relação à memória total da GPU
%
0%–100%
Used GPU Memory
ma_container_gpu_mem_used_megabytes
Memória da GPU usada por um objeto medido
MB
≥ 0
GPU
GPU Usage
ma_container_gpu_util
Uso da GPU de um objeto medido
%
0%–100%
GPU Memory Bandwidth Usage
ma_container_gpu_mem_copy_util
Uso da largura de banda da memória da GPU de um objeto medido. Por exemplo, a largura de banda máxima da memória da GPU de NVIDIA V100 é de 900 GB/s. Se a largura de banda da memória atual for de 450 GB/s, o uso da largura de banda da memória será de 50%.
%
0%–100%
GPU Encoder Usage
ma_container_gpu_enc_util
Uso do codificador de GPU de um objeto medido
%
%
GPU Decoder Usage
ma_container_gpu_dec_util
Uso do decodificador de GPU de um objeto medido
%
%
GPU Temperature
DCGM_FI_DEV_GPU_TEMP
Temperatura da GPU
°C
Número natural
GPU Power
DCGM_FI_DEV_POWER_USAGE
Potência da GPU
Watt (W)
> 0
GPU Memory Temperature
DCGM_FI_DEV_MEMORY_TEMP
Temperatura da memória da GPU
°C
Número natural
I/O de rede
Downlink Rate (BPS)
ma_container_network_receive_bytes
Taxa de tráfego de entrada de um objeto medido
Bytes/s
≥ 0
Downlink Rate (PPS)
ma_container_network_receive_packets
Número de pacotes de dados recebidos por uma NIC por segundo
Pacotes/s
≥ 0
Downlink Error Rate
ma_container_network_receive_error_packets
Número de pacotes de erro recebidos por uma NIC por segundo
Pacotes/s
≥ 0
Uplink Rate (BPS)
ma_container_network_transmit_bytes
Taxa de tráfego de saída de um objeto medido
Bytes/s
≥ 0
Uplink Error Rate
ma_container_network_transmit_error_packets
Número de pacotes de erro enviados por uma NIC por segundo
Pacotes/s
≥ 0
Uplink Rate (PPS)
ma_container_network_transmit_packets
Número de pacotes de dados enviados por uma NIC por segundo
Pacotes/s
≥ 0
Métricas de serviço de notebook
Notebook Cache Directory Size
ma_container_notebook_cache_dir_size_bytes
Um disco local de alta velocidade é anexado ao diretório /cache para instâncias de notebook de GPU. Essa métrica indica o tamanho total do diretório.
Bytes
≥ 0
Notebook Cache Directory Utilization
ma_container_notebook_cache_dir_util
Um disco local de alta velocidade é anexado ao diretório /cache para instâncias de notebook de GPU. Essa métrica indica a utilização do diretório.
%
0%–100%
Tabela 2 Métricas de nó (coletadas apenas em pools de recursos dedicados) Categoria
Nome
Métrica
Descrição
Unidade
Intervalo de valor
CPU
Total CPU Cores
ma_node_cpu_limit_core
Número total de núcleos de CPU que foram aplicados a um objeto medido
Núcleos
≥ 1
Used CPU Cores
ma_node_cpu_used_core
Número de núcleos de CPU usados por um objeto medido
Núcleos
≥ 0
CPU Usage
ma_node_cpu_util
Uso da CPU de um objeto medido
%
0%–100%
CPU I/O Wait Time
ma_node_cpu_iowait_counter
Tempo de espera de I/O de disco acumulado desde a inicialização do sistema
jiffies
≥ 0
Memória
Physical Memory Usage
ma_node_memory_util
Porcentagem da memória física usada em relação à memória física total
%
0%–100%
Total Physical Memory
ma_node_memory_total_megabytes
Memória física total que foi aplicada para um objeto medido
MB
≥ 0
I/O de rede
Downlink Rate (BPS)
ma_node_network_receive_rate_bytes_seconds
Taxa de tráfego de entrada de um objeto medido
Bytes/s
≥ 0
Uplink Rate (BPS)
ma_node_network_transmit_rate_bytes_seconds
Taxa de tráfego de saída de um objeto medido
Bytes/s
≥ 0
Armazenamento
Disk Read Rate
ma_node_disk_read_rate_kilobytes_seconds
Volume de dados lidos de um disco por segundo (somente discos de dados usados por contêineres são coletados.)
KB/S
≥ 0
Disk Write Rate
ma_node_disk_write_rate_kilobytes_seconds
Volume de dados gravados em um disco por segundo (somente discos de dados usados por contêineres são coletados.)
KB/S
≥ 0
Total Cache
ma_node_cache_space_capacity_megabytes
Cache total do espaço do Kubernetes
MB
≥ 0
Used Cache
ma_node_cache_space_used_capacity_megabytes
Cache usado do espaço do Kubernetes
MB
≥ 0
Total Container Space
ma_node_container_space_capacity_megabytes
Espaço total do contêiner
MB
≥ 0
Used Container Space
ma_node_container_space_used_capacity_megabytes
Espaço de contêiner usado
MB
≥ 0
Disk Information
ma_node_disk_info
Informações básicas do disco
N/D
≥ 0
Total Reads
ma_node_disk_reads_completed_total
Número total de leituras bem-sucedidas
N/D
≥ 0
Merged Reads
ma_node_disk_reads_merged_total
Número de leituras mescladas
N/D
≥ 0
Bytes Read
ma_node_disk_read_bytes_total
Número total de bytes lidos com sucesso
Bytes
≥ 0
Read Time Spent
ma_node_disk_read_time_seconds_total
Tempo gasto em todas as leituras
Segundos
≥ 0
Total Writes
ma_node_disk_writes_completed_total
Número total de gravações bem-sucedidas
N/D
≥ 0
Merged Writes
ma_node_disk_writes_merged_total
Número de gravações mescladas
N/D
≥ 0
Bytes gravados
ma_node_disk_written_bytes_total
Total number of bytes that are successfully written
Bytes
≥ 0
Write Time Spent
ma_node_disk_write_time_seconds_total
Tempo gasto em todas as operações de gravação
Segundos
≥ 0
Ongoing I/Os
ma_node_disk_io_now
Número de I/Os em andamento
N/D
≥ 0
I/O Execution Duration
ma_node_disk_io_time_seconds_total
Tempo gasto na execução de I/Os
Segundos
≥ 0
I/O Execution Weighted Time
ma_node_disk_io_time_weighted_seconds_tota
O número ponderado de segundos gastos em I/Os
Segundos
≥ 0
GPU
GPU Usage
ma_node_gpu_util
Uso da GPU de um objeto medido
%
0%–100%
Total GPU Memory
ma_node_gpu_mem_total_megabytes
Memória total da GPU de um objeto medido
MB
> 0
GPU Memory Usage
ma_node_gpu_mem_util
Porcentagem da memória da GPU usada em relação à memória total da GPU
%
0%–100%
Used GPU Memory
ma_node_gpu_mem_used_megabytes
Memória da GPU usada por um objeto medido
MB
≥ 0
Tasks on a Shared GPU
node_gpu_share_job_count
Número de tarefas em execução em uma GPU compartilhada
Número
≥ 0
GPU Temperature
DCGM_FI_DEV_GPU_TEMP
Temperatura da GPU
°C
Número natural
GPU Power
DCGM_FI_DEV_POWER_USAGE
Potência da GPU
Watt (W)
> 0
GPU Memory Temperature
DCGM_FI_DEV_MEMORY_TEMP
Temperatura da memória da GPU
°C
Número natural
Rede InfiniBand ou RoCE
Total Amount of Data Received by a NIC
ma_node_infiniband_port_received_data_bytes_total
O número total de dados octetos, dividido por 4, (contando em palavras duplas, 32 bits), recebidos em todos os VLs da porta.
(contando em palavras duplas, 32 bits)
≥ 0
Total Amount of Data Sent by a NIC
ma_node_infiniband_port_transmitted_data_bytes_total
O número total de dados octetos, dividido por 4, (contando em palavras duplas, 32 bits), transmitidos em todos os VLs a partir da porta.
(contando em palavras duplas, 32 bits)
≥ 0
Status de montagem do NFS
NFS Getattr Congestion Time
ma_node_mountstats_getattr_backlog_wait
Getattr é uma operação do NFS que recupera os atributos de um arquivo ou diretório, como tamanho, permissões, proprietário, etc. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.
ms
≥ 0
NFS Getattr Round Trip Time
ma_node_mountstats_getattr_rtt
Getattr é uma operação do NFS que recupera os atributos de um arquivo ou diretório, como tamanho, permissões, proprietário, etc.
RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.
ms
≥ 0
NFS Access Congestion Time
ma_node_mountstats_access_backlog_wait
Access é uma operação do NFS que verifica as permissões de acesso de um arquivo ou diretório para um determinado usuário. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.
ms
≥ 0
NFS Access Round Trip Time
ma_node_mountstats_access_rtt
Access é uma operação do NFS que verifica as permissões de acesso de um arquivo ou diretório para um determinado usuário. RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.
ms
≥ 0
NFS Lookup Congestion Time
ma_node_mountstats_lookup_backlog_wait
Lookup é uma operação do NFS que resolve um nome de arquivo em um diretório para um identificador de arquivo. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.
ms
≥ 0
NFS Lookup Round Trip Time
ma_node_mountstats_lookup_rtt
Lookup é uma operação do NFS que resolve um nome de arquivo em um diretório para um identificador de arquivo. RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.
ms
≥ 0
NFS Read Congestion Time
ma_node_mountstats_read_backlog_wait
Read é uma operação do NFS que lê dados de um arquivo. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.
ms
≥ 0
NFS Read Round Trip Time
ma_node_mountstats_read_rtt
Read é uma operação do NFS que lê dados de um arquivo. RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.
ms
≥ 0
NFS Write Congestion Time
ma_node_mountstats_write_backlog_wait
Write é uma operação do NFS que grava dados em um arquivo. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.
ms
≥ 0
NFS Write Round Trip Time
ma_node_mountstats_write_rtt
Write é uma operação do NFS que grava dados em um arquivo. RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.
ms
≥ 0
Tabela 3 Diagnóstico (InfiniBand, coletado somente em pools de recursos dedicados) Categoria
Nome
Métrica
Descrição
Unidade
Intervalo de valor
Rede InfiniBand ou RoCE
PortXmitData
infiniband_port_xmit_data_total
O número total de dados octetos, dividido por 4, (contando em palavras duplas, 32 bits), transmitidos em todos os VLs a partir da porta.
Contagem total
Número natural
PortRcvData
infiniband_port_rcv_data_total
O número total de dados octetos, dividido por 4, (contando em palavras duplas, 32 bits), recebidos em todos os VLs da porta.
Contagem total
Número natural
SymbolErrorCounter
infiniband_symbol_error_counter_total
Número total de pequenos erros de link detectados em uma ou mais pistas físicas.
Contagem total
Número natural
LinkErrorRecoveryCounter
infiniband_link_error_recovery_counter_total
Número total de vezes que a máquina de estado Port Training concluiu com êxito o processo de recuperação de erro de link.
Contagem total
Número natural
PortRcvErrors
infiniband_port_rcv_errors_total
Número total de pacotes contendo erros que foram recebidos na porta, incluindo:
Erros físicos locais (ICRC, VCRC, LPCRC e todos os erros físicos que causam entrada nos estados BAD PACKET ou BAD PACKET DISCARD da máquina de estado do receptor de pacotes)
Erros de pacotes de dados mal formados (operand, length, VL)
Erros de pacotes de link mal formados (operand, length, VL)
Pacotes descartados devido ao excesso do buffer (overflow)
Contagem total
Número natural
LocalLinkIntegrityErrors
infiniband_local_link_integrity_errors_total
Esse contador indica o número de novas tentativas iniciadas por um receptor de camada de transferência de link.
Contagem total
Número natural
PortRcvRemotePhysicalErrors
infiniband_port_rcv_remote_physical_errors_total
Número total de pacotes marcados com o delimitador EBP recebidos na porta.
Contagem total
Número natural
PortRcvSwitchRelayErrors
infiniband_port_rcv_switch_relay_errors_total
Número total de pacotes recebidos na porta que foram descartados quando não puderam ser encaminhados pelo relé do interruptor pelos seguintes motivos:
Mapeamento de DLID
Mapeamento de VL
Looping (porta de saída = porta de entrada)
Contagem total
Número natural
PortXmitWait
infiniband_port_transmit_wait_total
O número de ticks durante os quais a porta tinha dados para transmitir, mas nenhum dado foi enviado durante todo o tick (seja por insuficiência de créditos ou por falta de arbitragem).
Contagem total
Número natural
PortXmitDiscards
infiniband_port_xmit_discards_total
Número total de pacotes de saída descartados pela porta porque a porta está inativa ou congestionada.
Contagem total
Número natural
Tabela 4 Nomes de métrica Classificação
Métrica
Descrição
Métricas de contêiner
modelarts_service
Serviço ao qual um contêiner pertence, que pode ser notebook, train ou infer
instance_name
Nome do pod ao qual o contêiner pertence
service_id
ID da instância ou do trabalho exibido na página, por exemplo, cf55829e-9bd3-48fa-8071-7ae870dae93a para um ambiente de desenvolvimento
9f322d5a-b1d2-4370-94df-5a87de27d36e para um trabalho de treinamento
node_ip
Endereço IP do nó ao qual o contêiner pertence
container_id
ID do contêiner
cid
ID do cluster
container_name
Nome do contêiner
project_id
ID do projeto da conta à qual o usuário pertence
user_id
ID do usuário da conta à qual pertence o usuário que submete o trabalho
pool_id
ID de um pool de recursos correspondente a um pool de recursos dedicados físicos
pool_name
Nome de um pool de recursos correspondente a um pool de recursos dedicados físicos
logical_pool_id
ID de um subpool lógico
logical_pool_name
Nome de um subpool lógico
gpu_uuid
UUID da GPU usada pelo contêiner
gpu_index
Índice da GPU usada pelo contêiner
gpu_type
Tipo da GPU usada pelo contêiner
account_name
Nome da conta do criador de uma tarefa de treinamento, inferência ou ambiente de desenvolvimento
user_name
Nome de usuário do criador de uma tarefa de treinamento, inferência ou ambiente de desenvolvimento
task_creation_time
Momento em que uma tarefa de treinamento, inferência ou ambiente de desenvolvimento é criada
task_name
Nome de uma tarefa de treinamento, inferência ou ambiente de desenvolvimento
task_spec_code
Especificações de uma tarefa de treinamento, inferência ou ambiente de desenvolvimento
cluster_name
Nome do cluster do CCE
Métricas de nó
cid
ID do cluster do CCE ao qual o nó pertence
node_ip
Endereço IP do nó
host_name
Nome de host de um nó
pool_id
ID de um pool de recursos correspondente a um pool de recursos dedicados físicos
project_id
ID do projeto do usuário em um pool de recursos dedicados físicos
gpu_uuid
UUID de uma GPU de nó
gpu_index
Índice de uma GPU de nó
gpu_type
Tipo de uma GPU de nó
device_name
Nome do dispositivo de uma NIC de rede RoCE ou InfiniBand
port
Número da porta da NIC InfiniBand
physical_state
Status de cada porta na NIC InfiniBand
firmware_version
Versão de firmware da NIC InfiniBand
filesystem
Sistema de arquivos montado no NFS
mount_point
Ponto de montagem do NFS
Diagnósticos
cid
ID do cluster do CCE ao qual pertence o nó com a GPU equipada
node_ip
Endereço IP do nó em que a GPU reside
pool_id
ID de um pool de recursos correspondente a um pool de recursos dedicados físicos
project_id
ID do projeto do usuário em um pool de recursos dedicados físicos
gpu_uuid
UUID da GPU
gpu_index
Índice de uma GPU de nó
gpu_type
Tipo de uma GPU de nó
device_name
Nome de um dispositivo de rede ou de um dispositivo de disco
port
Número da porta da NIC InfiniBand
physical_state
Status de cada porta na NIC InfiniBand
firmware_version
Versão de firmware da NIC InfiniBand