Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.
Central de ajuda/ ModelArts/ Melhores práticas/ Monitoramento de recursos/ Exibição de todas as métricas de monitoramento do ModelArts no console do AOM
Atualizado em 2024-09-14 GMT+08:00

Exibição de todas as métricas de monitoramento do ModelArts no console do AOM

O ModelArts coleta periodicamente o uso de métricas criticais (como GPUs, NPUs, CPUs e memória) de cada nó em um pool de recursos, bem como o uso de métricas criticais do ambiente de desenvolvimento, trabalhos de treinamento e serviços de inferência, e reporta os dados ao AOM. Você pode ver as informações no AOM.

  1. Faça logon no console e procure por AOM para ir para o console do AOM.
  2. Escolha Monitoring > Metric Monitoring. Na página Metric Monitoring exibida, clique em Add Metric.

  3. Adicione métricas e clique em Confirm.

    • Add By: selecione Dimension.
    • Metric Name: clique em Custom Metrics. Selecione as desejadas para consulta. Para obter detalhes, consulte Tabela 1, Tabela 2 e Tabela 3.
    • Dimension: insira a tag para filtrar a métrica. Para mais detalhes, consulte Tabela 4. O seguinte mostra um exemplo.

  4. Veja as métricas.

    Tabela 1 Métricas de contêiner

    Categoria

    Nome

    Métrica

    Descrição

    Unidade

    Intervalo de valor

    CPU

    CPU Usage

    ma_container_cpu_util

    Uso da CPU de um objeto medido

    %

    0%–100%

    Used CPU Cores

    ma_container_cpu_used_core

    Número de núcleos de CPU usados por um objeto medido

    Núcleos

    ≥ 0

    Total CPU Cores

    ma_container_cpu_limit_core

    Número total de núcleos de CPU que foram aplicados a um objeto medido

    Núcleos

    ≥ 1

    Memória

    Total Physical Memory

    ma_container_memory_capacity_megabytes

    Memória física total que foi aplicada para um objeto medido

    MB

    ≥ 0

    Physical Memory Usage

    ma_container_memory_util

    Porcentagem da memória física usada em relação à memória física total

    %

    0%–100%

    Used Physical Memory

    ma_container_memory_used_megabytes

    Memória física que foi usada por um objeto medido (container_memory_working_set_bytes no conjunto de trabalho atual)

    (Uso de memória em um conjunto de trabalho = página anônima ativa e cache, e a página de arquivo ≤ container_memory_usage_bytes)

    MB

    ≥ 0

    Armazenamento

    Disk Read Rate

    ma_container_disk_read_kilobytes

    Volume de dados lidos de um disco por segundo

    KB/S

    ≥ 0

    Disk Write Rate

    ma_container_disk_write_kilobytes

    Volume de dados gravados em um disco por segundo

    KB/S

    ≥ 0

    Memória de GPU

    Total GPU Memory

    ma_container_gpu_mem_total_megabytes

    Memória total da GPU de um trabalho de treinamento

    MB

    > 0

    GPU Memory Usage

    ma_container_gpu_mem_util

    Porcentagem da memória da GPU usada em relação à memória total da GPU

    %

    0%–100%

    Used GPU Memory

    ma_container_gpu_mem_used_megabytes

    Memória da GPU usada por um objeto medido

    MB

    ≥ 0

    GPU

    GPU Usage

    ma_container_gpu_util

    Uso da GPU de um objeto medido

    %

    0%–100%

    GPU Memory Bandwidth Usage

    ma_container_gpu_mem_copy_util

    Uso da largura de banda da memória da GPU de um objeto medido. Por exemplo, a largura de banda máxima da memória da GPU de NVIDIA V100 é de 900 GB/s. Se a largura de banda da memória atual for de 450 GB/s, o uso da largura de banda da memória será de 50%.

    %

    0%–100%

    GPU Encoder Usage

    ma_container_gpu_enc_util

    Uso do codificador de GPU de um objeto medido

    %

    %

    GPU Decoder Usage

    ma_container_gpu_dec_util

    Uso do decodificador de GPU de um objeto medido

    %

    %

    GPU Temperature

    DCGM_FI_DEV_GPU_TEMP

    Temperatura da GPU

    °C

    Número natural

    GPU Power

    DCGM_FI_DEV_POWER_USAGE

    Potência da GPU

    Watt (W)

    > 0

    GPU Memory Temperature

    DCGM_FI_DEV_MEMORY_TEMP

    Temperatura da memória da GPU

    °C

    Número natural

    I/O de rede

    Downlink Rate (BPS)

    ma_container_network_receive_bytes

    Taxa de tráfego de entrada de um objeto medido

    Bytes/s

    ≥ 0

    Downlink Rate (PPS)

    ma_container_network_receive_packets

    Número de pacotes de dados recebidos por uma NIC por segundo

    Pacotes/s

    ≥ 0

    Downlink Error Rate

    ma_container_network_receive_error_packets

    Número de pacotes de erro recebidos por uma NIC por segundo

    Pacotes/s

    ≥ 0

    Uplink Rate (BPS)

    ma_container_network_transmit_bytes

    Taxa de tráfego de saída de um objeto medido

    Bytes/s

    ≥ 0

    Uplink Error Rate

    ma_container_network_transmit_error_packets

    Número de pacotes de erro enviados por uma NIC por segundo

    Pacotes/s

    ≥ 0

    Uplink Rate (PPS)

    ma_container_network_transmit_packets

    Número de pacotes de dados enviados por uma NIC por segundo

    Pacotes/s

    ≥ 0

    Métricas de serviço de notebook

    Notebook Cache Directory Size

    ma_container_notebook_cache_dir_size_bytes

    Um disco local de alta velocidade é anexado ao diretório /cache para instâncias de notebook de GPU. Essa métrica indica o tamanho total do diretório.

    Bytes

    ≥ 0

    Notebook Cache Directory Utilization

    ma_container_notebook_cache_dir_util

    Um disco local de alta velocidade é anexado ao diretório /cache para instâncias de notebook de GPU. Essa métrica indica a utilização do diretório.

    %

    0%–100%

    Tabela 2 Métricas de nó (coletadas apenas em pools de recursos dedicados)

    Categoria

    Nome

    Métrica

    Descrição

    Unidade

    Intervalo de valor

    CPU

    Total CPU Cores

    ma_node_cpu_limit_core

    Número total de núcleos de CPU que foram aplicados a um objeto medido

    Núcleos

    ≥ 1

    Used CPU Cores

    ma_node_cpu_used_core

    Número de núcleos de CPU usados por um objeto medido

    Núcleos

    ≥ 0

    CPU Usage

    ma_node_cpu_util

    Uso da CPU de um objeto medido

    %

    0%–100%

    CPU I/O Wait Time

    ma_node_cpu_iowait_counter

    Tempo de espera de I/O de disco acumulado desde a inicialização do sistema

    jiffies

    ≥ 0

    Memória

    Physical Memory Usage

    ma_node_memory_util

    Porcentagem da memória física usada em relação à memória física total

    %

    0%–100%

    Total Physical Memory

    ma_node_memory_total_megabytes

    Memória física total que foi aplicada para um objeto medido

    MB

    ≥ 0

    I/O de rede

    Downlink Rate (BPS)

    ma_node_network_receive_rate_bytes_seconds

    Taxa de tráfego de entrada de um objeto medido

    Bytes/s

    ≥ 0

    Uplink Rate (BPS)

    ma_node_network_transmit_rate_bytes_seconds

    Taxa de tráfego de saída de um objeto medido

    Bytes/s

    ≥ 0

    Armazenamento

    Disk Read Rate

    ma_node_disk_read_rate_kilobytes_seconds

    Volume de dados lidos de um disco por segundo (somente discos de dados usados por contêineres são coletados.)

    KB/S

    ≥ 0

    Disk Write Rate

    ma_node_disk_write_rate_kilobytes_seconds

    Volume de dados gravados em um disco por segundo (somente discos de dados usados por contêineres são coletados.)

    KB/S

    ≥ 0

    Total Cache

    ma_node_cache_space_capacity_megabytes

    Cache total do espaço do Kubernetes

    MB

    ≥ 0

    Used Cache

    ma_node_cache_space_used_capacity_megabytes

    Cache usado do espaço do Kubernetes

    MB

    ≥ 0

    Total Container Space

    ma_node_container_space_capacity_megabytes

    Espaço total do contêiner

    MB

    ≥ 0

    Used Container Space

    ma_node_container_space_used_capacity_megabytes

    Espaço de contêiner usado

    MB

    ≥ 0

    Disk Information

    ma_node_disk_info

    Informações básicas do disco

    N/D

    ≥ 0

    Total Reads

    ma_node_disk_reads_completed_total

    Número total de leituras bem-sucedidas

    N/D

    ≥ 0

    Merged Reads

    ma_node_disk_reads_merged_total

    Número de leituras mescladas

    N/D

    ≥ 0

    Bytes Read

    ma_node_disk_read_bytes_total

    Número total de bytes lidos com sucesso

    Bytes

    ≥ 0

    Read Time Spent

    ma_node_disk_read_time_seconds_total

    Tempo gasto em todas as leituras

    Segundos

    ≥ 0

    Total Writes

    ma_node_disk_writes_completed_total

    Número total de gravações bem-sucedidas

    N/D

    ≥ 0

    Merged Writes

    ma_node_disk_writes_merged_total

    Número de gravações mescladas

    N/D

    ≥ 0

    Bytes gravados

    ma_node_disk_written_bytes_total

    Total number of bytes that are successfully written

    Bytes

    ≥ 0

    Write Time Spent

    ma_node_disk_write_time_seconds_total

    Tempo gasto em todas as operações de gravação

    Segundos

    ≥ 0

    Ongoing I/Os

    ma_node_disk_io_now

    Número de I/Os em andamento

    N/D

    ≥ 0

    I/O Execution Duration

    ma_node_disk_io_time_seconds_total

    Tempo gasto na execução de I/Os

    Segundos

    ≥ 0

    I/O Execution Weighted Time

    ma_node_disk_io_time_weighted_seconds_tota

    O número ponderado de segundos gastos em I/Os

    Segundos

    ≥ 0

    GPU

    GPU Usage

    ma_node_gpu_util

    Uso da GPU de um objeto medido

    %

    0%–100%

    Total GPU Memory

    ma_node_gpu_mem_total_megabytes

    Memória total da GPU de um objeto medido

    MB

    > 0

    GPU Memory Usage

    ma_node_gpu_mem_util

    Porcentagem da memória da GPU usada em relação à memória total da GPU

    %

    0%–100%

    Used GPU Memory

    ma_node_gpu_mem_used_megabytes

    Memória da GPU usada por um objeto medido

    MB

    ≥ 0

    Tasks on a Shared GPU

    node_gpu_share_job_count

    Número de tarefas em execução em uma GPU compartilhada

    Número

    ≥ 0

    GPU Temperature

    DCGM_FI_DEV_GPU_TEMP

    Temperatura da GPU

    °C

    Número natural

    GPU Power

    DCGM_FI_DEV_POWER_USAGE

    Potência da GPU

    Watt (W)

    > 0

    GPU Memory Temperature

    DCGM_FI_DEV_MEMORY_TEMP

    Temperatura da memória da GPU

    °C

    Número natural

    Rede InfiniBand ou RoCE

    Total Amount of Data Received by a NIC

    ma_node_infiniband_port_received_data_bytes_total

    O número total de dados octetos, dividido por 4, (contando em palavras duplas, 32 bits), recebidos em todos os VLs da porta.

    (contando em palavras duplas, 32 bits)

    ≥ 0

    Total Amount of Data Sent by a NIC

    ma_node_infiniband_port_transmitted_data_bytes_total

    O número total de dados octetos, dividido por 4, (contando em palavras duplas, 32 bits), transmitidos em todos os VLs a partir da porta.

    (contando em palavras duplas, 32 bits)

    ≥ 0

    Status de montagem do NFS

    NFS Getattr Congestion Time

    ma_node_mountstats_getattr_backlog_wait

    Getattr é uma operação do NFS que recupera os atributos de um arquivo ou diretório, como tamanho, permissões, proprietário, etc. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.

    ms

    ≥ 0

    NFS Getattr Round Trip Time

    ma_node_mountstats_getattr_rtt

    Getattr é uma operação do NFS que recupera os atributos de um arquivo ou diretório, como tamanho, permissões, proprietário, etc.

    RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.

    ms

    ≥ 0

    NFS Access Congestion Time

    ma_node_mountstats_access_backlog_wait

    Access é uma operação do NFS que verifica as permissões de acesso de um arquivo ou diretório para um determinado usuário. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.

    ms

    ≥ 0

    NFS Access Round Trip Time

    ma_node_mountstats_access_rtt

    Access é uma operação do NFS que verifica as permissões de acesso de um arquivo ou diretório para um determinado usuário. RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.

    ms

    ≥ 0

    NFS Lookup Congestion Time

    ma_node_mountstats_lookup_backlog_wait

    Lookup é uma operação do NFS que resolve um nome de arquivo em um diretório para um identificador de arquivo. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.

    ms

    ≥ 0

    NFS Lookup Round Trip Time

    ma_node_mountstats_lookup_rtt

    Lookup é uma operação do NFS que resolve um nome de arquivo em um diretório para um identificador de arquivo. RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.

    ms

    ≥ 0

    NFS Read Congestion Time

    ma_node_mountstats_read_backlog_wait

    Read é uma operação do NFS que lê dados de um arquivo. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.

    ms

    ≥ 0

    NFS Read Round Trip Time

    ma_node_mountstats_read_rtt

    Read é uma operação do NFS que lê dados de um arquivo. RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.

    ms

    ≥ 0

    NFS Write Congestion Time

    ma_node_mountstats_write_backlog_wait

    Write é uma operação do NFS que grava dados em um arquivo. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.

    ms

    ≥ 0

    NFS Write Round Trip Time

    ma_node_mountstats_write_rtt

    Write é uma operação do NFS que grava dados em um arquivo. RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.

    ms

    ≥ 0

    Tabela 3 Diagnóstico (InfiniBand, coletado somente em pools de recursos dedicados)

    Categoria

    Nome

    Métrica

    Descrição

    Unidade

    Intervalo de valor

    Rede InfiniBand ou RoCE

    PortXmitData

    infiniband_port_xmit_data_total

    O número total de dados octetos, dividido por 4, (contando em palavras duplas, 32 bits), transmitidos em todos os VLs a partir da porta.

    Contagem total

    Número natural

    PortRcvData

    infiniband_port_rcv_data_total

    O número total de dados octetos, dividido por 4, (contando em palavras duplas, 32 bits), recebidos em todos os VLs da porta.

    Contagem total

    Número natural

    SymbolErrorCounter

    infiniband_symbol_error_counter_total

    Número total de pequenos erros de link detectados em uma ou mais pistas físicas.

    Contagem total

    Número natural

    LinkErrorRecoveryCounter

    infiniband_link_error_recovery_counter_total

    Número total de vezes que a máquina de estado Port Training concluiu com êxito o processo de recuperação de erro de link.

    Contagem total

    Número natural

    PortRcvErrors

    infiniband_port_rcv_errors_total

    Número total de pacotes contendo erros que foram recebidos na porta, incluindo:

    Erros físicos locais (ICRC, VCRC, LPCRC e todos os erros físicos que causam entrada nos estados BAD PACKET ou BAD PACKET DISCARD da máquina de estado do receptor de pacotes)

    Erros de pacotes de dados mal formados (operand, length, VL)

    Erros de pacotes de link mal formados (operand, length, VL)

    Pacotes descartados devido ao excesso do buffer (overflow)

    Contagem total

    Número natural

    LocalLinkIntegrityErrors

    infiniband_local_link_integrity_errors_total

    Esse contador indica o número de novas tentativas iniciadas por um receptor de camada de transferência de link.

    Contagem total

    Número natural

    PortRcvRemotePhysicalErrors

    infiniband_port_rcv_remote_physical_errors_total

    Número total de pacotes marcados com o delimitador EBP recebidos na porta.

    Contagem total

    Número natural

    PortRcvSwitchRelayErrors

    infiniband_port_rcv_switch_relay_errors_total

    Número total de pacotes recebidos na porta que foram descartados quando não puderam ser encaminhados pelo relé do interruptor pelos seguintes motivos:

    Mapeamento de DLID

    Mapeamento de VL

    Looping (porta de saída = porta de entrada)

    Contagem total

    Número natural

    PortXmitWait

    infiniband_port_transmit_wait_total

    O número de ticks durante os quais a porta tinha dados para transmitir, mas nenhum dado foi enviado durante todo o tick (seja por insuficiência de créditos ou por falta de arbitragem).

    Contagem total

    Número natural

    PortXmitDiscards

    infiniband_port_xmit_discards_total

    Número total de pacotes de saída descartados pela porta porque a porta está inativa ou congestionada.

    Contagem total

    Número natural

    Tabela 4 Nomes de métrica

    Classificação

    Métrica

    Descrição

    Métricas de contêiner

    modelarts_service

    Serviço ao qual um contêiner pertence, que pode ser notebook, train ou infer

    instance_name

    Nome do pod ao qual o contêiner pertence

    service_id

    ID da instância ou do trabalho exibido na página, por exemplo, cf55829e-9bd3-48fa-8071-7ae870dae93a para um ambiente de desenvolvimento

    9f322d5a-b1d2-4370-94df-5a87de27d36e para um trabalho de treinamento

    node_ip

    Endereço IP do nó ao qual o contêiner pertence

    container_id

    ID do contêiner

    cid

    ID do cluster

    container_name

    Nome do contêiner

    project_id

    ID do projeto da conta à qual o usuário pertence

    user_id

    ID do usuário da conta à qual pertence o usuário que submete o trabalho

    pool_id

    ID de um pool de recursos correspondente a um pool de recursos dedicados físicos

    pool_name

    Nome de um pool de recursos correspondente a um pool de recursos dedicados físicos

    logical_pool_id

    ID de um subpool lógico

    logical_pool_name

    Nome de um subpool lógico

    gpu_uuid

    UUID da GPU usada pelo contêiner

    gpu_index

    Índice da GPU usada pelo contêiner

    gpu_type

    Tipo da GPU usada pelo contêiner

    account_name

    Nome da conta do criador de uma tarefa de treinamento, inferência ou ambiente de desenvolvimento

    user_name

    Nome de usuário do criador de uma tarefa de treinamento, inferência ou ambiente de desenvolvimento

    task_creation_time

    Momento em que uma tarefa de treinamento, inferência ou ambiente de desenvolvimento é criada

    task_name

    Nome de uma tarefa de treinamento, inferência ou ambiente de desenvolvimento

    task_spec_code

    Especificações de uma tarefa de treinamento, inferência ou ambiente de desenvolvimento

    cluster_name

    Nome do cluster do CCE

    Métricas de nó

    cid

    ID do cluster do CCE ao qual o nó pertence

    node_ip

    Endereço IP do nó

    host_name

    Nome de host de um nó

    pool_id

    ID de um pool de recursos correspondente a um pool de recursos dedicados físicos

    project_id

    ID do projeto do usuário em um pool de recursos dedicados físicos

    gpu_uuid

    UUID de uma GPU de nó

    gpu_index

    Índice de uma GPU de nó

    gpu_type

    Tipo de uma GPU de nó

    device_name

    Nome do dispositivo de uma NIC de rede RoCE ou InfiniBand

    port

    Número da porta da NIC InfiniBand

    physical_state

    Status de cada porta na NIC InfiniBand

    firmware_version

    Versão de firmware da NIC InfiniBand

    filesystem

    Sistema de arquivos montado no NFS

    mount_point

    Ponto de montagem do NFS

    Diagnósticos

    cid

    ID do cluster do CCE ao qual pertence o nó com a GPU equipada

    node_ip

    Endereço IP do nó em que a GPU reside

    pool_id

    ID de um pool de recursos correspondente a um pool de recursos dedicados físicos

    project_id

    ID do projeto do usuário em um pool de recursos dedicados físicos

    gpu_uuid

    UUID da GPU

    gpu_index

    Índice de uma GPU de nó

    gpu_type

    Tipo de uma GPU de nó

    device_name

    Nome de um dispositivo de rede ou de um dispositivo de disco

    port

    Número da porta da NIC InfiniBand

    physical_state

    Status de cada porta na NIC InfiniBand

    firmware_version

    Versão de firmware da NIC InfiniBand