Este conteúdo foi traduzido por máquina para sua conveniência e a Huawei Cloud não pode garantir que o conteúdo foi traduzido com precisão. Para exibir o conteúdo original, use o link no canto superior direito para mudar para a página em inglês.

Central de ajuda/ ModelArts/ Melhores práticas/ Monitoramento de recursos/ Exibição de todas as métricas de monitoramento do ModelArts no console do AOM

Atualizado em 2024-09-14 GMT+08:00

Ver PDF

Exibição de todas as métricas de monitoramento do ModelArts no console do AOM

O ModelArts coleta periodicamente o uso de métricas criticais (como GPUs, NPUs, CPUs e memória) de cada nó em um pool de recursos, bem como o uso de métricas criticais do ambiente de desenvolvimento, trabalhos de treinamento e serviços de inferência, e reporta os dados ao AOM. Você pode ver as informações no AOM.

Faça logon no console e procure por AOM para ir para o console do AOM.
Escolha Monitoring > Metric Monitoring. Na página Metric Monitoring exibida, clique em Add Metric.
Adicione métricas e clique em Confirm.
- Add By: selecione Dimension.
- Metric Name: clique em Custom Metrics. Selecione as desejadas para consulta. Para obter detalhes, consulte Tabela 1, Tabela 2 e Tabela 3.
- Dimension: insira a tag para filtrar a métrica. Para mais detalhes, consulte Tabela 4. O seguinte mostra um exemplo.

Veja as métricas.

**Tabela 1** Métricas de contêiner
Categoria	Nome	Métrica	Descrição	Unidade	Intervalo de valor
CPU	CPU Usage	ma_container_cpu_util	Uso da CPU de um objeto medido	%	0%–100%
	Used CPU Cores	ma_container_cpu_used_core	Número de núcleos de CPU usados por um objeto medido	Núcleos	≥ 0
	Total CPU Cores	ma_container_cpu_limit_core	Número total de núcleos de CPU que foram aplicados a um objeto medido	Núcleos	≥ 1
Memória	Total Physical Memory	ma_container_memory_capacity_megabytes	Memória física total que foi aplicada para um objeto medido	MB	≥ 0
	Physical Memory Usage	ma_container_memory_util	Porcentagem da memória física usada em relação à memória física total	%	0%–100%
	Used Physical Memory	ma_container_memory_used_megabytes	Memória física que foi usada por um objeto medido (container_memory_working_set_bytes no conjunto de trabalho atual) (Uso de memória em um conjunto de trabalho = página anônima ativa e cache, e a página de arquivo ≤ container_memory_usage_bytes)	MB	≥ 0
Armazenamento	Disk Read Rate	ma_container_disk_read_kilobytes	Volume de dados lidos de um disco por segundo	KB/S	≥ 0
Armazenamento	Disk Write Rate	ma_container_disk_write_kilobytes	Volume de dados gravados em um disco por segundo	KB/S	≥ 0
Memória de GPU	Total GPU Memory	ma_container_gpu_mem_total_megabytes	Memória total da GPU de um trabalho de treinamento	MB	> 0
	GPU Memory Usage	ma_container_gpu_mem_util	Porcentagem da memória da GPU usada em relação à memória total da GPU	%	0%–100%
	Used GPU Memory	ma_container_gpu_mem_used_megabytes	Memória da GPU usada por um objeto medido	MB	≥ 0
GPU	GPU Usage	ma_container_gpu_util	Uso da GPU de um objeto medido	%	0%–100%
	GPU Memory Bandwidth Usage	ma_container_gpu_mem_copy_util	Uso da largura de banda da memória da GPU de um objeto medido. Por exemplo, a largura de banda máxima da memória da GPU de NVIDIA V100 é de 900 GB/s. Se a largura de banda da memória atual for de 450 GB/s, o uso da largura de banda da memória será de 50%.	%	0%–100%
	GPU Encoder Usage	ma_container_gpu_enc_util	Uso do codificador de GPU de um objeto medido	%	%
	GPU Decoder Usage	ma_container_gpu_dec_util	Uso do decodificador de GPU de um objeto medido	%	%
	GPU Temperature	DCGM_FI_DEV_GPU_TEMP	Temperatura da GPU	°C	Número natural
	GPU Power	DCGM_FI_DEV_POWER_USAGE	Potência da GPU	Watt (W)	> 0
	GPU Memory Temperature	DCGM_FI_DEV_MEMORY_TEMP	Temperatura da memória da GPU	°C	Número natural
I/O de rede	Downlink Rate (BPS)	ma_container_network_receive_bytes	Taxa de tráfego de entrada de um objeto medido	Bytes/s	≥ 0
	Downlink Rate (PPS)	ma_container_network_receive_packets	Número de pacotes de dados recebidos por uma NIC por segundo	Pacotes/s	≥ 0
	Downlink Error Rate	ma_container_network_receive_error_packets	Número de pacotes de erro recebidos por uma NIC por segundo	Pacotes/s	≥ 0
	Uplink Rate (BPS)	ma_container_network_transmit_bytes	Taxa de tráfego de saída de um objeto medido	Bytes/s	≥ 0
	Uplink Error Rate	ma_container_network_transmit_error_packets	Número de pacotes de erro enviados por uma NIC por segundo	Pacotes/s	≥ 0
	Uplink Rate (PPS)	ma_container_network_transmit_packets	Número de pacotes de dados enviados por uma NIC por segundo	Pacotes/s	≥ 0
Métricas de serviço de notebook	Notebook Cache Directory Size	ma_container_notebook_cache_dir_size_bytes	Um disco local de alta velocidade é anexado ao diretório /cache para instâncias de notebook de GPU. Essa métrica indica o tamanho total do diretório.	Bytes	≥ 0
Métricas de serviço de notebook	Notebook Cache Directory Utilization	ma_container_notebook_cache_dir_util	Um disco local de alta velocidade é anexado ao diretório /cache para instâncias de notebook de GPU. Essa métrica indica a utilização do diretório.	%	0%–100%

**Tabela 2** Métricas de nó (coletadas apenas em pools de recursos dedicados)
Categoria	Nome	Métrica	Descrição	Unidade	Intervalo de valor
CPU	Total CPU Cores	ma_node_cpu_limit_core	Número total de núcleos de CPU que foram aplicados a um objeto medido	Núcleos	≥ 1
	Used CPU Cores	ma_node_cpu_used_core	Número de núcleos de CPU usados por um objeto medido	Núcleos	≥ 0
	CPU Usage	ma_node_cpu_util	Uso da CPU de um objeto medido	%	0%–100%
	CPU I/O Wait Time	ma_node_cpu_iowait_counter	Tempo de espera de I/O de disco acumulado desde a inicialização do sistema	jiffies	≥ 0
Memória	Physical Memory Usage	ma_node_memory_util	Porcentagem da memória física usada em relação à memória física total	%	0%–100%
Memória	Total Physical Memory	ma_node_memory_total_megabytes	Memória física total que foi aplicada para um objeto medido	MB	≥ 0
I/O de rede	Downlink Rate (BPS)	ma_node_network_receive_rate_bytes_seconds	Taxa de tráfego de entrada de um objeto medido	Bytes/s	≥ 0
I/O de rede	Uplink Rate (BPS)	ma_node_network_transmit_rate_bytes_seconds	Taxa de tráfego de saída de um objeto medido	Bytes/s	≥ 0
Armazenamento	Disk Read Rate	ma_node_disk_read_rate_kilobytes_seconds	Volume de dados lidos de um disco por segundo (somente discos de dados usados por contêineres são coletados.)	KB/S	≥ 0
	Disk Write Rate	ma_node_disk_write_rate_kilobytes_seconds	Volume de dados gravados em um disco por segundo (somente discos de dados usados por contêineres são coletados.)	KB/S	≥ 0
	Total Cache	ma_node_cache_space_capacity_megabytes	Cache total do espaço do Kubernetes	MB	≥ 0
	Used Cache	ma_node_cache_space_used_capacity_megabytes	Cache usado do espaço do Kubernetes	MB	≥ 0
	Total Container Space	ma_node_container_space_capacity_megabytes	Espaço total do contêiner	MB	≥ 0
	Used Container Space	ma_node_container_space_used_capacity_megabytes	Espaço de contêiner usado	MB	≥ 0
	Disk Information	ma_node_disk_info	Informações básicas do disco	N/D	≥ 0
	Total Reads	ma_node_disk_reads_completed_total	Número total de leituras bem-sucedidas	N/D	≥ 0
	Merged Reads	ma_node_disk_reads_merged_total	Número de leituras mescladas	N/D	≥ 0
	Bytes Read	ma_node_disk_read_bytes_total	Número total de bytes lidos com sucesso	Bytes	≥ 0
	Read Time Spent	ma_node_disk_read_time_seconds_total	Tempo gasto em todas as leituras	Segundos	≥ 0
	Total Writes	ma_node_disk_writes_completed_total	Número total de gravações bem-sucedidas	N/D	≥ 0
	Merged Writes	ma_node_disk_writes_merged_total	Número de gravações mescladas	N/D	≥ 0
	Bytes gravados	ma_node_disk_written_bytes_total	Total number of bytes that are successfully written	Bytes	≥ 0
	Write Time Spent	ma_node_disk_write_time_seconds_total	Tempo gasto em todas as operações de gravação	Segundos	≥ 0
	Ongoing I/Os	ma_node_disk_io_now	Número de I/Os em andamento	N/D	≥ 0
	I/O Execution Duration	ma_node_disk_io_time_seconds_total	Tempo gasto na execução de I/Os	Segundos	≥ 0
	I/O Execution Weighted Time	ma_node_disk_io_time_weighted_seconds_tota	O número ponderado de segundos gastos em I/Os	Segundos	≥ 0
GPU	GPU Usage	ma_node_gpu_util	Uso da GPU de um objeto medido	%	0%–100%
	Total GPU Memory	ma_node_gpu_mem_total_megabytes	Memória total da GPU de um objeto medido	MB	> 0
	GPU Memory Usage	ma_node_gpu_mem_util	Porcentagem da memória da GPU usada em relação à memória total da GPU	%	0%–100%
	Used GPU Memory	ma_node_gpu_mem_used_megabytes	Memória da GPU usada por um objeto medido	MB	≥ 0
	Tasks on a Shared GPU	node_gpu_share_job_count	Número de tarefas em execução em uma GPU compartilhada	Número	≥ 0
	GPU Temperature	DCGM_FI_DEV_GPU_TEMP	Temperatura da GPU	°C	Número natural
	GPU Power	DCGM_FI_DEV_POWER_USAGE	Potência da GPU	Watt (W)	> 0
	GPU Memory Temperature	DCGM_FI_DEV_MEMORY_TEMP	Temperatura da memória da GPU	°C	Número natural
Rede InfiniBand ou RoCE	Total Amount of Data Received by a NIC	ma_node_infiniband_port_received_data_bytes_total	O número total de dados octetos, dividido por 4, (contando em palavras duplas, 32 bits), recebidos em todos os VLs da porta.	(contando em palavras duplas, 32 bits)	≥ 0
Rede InfiniBand ou RoCE	Total Amount of Data Sent by a NIC	ma_node_infiniband_port_transmitted_data_bytes_total	O número total de dados octetos, dividido por 4, (contando em palavras duplas, 32 bits), transmitidos em todos os VLs a partir da porta.	(contando em palavras duplas, 32 bits)	≥ 0
Status de montagem do NFS	NFS Getattr Congestion Time	ma_node_mountstats_getattr_backlog_wait	Getattr é uma operação do NFS que recupera os atributos de um arquivo ou diretório, como tamanho, permissões, proprietário, etc. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.	ms	≥ 0
	NFS Getattr Round Trip Time	ma_node_mountstats_getattr_rtt	Getattr é uma operação do NFS que recupera os atributos de um arquivo ou diretório, como tamanho, permissões, proprietário, etc. RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.	ms	≥ 0
	NFS Access Congestion Time	ma_node_mountstats_access_backlog_wait	Access é uma operação do NFS que verifica as permissões de acesso de um arquivo ou diretório para um determinado usuário. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.	ms	≥ 0
	NFS Access Round Trip Time	ma_node_mountstats_access_rtt	Access é uma operação do NFS que verifica as permissões de acesso de um arquivo ou diretório para um determinado usuário. RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.	ms	≥ 0
	NFS Lookup Congestion Time	ma_node_mountstats_lookup_backlog_wait	Lookup é uma operação do NFS que resolve um nome de arquivo em um diretório para um identificador de arquivo. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.	ms	≥ 0
	NFS Lookup Round Trip Time	ma_node_mountstats_lookup_rtt	Lookup é uma operação do NFS que resolve um nome de arquivo em um diretório para um identificador de arquivo. RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.	ms	≥ 0
	NFS Read Congestion Time	ma_node_mountstats_read_backlog_wait	Read é uma operação do NFS que lê dados de um arquivo. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.	ms	≥ 0
	NFS Read Round Trip Time	ma_node_mountstats_read_rtt	Read é uma operação do NFS que lê dados de um arquivo. RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.	ms	≥ 0
	NFS Write Congestion Time	ma_node_mountstats_write_backlog_wait	Write é uma operação do NFS que grava dados em um arquivo. A espera de lista de pendências é o tempo que as solicitações do NFS precisam esperar na fila de lista de pendências antes de serem enviadas para o servidor do NFS. Indica o congestionamento no lado do cliente do NFS. Uma alta espera de lista de pendências pode causar desempenho ruim do NFS e tempos de resposta lentos do sistema.	ms	≥ 0
	NFS Write Round Trip Time	ma_node_mountstats_write_rtt	Write é uma operação do NFS que grava dados em um arquivo. RTT significa Round Trip Time e é o momento a partir do momento em que o cliente RPC do kernel envia a solicitação RPC até o momento em que recebe a resposta34. O RTT inclui o tempo de trânsito da rede e o tempo de execução do servidor. O RTT é uma boa medida para a latência do NFS. Um RTT alto pode indicar problemas de rede ou servidor.	ms	≥ 0

**Tabela 3** Diagnóstico (InfiniBand, coletado somente em pools de recursos dedicados)
Categoria	Nome	Métrica	Descrição	Unidade	Intervalo de valor
Rede InfiniBand ou RoCE	PortXmitData	infiniband_port_xmit_data_total	O número total de dados octetos, dividido por 4, (contando em palavras duplas, 32 bits), transmitidos em todos os VLs a partir da porta.	Contagem total	Número natural
	PortRcvData	infiniband_port_rcv_data_total	O número total de dados octetos, dividido por 4, (contando em palavras duplas, 32 bits), recebidos em todos os VLs da porta.	Contagem total	Número natural
	SymbolErrorCounter	infiniband_symbol_error_counter_total	Número total de pequenos erros de link detectados em uma ou mais pistas físicas.	Contagem total	Número natural
	LinkErrorRecoveryCounter	infiniband_link_error_recovery_counter_total	Número total de vezes que a máquina de estado Port Training concluiu com êxito o processo de recuperação de erro de link.	Contagem total	Número natural
	PortRcvErrors	infiniband_port_rcv_errors_total	Número total de pacotes contendo erros que foram recebidos na porta, incluindo: Erros físicos locais (ICRC, VCRC, LPCRC e todos os erros físicos que causam entrada nos estados BAD PACKET ou BAD PACKET DISCARD da máquina de estado do receptor de pacotes) Erros de pacotes de dados mal formados (operand, length, VL) Erros de pacotes de link mal formados (operand, length, VL) Pacotes descartados devido ao excesso do buffer (overflow)	Contagem total	Número natural
	LocalLinkIntegrityErrors	infiniband_local_link_integrity_errors_total	Esse contador indica o número de novas tentativas iniciadas por um receptor de camada de transferência de link.	Contagem total	Número natural
	PortRcvRemotePhysicalErrors	infiniband_port_rcv_remote_physical_errors_total	Número total de pacotes marcados com o delimitador EBP recebidos na porta.	Contagem total	Número natural
	PortRcvSwitchRelayErrors	infiniband_port_rcv_switch_relay_errors_total	Número total de pacotes recebidos na porta que foram descartados quando não puderam ser encaminhados pelo relé do interruptor pelos seguintes motivos: Mapeamento de DLID Mapeamento de VL Looping (porta de saída = porta de entrada)	Contagem total	Número natural
	PortXmitWait	infiniband_port_transmit_wait_total	O número de ticks durante os quais a porta tinha dados para transmitir, mas nenhum dado foi enviado durante todo o tick (seja por insuficiência de créditos ou por falta de arbitragem).	Contagem total	Número natural
	PortXmitDiscards	infiniband_port_xmit_discards_total	Número total de pacotes de saída descartados pela porta porque a porta está inativa ou congestionada.	Contagem total	Número natural

**Tabela 4** Nomes de métrica
Classificação	Métrica	Descrição
Métricas de contêiner	modelarts_service	Serviço ao qual um contêiner pertence, que pode ser notebook, train ou infer
	instance_name	Nome do pod ao qual o contêiner pertence
	service_id	ID da instância ou do trabalho exibido na página, por exemplo, cf55829e-9bd3-48fa-8071-7ae870dae93a para um ambiente de desenvolvimento 9f322d5a-b1d2-4370-94df-5a87de27d36e para um trabalho de treinamento
	node_ip	Endereço IP do nó ao qual o contêiner pertence
	container_id	ID do contêiner
	cid	ID do cluster
	container_name	Nome do contêiner
	project_id	ID do projeto da conta à qual o usuário pertence
	user_id	ID do usuário da conta à qual pertence o usuário que submete o trabalho
	pool_id	ID de um pool de recursos correspondente a um pool de recursos dedicados físicos
	pool_name	Nome de um pool de recursos correspondente a um pool de recursos dedicados físicos
	logical_pool_id	ID de um subpool lógico
	logical_pool_name	Nome de um subpool lógico
	gpu_uuid	UUID da GPU usada pelo contêiner
	gpu_index	Índice da GPU usada pelo contêiner
	gpu_type	Tipo da GPU usada pelo contêiner
	account_name	Nome da conta do criador de uma tarefa de treinamento, inferência ou ambiente de desenvolvimento
	user_name	Nome de usuário do criador de uma tarefa de treinamento, inferência ou ambiente de desenvolvimento
	task_creation_time	Momento em que uma tarefa de treinamento, inferência ou ambiente de desenvolvimento é criada
	task_name	Nome de uma tarefa de treinamento, inferência ou ambiente de desenvolvimento
	task_spec_code	Especificações de uma tarefa de treinamento, inferência ou ambiente de desenvolvimento
	cluster_name	Nome do cluster do CCE
Métricas de nó	cid	ID do cluster do CCE ao qual o nó pertence
	node_ip	Endereço IP do nó
	host_name	Nome de host de um nó
	pool_id	ID de um pool de recursos correspondente a um pool de recursos dedicados físicos
	project_id	ID do projeto do usuário em um pool de recursos dedicados físicos
	gpu_uuid	UUID de uma GPU de nó
	gpu_index	Índice de uma GPU de nó
	gpu_type	Tipo de uma GPU de nó
	device_name	Nome do dispositivo de uma NIC de rede RoCE ou InfiniBand
	port	Número da porta da NIC InfiniBand
	physical_state	Status de cada porta na NIC InfiniBand
	firmware_version	Versão de firmware da NIC InfiniBand
	filesystem	Sistema de arquivos montado no NFS
	mount_point	Ponto de montagem do NFS
Diagnósticos	cid	ID do cluster do CCE ao qual pertence o nó com a GPU equipada
	node_ip	Endereço IP do nó em que a GPU reside
	pool_id	ID de um pool de recursos correspondente a um pool de recursos dedicados físicos
	project_id	ID do projeto do usuário em um pool de recursos dedicados físicos
	gpu_uuid	UUID da GPU
	gpu_index	Índice de uma GPU de nó
	gpu_type	Tipo de uma GPU de nó
	device_name	Nome de um dispositivo de rede ou de um dispositivo de disco
	port	Número da porta da NIC InfiniBand
	physical_state	Status de cada porta na NIC InfiniBand
	firmware_version	Versão de firmware da NIC InfiniBand

Tópico principal: Monitoramento de recursos

Tópico anterior: Uso do Grafana para configurar painéis e visualizar dados métricos

Feedback

Esta página foi útil?

Sim Não

Deixar um comentário

Obrigado por seus comentários. Estamos trabalhando para melhorar a documentação.

O sistema está ocupado. Tente novamente mais tarde.

Quais dos seguintes problemas você encontrou?

O conteúdo é inconsistente com a UI do produto

Descrições pouco claras

Falta de exemplos ou código

Passos incorretos

Não encontro o que preciso

Falta de melhores práticas

Feedback (opcional)

0/500

Selecione pelo menos um tipo de problema e insira seus comentários ou sugestões.

Insira um máximo de 500 caracteres.

Enviar Cancelar