Estos contenidos se han traducido de forma automática para su comodidad, pero Huawei Cloud no garantiza la exactitud de estos. Para consultar los contenidos originales, acceda a la versión en inglés.
Cómputo
Elastic Cloud Server
Bare Metal Server
Auto Scaling
Image Management Service
Dedicated Host
FunctionGraph
Cloud Phone Host
Huawei Cloud EulerOS
Redes
Virtual Private Cloud
Elastic IP
Elastic Load Balance
NAT Gateway
Direct Connect
Virtual Private Network
VPC Endpoint
Cloud Connect
Enterprise Router
Enterprise Switch
Global Accelerator
Gestión y gobernanza
Cloud Eye
Identity and Access Management
Cloud Trace Service
Resource Formation Service
Tag Management Service
Log Tank Service
Config
Resource Access Manager
Simple Message Notification
Application Performance Management
Application Operations Management
Organizations
Optimization Advisor
Cloud Operations Center
Resource Governance Center
Migración
Server Migration Service
Object Storage Migration Service
Cloud Data Migration
Migration Center
Cloud Ecosystem
KooGallery
Partner Center
User Support
My Account
Billing Center
Cost Center
Resource Center
Enterprise Management
Service Tickets
HUAWEI CLOUD (International) FAQs
ICP Filing
Support Plans
My Credentials
Customer Operation Capabilities
Partner Support Plans
Professional Services
Análisis
MapReduce Service
Data Lake Insight
CloudTable Service
Cloud Search Service
Data Lake Visualization
Data Ingestion Service
GaussDB(DWS)
DataArts Studio
IoT
IoT Device Access
Otros
Product Pricing Details
System Permissions
Console Quick Start
Common FAQs
Instructions for Associating with a HUAWEI CLOUD Partner
Message Center
Seguridad y cumplimiento
Security Technologies and Applications
Web Application Firewall
Host Security Service
Cloud Firewall
SecMaster
Data Encryption Workshop
Database Security Service
Cloud Bastion Host
Data Security Center
Cloud Certificate Manager
Blockchain
Blockchain Service
Servicios multimedia
Media Processing Center
Video On Demand
Live
SparkRTC
Almacenamiento
Object Storage Service
Elastic Volume Service
Cloud Backup and Recovery
Storage Disaster Recovery Service
Scalable File Service
Volume Backup Service
Cloud Server Backup Service
Data Express Service
Dedicated Distributed Storage Service
Contenedores
Cloud Container Engine
SoftWare Repository for Container
Application Service Mesh
Ubiquitous Cloud Native Service
Cloud Container Instance
Bases de datos
Relational Database Service
Document Database Service
Data Admin Service
Data Replication Service
GeminiDB
GaussDB
Distributed Database Middleware
Database and Application Migration UGO
TaurusDB
Middleware
Distributed Cache Service
API Gateway
Distributed Message Service for Kafka
Distributed Message Service for RabbitMQ
Distributed Message Service for RocketMQ
Cloud Service Engine
EventGrid
Dedicated Cloud
Dedicated Computing Cluster
Aplicaciones empresariales
ROMA Connect
Message & SMS
Domain Name Service
Edge Data Center Management
Meeting
AI
Face Recognition Service
Graph Engine Service
Content Moderation
Image Recognition
Data Lake Factory
Optical Character Recognition
ModelArts
ImageSearch
Conversational Bot Service
Speech Interaction Service
Huawei HiLens
Developer Tools
SDK Developer Guide
API Request Signing Guide
Terraform
Koo Command Line Interface
Distribución de contenido y cómputo de borde
Content Delivery Network
Intelligent EdgeFabric
CloudPond
Soluciones
SAP Cloud
High Performance Computing
Servicios para desarrolladores
ServiceStage
CodeArts
CodeArts PerfTest
CodeArts Req
CodeArts Pipeline
CodeArts Build
CodeArts Deploy
CodeArts Artifact
CodeArts TestPlan
CodeArts Check
Cloud Application Engine
aPaaS MacroVerse
KooPhone
KooDrive
En esta página

Mostrar todo

Centro de ayuda/ ModelArts/ Resource Management/ Recursos de monitoreo/ Consulta de todas las métricas de control de ModelArts en la consola de AOM

Consulta de todas las métricas de control de ModelArts en la consola de AOM

Actualización más reciente 2024-09-14 GMT+08:00

ModelArts periódicamente recopila el uso de métricas clave (como GPU, NPU, CPU y memoria) de cada nodo en un grupo de recursos, así como el uso de métricas clave de entorno de desarrollo, de trabajos de entrenamiento y de servicios de inferencia y luego reporta los datos a AOM. Puede ver la información en AOM.

  1. Inicie sesión en la consola y busque AOM para ir a la consola de AOM.
  2. Seleccione Monitoring > Metric Monitoring. En la página Metric Monitoring que aparece en pantalla, haga clic en Add Metric.

  3. Agregue métricas y haga clic en Confirm.

    • Add By: seleccione Dimension.
    • Metric Name: Haga clic en Custom Metrics. Seleccione los deseados para la consulta. Para obtener más información, véase Tabla 1, Tabla 2 y Tabla 3.
    • Dimension: introduzca la etiqueta para filtrar la métrica. Para más detalles, véase Tabla 4. A continuación se muestra un ejemplo.

  4. Consulte las métricas.

    Tabla 1 Métricas de contenedores

    Categoría

    Nombre

    Métrica

    Descripción

    Unidad

    Rango de valor

    CPU

    Uso de CPU

    ma_container_cpu_util

    Uso de CPU de un objeto medido

    %

    0%–100%

    Núcleos de CPU usados

    ma_container_cpu_used_core

    Número de núcleos de CPU utilizados por un objeto medido

    Núcleos

    ≥ 0

    Total de núcleos de CPU

    ma_container_cpu_limit_core

    Número total de núcleos de CPU que se han aplicado a un objeto medido

    Núcleos

    ≥ 1

    Memoria

    Memoria física total

    ma_container_memory_capacity_megabytes

    Memoria física total aplicada a un objeto medido

    MB

    ≥ 0

    Uso de la memoria física

    ma_container_memory_util

    Porcentaje de la memoria física utilizada en relación con la memoria física total

    %

    0%–100%

    Memoria física usada

    ma_container_memory_used_megabytes

    Memoria física utilizada por un objeto medido (container_memory_working_set_bytes en el espacio de trabajo actual)

    (Uso de memoria en un conjunto de trabajo = página anónima activa y caché, y página horneada en archivos ≤ container_memory_usage_bytes)

    MB

    ≥ 0

    Almacenamiento

    Velocidad de lectura de los discos

    ma_container_disk_read_kilobytes

    Volumen de datos leídos de un disco por segundo

    KB/s

    ≥ 0

    Velocidad de escritura del disco

    ma_container_disk_write_kilobytes

    Volumen de datos escritos en un disco por segundo

    KB/s

    ≥ 0

    Memoria de la GPU

    Memoria total de la GPU

    ma_container_gpu_mem_total_megabytes

    Memoria total de la GPU de un trabajo de entrenamiento

    MB

    > 0

    Uso de la memoria de GPU

    ma_container_gpu_mem_util

    Porcentaje de la memoria de la GPU utilizada con respecto a la memoria total de la GPU

    %

    0%–100%

    Memoria de GPU usada

    ma_container_gpu_mem_used_megabytes

    Memoria de GPU utilizada por un objeto medido

    MB

    ≥ 0

    GPU

    Uso de GPU

    ma_container_gpu_util

    Uso de GPU de un objeto medido

    %

    0%–100%

    Uso del ancho de banda de la memoria de la GPU

    ma_container_gpu_mem_copy_util

    Uso del ancho de banda de memoria de la GPU de un objeto medido. Por ejemplo, el ancho de banda de memoria máximo de la NVIDIA GPU V100 es de 900 GB/s. Si el ancho de banda de memoria actual es de 450 GB/s, el uso del ancho de banda de memoria es del 50 %.

    %

    0%–100%

    Uso del codificador de GPU

    ma_container_gpu_enc_util

    Uso del codificador de GPU de un objeto medido

    %

    %

    Uso del decodificador de GPU

    ma_container_gpu_dec_util

    Uso del decodificador de GPU de un objeto medido

    %

    %

    Temperatura de la GPU

    DCGM_FI_DEV_GPU_TEMP

    Temperatura de la GPU

    °C

    Número natural

    Potencia de la GPU

    DCGM_FI_DEV_POWER_USAGE

    Potencia de la GPU

    Watt (W)

    > 0

    Temperatura de memoria de GPU

    DCGM_FI_DEV_MEMORY_TEMP

    Temperatura de memoria de GPU

    °C

    Número natural

    E/S de red

    Velocidad de enlace descendente (BPS)

    ma_container_network_receive_bytes

    Tasa de tráfico entrante de un objeto medido

    Bytes/s

    ≥ 0

    Velocidad de enlace descendente (PPS)

    ma_container_network_receive_packets

    Número de paquetes de datos recibidos por una NIC por segundo

    Paquetes/s

    ≥ 0

    Tasa de error de enlace descendente

    ma_container_network_receive_error_packets

    Número de paquetes de error recibidos por una NIC por segundo

    Paquetes/s

    ≥ 0

    Velocidad de enlace ascendente (BPS)

    ma_container_network_transmit_bytes

    Tasa de tráfico saliente de un objeto medido

    Bytes/s

    ≥ 0

    Tasa de error de enlace ascendente

    ma_container_network_transmit_error_packets

    Número de paquetes de error enviados por una NIC por segundo

    Paquetes/s

    ≥ 0

    Velocidad de enlace ascendente (PPS)

    ma_container_network_transmit_packets

    Número de paquetes de datos enviados por una NIC por segundo

    Paquetes/s

    ≥ 0

    Métricas de servicio de notebook

    Tamaño de directorio de caché de notebook

    ma_container_notebook_cache_dir_size_bytes

    Se conecta un disco local de alta velocidad al directorio /cache para instancias de notebook de GPU. Esta métrica indica el tamaño total del directorio.

    Bytes

    ≥ 0

    Uso de directorio de caché de notebook

    ma_container_notebook_cache_dir_util

    Se conecta un disco local de alta velocidad al directorio /cache para instancias de notebook de GPU. Esta métrica indica la utilización del directorio.

    %

    0%–100%

    Tabla 2 Métricas de nodo (recogidas solo en grupos de recursos dedicados)

    Categoría

    Nombre

    Métrica

    Descripción

    Unidad

    Rango de valor

    CPU

    Total de núcleos de CPU

    ma_node_cpu_limit_core

    Número total de núcleos de CPU que se han aplicado a un objeto medido

    Núcleos

    ≥ 1

    Núcleos de CPU usados

    ma_node_cpu_used_core

    Número de núcleos de CPU utilizados por un objeto medido

    Núcleos

    ≥ 0

    Uso de CPU

    ma_node_cpu_util

    Uso de CPU de un objeto medido

    %

    0%–100%

    Tiempo de espera de E/S de CPU

    ma_node_cpu_iowait_counter

    Tiempo de espera de E/S de disco acumulado desde el inicio del sistema

    jiffies

    ≥ 0

    Memoria

    Uso de la memoria física

    ma_node_memory_util

    Porcentaje de la memoria física utilizada en relación con la memoria física total

    %

    0%–100%

    Memoria física total

    ma_node_memory_total_megabytes

    Memoria física total aplicada a un objeto medido

    MB

    ≥ 0

    E/S de red

    Velocidad de enlace descendente (BPS)

    ma_node_network_receive_rate_bytes_seconds

    Tasa de tráfico entrante de un objeto medido

    Bytes/s

    ≥ 0

    Velocidad de enlace ascendente (BPS)

    ma_node_network_transmit_rate_bytes_seconds

    Tasa de tráfico saliente de un objeto medido

    Bytes/s

    ≥ 0

    Almacenamiento

    Velocidad de lectura de los discos

    ma_node_disk_read_rate_kilobytes_seconds

    Volumen de datos leídos de un disco por segundo (Solo se recopilan los discos de datos utilizados por contenedores.)

    KB/s

    ≥ 0

    Velocidad de escritura del disco

    ma_node_disk_write_rate_kilobytes_seconds

    Volumen de datos escritos en un disco por segundo (Solo se recopilan los discos de datos utilizados por contenedores.)

    KB/s

    ≥ 0

    Caché total

    ma_node_cache_space_capacity_megabytes

    Caché total del espacio de Kubernetes

    MB

    ≥ 0

    Caché usada

    ma_node_cache_space_used_capacity_megabytes

    Caché usada del espacio de Kubernetes

    MB

    ≥ 0

    Espacio total del contenedor

    ma_node_container_space_capacity_megabytes

    Espacio total del contenedor

    MB

    ≥ 0

    Espacio usado de contenedor

    ma_node_container_space_used_capacity_megabytes

    Espacio usado de contenedor

    MB

    ≥ 0

    Información del disco

    ma_node_disk_info

    Información básica del disco

    N/A

    ≥ 0

    Total de lecturas

    ma_node_disk_reads_completed_total

    Número total de lecturas exitosas

    N/A

    ≥ 0

    Lecturas combinadas

    ma_node_disk_reads_merged_total

    Número de lecturas combinadas

    N/A

    ≥ 0

    Bytes leídos

    ma_node_disk_read_bytes_total

    Número total de bytes que se leen correctamente

    Bytes

    ≥ 0

    Tiempo dedicado para lectura

    ma_node_disk_read_time_seconds_total

    Tiempo dedicado a todas las lecturas

    Segundos

    ≥ 0

    Total de escrituras

    ma_node_disk_writes_completed_total

    Número total de escrituras exitosas

    N/A

    ≥ 0

    Escrituras combinadas

    ma_node_disk_writes_merged_total

    Número de escrituras combinadas

    N/A

    ≥ 0

    Bytes escritos

    ma_node_disk_written_bytes_total

    Número total de bytes que se escriben correctamente

    Bytes

    ≥ 0

    Tiempo dedicado para escritura

    ma_node_disk_write_time_seconds_total

    Tiempo dedicado en todas las operaciones de escritura

    Segundos

    ≥ 0

    E/S en curso

    ma_node_disk_io_now

    Cantidad de E/S en curso

    N/A

    ≥ 0

    Duración de ejecución de E/S

    ma_node_disk_io_time_seconds_total

    Time spent on executing I/Os

    Segundos

    ≥ 0

    Tiempo ponderado de ejecución de E/S

    ma_node_disk_io_time_weighted_seconds_tota

    Número ponderado de segundos dedicados a E/S

    Segundos

    ≥ 0

    GPU

    Uso de GPU

    ma_node_gpu_util

    Uso de GPU de un objeto medido

    %

    0%–100%

    Memoria total de la GPU

    ma_node_gpu_mem_total_megabytes

    Memoria total de la GPU de un objeto medido

    MB

    > 0

    Uso de la memoria de GPU

    ma_node_gpu_mem_util

    Porcentaje de la memoria de la GPU utilizada con respecto a la memoria total de la GPU

    %

    0%–100%

    Memoria de GPU usada

    ma_node_gpu_mem_used_megabytes

    Memoria de GPU utilizada por un objeto medido

    MB

    ≥ 0

    Tareas en una GPU compartida

    node_gpu_share_job_count

    Número de tareas que se ejecutan en una GPU compartida

    Número

    ≥ 0

    Temperatura de la GPU

    DCGM_FI_DEV_GPU_TEMP

    Temperatura de la GPU

    °C

    Número natural

    Potencia de la GPU

    DCGM_FI_DEV_POWER_USAGE

    Potencia de la GPU

    Watt (W)

    > 0

    Temperatura de memoria de GPU

    DCGM_FI_DEV_MEMORY_TEMP

    Temperatura de memoria de GPU

    °C

    Número natural

    InfiniBand o red de RoCE

    Cantidad total de datos recibidos por una NIC

    ma_node_infiniband_port_received_data_bytes_total

    Número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), recibidos en todos los VL desde el puerto.

    (contando en palabras dobles, 32 bits)

    ≥ 0

    Cantidad total de datos enviados por una NIC

    ma_node_infiniband_port_transmitted_data_bytes_total

    El número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), transmitidos en todos los VL desde el puerto.

    (contando en palabras dobles, 32 bits)

    ≥ 0

    Estado de montaje de NFS

    Tiempo de congestión de Getattr de NFS

    ma_node_mountstats_getattr_backlog_wait

    Getattr es una operación de NFS que recupera los atributos de un archivo o directorio, como tamaño, permisos, propietario, etc. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.

    ms

    ≥ 0

    Tiempo de ida y vuelta de Getattr de NFS

    ma_node_mountstats_getattr_rtt

    Getattr es una operación de NFS que recupera los atributos de un archivo o directorio, como tamaño, permisos, propietario, etc.

    RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.

    ms

    ≥ 0

    Tiempo de congestión de acceso de NFS

    ma_node_mountstats_access_backlog_wait

    El acceso es una operación de NFS que comprueba los permisos de acceso de un archivo o directorio para un usuario determinado. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.

    ms

    ≥ 0

    Tiempo de ida y vuelta de acceso de NFS

    ma_node_mountstats_access_rtt

    El acceso es una operación de NFS que comprueba los permisos de acceso de un archivo o directorio para un usuario determinado. RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.

    ms

    ≥ 0

    Tiempo de congestión de búsqueda de NFS

    ma_node_mountstats_lookup_backlog_wait

    La búsqueda es una operación de NFS que resuelve un nombre de archivo en un directorio en un controlador de archivo. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.

    ms

    ≥ 0

    Tiempo de ida y vuelta de búsqueda de NFS

    ma_node_mountstats_lookup_rtt

    La búsqueda es una operación de NFS que resuelve un nombre de archivo en un directorio en un controlador de archivo. RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.

    ms

    ≥ 0

    Tiempo de congestión de lectura de NFS

    ma_node_mountstats_read_backlog_wait

    Leer es una operación de NFS que lee datos de un archivo. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.

    ms

    ≥ 0

    Tiempo de ida y vuelta de lectura de NFS

    ma_node_mountstats_read_rtt

    Leer es una operación de NFS que lee datos de un archivo. RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.

    ms

    ≥ 0

    Tiempo de congestión de escritura de NFS

    ma_node_mountstats_write_backlog_wait

    Write es una operación de NFS que escribe datos en un archivo. La espera de retraso es el tiempo que las solicitudes de NFS tienen que esperar en la cola de retrasos antes de ser enviadas al servidor de NFS. Indica la congestión del lado del cliente de NFS. Una espera atrasada alta puede ocasionar un rendimiento deficiente de NFS y tiempos de respuesta lentos del sistema.

    ms

    ≥ 0

    Tiempo de ida y vuelta de escritura de NFS

    ma_node_mountstats_write_rtt

    Write es una operación de NFS que escribe datos en un archivo. RTT significa tiempo de ida y vuelta y es el tiempo desde que el cliente de RPC del kernel envía la petición de RPC hasta el momento en que recibe la reply34. RTT incluye el tiempo de tránsito de la red y el tiempo de ejecución del servidor. RTT es una buena medida para la latencia de NFS. Un RTT alto puede indicar problemas de red o de servidor.

    ms

    ≥ 0

    Tabla 3 Diagnóstico (InfiniBand, recopilado solo en los grupos de recursos dedicados)

    Categoría

    Nombre

    Métrica

    Descripción

    Unidad

    Rango de valor

    InfiniBand o red de RoCE

    PortXmitData

    infiniband_port_xmit_data_total

    El número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), transmitidos en todos los VL desde el puerto.

    Recuento total

    Número natural

    PortRcvData

    infiniband_port_rcv_data_total

    Número total de octetos de datos, dividido por 4, (contando en palabras dobles, 32 bits), recibidos en todos los VL desde el puerto.

    Recuento total

    Número natural

    SymbolErrorCounter

    infiniband_symbol_error_counter_total

    Número total de errores de enlace menores detectados en uno o más carriles físicos.

    Recuento total

    Número natural

    LinkErrorRecoveryCounter

    infiniband_link_error_recovery_counter_total

    Número total de veces que la máquina de estado de entrenamiento de puerto ha completado con éxito el proceso de recuperación de error de enlace.

    Recuento total

    Número natural

    PortRcvErrors

    infiniband_port_rcv_errors_total

    Número total de paquetes que contienen errores recibidos en el puerto, incluido:

    Errores físicos locales (ICRC, VCRC, LPCRC y todos los errores físicos que provocan la entrada en los estados BAD PACKET o BAD PACKET DISCARD de la máquina de estado del receptor de paquetes)

    Errores mal formados del paquete de datos (LVer, longitud, VL)

    Errores de paquetes de enlace mal formados (operando, longitud, VL)

    Paquetes descartados debido al desbordamiento de búfer (desbordamiento)

    Recuento total

    Número natural

    LocalLinkIntegrityErrors

    infiniband_local_link_integrity_errors_total

    Este contador indica el número de reintentos iniciados por un receptor de capa de transferencia de enlace.

    Recuento total

    Número natural

    PortRcvRemotePhysicalErrors

    infiniband_port_rcv_remote_physical_errors_total

    Número total de paquetes marcados con el delimitador EBP recibidos en el puerto.

    Recuento total

    Número natural

    PortRcvSwitchRelayErrors

    infiniband_port_rcv_switch_relay_errors_total

    Número total de paquetes recibidos en el puerto que fueron descartados cuando no pudieron ser reenviados por el switch relay por las siguientes razones:

    Mapeo de DLID

    Mapeo de VL

    Bucle (puerto de salida = puerto de entrada)

    Recuento total

    Número natural

    PortXmitWait

    infiniband_port_transmit_wait_total

    El número de ticks durante los cuales el puerto tenía datos para transmitir, pero no se envió ningún dato durante todo el tick (ya sea por falta de créditos o por falta de arbitraje).

    Recuento total

    Número natural

    PortXmitDiscards

    infiniband_port_xmit_discards_total

    Número total de paquetes salientes descartados por el puerto porque el puerto está inactivo o congestionado.

    Recuento total

    Número natural

    Tabla 4 Nombres de las métricas

    Clasificación

    Métrica

    Descripción

    Métricas de contenedores

    modelarts_service

    Servicio al que pertenece un contenedor, que puede ser notebook, train o infer

    instance_name

    Nombre del pod al que pertenece el contenedor

    service_id

    ID de instancia o trabajo que se muestra en la página, por ejemplo, cf55829e-9bd3-48fa-8071-7ae870dae93a para un entorno de desarrollo

    9f322d5a-b1d2-4370-94df-5a87de27d36e para un trabajo de entrenamiento

    node_ip

    Dirección IP del nodo al que pertenece el contenedor

    container_id

    ID de contenedor

    cid

    ID de clúster

    container_name

    Nombre del contenedor

    project_id

    ID de proyecto de la cuenta a la que pertenece el usuario

    user_id

    ID de usuario de la cuenta a la que pertenece el usuario que envía el trabajo

    pool_id

    ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico

    pool_name

    Nombre de un grupo de recursos correspondiente a un grupo de recursos dedicado físico

    logical_pool_id

    ID de un subgrupo lógico

    logical_pool_name

    Nombre de un subgrupo lógico

    gpu_uuid

    UUID de la GPU utilizada por el contenedor

    gpu_index

    Índice de la GPU utilizada por el contenedor

    gpu_type

    Tipo de GPU utilizada por el contenedor

    account_name

    Nombre de la cuenta del creador de una tarea de entrenamiento, de inferencia o de entorno de desarrollo

    user_name

    Nombre de usuario del creador de una tarea de entrenamiento, de inferencia o de entorno de desarrollo

    task_creation_time

    Hora en la que se crea una tarea de entrenamiento, de inferencia o de entorno de desarrollo

    task_name

    Nombre de una tarea de entrenamiento, de inferencia o de entorno de desarrollo

    task_spec_code

    Especificaciones de una tarea de entrenamiento, de inferencia o de entorno de desarrollo

    cluster_name

    Nombre del clúster de CCE

    Métricas de nodos

    cid

    ID del clúster de CCE al que pertenece el nodo

    node_ip

    Dirección IP del nodo

    host_name

    Nombre de host de un nodo

    pool_id

    ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico

    project_id

    ID de proyecto del usuario en un grupo de recursos físico dedicado

    gpu_uuid

    UUID de una GPU de nodo

    gpu_index

    Índice de una GPU de nodo

    gpu_type

    Tipo de GPU de nodo

    device_name

    Nombre del dispositivo de una NIC de InfiniBand o de red de RoCE

    port

    Número de puerto de la NIC de InfiniBand

    physical_state

    Estado de cada puerto de la NIC de InfiniBand

    firmware_version

    Versión de firmware de la NIC de InfiniBand

    filesystem

    Sistema de archivos montado en NFS

    mount_point

    Punto de montaje de NFS

    Diagnos

    cid

    ID del clúster de CCE al que pertenece el nodo con la GPU equipada

    node_ip

    Dirección IP del nodo donde reside la GPU

    pool_id

    ID de un grupo de recursos correspondiente a un grupo de recursos dedicado físico

    project_id

    ID de proyecto del usuario en un grupo de recursos físico dedicado

    gpu_uuid

    UUID de GPU

    gpu_index

    Índice de una GPU de nodo

    gpu_type

    Tipo de GPU de nodo

    device_name

    Nombre de un dispositivo de red o de disco

    port

    Número de puerto de la NIC de InfiniBand

    physical_state

    Estado de cada puerto de la NIC de InfiniBand

    firmware_version

    Versión de firmware de la NIC de InfiniBand

Utilizamos cookies para mejorar nuestro sitio y tu experiencia. Al continuar navegando en nuestro sitio, tú aceptas nuestra política de cookies. Descubre más

Comentarios

Comentarios

Comentarios

0/500

Seleccionar contenido

Enviar el contenido seleccionado con los comentarios