更新时间:2023-04-03 GMT+08:00

主机指标及其维度

表1 主机指标

指标名称

指标含义

取值范围

单位

CPU内核总量(aom_node_cpu_limit_core)

该指标用于统计测量对象申请的CPU核总量。

≥1

核(Core)

CPU内核占用(aom_node_cpu_used_core)

该指标用于统计测量对象已经使用的CPU核个数。

≥0

核(Core)

CPU使用率(aom_node_cpu_usage)

该指标用于统计测量对象的CPU使用率。

0~100

百分比(%)

可用物理内存(aom_node_memory_free_megabytes)

该指标用于统计测量对象上的尚未被使用的物理内存。

≥0

兆字节(MB)

可用虚拟内存(aom_node_virtual_memory_free_megabytes)

该指标用于统计测量对象上的尚未被使用的虚拟内存。

≥0

兆字节(MB)

显存容量(aom_node_gpu_memory_free_megabytes)

该指标用于统计测量对象的显存容量。

>0

兆字节(MB)

显存使用率(aom_node_gpu_memory_usage)

该指标用于统计测量对象已使用的显存占显存容量的百分比。

0~100

百分比(%)

显存使用量(aom_node_gpu_memory_used_megabytes)

该指标用于统计测量对象已使用的显存。

≥0

兆字节(MB)

GPU使用率(aom_node_gpu_usage)

该指标用于统计测量对象的GPU使用率。

0~100

百分比(%)

NPU存储容量(aom_node_npu_memory_free_megabytes)

该指标用于统计测量对象的NPU存储容量。

>0

兆字节(MB)

NPU存储使用率(aom_node_npu_memory_usage)

该指标用于统计测量对象已使用的NPU存储占NPU存储容量的百分比。

0~100

百分比(%)

NPU存储使用量(aom_node_npu_memory_used_megabytes)

该指标用于统计测量对象已使用的NPU存储。

≥0

兆字节(MB)

NPU使用率(aom_node_npu_usage)

该指标用于统计测量对象的NPU使用率。

0~100

百分比(%)

NPU温度(aom_node_npu_temperature_centigrade)

该指标用于统计NPU的温度。

-

摄氏度(℃)

物理内存使用率(aom_node_memory_usage)

该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。

0~100

百分比(%)

主机状态(aom_node_status)

该指标用于统计主机状态是否正常。

  • 0表示正常
  • 1表示异常

NTP偏移量(aom_node_ntp_offset_ms)

该指标用于统计主机本地时间与NTP服务器时间的偏移量,NTP偏移量越接近于0,主机本地时间与NTP服务器时间越接近。

-

毫秒(ms)

NTP服务器状态(aom_node_ntp_server_status)

该指标用于统计主机是否成功连接上NTP服务器。

0、1

  • 0表示已连接
  • 1表示未连接

NTP同步状态(aom_node_ntp_status)

该指标用于统计主机本地时间与NTP服务器时间是否同步。

0、1

  • 0表示同步
  • 1表示未同步

进程数量(aom_node_process_number)

该指标用于统计测量对象上的进程数量。

≥0

显卡温度(aom_node_gpu_temperature_centigrade)

该指标用于统计显卡的温度。

-

摄氏度(℃)

物理内存容量(aom_node_memory_total_megabytes)

该指标用于统计测量申请的物理内存总量。

≥0

兆字节(MB)

虚拟内存容量(aom_node_virtual_memory_total_megabytes)

该指标用于统计测量对象上的虚拟内存总量。

≥0

兆字节(MB)

虚拟内存使用率(aom_node_virtual_memory_usage)

该指标用于统计测量对象已使用虚拟内存占虚拟内存总量的百分比。

0~100

百分比(%)

当前线程数量(aom_node_current_threads_num)

该指标用于统计主机中当前创建的线程数量。

≥0

最大线程数量(aom_node_sys_max_threads_num)

该指标用于统计主机最大可创建的线程数量。

≥0

物理磁盘总容量(aom_node_phy_disk_total_capacity_megabytes)

该指标用于统计主机的磁盘总容量。

≥0

兆字节(MB)

物理磁盘已使用总容量(aom_node_physical_disk_total_used_megabytes)

该指标用于统计主机已使用的磁盘总容量。

≥0

兆字节(MB)

主机数量(aom_billing_hostUsed)

一天内接入的主机数量。

≥0

  • 内存使用率 = (物理内存容量 - 可用物理内存) / 物理内存容量;虚拟内存使用率 = ((物理内存容量 + 虚拟内存总量) - (可用物理内存 + 可用虚拟内存)) / (物理内存容量 + 虚拟内存总量)。
  • 目前创建的虚机默认虚拟内存为0,在未配置虚拟内存的情况下,监控页面内存使用率,虚拟内存使用率相同。
  • 物理磁盘已使用总容量和物理磁盘总容量指标仅统计本地磁盘分区的文件系统类型,不统计主机通过网络形式挂载的文件系统(juicefs、nfs、smb等)。
表2 主机指标维度

维度

说明

clusterId

集群ID。

clusterName

集群名称。

gpuName

GPU名称。

gpuID

GPU ID。

npuName

NPU名称。

npuID

NPU ID。

hostID

主机ID。

nameSpace

集群的命名空间。

nodeIP

主机IP。

hostName

主机名称。