更新时间:2024-04-11 GMT+08:00

基础指标:IEF指标

介绍IEF服务上报到AOM的监控指标,包括指标的类别、名称、含义等信息。

IEF服务的指标上报到AOM后,系统会根据指标映射规则将IEF指标转换后,呈现在AOM控制台的“指标浏览”界面。

表1 IEF服务监控指标

指标类别

分类

AOM呈现的指标

IEF上报的指标

指标名称

指标含义

取值范围

单位

主机指标

CPU

aom_node_cpu_limit_core

cpuCoreLimit

CPU内核总量

该指标用于统计测量对象申请的CPU核总量。

≥1

核(Core)

aom_node_cpu_used_core

cpuCoreUsed

CPU内核占用量

该指标用于统计测量对象已经使用的CPU核个数。

≥0

核(Core)

aom_node_cpu_usage

cpuUsage

CPU使用率

该指标用于统计测量对象的CPU使用率。

0~100

百分比(%)

内存

aom_node_memory_total_megabytes

totalMem

物理内存容量

该指标用于统计测量对象申请的物理内存总量。

≥0

兆字节(MB)

aom_node_memory_free_megabytes

freeMem

可用物理内存

该指标用于统计测量对象上的尚未被使用的物理内存。

≥0

兆字节(MB)

aom_node_memory_usage

memUsedRate

物理内存使用率

该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。

0~100

百分比(%)

aom_node_virtual_memory_usage

virMemUsedRate

虚拟内存使用率

该指标用于统计测量对象已使用虚拟内存占虚拟内存总量的百分比。

≥0

兆字节(MB)

网络

aom_node_network_receive_bytes

recvBytesRate

下行Bps

该指标用于统计测试对象的入方向网络流速。

≥0

字节/秒(Byte/s)

aom_node_network_transmit_bytes

sendBytesRate

上行Bps

该指标用于统计测试对象的出方向网络流速。

≥0

字节/秒(Byte/s)

磁盘

aom_node_disk_capacity_megabytes

diskCapacity

磁盘空间容量

总的磁盘空间容量。

≥0

兆字节(MB)

aom_node_disk_available_capacity_megabytes

diskAvailableCapacity

可用磁盘空间

还未经使用的磁盘空间。

≥0

兆字节(MB)

aom_node_disk_usage

diskUsedRate

磁盘使用率

已使用的磁盘空间占总的磁盘空间容量百分比。

0~100

百分比(%)

aom_node_disk_read_kilobytes

diskReadRate

磁盘读取速率

该指标用于统计每秒从磁盘读出的数据量。

≥0

千字节/秒(kB/s)

aom_node_disk_write_kilobytes

diskWriteRate

磁盘写入速率

该指标用于统计每秒写入磁盘的数据量。

≥0

千字节/秒(kB/s)

GPU

aom_node_gpu_memory_free_megabytes

gpuMemCapacity

显存容量

该指标用于统计测量对象的显存容量。

≥0

兆字节(MB)

aom_node_gpu_memory_usage

gpuMemUsage

显存使用率

该指标用于统计测量对象已使用的显存占显存容量的百分比。

0~100

百分比(%)

aom_node_gpu_memory_used_megabytes

gpuMemUsed

显存使用量

该指标用于统计测量对象已使用的显存。

≥0

兆字节(MB)

aom_node_gpu_usage

gpuUtil

GPU使用率

该指标用于统计测量对象显卡使用率。

0~100

百分比(%)

主机

aom_node_process_number

processNum

进程数量

该指标用于统计测量对象上正在运行的进程个数。

≥0

Atlas 500

智能小站

aom_node_npu_temperature_centigrade

node_temperature

节点温度

Atlas 500小站节点温度,由用户调用edgecore接口上报。

≥0

摄氏度(℃)

node_power

node_power

节点功率

Atlas 500小站节点功率,由用户调用edgecore接口上报。

≥0

瓦(W)

node_voltage

node_voltage

节点电压

Atlas 500小站节点电压,由用户调用edgecore接口上报。

≥0

伏(V)

npu_temperature

npu_temperature

芯片温度

Atlas 500小站节点NPU卡温度,由用户调用edgecore接口上报。

≥0

摄氏度(℃)

npu_health

npu_health

芯片健康状态

Atlas 500小站节点NPU卡的健康状态,由用户调用edgecore接口上报。

≥0

ai_cpu_rate

ai_cpu_rate

AI cpu占用率

昇腾AI加速卡的AI CPU使用率,由用户调用edgecore接口上报。

0~100

百分比(%)

ai_core_rate

ai_core_rate

AI core占用率

昇腾AI加速卡的AI Core使用率,由用户调用edgecore接口上报。

0~100

百分比(%)

ctrl_cpu_rate

ctrl_cpu_rate

控制cpu占用率

昇腾AI加速卡在控制CPU使用率,由用户调用edgecore接口上报。

0~100

百分比(%)

ddr_cap_rate

ddr_cap_rate

ddr内存占用率

Atlas 500小站节点的ddr内存占用率,由用户调用edgecore接口上报。

0~100

百分比(%)

ddr_bw_rate

ddr_bw_rate

ddr带宽占用率

Atlas 500小站节点的ddr带宽占用率,由用户调用edgecore接口上报。

0~100

百分比(%)

容器指标

CPU

aom_container_cpu_limit_core

cpuCoreLimit

CPU内核总量

该指标用于统计测量对象申请的CPU核总量。

≥1

核(Core)

aom_container_cpu_used_core

cpuCoreUsed

CPU内核占用量

该指标用于统计测量对象已经使用的CPU核个数。

≥0

核(Core)

aom_container_cpu_usage

cpuUsage

CPU使用率

该指标用于统计测量对象的CPU使用率。

0~100

百分比(%)

内存

aom_container_memory_request_megabytes

memCapacity

物理内存容量

该指标用于统计测量对象申请的物理内存总量。

≥0

兆字节(MB)

aom_container_memory_used_megabytes

memUsed

物理内存使用量

该指标用于统计测量对象上已使用的物理内存。

≥0

兆字节(MB)

memUsedRate

memUsedRate

物理内存使用率

该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。

0~100

百分比(%)

磁盘

aom_container_disk_read_kilobytes

diskReadRate

磁盘读取速率

该指标用于统计每秒从磁盘读出的数据量。

≥0

千字节/秒(kB/s)

aom_container_disk_write_kilobytes

diskWriteRate

磁盘写入速率

该指标用于统计每秒写入磁盘的数据量。

≥0

千字节/秒(kB/s)

网络

aom_container_network_receive_bytes

recvBytesRate

下行Bps

该指标用于统计测试对象的入方向网络流速。

≥0

字节/秒(Byte/s)

aom_container_network_transmit_bytes

sendBytesRate

上行Bps

该指标用于统计测试对象的出方向网络流速。

≥0

字节/秒(Byte/s)

GPU

aom_container_gpu_memory_free_megabytes

gpuMemCapacity

显存容量

该指标用于统计测量对象的显存容量。

≥0

兆字节(MB)

aom_container_gpu_memory_usage

gpuMemUsage

显存使用率

该指标用于统计测量对象已使用的显存占显存容量的百分比。

0~100

百分比(%)

aom_container_gpu_memory_used_megabytes

gpuMemUsed

显存使用量

该指标用于统计测量对象已使用的显存。

≥0

兆字节(MB)

aom_container_gpu_usage

gpuUtil

GPU使用率

该指标用于统计测量对象显卡使用率。

0~100

百分比(%)

容器状态

aom_container_status

status

容器状态

该指标用于统计容器的状态。

≥0

进程指标

CPU

aom_process_cpu_usage

cpuUsage

CPU使用率

该指标用于统计测量对象的CPU使用率。

0~100

百分比(%)

内存

aom_process_memory_used_megabytes

memUsed

物理内存使用量

该指标用于统计测量对象上已使用的物理内存。

≥0

兆字节(MB)

进程状态

aom_process_status

status

进程状态

该指标用于统进程的状态。

≥0

GPU

gpuMemCapacity

gpuMemCapacity

显存容量

该指标用于统计测量对象的显存容量。

≥0

兆字节(MB)

gpuMemUsage

gpuMemUsage

显存使用率

该指标用于统计测量对象已使用的显存占显存容量的百分比。

0~100

百分比(%)

gpuMemUsed

gpuMemUsed

显存使用量

该指标用于统计测量对象已使用的显存。

≥0

兆字节(MB)

gpuUtil

gpuUtil

GPU使用率

该指标用于统计测量对象显卡使用率。

0~100

百分比(%)