裸金属服务器支持的监控指标(安装Agent)
功能说明
本节定义了裸金属服务器上报云监控服务的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控服务控制台或API接口来检索裸金属服务器产生的监控指标和告警信息。

云监控服务最大支持4个层级维度,维度编号从0开始,编号3为最深层级。例如监控指标中的维度信息为“instance_id,mount_point”时,表示对应的监控指标的维度存在层级关系,且“instance_id”为0层,“mount_point”为1层。
前提条件
已完成Agent插件的安装。具体操作,请参见Agent安装 。
命名空间
SERVICE.BMS
操作系统监控指标:CPU
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 维度 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
cpu_usage | (Agent) CPU使用率 | 该指标用于统计测量对象当前CPU使用率。
| 0-100 | % | 不涉及 | instance_id | 1分钟 |
cpu_usage_idle | (Agent) CPU空闲时间占比 | 该指标用于统计测量对象当前CPU空闲时间占比。
| 0-100 | % | 不涉及 | instance_id | 1分钟 |
cpu_usage_other | (Agent) 其他CPU使用率 | 该指标用于统计测量对象其他CPU使用率。
| 0-100 | % | 不涉及 | instance_id | 1分钟 |
cpu_usage_system | (Agent) 内核空间CPU使用率 | 该指标用于统计测量对象当前内核空间占用CPU使用率。
| 0-100 | % | 不涉及 | instance_id | 1分钟 |
cpu_usage_user | (Agent) 用户空间CPU使用率 | 该指标用于统计测量对象当前用户空间占用CPU使用率。
| 0-100 | % | 不涉及 | instance_id | 1分钟 |
cpu_usage_nice | (Agent) Nice进程CPU使用率 | 该指标用于统计测量对象当前Nice进程CPU使用率。
| 0-100 | % | 不涉及 | instance_id | 1分钟 |
cpu_usage_iowait | (Agent) iowait状态占比 | 该指标用于统计测量对象当前iowait状态占用CPU的比率。
| 0-100 | % | 不涉及 | instance_id | 1分钟 |
cpu_usage_irq | (Agent) CPU中断时间占比 | 该指标用于统计测量对象当前CPU处理中断用时占用CPU时间的比率。
| 0-100 | % | 不涉及 | instance_id | 1分钟 |
cpu_usage_softirq | (Agent) CPU软中断时间占比 | 该指标用于统计测量对象当前CPU处理软中断时间占用CPU时间的比率。
| 0-100 | % | 不涉及 | instance_id | 1分钟 |
操作系统监控指标:CPU负载
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 维度 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
load_average1 | (Agent) 1分钟平均负载 | 该指标用于统计测量对象过去1分钟的CPU平均负载。 采集方式(Linux):通过/proc/loadavg中load1/逻辑CPU个数得到。用户可以通过top命令查看load1值。 | ≥0 | 不涉及 | 不涉及 | instance_id | 1分钟 |
load_average5 | (Agent) 5分钟平均负载 | 该指标用于统计测量对象过去5分钟的CPU平均负载。 采集方式(Linux):通过/proc/loadavg中load5/逻辑CPU个数得到。用户可以通过top命令查看load5值。 | ≥0 | 不涉及 | 不涉及 | instance_id | 1分钟 |
load_average15 | (Agent) 15分钟平均负载 | 该指标用于统计测量对象过去15分钟的CPU平均负载。 采集方式(Linux):通过/proc/loadavg中load15/逻辑CPU个数得到。用户可以通过top命令查看load15值。 | ≥0 | 不涉及 | 不涉及 | instance_id | 1分钟 |
load_total_average1 | (Agent)1分钟平均负载 | 该指标用于统计测量对象过去1分钟的CPU平均负载。 | ≥0 | 不涉及 | 不涉及 | instance_id | 1分钟 |
load_total_average5 | (Agent) 5分钟平均负载 | 该指标用于统计测量对象过去5分钟的CPU平均负载。 | ≥0 | 不涉及 | 不涉及 | instance_id | 1分钟 |
load_total_average15 | (Agent) 15分钟平均负载 | 该指标用于统计测量对象过去15分钟的CPU平均负载。 | ≥0 | 不涉及 | 不涉及 | instance_id | 1分钟 |
操作系统监控指标:内存
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 维度 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
mem_available | (Agent) 可用内存 | 该指标用于统计测量对象的可用内存。
| ≥0 | GB | 不涉及 | instance_id | 1分钟 |
mem_usedPercent | (Agent) 内存使用率 | 该指标用于统计测量对象的内存使用率。
| 0-100 | % | 不涉及 | instance_id | 1分钟 |
mem_free | (Agent) 空闲内存量 | 该指标用于统计测量对象的空闲内存量。
| ≥0 | GB | 不涉及 | instance_id | 1分钟 |
mem_buffers | (Agent) Buffers占用量 | 该指标用于统计测量对象的Buffers内存量。
| ≥0 | GB | 不涉及 | instance_id | 1分钟 |
mem_cached | (Agent) Cache占用量 | 该指标用于统计测量对象Cache内存量。
| ≥0 | GB | 不涉及 | instance_id | 1分钟 |
total_open_files | (Agent) 文件句柄总数 | 该指标用于统计测量对象的所有进程使用的句柄总和。
| ≥0 | Count | 不涉及 | instance_id | 1分钟 |
操作系统监控指标:磁盘

- CES Agent目前仅支持物理磁盘指标的采集,不支持通过网络文件系统协议挂载的磁盘。
- CES Agent会默认屏蔽docker相关的挂载点。挂载点前缀如下:
/var/lib/docker;/mnt/paas/kubernetes;/var/lib/mesos
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 维度 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
disk_free | (Agent) 磁盘剩余存储量 | 该指标用于统计测量对象磁盘的剩余存储空间。
| ≥0 | GB | 不涉及 | instance_id,mount_point | 1分钟 |
disk_total | (Agent) 磁盘存储总量 | 该指标用于统计测量对象磁盘存储总量。
| ≥0 | GB | 不涉及 | instance_id,mount_point | 1分钟 |
disk_used | (Agent) 磁盘已用存量 | 该指标用于统计测量对象磁盘的已用存储空间。
| ≥0 | GB | 不涉及 | instance_id,mount_point | 1分钟 |
disk_usedPercent | (Agent) 磁盘使用率 | 该指标用于统计测量对象磁盘使用率,以百分比为单位。 计算方式为:磁盘已用存储量/磁盘存储总量。
| 0-100 | % | 不涉及 | instance_id,mount_point | 1分钟 |
disk_rwstate | (Agent) 磁盘读写状态 | 该指标用于统计测量对象挂载磁盘的读写状态。状态分为:可读写(0)/只读(1)。 | 0-100 | % | 不涉及 | instance_id,mount_point | 1分钟 |
操作系统监控指标:磁盘I/O
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 维度 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
disk_agt_read_bytes_rate | (Agent) 磁盘读速率 | 该指标用于统计每秒从测量对象读出数据量。
| ≥ 0 | byte/s | 1024(IEC) |
| 1分钟 |
disk_agt_read_requests_rate | (Agent) 磁盘读操作速率 | 该指标用于统计每秒从测量对象读取数据的请求次数。
| ≥ 0 | request/s | 不涉及 |
| 1分钟 |
disk_agt_write_bytes_rate | (Agent) 磁盘写速率 | 该指标用于统计每秒写到测量对象的数据量。
| ≥ 0 | byte/s | 1024(IEC) |
| 1分钟 |
disk_agt_write_requests_rate | (Agent) 磁盘写操作速率 | 该指标用于统计每秒向测量对象写数据的请求次数。
| ≥ 0 | request/s | 不涉及 |
| 1分钟 |
disk_readTime | (Agent) 读操作平均耗时 | 该指标用于统计测量对象磁盘读操作平均耗时。
| ≥ 0 | ms/count | 不涉及 |
| 1分钟 |
disk_writeTime | (Agent) 写操作平均耗时 | 该指标用于统计测量对象磁盘写操作平均耗时。
| ≥ 0 | ms/count | 不涉及 |
| 1分钟 |
disk_ioUtils | (Agent) 磁盘I/O使用率 | 该指标用于统计测量对象磁盘I/O使用率。
| 0-100 | % | 不涉及 |
| 1分钟 |
disk_queue_length | (Agent) 平均队列长度 | 该指标用于统计指定时间段内,平均等待完成的读取或写入操作请求的数量
| ≥ 0 | Count | 不涉及 |
| 1分钟 |
disk_write_bytes_per_operation | (Agent) 平均写操作大小 | 该指标用于统计指定时间段内,平均每个写I/O操作传输的字节数。
| ≥ 0 | Byte/op | 不涉及 |
| 1分钟 |
disk_read_bytes_per_operation | (Agent) 平均读操作大小 | 该指标用于统计指定时间段内,平均每个读I/O操作传输的字节数。
| ≥ 0 | Byte/op | 不涉及 |
| 1分钟 |
disk_io_svctm | (Agent) 平均I/O服务时长 | 该指标用于统计指定时间段内,平均每个读或写I/O的操作时长。
| ≥ 0 | ms/op | 不涉及 |
| 1分钟 |
disk_device_used_percent | (Agent) 块设备使用率 | 该指标用于统计测量对象物理磁盘使用率,以百分比为单位。 计算方式为:所有已挂载磁盘分区已用存储量/磁盘存储总量。
| 0-100 | % | 不涉及 |
| 1分钟 |
操作系统监控指标:文件系统
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 维度 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
disk_fs_rwstate | (Agent) 文件系统读写状态 | 该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)。
|
| 不涉及 | 不涉及 | instance_id,mount_point | 1分钟 |
disk_inodesTotal | (Agent) inode空间大小 | 该指标用于统计测量对象当前磁盘的inode空间量。
| ≥ 0 | 不涉及 | 不涉及 | instance_id,mount_point | 1分钟 |
disk_inodesUsed | (Agent) inode已使用空间 | 该指标用于统计测量对象当前磁盘已使用的inode空间量。
| ≥ 0 | 不涉及 | 不涉及 | instance_id,mount_point | 1分钟 |
disk_inodesUsedPercent | (Agent) inode已使用占比 | 该指标用于统计测量对象当前磁盘已使用的inode占比。
| 0-100 | % | 不涉及 | instance_id,mount_point | 1分钟 |
操作系统监控指标:TCP
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 维度 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
net_tcp_total | (Agent) TCP 连接数总和 | 该指标用于统计测量对象所有状态的TCP连接数总和。
| ≥ 0 | Count | 不涉及 | instance_id | 1分钟 |
net_tcp_established | (Agent) ESTABLISHED状态的连接数量 | 该指标用于统计测量对象处于ESTABLISHED状态的TCP连接数量。
| ≥ 0 | Count | 不涉及 | instance_id | 1分钟 |
net_tcp_sys_sent | (Agent) TCP SYS_SENT状态的连接数量 | 该指标用于统计测量对象处于请求连接状态的TCP连接数量。
| ≥ 0 | Count | 不涉及 | instance_id | 1分钟 |
net_tcp_sys_recv | (Agent) TCP SYS_RECV状态的连接数量 | 该指标用于统计测量对象服务器端收到的请求连接的TCP数量。
| ≥ 0 | Count | 不涉及 | instance_id | 1分钟 |
net_tcp_fin_wait1 | (Agent) TCP FIN_WAIT1状态的连接数量 | 该指标用于统计测量对象客户端主动关闭且没有收到服务端ACK的TCP连接数量。
| ≥ 0 | Count | 不涉及 | instance_id | 1分钟 |
net_tcp_fin_wait2 | (Agent) TCP FIN_WAIT2状态的连接数量 | 该指标用于统计测量对象处于FIN_WAIT2状态的TCP连接数量。
| ≥ 0 | Count | 不涉及 | instance_id | 1分钟 |
net_tcp_time_wait | (Agent) TCP TIME_WAIT状态的连接数量 | 该指标用于统计测量对象处于TIME_WAIT状态的TCP连接数量。
| ≥ 0 | Count | 不涉及 | instance_id | 1分钟 |
net_tcp_close | (Agent) TCP CLOSE状态的连接数量 | 该指标用于统计测量对象关闭的或未打开的TCP连接数量。
| ≥ 0 | Count | 不涉及 | instance_id | 1分钟 |
net_tcp_close_wait | (Agent) TCP CLOSE_WAIT状态的连接数量 | 该指标用于统计测量对象处于CLOSE_WAIT状态的TCP连接数量。
| ≥ 0 | Count | 不涉及 | instance_id | 1分钟 |
net_tcp_last_ack | (Agent) TCP LAST_ACK状态的连接数量 | 该指标用于统计测量对象被动关闭等待ACK报文的TCP连接数量。
| ≥ 0 | Count | 不涉及 | instance_id | 1分钟 |
net_tcp_listen | (Agent) TCP LISTEN状态的连接数量 | 该指标用于统计测量对象处于LISTEN状态的TCP连接数量。
| ≥ 0 | Count | 不涉及 | instance_id | 1分钟 |
net_tcp_closing | (Agent) TCP CLOSING状态的连接数量 | 该指标用于统计测量对象处于服务端和客户端同时主动关闭状态的TCP连接数量。
| ≥ 0 | Count | 不涉及 | instance_id | 1分钟 |
net_tcp_retrans | (Agent) TCP重传率 | 该指标用于统计测量对象重新发送的报文数与总发送的报文数之间的比值。
| 0-100 | % | 不涉及 | instance_id | 1分钟 |
操作系统监控指标:网卡
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 维度 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
net_bitRecv | (Agent) 出网带宽 | 该指标用于统计测量对象网卡每秒发送的比特数。
| ≥ 0 | bit/s | 1024(IEC) |
| 1分钟 |
net_bitRecv_usage | (Agent) 虚拟机入方向带宽使用率 | 该指标用于统计虚拟机每秒接收的比特数占设定的最大带宽的比特数的比率。 | 0-100 | % | 不涉及 | instance_id | 1分钟 |
net_bitSent_usage | (Agent) 虚拟机出方向带宽使用率 | 该指标用于统计虚拟机每秒发送的比特数占设定的最大带宽的比特数的比率。 | 0-100 | % | 不涉及 | instance_id | 1分钟 |
net_connections_usage | (Agent) 网络连接数使用率 | 该指标用于统计TCP和UDP的总连接数的使用率。 | 0-100 | % | 不涉及 | instance_id | 1分钟 |
net_bitSent | (Agent) 入网带宽 | 该指标用于统计测量对象网卡每秒接收的比特数。
| ≥ 0 | bit/s | 1024(IEC) |
| 1分钟 |
net_packetRecv | (Agent) 网卡包接收速率 | 该指标用于统计测量对象网卡每秒接收的数据包数。
| ≥ 0 | Count/s | 不涉及 |
| 1分钟 |
net_packetSent | (Agent) 网卡包发送速率 | 该指标用于统计测量对象网卡每秒发送的数据包数。
| ≥ 0 | Count/s | 不涉及 |
| 1分钟 |
net_errin | (Agent) 接收误包率 | 该指标用于统计测量对象网卡每秒接收的错误数据包数量占所接收的数据包的比率。
| 0-100 | % | 不涉及 |
| 1分钟 |
net_errout | (Agent) 发送误包率 | 该指标用于统计测量对象网卡每秒发送的错误数据包数量占所发送的数据包的比率。
| 0-100 | % | 不涉及 |
| 1分钟 |
net_dropin | (Agent) 接收丢包率 | 该指标用于统计测量对象网卡每秒接收并已丢弃的数据包数量占所接收的数据包的比率
| 0-100 | % | 不涉及 |
| 1分钟 |
net_dropout | (Agent) 发送丢包率 | 该指标用于统计测量对象网卡每秒发送并已丢弃的数据包数量占所发送的数据包的比率。
| 0-100 | % | 不涉及 |
| 1分钟 |
进程监控指标
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 维度 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
proc_pHashId_cpu | (Agent) CPU使用率 | 进程消耗的CPU百分比,pHashId是(进程名+进程ID)的md5值。
| 0-1*CPU核心数 | % | 不涉及 | instance_id | 1分钟 |
proc_pHashId_mem | (Agent) 内存使用率 | 进程消耗的内存百分比,pHashId是(进程名+进程ID)的md5值。
| 0-100 | % | 不涉及 | instance_id | 1分钟 |
proc_pHashId_file | (Agent) 打开文件数 | 进程打开文件数,pHashId是(进程名+进程ID)的md5值。
| ≥0 | Count | 不涉及 | instance_id | 1分钟 |
proc_running_count | (Agent) 运行中的进程数 | 该指标用于统计测量对象处于运行状态的进程数。
| ≥0 | Count | 不涉及 | instance_id | 1分钟 |
proc_idle_count | (Agent) 空闲进程数 | 该指标用于统计测量对象处于空闲状态的进程数。
| ≥0 | Count | 不涉及 | instance_id | 1分钟 |
proc_zombie_count | (Agent) 僵死进程数 | 该指标用于统计测量对象处于僵死状态的进程数。
| ≥0 | Count | 不涉及 | instance_id | 1分钟 |
proc_blocked_count | (Agent) 阻塞进程数 | 该指标用于统计测量对象被阻塞的进程数。
| ≥0 | Count | 不涉及 | instance_id | 1分钟 |
proc_sleeping_count | (Agent) 睡眠进程数 | 该指标用于统计测量对象处于睡眠状态的进程数。
| ≥0 | Count | 不涉及 | instance_id | 1分钟 |
proc_total_count | (Agent) 系统进程数 | 该指标用于统计测量对象的总进程数。
| ≥0 | Count | 不涉及 | instance_id | 1分钟 |
proc_specified_count | (Agent) 指定进程数 | 该指标用于统计测量对象指定的进程数。
| ≥0 | 无 | 不涉及 | instance_id,proc | 1分钟 |
操作系统监控指标:GPU

当GPU服务器存在8张GPU卡并且PM模式为关闭状态时,存在无法采集数据数据的风险。可以通过打开pm模式并重启监控进程进行解决。
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 维度 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
gpu_status | (Agent) gpu健康状态 | 该指标用于统计虚拟机上GPU健康状态。该指标是一个综合指标。 故障可能:1. ecc超过阈值。2. 显存地址重映射失败。3.GPU卡rev ff。4. infoROM错误。5. 存在待隔离页。6. remapped rows错误。(具体可以看下面详细指标)
|
| 不涉及 | 不涉及 | instance_id,gpu | 1分钟 |
gpu_performance_state | (Agent) 性能状态 | 该指标用于统计该GPU的性能状态。
| P0-P15、P32
| 不涉及 | 不涉及 | instance_id,gpu | 1分钟 |
gpu_power_draw | (Agent) GPU功率 | 该指标用于统计该GPU的功率。显示当前GPU卡的功率,功率超过最大功率或者是个错误值都可能是GPU硬件故障。
| ≥ 0 | W | 不涉及 | instance_id,gpu | 1分钟 |
gpu_temperature | (Agent) GPU温度 | 该指标用于统计该GPU的温度。显示当前GPU卡温度值,温度超过最大可操作温度阈值或者是个错误值都可能是GPU硬件故障。
| ≥ 0 | °C | 不涉及 | instance_id,gpu | 1分钟 |
gpu_usage_gpu | (Agent) GPU使用率 | 该指标用于统计该GPU的算力使用率。显示当前GPU卡算力使用百分百数据,是采样点瞬时值。
| 0-100 | % | 不涉及 | instance_id,gpu | 1分钟 |
gpu_usage_mem | (Agent) 显存使用率 | 该指标用于统计该GPU的显存使用率。显示当前GPU卡显存占用百分比数据,是采样点瞬时值。
| 0-100 | % | 不涉及 |
| 1分钟 |
gpu_used_mem | (Agent) GPU显存使用量 | 该指标用于统计该GPU的显存使用量。显示当前GPU卡已经使用的显存值数据。
| ≥ 0 | MB | 不涉及 |
| 1分钟 |
gpu_free_mem | (Agent) GPU显存剩余量 | 该指标用于统计该GPU的显存剩余量。显示当前GPU卡显存空闲值数据。
| ≥ 0 | MB | 不涉及 | instance_id,gpu | 1分钟 |
gpu_usage_encoder | (Agent) 编码使用率 | 该指标用于统计该GPU的编码器使用率。显示当前GPU卡编码器使用百分比数据,是采样点瞬时值。
| 0-100 | % | 不涉及 |
| 1分钟 |
gpu_usage_decoder | (Agent) 解码使用率 | 该指标用于统计该GPU的解码器使用率。显示当前GPU卡解码器使用百分比数据,是采样点瞬时值。
| 0-100 | % | 不涉及 |
| 1分钟 |
gpu_graphics_clocks | (Agent) GPU显卡时钟频率 | 该指标用于统计该GPU的显卡(着色器)时钟频率。显示当前GPU卡与图形相关的时钟频率,未使用图形能力可不关注。
| ≥ 0 | MHz | 不涉及 | instance_id,gpu | 1分钟 |
gpu_sm_clocks | (Agent) GPU流式处理器时钟频率 | 该指标用于统计该GPU的流式处理器时钟频率。显示当前GPU卡控制显存运行速度的时钟频率。
| ≥ 0 | MHz | 不涉及 | instance_id,gpu | 1分钟 |
gpu_mem_clock | (Agent) GPU内存时钟频率 | 该指标用于统计该GPU的内存时钟频率。显示当前GPU卡与CUDA核心计算密切相关的时钟频率。
| ≥ 0 | MHz | 不涉及 | instance_id,gpu | 1分钟 |
gpu_video_clocks | (Agent) GPU视频时钟频率 | 该指标用于统计该GPU的视频(包含编解码)时钟频率。显示当前GPU卡视频编解码的时钟频率。
| ≥ 0 | MHz | 不涉及 | instance_id,gpu | 1分钟 |
gpu_tx_throughput_pci | (Agent) GPU PCI出方向流量 | 该指标用于统计该GPU的出方向带宽。显示当前GPU卡通过PCIe发往主机的数据量。
| ≥ 0 | MByte/s | 不涉及 | instance_id,gpu | 1分钟 |
gpu_rx_throughput_pci | (Agent) GPU PCI入方向流量 | 该指标用于统计该GPU的入方向带宽。显示主机通过PCIe发往当前GPU卡的数据量。
| ≥ 0 | MByte/s | 不涉及 | instance_id,gpu | 1分钟 |
gpu_volatile_correctable | (Agent) 可纠正ECC错误数量 | 该指标用于统计该GPU重置以来可纠正的ECC错误数量,每次重置后归0。
| ≥ 0 | Count | 不涉及 | instance_id,gpu | 1分钟 |
gpu_volatile_uncorrectable | (Agent) 不可纠正ECC错误数量 | 该指标用于统计该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。
| ≥ 0 | Count | 不涉及 | instance_id,gpu | 1分钟 |
gpu_aggregate_correctable | (Agent) 累计可纠正ECC错误数量 | 该指标用于统计该GPU累计的可纠正ECC错误数量。
| ≥ 0 | Count | 不涉及 | instance_id,gpu | 1分钟 |
gpu_aggregate_uncorrectable | (Agent) 累计不可纠正ECC错误数量 | 该指标用于统计该GPU累计的不可纠正ECC错误数量。
| ≥ 0 | Count | 不涉及 | instance_id,gpu | 1分钟 |
gpu_retired_page_single_bit | (Agent) retired page single bit错误数量 | 该指标用于统计retired page single bit 错误数量,表示当前卡隔离的单比特页数。
| ≥ 0 | Count | 不涉及 | instance_id,gpu | 1分钟 |
gpu_retired_page_double_bit | (Agent) retired page double bit错误数量 | 该指标用于统计retired page double bit错误数量,表示当前卡隔离的双比特页的数量。
| ≥ 0 | Count | 不涉及 | instance_id,gpu | 1分钟 |
gpu_lnkcap_speed | (Agent)gpu链路最大传输速度 | 该指标用于统计GPU的PCIe链路中支持的最高速度。显示GPU卡在PCIe总线上的最大数据吞吐能力。
| ≥ 0 | GT/s | 不涉及 | instance_id,gpu | 1分钟 |
gpu_lnkcap_width | (Agent)gpu链路最大传输宽度 | 该指标用于统计GPU的PCIe链路能力中的链路宽度。显示GPU卡所支持的最大 PCIe通道数。
| ≥ 0 | count | 不涉及 | instance_id,gpu | 1分钟 |
gpu_lnksta_speed | (Agent)gpu链路当前传输速度 | 该指标用于统计GPU的PCIe链路的传输速度。显示GPU卡当前的PCIe链路传输速度。
| ≥ 0 | GT/s | 不涉及 | instance_id,gpu | 1分钟 |
gpu_lnksta_width | (Agent)gpu链路当前传输宽度 | 该指标用于统计GPU的PCIe链路宽度。显示GPU卡当前的PCIe链路通道数。
| ≥ 0 | count | 不涉及 | instance_id,gpu | 1分钟 |
gpu_nvlink_number | (Agent)gpu nvlink数量 | 该指标用于统计GPU的nvlink的链路数量。显示GPU卡所支持的nvlink的链路数量,比如A100支持12个nvlink链路。
| ≥ 0 | count | 不涉及 | instance_id,gpu | 1分钟 |
gpu_nvlink_bandwidth | (Agent)gpu nvlink平均带宽 | 该指标用于统计GPU的nvlink链路宽度。 显示GPU卡所支持的nvlink链路宽度,表示GPU之前进行数据传输的总带宽。
| ≥ 0 | GB/s | 不涉及 | instance_id,gpu | 1分钟 |
gpu_usage_frame_buffer_memory | (Agent) 帧缓冲区使用率 | 该指标用于统计GPU设备的帧缓冲区使用率。 | 0-100 | % | 不涉及 | instance_id,gpu_slot,pid_for_gpu | 1分钟 |
gpu_usage_mem_rw | (Agent)gpu显存读写使用率 | 该指标用于统计指定时间段内GPU显存的读写使用占比。 | 0-100 | % | 不涉及 | instance_id,gpu | 1分钟 |
gpu_usage_sm | (Agent) sm处理器使用率 | 该指标用于统计GPU设备的流式多处理器使用率 | 0-100 | % | 不涉及 |
| 1分钟 |
操作系统监控指标:NPU
指标ID | 指标名称 | 指标含义 | 取值范围 | 单位 | 进制 | 维度 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
npu_device_health | (Agent) NPU健康状况 | 该指标用于统计NPU卡的健康状况。 |
| 不涉及 | 不涉及 | instance_id,npu | 1分钟 |
npu_driver_health | (Agent) NPU驱动健康状况 | 该指标用于统计NPU卡的驱动的健康状况。 |
| 不涉及 | 不涉及 | instance_id,npu | 1分钟 |
npu_power | (Agent) NPU功率 | 该指标用于统计NPU卡功率。 | >0 | W | 不涉及 | instance_id,npu | 1分钟 |
npu_temperature | (Agent) NPU温度 | 该指标用于统计NPU卡温度。 | 自然数 | °C | 不涉及 | instance_id,npu | 1分钟 |
npu_voltage | (Agent)NPU电压 | 该指标用于统计NPU的电压。 | 自然数 | V | 不涉及 | instance_id,npu | 1分钟 |
npu_util_rate_hbm | (Agent)NPU的HBM占用率 | 该指标用于统计NPU的HBM占用率。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_hbm_freq | (Agent) HBM频率 | 该指标用于统计NPU卡HBM频率。 | >0 | MHz | 不涉及 | instance_id,npu | 1分钟 |
npu_freq_hbm | (Agent)NPU的HBM频率 | 该指标用于统计NPU的HBM频率。 | >0 | MHz | 不涉及 | instance_id,npu | 1分钟 |
npu_hbm_usage | (Agent) HBM使用量 | 该指标用于统计NPU卡HBM使用量。 | ≥0 | MB | 不涉及 | instance_id,npu | 1分钟 |
npu_hbm_temperature | (Agent) HBM温度 | 该指标用于统计NPU卡HBM温度。 | 自然数 | °C | 不涉及 | instance_id,npu | 1分钟 |
npu_hbm_bandwidth_util | (Agent) HBM带宽利用率 | 该指标用于统计NPU卡HBM带宽利用率。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_hbm_mem_capacity | (Agent)NPU的HBM内存容量 | 该指标用于统计NPU的HBM内存容量。 | ≥0 | MB | 不涉及 | instance_id,npu | 1分钟 |
npu_hbm_ecc_enable | (Agent) HBM ECC检测开关状态 | 该指标用于统计NPU卡HBM ECC开关状态。 |
| 不涉及 | 不涉及 | instance_id,npu | 1分钟 |
npu_hbm_single_bit_error_cnt | (Agent) HBM当前单比特错误数量 | 该指标用于统计NPU卡HBM当前单bit错误数量。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_hbm_double_bit_error_cnt | (Agent) HBM当前双比特错误数量 | 该指标用于统计NPU卡HBM当前双bit错误数量。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_hbm_total_single_bit_error_cnt | (Agent) HBM生命周期内单比特错误数量 | 该指标用于统计NPU卡HBM生命周期内单bit错误数量。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_hbm_total_double_bit_error_cnt | (Agent) HBM生命周期内双比特错误数量 | 该指标用于统计NPU卡HBM生命周期内双bit错误数量。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_hbm_single_bit_isolated_pages_cnt | (Agent) HBM单比特错误隔离内存页数量 | 该指标用于统计NPU卡HBM单比特错误隔离内存页数量。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_hbm_double_bit_isolated_pages_cnt | (Agent) HBM双比特错误隔离内存页数量 | 该指标用于统计NPU卡HBM多比特错误隔离内存页数量。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_usage_mem | (Agent) NPU显存使用量 | 该指标用于统计NPU卡的显存使用量。 | ≥0 | MB | 不涉及 | instance_id,npu | 1分钟 |
npu_util_rate_mem | (Agent) NPU显存使用率 | 该指标用于统计NPU卡的显存使用率。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_util_rate_hbm_bw | (Agent)NPU的HBM带宽占用率 | 该指标用于统计NPU的HBM带宽占用率 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_freq_mem | (Agent) NPU显存频率 | 该指标用于统计NPU卡的显存频率。 | >0 | MHz | 不涉及 | instance_id,npu | 1分钟 |
npu_util_rate_mem_bandwidth | (Agent) NPU显存带宽使用率 | 该指标用于统计NPU卡的显存带宽使用率。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_util_rate_vector_core | (Agent) NPU卡Vector核心使用率 | 该指标用于统计NPU卡Vector核心使用率 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_sbe | (Agent) NPU单bit错误数量 | 该指标用于统计NPU卡单比特错误数量。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_dbe | (Agent) NPU双bit错误数量 | 该指标用于统计NPU卡双比特错误数量。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_freq_ai_core | (Agent) NPU卡AI核心频率 | 该指标用于统计NPU卡的AI核心时钟频率。 | >0 | MHz | 不涉及 | instance_id,npu | 1分钟 |
npu_freq_ai_core_rated | (Agent)NPU的AI核心额定频率 | 该指标用于统计NPU的AI核心额定频率。 | >0 | MHz | 不涉及 | instance_id,npu | 1分钟 |
npu_util_rate_ai_core | (Agent) NPU卡AI核心使用率 | 该指标用于统计NPU卡的AI核心使用率。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_aicpu_num | (Agent)NPU的AICPU数量 | 该指标用于统计NPU的AI CPU数量。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_util_rate_ai_cpu | (Agent) NPU卡AICPU使用率 | 该指标用于统计NPU卡的AI CPU使用率。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_aicpu_avg_util_rate | (Agent)NPU的AICPU平均使用率 | 该指标用于统计NPU的AI CPU平均使用率。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_aicpu_max_freq | (Agent)NPU的AICPU最大频率 | 该指标用于统计NPU的AI CPU最大频率。 | >0 | MHz | 不涉及 | instance_id,npu | 1分钟 |
npu_aicpu_cur_freq | (Agent)NPU的AICPU频率 | 该指标用于统计NPU的AI CPU频率。 | >0 | MHz | 不涉及 | instance_id,npu | 1分钟 |
npu_util_rate_ctrl_cpu | (Agent) NPU控制CPU使用率 | 该指标用于统计NPU卡的控制CPU使用率。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_freq_ctrl_cpu | (Agent)NPU的控制CPU频率 | 该指标用于统计NPU的控制CPU频率。 | >0 | MHz | 不涉及 | instance_id,npu | 1分钟 |
npu_link_cap_speed | (Agent)NPU链路最大传输速度 | 该指标用于统计NPU设备支持的最大传输速度。 | ≥0 | GT/s | 不涉及 | instance_id,npu | 1分钟 |
npu_link_cap_width | (Agent)NPU链路最大传输宽度 | 该指标用于统计NPU设备支持的最大传输宽度。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_link_status_speed | (Agent)NPU链路当前传输速度 | 该指标用于统计NPU设备链路的实际传输速度。 | ≥0 | GT/s | 不涉及 | instance_id,npu | 1分钟 |
npu_link_status_width | (Agent)NPU链路当前传输宽度 | 该指标用于统计NPU设备链路的实际传输宽度。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_device_network_health | (Agent) NPU网络健康情况 | 该指标用于统计NPU卡的RoCE网卡的IP地址连通情况。 |
| 不涉及 | 不涉及 | instance_id,npu | 1分钟 |
npu_network_port_link_status | (Agent) NPU网口link状态 | 该指标用于统计NPU卡的对应网口link状态。 |
| 不涉及 | 不涉及 | instance_id,npu | 1分钟 |
npu_roce_tx_rate | (Agent) NPU网卡上行速率 | 该指标用于统计NPU卡内网卡的上行速率。 | ≥0 | MB/s | 不涉及 | instance_id,npu | 1分钟 |
npu_roce_rx_rate | (Agent) NPU网卡下行速率 | 该指标用于统计NPU卡内网卡的下行速率。 | ≥0 | MB/s | 不涉及 | instance_id,npu | 1分钟 |
npu_mac_tx_mac_pause_num | (Agent) MAC发送pause帧总数 | 该指标用于统计NPU卡对应MAC地址发送的pause帧总报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_mac_rx_mac_pause_num | (Agent) MAC接收pause帧总数 | 该指标用于统计NPU卡对应MAC地址接收的pause帧总报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_mac_tx_pfc_pkt_num | (Agent) MAC发送pfc帧总数 | 该指标用于统计NPU卡对应MAC地址发送的PFC帧总报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_mac_rx_pfc_pkt_num | (Agent) MAC接收pfc帧总数 | 该指标用于统计NPU卡对应MAC地址接收的PFC帧总报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_mac_tx_bad_pkt_num | (Agent) MAC发送坏包总数 | 该指标用于统计NPU卡对应MAC地址发送的坏包总数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_mac_rx_bad_pkt_num | (Agent) MAC接收坏包总数 | 该指标用于统计NPU卡对应MAC地址接收的坏包总数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_roce_tx_err_pkt_num | (Agent) RoCE发送坏包总数 | 该指标用于统计NPU卡内RoCE网卡发送的坏包总数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_roce_rx_err_pkt_num | (Agent) RoCE接收坏包总数 | 该指标用于统计NPU卡内RoCE网卡接收的坏包总数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_temperature | (Agent)NPU光模块壳温 | 该指标用于统计NPU光模块壳温。 | 自然数 | °C | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_temperature_high_thres | (Agent)NPU光模块壳温上限 | 该指标用于统计NPU光模块壳温上限。 | 自然数 | °C | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_temperature_low_thres | (Agent)NPU光模块壳温下限 | 该指标用于统计NPU光模块壳温下限。 | 自然数 | °C | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_voltage | (Agent)NPU光模块供电电压 | 该指标用于统计NPU光模块供电电压。 | 自然数 | mV | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_voltage_high_thres | (Agent)NPU光模块供电电压上限 | 该指标用于统计NPU光模块供电电压上限。 | 自然数 | mV | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_voltage_low_thres | (Agent)NPU光模块供电电压下限 | 该指标用于统计NPU光模块供电电压下限。 | 自然数 | mV | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_tx_power_lane0 | (Agent)NPU光模块通道0发送功率 | 该指标用于统计NPU光模块通道0发送功率。 | ≥0 | mW | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_tx_power_lane1 | (Agent)NPU光模块通道1发送功率 | 该指标用于统计NPU光模块通道1发送功率。 | ≥0 | mW | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_tx_power_lane2 | (Agent)NPU光模块通道2发送功率 | 该指标用于统计NPU光模块通道2发送功率。 | ≥0 | mW | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_tx_power_lane3 | (Agent)NPU光模块通道3发送功率 | 该指标用于统计NPU光模块通道3发送功率。 | ≥0 | mW | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_rx_power_lane0 | (Agent)NPU光模块通道0接收功率 | 该指标用于统计NPU光模块通道0接收功率。 | ≥0 | mW | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_rx_power_lane1 | (Agent)NPU光模块通道1接收功率 | 该指标用于统计NPU光模块通道1接收功率。 | ≥0 | mW | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_rx_power_lane2 | (Agent)NPU光模块通道2接收功率 | 该指标用于统计NPU光模块通道2接收功率。 | ≥0 | mW | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_rx_power_lane3 | (Agent)NPU光模块通道3接收功率 | 该指标用于统计NPU光模块通道3接收功率。 | ≥0 | mW | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_tx_bias_lane0 | (Agent)NPU光模块通道0发射偏置电流 | 该指标用于统计NPU光模块通道0发射偏置电流。 | ≥0 | mA | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_tx_bias_lane1 | (Agent)NPU光模块通道1发射偏置电流 | 该指标用于统计NPU光模块通道1发射偏置电流。 | ≥0 | mA | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_tx_bias_lane2 | (Agent)NPU光模块通道2发射偏置电流 | 该指标用于统计NPU光模块通道2发射偏置电流。 | ≥0 | mA | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_tx_bias_lane3 | (Agent)NPU光模块通道3发射偏置电流 | 该指标用于统计NPU光模块通道3发射偏置电流。 | ≥0 | mA | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_tx_los | (Agent)NPU光模块TX Los | 该指标用于统计NPU光模块TX Los flag。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_rx_los | (Agent)NPU光模块RX Los | 该指标用于统计NPU光模块RX Los flag。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro1_0lane_max_consec_sec | (Agent) NPU Macro1 0lane模式最大持续时长 | 该指标用于统计NPU Macro1在检测周期内处于0lane模式的最大持续时长。 | ≥0 | s | 不涉及 | instance_id,npu | 1分钟 |
npu_macro1_0lane_total_sec | (Agent) NPU Macro1 0lane模式持续总时长 | 该指标用于统计NPU Macro1在检测周期内处于0lane模式的持续总时长。 | ≥0 | s | 不涉及 | instance_id,npu | 1分钟 |
npu_macro1_crc_error_cnt | (Agent) NPU Macro1接收错误报文数 | 该指标用于统计NPU Macro1在检测周期内接收的CRC错误报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro1_crc_error_rate | (Agent) NPU Macro1接收误码率 | 该指标用于统计NPU Macro1在检测周期内接收的CRC错误报文数占接收报文数的百分比。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_macro1_retry_cnt | (Agent) NPU Macro1重传报文数 | 该指标用于统计NPU Macro1在检测周期内重传的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro1_rx_cnt | (Agent) NPU Macro1接收报文数 | 该指标用于统计NPU Macro1在检测周期内接收的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro1_serdes_lane0_snr | (Agent) NPU Macro1 Serdes Lane0的信噪比 | 该指标用于统计NPU Macro1 Serdes Lane0的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro1_serdes_lane1_snr | (Agent) NPU Macro1 Serdes Lane1的信噪比 | 该指标用于统计NPU Macro1 Serdes Lane1的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro1_serdes_lane2_snr | (Agent) NPU Macro1 Serdes Lane2的信噪比 | 该指标用于统计NPU Macro1 Serdes Lane2的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro1_serdes_lane3_snr | (Agent) NPU Macro1 Serdes Lane3的信噪比 | 该指标用于统计NPU Macro1 Serdes Lane3的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro1_tx_cnt | (Agent) NPU Macro1发送报文数 | 该指标用于统计NPU Macro1在检测周期内发送的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro2_0lane_max_consec_sec | (Agent) NPU Macro2 0lane模式最大持续时长 | 该指标用于统计NPU Macro2在检测周期内处于0lane模式的最大持续时长。 | ≥0 | s | 不涉及 | instance_id,npu | 1分钟 |
npu_macro2_0lane_total_sec | (Agent) NPU Macro2 0lane模式持续总时长 | 该指标用于统计NPU Macro2在检测周期内处于0lane模式的持续总时长。 | ≥0 | s | 不涉及 | instance_id,npu | 1分钟 |
npu_macro2_crc_error_cnt | (Agent) NPU Macro2接收错误报文数 | 该指标用于统计NPU Macro2在检测周期内接收的CRC错误报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro2_crc_error_rate | (Agent) NPU Macro2接收误码率 | 该指标用于统计NPU Macro2在检测周期内接收的CRC错误报文数占接收报文数的百分比。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_macro2_retry_cnt | (Agent) NPU Macro2重传报文数 | 该指标用于统计NPU Macro2在检测周期内重传的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro2_rx_cnt | (Agent) NPU Macro2接收报文数 | 该指标用于统计NPU Macro2在检测周期内接收的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro2_serdes_lane0_snr | (Agent) NPU Macro2 Serdes Lane0的信噪比 | 该指标用于统计NPU Macro2 Serdes Lane0的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro2_serdes_lane1_snr | (Agent) NPU Macro2 Serdes Lane1的信噪比 | 该指标用于统计NPU Macro2 Serdes Lane1的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro2_serdes_lane2_snr | (Agent) NPU Macro2 Serdes Lane2的信噪比 | 该指标用于统计NPU Macro2 Serdes Lane2的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro2_serdes_lane3_snr | (Agent) NPU Macro2 Serdes Lane3的信噪比 | 该指标用于统计NPU Macro2 Serdes Lane3的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro2_tx_cnt | (Agent) NPU Macro2发送报文数 | 该指标用于统计NPU Macro2在检测周期内发送的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro3_0lane_max_consec_sec | (Agent) NPU Macro3 0lane模式最大持续时长 | 该指标用于统计NPU Macro3在检测周期内处于0lane模式的最大持续时长。 | ≥0 | s | 不涉及 | instance_id,npu | 1分钟 |
npu_macro3_0lane_total_sec | (Agent) NPU Macro3 0lane模式持续总时长 | 该指标用于统计NPU Macro3在检测周期内处于0lane模式的持续总时长。 | ≥0 | s | 不涉及 | instance_id,npu | 1分钟 |
npu_macro3_crc_error_cnt | (Agent) NPU Macro3接收错误报文数 | 该指标用于统计NPU Macro3在检测周期内接收的CRC错误报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro3_crc_error_rate | (Agent) NPU Macro3接收误码率 | 该指标用于统计NPU Macro3在检测周期内接收的CRC错误报文数占接收报文数的百分比。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_macro3_retry_cnt | (Agent) NPU Macro3重传报文数 | 该指标用于统计NPU Macro3在检测周期内重传的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro3_rx_cnt | (Agent) NPU Macro3接收报文数 | 该指标用于统计NPU Macro3在检测周期内接收的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro3_serdes_lane0_snr | (Agent) NPU Macro3 Serdes Lane0的信噪比 | 该指标用于统计NPU Macro3 Serdes Lane0的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro3_serdes_lane1_snr | (Agent) NPU Macro3 Serdes Lane1的信噪比 | 该指标用于统计NPU Macro3 Serdes Lane1的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro3_serdes_lane2_snr | (Agent) NPU Macro3 Serdes Lane2的信噪比 | 该指标用于统计NPU Macro3 Serdes Lane2的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro3_serdes_lane3_snr | (Agent) NPU Macro3 Serdes Lane3的信噪比 | 该指标用于统计NPU Macro3 Serdes Lane3的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro3_tx_cnt | (Agent) NPU Macro3发送报文数 | 该指标用于统计NPU Macro3在检测周期内发送的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro4_0lane_max_consec_sec | (Agent) NPU Macro4 0lane模式最大持续时长 | 该指标用于统计NPU Macro4在检测周期内处于0lane模式的最大持续时长。 | ≥0 | s | 不涉及 | instance_id,npu | 1分钟 |
npu_macro4_0lane_total_sec | (Agent) NPU Macro4 0lane模式持续总时长 | 该指标用于统计NPU Macro4在检测周期内处于0lane模式的持续总时长。 | ≥0 | s | 不涉及 | instance_id,npu | 1分钟 |
npu_macro4_crc_error_cnt | (Agent) NPU Macro4接收错误报文数 | 该指标用于统计NPU Macro4在检测周期内接收的CRC错误报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro4_crc_error_rate | (Agent) NPU Macro4接收误码率 | 该指标用于统计NPU Macro4在检测周期内接收的CRC错误报文数占接收报文数的百分比。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_macro4_retry_cnt | (Agent) NPU Macro4重传报文数 | 该指标用于统计NPU Macro4在检测周期内重传的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro4_rx_cnt | (Agent) NPU Macro4接收报文数 | 该指标用于统计NPU Macro4在检测周期内接收的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro4_serdes_lane0_snr | (Agent) NPU Macro4 Serdes Lane0的信噪比 | 该指标用于统计NPU Macro4 Serdes Lane0的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro4_serdes_lane1_snr | (Agent) NPU Macro4 Serdes Lane1的信噪比 | 该指标用于统计NPU Macro4 Serdes Lane1的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro4_serdes_lane2_snr | (Agent) NPU Macro4 Serdes Lane2的信噪比 | 该指标用于统计NPU Macro4 Serdes Lane2的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro4_serdes_lane3_snr | (Agent) NPU Macro4 Serdes Lane3的信噪比 | 该指标用于统计NPU Macro4 Serdes Lane3的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro4_tx_cnt | (Agent) NPU Macro4发送报文数 | 该指标用于统计NPU Macro4在检测周期内发送的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro5_0lane_max_consec_sec | (Agent) NPU Macro5 0lane模式最大持续时长 | 该指标用于统计NPU Macro5在检测周期内处于0lane模式的最大持续时长。 | ≥0 | s | 不涉及 | instance_id,npu | 1分钟 |
npu_macro5_0lane_total_sec | (Agent) NPU Macro5 0lane模式持续总时长 | 该指标用于统计NPU Macro5在检测周期内处于0lane模式的持续总时长。 | ≥0 | s | 不涉及 | instance_id,npu | 1分钟 |
npu_macro5_crc_error_cnt | (Agent) NPU Macro5接收错误报文数 | 该指标用于统计NPU Macro5在检测周期内接收的CRC错误报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro5_crc_error_rate | (Agent) NPU Macro5接收误码率 | 该指标用于统计NPU Macro5在检测周期内接收的CRC错误报文数占接收报文数的百分比。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_macro5_retry_cnt | (Agent) NPU Macro5重传报文数 | 该指标用于统计NPU Macro5在检测周期内重传的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro5_rx_cnt | (Agent) NPU Macro5接收报文数 | 该指标用于统计NPU Macro5在检测周期内接收的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro5_serdes_lane0_snr | (Agent) NPU Macro5 Serdes Lane0的信噪比 | 该指标用于统计NPU Macro5 Serdes Lane0的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro5_serdes_lane1_snr | (Agent) NPU Macro5 Serdes Lane1的信噪比 | 该指标用于统计NPU Macro5 Serdes Lane1的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro5_serdes_lane2_snr | (Agent) NPU Macro5 Serdes Lane2的信噪比 | 该指标用于统计NPU Macro5 Serdes Lane2的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro5_serdes_lane3_snr | (Agent) NPU Macro5 Serdes Lane3的信噪比 | 该指标用于统计NPU Macro5 Serdes Lane3的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro5_tx_cnt | (Agent) NPU Macro5发送报文数 | 该指标用于统计NPU Macro5在检测周期内发送的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro6_0lane_max_consec_sec | (Agent) NPU Macro6 0lane模式最大持续时长 | 该指标用于统计NPU Macro6在检测周期内处于0lane模式的最大持续时长。 | ≥0 | s | 不涉及 | instance_id,npu | 1分钟 |
npu_macro6_0lane_total_sec | (Agent) NPU Macro6 0lane模式持续总时长 | 该指标用于统计NPU Macro6在检测周期内处于0lane模式的持续总时长。 | ≥0 | s | 不涉及 | instance_id,npu | 1分钟 |
npu_macro6_crc_error_cnt | (Agent) NPU Macro6接收错误报文数 | 该指标用于统计NPU Macro6在检测周期内接收的CRC错误报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro6_crc_error_rate | (Agent) NPU Macro6接收误码率 | 该指标用于统计NPU Macro6在检测周期内接收的CRC错误报文数占接收报文数的百分比。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_macro6_retry_cnt | (Agent) NPU Macro6重传报文数 | 该指标用于统计NPU Macro6在检测周期内重传的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro6_rx_cnt | (Agent) NPU Macro6接收报文数 | 该指标用于统计NPU Macro6在检测周期内接收的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro6_serdes_lane0_snr | (Agent) NPU Macro6 Serdes Lane0的信噪比 | 该指标用于统计NPU Macro6 Serdes Lane0的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro6_serdes_lane1_snr | (Agent) NPU Macro6 Serdes Lane1的信噪比 | 该指标用于统计NPU Macro6 Serdes Lane1的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro6_serdes_lane2_snr | (Agent) NPU Macro6 Serdes Lane2的信噪比 | 该指标用于统计NPU Macro6 Serdes Lane2的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro6_serdes_lane3_snr | (Agent) NPU Macro6 Serdes Lane3的信噪比 | 该指标用于统计NPU Macro6 Serdes Lane3的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro6_tx_cnt | (Agent) NPU Macro6发送报文数 | 该指标用于统计NPU Macro6在检测周期内发送的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro7_0lane_max_consec_sec | (Agent) NPU Macro7 0lane模式最大持续时长 | 该指标用于统计NPU Macro7在检测周期内处于0lane模式的最大持续时长。 | ≥0 | s | 不涉及 | instance_id,npu | 1分钟 |
npu_macro7_0lane_total_sec | (Agent) NPU Macro7 0lane模式持续总时长 | 该指标用于统计NPU Macro7在检测周期内处于0lane模式的持续总时长。 | ≥0 | s | 不涉及 | instance_id,npu | 1分钟 |
npu_macro7_crc_error_cnt | (Agent) NPU Macro7接收错误报文数 | 该指标用于统计NPU Macro7在检测周期内接收的CRC错误报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro7_crc_error_rate | (Agent) NPU Macro7接收误码率 | 该指标用于统计NPU Macro7在检测周期内接收的CRC错误报文数占接收报文数的百分比。 | 0-100 | % | 不涉及 | instance_id,npu | 1分钟 |
npu_macro7_retry_cnt | (Agent) NPU Macro7重传报文数 | 该指标用于统计NPU Macro7在检测周期内重传的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro7_rx_cnt | (Agent) NPU Macro7接收报文数 | 该指标用于统计NPU Macro7在检测周期内接收的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_macro7_serdes_lane0_snr | (Agent) NPU Macro7 Serdes Lane0的信噪比 | 该指标用于统计NPU Macro7 Serdes Lane0的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro7_serdes_lane1_snr | (Agent) NPU Macro7 Serdes Lane1的信噪比 | 该指标用于统计NPU Macro7 Serdes Lane1的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro7_serdes_lane2_snr | (Agent) NPU Macro7 Serdes Lane2的信噪比 | 该指标用于统计NPU Macro7 Serdes Lane2的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro7_serdes_lane3_snr | (Agent) NPU Macro7 Serdes Lane3的信噪比 | 该指标用于统计NPU Macro7 Serdes Lane3的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_macro7_tx_cnt | (Agent) NPU Macro7发送报文数 | 该指标用于统计NPU Macro7在检测周期内发送的报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_media_snr_lane0 | (Agent) NPU光模块通道0光侧信噪比 | 该指标用于统计NPU光模块通道0的media侧(光侧)的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_media_snr_lane1 | (Agent) NPU光模块通道1光侧信噪比 | 该指标用于统计NPU光模块通道1的media侧(光侧)的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_media_snr_lane2 | (Agent) NPU光模块通道2光侧信噪比 | 该指标用于统计NPU光模块通道2的media侧(光侧)的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_opt_media_snr_lane3 | (Agent) NPU光模块通道3光侧信噪比 | 该指标用于统计NPU光模块通道3的media侧(光侧)的信噪比。 | 自然数 | db | 不涉及 | instance_id,npu | 1分钟 |
npu_roce_new_pkt_rty_num | (Agent) NPU RoCE的重传报文数 | 该指标用于统计NPU RoCE发送的重传的数量统计。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_roce_out_of_order_num | (Agent) NPU RoCE接收的PSN异常报文数 | 该指标用于统计NPU RoCE接收的PSN>预期PSN的报文,或重复PSN报文数。乱序或丢包,会触发重传。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_roce_rx_all_pkt_num | (Agent) NPU RoCE接收总报文数 | 该指标用于统计NPU RoCE接收的总报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_roce_rx_cnp_pkt_num | (Agent) NPU RoCE接收的CNP类型报文数 | 该指标用于统计NPU RoCE接收的CNP类型报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_roce_tx_all_pkt_num | (Agent) NPU RoCE发送总报文数 | 该指标用于统计NPU RoCE发送的总报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_roce_tx_cnp_pkt_num | (Agent) NPU RoCE发送的CNP类型报文数 | 该指标用于统计NPU RoCE发送的CNP类型报文数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
npu_roce_tx_err_pkt_num | (Agent) RoCE发送坏包总数 | 该指标用于统计NPU推理卡内RoCE网卡发送的坏包总数。 | ≥0 | count | 不涉及 | instance_id,npu | 1分钟 |
对于有多层测量维度的测量对象,使用接口查询监控指标时,需要代入具体指标的维度层级关系。
例如,需要查询裸金属服务器中磁盘挂载点的剩余存储量(disk_free),该指标的维度信息为“instance_id,mount_point”,表示instance_id为0层,mount_point为1层。
- 通过API查询单个监控指标时,mount_point的维度信息代入样例如下:
dim.0=instance_id,3d65c1ac-9a9f-4c5f-a054-35184a087bb2&dim.1=mount_point,6666cd76f96956469e7be39d750cc7d9
其中,3d65c1ac-9a9f-4c5f-a054-35184a087bb2和6666cd76f96956469e7be39d750cc7d9分别为instance_id和mount_point的维度值,具体获取方法请参见“维度”表格中的获取指导。
- 通过API批量查询监控指标时,mount_point的维度信息代入样例如下:
"dimensions": [ { "name": "instance_id", "value": "3d65c1ac-9a9f-4c5f-a054-35184a087bb2" }, { "name": "mount_point", "value": "6666cd76f96956469e7be39d750cc7d9" } ]其中,3d65c1ac-9a9f-4c5f-a054-35184a087bb2和6666cd76f96956469e7be39d750cc7d9分别为instance_id和mount_point的维度值,具体获取方法请参见“维度”表格中的获取指导。

