更新时间:2025-07-18 GMT+08:00
分享

Agent支持的指标列表

操作系统指标: CPU

指标

指标名称

指标说明

取值范围

单位

进制

支持版本

监控周期(原始指标)

cpu_usage

(Agent)CPU使用率

该指标用于统计测量对象当前CPU使用率。

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出cpu使用率。用户可以通过top命令查看 %Cpu(s)值。
  • 采集方式(Windows):通过WindowsAPI GetSystemTimes获取

0-100

%

不涉及

2.4.1

1分钟

cpu_usage_idle

(Agent)CPU空闲时间占比

该指标用于统计测量对象当前CPU空闲时间占比。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出CPU空闲时间占比。
  • 采集方式(Windows):通过WindowsAPI GetSystemTimes获取

0-100

%

不涉及

2.4.5

1分钟

cpu_usage_other

(Agent)其他CPU使用率

该指标用于统计测量对象其他CPU使用率。

  • 采集方式(Linux):其他CPU使用率=1- 空闲CPU使用率(%)- 内核空间CPU使用率- 用户空间CPU使用率。
  • 采集方式(Windows):其他CPU使用率=1- 空闲CPU使用率(%)- 内核空间CPU使用率- 用户空间CPU使用率。

0-100

%

不涉及

2.4.5

1分钟

cpu_usage_system

(Agent)内核空间CPU使用率

该指标用于统计测量对象当前内核空间占用CPU使用率。

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出内核空间CPU使用率。用户可以通过top命令查看 %Cpu(s) sy值。
  • 采集方式(Windows):通过WindowsAPI GetSystemTimes获取

0-100

%

不涉及

2.4.5

1分钟

cpu_usage_user

(Agent)用户空间CPU使用率

该指标用于统计测量对象当前用户空间占用CPU使用率。

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出cpu使用率。用户可以通过top命令查看 %Cpu(s) us值。
  • 采集方式(Windows):通过WindowsAPI GetSystemTimes获取

0-100

%

不涉及

2.4.5

1分钟

cpu_usage_nice

(Agent)Nice进程CPU使用率

该指标用于统计测量对象当前Nice进程CPU使用率。

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出Nice进程CPU使用率。用户可以通过top命令查看 %Cpu(s) ni值。
  • 采集方式(Windows):暂不支持。

0-100

%

不涉及

2.4.5

1分钟

cpu_usage_iowait

(Agent)iowait状态占比

该指标用于统计测量对象当前iowait状态占用CPU的比率。

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出iowait状态占比。用户可以通过top命令查看 %Cpu(s) wa值。
  • 采集方式(Windows):暂不支持。

0-100

%

不涉及

2.4.5

1分钟

cpu_usage_irq

(Agent)CPU中断时间占比

该指标用于统计测量对象当前CPU处理中断用时占用CPU时间的比率。

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出CPU中断时间占比。用户可以通过top命令查看 %Cpu(s) hi值。
  • 采集方式(Windows):暂不支持。

0-100

%

不涉及

2.4.5

1分钟

cpu_usage_softirq

(Agent)CPU软中断时间占比

该指标用于统计测量对象当前CPU处理软中断时间占用CPU时间的比率。

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出CPU软中断时间占比。用户可以通过top命令查看 %Cpu(s) si值。
  • 采集方式(Windows):暂不支持。

0-100

%

不涉及

2.4.5

1分钟

操作系统监控指标: CPU负载

指标

指标名称

指标说明

取值范围

单位

进制

支持版本

监控周期(原始指标)

load_average1

(Agent) 1分钟平均负载

该指标用于统计测量对象过去1分钟的CPU平均负载。

  • 采集方式(Linux):通过/proc/loadavg中load1/逻辑CPU个数得到。用户可以通过top命令查看load1值。

≥0

不涉及

2.4.1

1分钟

load_average5

(Agent) 5分钟平均负载

该指标用于统计测量对象过去5分钟的CPU平均负载。

  • 采集方式(Linux):通过/proc/loadavg中load5/逻辑CPU个数得到。用户可以通过top命令查看load5值。

≥0

不涉及

2.4.1

1分钟

load_average15

(Agent) 15分钟平均负载

该指标用于统计测量对象过去15分钟的CPU平均负载。

  • 采集方式(Linux):通过/proc/loadavg中load15/逻辑CPU个数得到。用户可以通过top命令查看load15值。

≥0

不涉及

2.4.1

1分钟

操作系统监控指标: 内存

指标

指标名称

指标说明

取值范围

单位

进制

支持版本

监控周期(原始指标)

mem_available

(Agent)可用内存

该指标用于统计测量对象的可用内存。

  • 采集方式(Linux):通过/proc/meminfo文件获取,

    若/proc/meminfo中显示MemAvailable,则直接可得

    若/proc/meminfo中不显示MemAvailable,则MemAvailable=MemFree+Buffers+Cached

  • 采集方式(Windows):计算方法为(内存总量-已用内存量)。通过WindowsAPI GlobalMemoryStatusEx获取。

≥0

GB

不涉及

2.4.5

1分钟

mem_usedPercent

(Agent)内存使用率

该指标用于统计测量对象的内存使用率。

  • 采集方式(Linux):通过/proc/meminfo文件获取,(MemTotal-MemAvailable)/MemTotal

    若/proc/meminfo中显示MemAvailable,则MemUsedPercent=(MemTotal-MemAvailable)/MemTotal

    若/proc/meminfo中不显示MemAvailable,则MemUsedPercent=(MemTotal-MemFree-Buffers-Cached)/MemTotal

  • 采集方式(Windows):计算方法为( 已用内存量/内存总量*100%)。

0-100

%

不涉及

2.4.1

1分钟

mem_free

(Agent)空闲内存量

该指标用于统计测量对象的空闲内存量。

  • 采集方式(Linux):通过/proc/meminfo获取。
  • 采集方式(Windows):暂不支持。

≥0

GB

不涉及

2.4.5

1分钟

mem_buffers

(Agent)Buffers占用量

该指标用于统计测量对象的Buffers内存量。

  • 采集方式(Linux):通过/proc/meminfo获取。用户可以通过top命令查看 KiB Mem:buffers值。
  • 采集方式(Windows):暂不支持。

≥0

GB

不涉及

2.4.5

1分钟

mem_cached

(Agent)Cache占用量

该指标用于统计测量对象Cache内存量。

  • 采集方式(Linux):通过/proc/meminfo获取。用户可以通过top命令查看 KiB Swap:cached Mem值。
  • 采集方式(Windows):暂不支持。

≥0

GB

不涉及

2.4.5

1分钟

total_open_files

(Agent)文件句柄总数

该指标用于统计测量对象的所有进程使用的句柄总和。

  • 采集方式(Linux):通过/proc/{pid}/fd文件汇总所有进程使用的句柄数。
  • 采集方式(Windows):暂不支持。

≥0

不涉及

2.4.5

1分钟

操作系统监控指标: 磁盘

CES Agent目前仅支持物理磁盘指标的采集,不支持通过网络文件系统协议挂载的磁盘。

CES Agent会默认屏蔽docker相关的挂载点。挂载点前缀如下:

/var/lib/docker;/mnt/paas/kubernetes;/var/lib/mesos

指标

指标名称

指标说明

取值范围

单位

进制

支持版本

监控周期(原始指标)

disk_free

(Agent)磁盘剩余存储量

该指标用于统计测量对象磁盘的剩余存储空间。

  • 采集方式(Linux):执行df -h命令,查看Avail列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
  • 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥0

GB

不涉及

2.4.1

1分钟

disk_total

(Agent)磁盘存储总量

该指标用于统计测量对象磁盘存储总量。

  • 采集方式(Linux):执行df -h命令,查看Size列数据。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥0

GB

不涉及

2.4.5

1分钟

disk_used

(Agent)磁盘已用存储量

该指标用于统计测量对象磁盘的已用存储空间。

  • 采集方式(Linux):执行df -h命令,查看Used列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
  • 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥0

GB

不涉及

2.4.5

1分钟

disk_usedPercent

(Agent)磁盘使用率

该指标用于统计测量对象磁盘使用率,以百分比为单位。计算方式为: 磁盘已用存储量/磁盘存储总量。

  • 采集方式(Linux):通过计算Used/Size得出。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~
  • 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

0-100

%

不涉及

2.4.1

1分钟

操作系统监控指标: 磁盘IO

指标

指标名称

指标说明

取值范围

单位

进制

支持版本

监控周期(原始指标)

disk_agt_read_bytes_rate

(Agent)磁盘读速率

该指标用于统计每秒从测量对象读出数据量。

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化得出磁盘读速率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):

    使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

    高CPU情况下存在获取超时的现象,会导致无法获取监控数据。

≥ 0

byte/s

1024(IEC)

2.4.5

1分钟

disk_agt_read_requests_rate

(Agent)磁盘读操作速率

该指标用于统计每秒从测量对象读取数据的请求次数。

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第四列数据的变化得出磁盘读操作速率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):

    使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

    高CPU情况下存在获取超时的现象,会导致无法获取监控数据。

≥ 0

Request/s

不涉及

2.4.5

1分钟

disk_agt_write_bytes_rate

(Agent)磁盘写速率

该指标用于统计每秒写到测量对象的数据量。

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化得出磁盘写速率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):

    使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

    高CPU情况下存在获取超时的现象,会导致无法获取监控数据。

≥ 0

byte/s

1024(IEC)

2.4.5

1分钟

disk_agt_write_requests_rate

(Agent)磁盘写操作速率

该指标用于统计每秒向测量对象写数据的请求次数。

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第八列数据的变化得出磁盘写操作速率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):

    使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

    高CPU情况下存在获取超时的现象,会导致无法获取监控数据。

≥ 0

Request/s

不涉及

2.4.5

1分钟

disk_readTime

(Agent)读操作平均耗时

该指标用于统计测量对象磁盘读操作平均耗时。

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第七列数据的变化得出磁盘读操作平均耗时。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0

ms/count

不涉及

2.4.5

1分钟

disk_writeTime

(Agent)写操作平均耗时

该指标用于统计测量对象磁盘写操作平均耗时。

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十一列数据的变化得出磁盘写操作平均耗时。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0

ms/count

不涉及

2.4.5

1分钟

disk_ioUtils

(Agent)磁盘I/O使用率

该指标用于统计测量对象磁盘I/O使用率。

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化得出磁盘I/O使用率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

0-100

%

不涉及

2.4.1

1分钟

disk_queue_length

(Agent)平均队列长度

该指标用于统计指定时间段内,平均等待完成的读取或写入操作请求的数量

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十四列数据的变化得出磁盘平均队列长度。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0

count

不涉及

2.4.5

1分钟

disk_write_bytes_per_operation

(Agent)平均写操作大小

该指标用于统计指定时间段内,平均每个写I/O操作传输的字节数。

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化与第八列数据的变化相除得出磁盘平均写操作大小。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0

Byte/op

不涉及

2.4.5

1分钟

disk_read_bytes_per_operation

(Agent)平均读操作大小

该指标用于统计指定时间段内,平均每个读I/O操作传输的字节数。

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化与第四列数据的变化相除得出磁盘平均读操作大小。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0

Byte/op

不涉及

2.4.5

1分钟

disk_io_svctm

(Agent)平均I/O服务时长

该指标用于统计指定时间段内,平均每个读或写I/O的操作时长。

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化与第四列数据和第八列数据和的变化相除得出磁盘平均I/O时长。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0

ms/op

不涉及

2.4.5

1分钟

disk_device_used_percent

块设备使用率

该指标用于统计测量对象物理磁盘使用率,以百分比为单位。计算方式为: 所有已挂载磁盘分区已用存储量/磁盘存储总量。

  • 采集方式(Linux):通过汇总每个挂载点的磁盘使用量,再通过磁盘扇区大小和扇区数量计算出磁盘总大小,计算出整体磁盘使用率
  • (Windows):暂不支持。

0-100

%

不涉及

2.5.6

1分钟

操作系统监控指标: 文件系统

指标

指标名称

指标说明

取值范围

单位

进制

支持版本

监控周期(原始指标)

disk_fs_rwstate

(Agent)文件系统读写状态

该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)。

  • 采集方式(Linux):通过读取/proc/mounts中第四列文件系统挂载参数获得。
  • 采集方式(Windows):暂不支持。
  • 0:可读写
  • 1:只读

不涉及

2.4.5

1分钟

disk_inodesTotal

(Agent)inode空间大小

该指标用于统计测量对象当前磁盘的inode空间量。

  • 采集方式(Linux):执行df -i命令,查看Inodes列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
  • 采集方式(Windows):暂不支持。

≥ 0

不涉及

2.4.5

1分钟

disk_inodesUsed

(Agent)inode已使用空间

该指标用于统计测量对象当前磁盘已使用的inode空间量。

  • 采集方式(Linux):执行df -i命令,查看IUsed列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
  • 采集方式(Windows):暂不支持。

≥ 0

不涉及

2.4.5

1分钟

disk_inodesUsedPercent

(Agent)inode已使用占比

该指标用于统计测量对象当前磁盘已使用的inode占比。

  • 采集方式(Linux):执行df -i命令,查看IUse%列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
  • 采集方式(Windows):暂不支持。

0-100

%

不涉及

2.4.1

1分钟

操作系统监控指标: TCP

指标

指标名称

指标说明

取值范围

单位

进制

支持版本

监控周期(原始指标)

net_tcp_total

(Agent) TCP 连接数总和

该指标用于统计测量对象所有状态的TCP连接数总和。

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

count

不涉及

2.4.1

1分钟

net_tcp_established

(Agent) ESTABLISHED状态的连接数量

该指标用于统计测量对象处于ESTABLISHED状态的TCP连接数量。

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

count

不涉及

2.4.1

1分钟

net_tcp_sys_sent

(Agent) TCP SYS_SENT状态的连接数量。

该指标用于统计测量对象处于请求连接状态的TCP连接数量。

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

count

不涉及

2.4.5

1分钟

net_tcp_sys_recv

(Agent) TCP SYS_RECV状态的连接数量。

该指标用于统计测量对象服务器端收到的请求连接的TCP数量。

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

count

不涉及

2.4.5

1分钟

net_tcp_fin_wait1

(Agent) TCP FIN_WAIT1状态的连接数量。

该指标用于统计测量对象客户端主动关闭且没有收到服务端ACK的TCP连接数量。

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

count

不涉及

2.4.5

1分钟

net_tcp_fin_wait2

(Agent) TCP FIN_WAIT2状态的连接数量。

该指标用于统计测量对象处于FIN_WAIT2状态的TCP连接数量。

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

count

不涉及

2.4.5

1分钟

net_tcp_time_wait

(Agent) TCP TIME_WAIT状态的连接数量。

该指标用于统计测量对象处于TIME_WAIT状态的TCP连接数量。

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

count

不涉及

2.4.5

1分钟

net_tcp_close

(Agent) TCP CLOSE状态的连接数量。

该指标用于统计测量对象关闭的或未打开的TCP连接数量。

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

count

不涉及

2.4.5

1分钟

net_tcp_close_wait

(Agent) TCP CLOSE_WAIT状态的连接数量。

该指标用于统计测量对象处于CLOSE_WAIT状态的TCP连接数量。

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

count

不涉及

2.4.5

1分钟

net_tcp_last_ack

(Agent) TCP LAST_ACK状态的连接数量。

该指标用于统计测量对象被动关闭等待ACK报文的TCP连接数量。

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

count

不涉及

2.4.5

1分钟

net_tcp_listen

(Agent) TCP LISTEN状态的连接数量。

该指标用于统计测量对象处于LISTEN状态的TCP连接数量。

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

count

不涉及

2.4.5

1分钟

net_tcp_closing

(Agent) TCP CLOSING状态的连接数量。

该指标用于统计测量对象处于服务端和客户端同时主动关闭状态的TCP连接数量。

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

count

不涉及

2.4.5

1分钟

net_tcp_retrans

(Agent) TCP重传率

该指标用于统计测量对象重新发送的报文数与总发送的报文数之间的比值。

  • 采集方式(Linux):通过从/proc/net/snmp文件中获取对应的数据,计算采集周期内发送包数和重传包数的比值得出。
  • 采集方式(Windows):重传率通过WindowsAPI GetTcpStatistics获取

0-100

%

不涉及

2.4.5

1分钟

操作系统监控指标: 网卡

指标

指标名称

指标说明

取值范围

单位

进制

支持版本

监控周期(原始指标)

net_bitRecv

(Agent)出网带宽

该指标用于统计测量对象网卡每秒发送的比特数。

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。

≥ 0

bit/s

1024(IEC)

2.4.1

1分钟

net_bitSent

(Agent)入网带宽

该指标用于统计测量对象网卡每秒接收的比特数。

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。

≥ 0

bit/s

1024(IEC)

2.4.1

1分钟

net_packetRecv

(Agent)网卡包接收速率

该指标用于统计测量对象网卡每秒接收的数据包数。

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。

≥ 0

Count/s

不涉及

2.4.1

1分钟

net_packetSent

(Agent)网卡包发送速率

该指标用于统计测量对象网卡每秒发送的数据包数。

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。

≥ 0

Count/s

不涉及

2.4.1

1分钟

net_errin

(Agent)接收误包率

该指标用于统计测量对象网卡每秒接收的错误数据包数量占所接收的数据包的比率。

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):暂不支持。

0-100

%

不涉及

2.4.5

1分钟

net_errout

(Agent)发送误包率

该指标用于统计测量对象网卡每秒发送的错误数据包数量占所发送的数据包的比率。

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):暂不支持。

0-100

%

不涉及

2.4.5

1分钟

net_dropin

(Agent)接收丢包率

该指标用于统计测量对象网卡每秒接收并已丢弃的数据包数量占所接收的数据包的比率

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):暂不支持。

0-100

%

不涉及

2.4.5

1分钟

net_dropout

(Agent)发送丢包率

该指标用于统计测量对象网卡每秒发送并已丢弃的数据包数量占所发送的数据包的比率。

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):暂不支持。

0-100

%

不涉及

2.4.5

1分钟

进程监控指标

指标

指标名称

指标说明

取值范围

单位

进制

支持版本

监控周期(原始指标)

proc_pHashId_cpu

(Agent)CPU使用率

进程消耗的CPU百分比,pHashId是(进程名+进程ID)的md5值。

  • 采集方式(Linux):通过计算/proc/pid/stat的变化得出。
  • 采集方式(Windows):通过Windows API GetProcessTimes获取进程CPU使用率。

0-1*CPU核心数

%

不涉及

2.4.1

1分钟

proc_pHashId_mem

(Agent)内存使用率

进程消耗的内存百分比,pHashId是(进程名+进程ID)的md5值。

  • 采集方式(Linux):

    RSS*PAGESIZE/MemTotal

    RSS: 通过获取/proc/pid/statm第二列得到

    PAGESIZE: 通过命令getconf PAGESIZE获取

    MemTotal:通过/proc/meminfo获取

  • 采集方式(Windows):使用Windows API procGlobalMemoryStatusEx获取内存总量,通过GetProcessMemoryInfo获取内存已使用量,计算两者比值得到内存使用率。

0-100

%

不涉及

2.4.1

1分钟

proc_pHashId_file

(Agent)打开文件数

进程打开文件数,pHashId是(进程名+进程ID)的md5值。

  • 采集方式(Linux):通过执行ls -l /proc/pid/fd 可以查看数量。
  • 采集方式(Windows):暂不支持。

≥0

Count

不涉及

2.4.1

1分钟

proc_running_count

(Agent)运行中的进程数

该指标用于统计测量对象处于运行状态的进程数。

  • 采集方式(Linux):通过统计 /proc/pid/status 中Status值获取每个进程的状态,进而统计各个状态进程总数。
  • 采集方式(Windows):暂不支持。

≥0

不涉及

2.4.1

1分钟

proc_idle_count

(Agent)空闲进程数

该指标用于统计测量对象处于空闲状态的进程数。

  • 采集方式(Linux):通过统计 /proc/pid/status 中Status值获取每个进程的状态,进而统计各个状态进程总数。
  • 采集方式(Windows):暂不支持。

≥0

不涉及

2.4.1

1分钟

proc_zombie_count

(Agent)僵死进程数

该指标用于统计测量对象处于僵死状态的进程数。

  • 采集方式(Linux):通过统计 /proc/pid/status 中Status值获取每个进程的状态,进而统计各个状态进程总数。
  • 采集方式(Windows):暂不支持。

≥0

不涉及

2.4.1

1分钟

proc_blocked_count

(Agent)阻塞进程数

该指标用于统计测量对象被阻塞的进程数。

  • 采集方式(Linux):通过统计 /proc/pid/status 中Status值获取每个进程的状态,进而统计各个状态进程总数。
  • 采集方式(Windows):暂不支持。

≥0

不涉及

2.4.1

1分钟

proc_sleeping_count

(Agent)睡眠进程数

该指标用于统计测量对象处于睡眠状态的进程数。

  • 采集方式(Linux):通过统计 /proc/pid/status 中Status值获取每个进程的状态,进而统计各个状态进程总数。
  • 采集方式(Windows):暂不支持。

≥0

不涉及

2.4.1

1分钟

proc_total_count

(Agent)系统进程数

该指标用于统计测量对象的总进程数。

  • 采集方式(Linux):通过统计 /proc/pid/status 中Status值获取每个进程的状态,进而统计各个状态进程总数。
  • 采集方式(Windows):通过psapi.dll系统进程状态支持模块得到进程总数。

≥0

不涉及

2.4.1

1分钟

proc_specified_count

(Agent)指定进程数

该指标用于统计测量对象指定的进程数。

  • 采集方式(Linux):通过统计 /proc/pid/status 中Status值获取每个进程的状态,进而统计各个状态进程总数。
  • 采集方式(Windows):通过psapi.dll系统进程状态支持模块得到进程总数。

≥0

不涉及

2.4.1

1分钟

GPU指标

当GPU服务器存在8张GPU卡并且PM模式为关闭状态时,存在无法采集数据数据的风险。可以通过打开pm模式并重启监控进程进行解决。

指标分类

指标名称

指标说明

取值范围

单位

进制

支持版本

采集周期

GPU指标

gpu_status

虚拟机上GPU健康状态。该指标是一个综合指标。

  • 故障可能:1. ecc超过阈值。2. 显存地址重映射失败。3.gpu卡rev ff。4. infoROM错误。5. 存在待隔离页。6. remapped rows错误。(具体可以看下面详细指标)
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1接口获取gpu状态信息。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll接口获取gpu状态信息。
  • 0:代表健康
  • 1:代表亚健康
  • 2:代表故障

不涉及

2.4.5

1分钟

gpu_performance_state

该GPU的性能状态。

  • P0-P15、P32,
  • P0表示最大性能状态,P15表示最小性能状态,P32表示状态未知。
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetPerformanceState接口获取gpu性能等级。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetPerformanceState接口获取gpu性能等级。
  • P0-P15:P0表示最大性能状态,P15表示最小性能状态
  • P32:P32表示状态未知

不涉及

2.4.1

1分钟

gpu_power_draw

该GPU的功率。

  • 显示当前gpu卡的功率,功率超过最大功率或者是个错误值都可能是gpu硬件故障。
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetPowerUsage接口获取gpu功率。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetPowerUsage接口获取gpu功率。

≥ 0

W

不涉及

2.4.5

1分钟

gpu_temperature

该GPU的温度。

  • 显示当前gpu卡温度值,温度超过最大可操作温度阈值或者是个错误值都可能是gpu硬件故障。
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetTemperature接口获取gpu温度。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetTemperature接口获取gpu温度。

≥ 0

°C

不涉及

2.4.5

1分钟

gpu_usage_gpu

该GPU的算力使用率。

  • 显示当前gpu卡算力使用百分百数据,是采样点瞬时值。
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetUtilizationRates接口获取gpu算力使用率。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetUtilizationRates接口获取gpu算力使用率。

0-100

%

不涉及

2.4.1

1分钟

gpu_usage_mem

该GPU的显存使用率。

  • 显示当前gpu卡显存占用百分比数据,是采样点瞬时值。
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetUtilizationRates接口获取gpu显存使用率。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetUtilizationRates接口获取gpu显存使用率。

0-100

%

不涉及

2.4.1

1分钟

gpu_used_mem

该GPU的显存使用量。

  • 显示当前gpu卡已经使用的显存值数据
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetMemoryInfo接口获取gpu显存使用量。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetMemoryInfo接口获取gpu显存使用量。

≥ 0

MB

不涉及

2.4.5

1分钟

gpu_free_mem

该GPU的显存剩余量。

  • 显示当前gpu卡显存空闲值数据。

  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetMemoryInfo接口获取gpu显存剩余量。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetMemoryInfo接口获取gpu显存剩余量。

≥ 0

MB

不涉及

2.4.5

1分钟

gpu_usage_encoder

该GPU的编码器使用率。

  • 显示当前gpu卡编码器使用百分比数据,是采样点瞬时值。
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetEncoderUtilization接口获取gpu编码能力使用率。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetEncoderUtilization接口获取gpu编码能力使用率。

0-100

%

不涉及

2.4.5

1分钟

gpu_usage_decoder

该GPU的解码器使用率。

  • 显示当前gpu卡解码器使用百分比数据,是采样点瞬时值。
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetDecoderUtilization接口获取gpu解码能力使用率。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetDecoderUtilization接口获取gpu解码能力使用率。

0-100

%

不涉及

2.4.5

1分钟

gpu_graphics_clocks

该GPU的显卡(着色器)时钟频率。

  • 显示当前gpu卡与图形相关的时钟频率,未使用图形能力可不关注。
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetClockInfo接口获取gpu图形时钟频率。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetClockInfo接口获取gpu图形时钟频率。

≥ 0

MHz

不涉及

2.4.5

1分钟

gpu_sm_clocks

该GPU的流式处理器时钟频率。

  • 显示当前gpu卡控制显存运行速度的时钟频率。
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetClockInfo接口获取gpu流式处理器时钟频率。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetClockInfo接口获取gpu流式处理器时钟频率

≥ 0

MHz

不涉及

2.4.5

1分钟

gpu_mem_clocks

该GPU的内存时钟频率。

  • 显示当前gpu卡与CUDA核心计算密切相关的时钟频率。
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetClockInfo接口获取gpu内存时钟频率。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetClockInfo接口获取gpu内存时钟频率

≥ 0

MHz

不涉及

2.4.5

1分钟

gpu_video_clocks

该GPU的视频(包含编解码)时钟频率。

  • 显示当前gpu卡视频编解码的时钟频率。
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetClockInfo接口获取gpu视频时钟频率。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetClockInfo接口获取gpu视频时钟频率

≥ 0

MHz

不涉及

2.4.5

1分钟

gpu_tx_throughput_pci

该GPU的出方向带宽。

  • 显示当前gpu卡通过PCIe发往主机的数据量。
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetPcieThroughput接口获取gpu出方向带宽。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetPcieThroughput接口获取gpu出方向带宽

≥ 0

MByte/s

不涉及

2.4.5

1分钟

gpu_rx_throughput_pci

该GPU的入方向带宽。

  • 显示主机通过PCIe发往当前gpu卡的数据量
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetPcieThroughput接口获取gpu入方向带宽。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetPcieThroughput接口获取gpu入方向带宽

≥ 0

MByte/s

不涉及

2.4.5

1分钟

gpu_volatile_correctable

该GPU重置以来可纠正的ECC错误数量,每次重置后归0。

  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetPcieThroughput接口获取gpu重置以来可纠正的ECC错误数量。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetPcieThroughput接口获取gpu重置以来可纠正的ECC错误数量

≥ 0

count

不涉及

2.4.5

1分钟

gpu_volatile_uncorrectable

该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。

  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetTotalEccErrors/NvmlDeviceGetMemoryErrorCounter接口获取gpu重置以来不可纠正的ECC错误数量。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetTotalEccErrors/NvmlDeviceGetMemoryErrorCounter接口获取gpu重置以来不可纠正的ECC错误数量

≥ 0

count

不涉及

2.4.5

1分钟

gpu_aggregate_correctable

该GPU累计的可纠正ECC错误数量。

  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetTotalEccErrors/NvmlDeviceGetMemoryErrorCounter接口获取gpu累计的可纠正ECC错误数量。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetTotalEccErrors/NvmlDeviceGetMemoryErrorCounter接口获取gpu累计的可纠正ECC错误数量

≥ 0

count

不涉及

2.4.5

1分钟

gpu_aggregate_uncorrectable

该GPU累计的不可纠正ECC错误数量。

  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetTotalEccErrors/NvmlDeviceGetMemoryErrorCounter接口获取gpu累计的不可纠正ECC错误数量。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetTotalEccErrors/NvmlDeviceGetMemoryErrorCounter接口获取gpu累计的不可纠正ECC错误数量

≥ 0

count

不涉及

2.4.5

1分钟

gpu_retired_page_single_bit

retired page single bit 错误数量,表示当前卡隔离的单比特页数。

  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetRetiredPages接口获取gpu隔离的单比特页数。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetRetiredPages接口获取gpu隔离的单比特页数

≥ 0

count

不涉及

2.4.5

1分钟

gpu_retired_page_double_bit

retired page double bit错误数量,表示当前卡隔离的双比特页的数量。

  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的NvmlDeviceGetRetiredPages接口获取gpu隔离的双比特页的数量。
  • 采集方式(windows): 通过调用GPU卡驱动库nvml.dll的NvmlDeviceGetRetiredPages接口获取gpu隔离的双比特页的数量。

≥ 0

count

不涉及

2.4.5

1分钟

gpu_lnkcap_speed

GPU的 PCIe链路中支持的最高速度。

  • 显示gpu卡在PCIe总线上的最大数据吞吐能力。
  • 采集方式(linux):通过调用lspci -d 10de: -vv | grep -i lnkcap来查询GPU卡PCIe链路中支持的最高速度。
  • 采集方式(windows): 通过调用gwmi Win32_Bus -Filter 'DeviceID like "PCI%"').GetRelated('Win32_PnPEntity')查询GPU卡PCIe链路中支持的最高速度。

≥ 0

GT/s

不涉及

2.6.7

1分钟

gpu_lnkcap_width

GPU的 PCIe链路能力中的链路宽度。

  • 显示gpu卡所支持的最大 PCIe 通道数。
  • 采集方式(linux):通过调用lspci -d 10de: -vv | grep -i lnksta来查询GPU卡PCIe链路中支持的最高速度。
  • 采集方式(windows): 通过调用gwmi Win32_Bus -Filter 'DeviceID like "PCI%"').GetRelated('Win32_PnPEntity')查询GPU卡PCIe链路中支持的最高速度。

≥ 0

count

不涉及

2.6.7

1分钟

gpu_lnksta_speed

GPU的 PCIe连接速度。

  • 显示gpu卡所支持的最大 PCIe链路速度。
  • 采集方式(linux):通过调用lspci -d 10de: -vv | grep -i lnkcap来查询GPU卡PCIe连接速度。
  • 采集方式(windows): 不支持查询。

≥ 0

GT/s

不涉及

2.6.7

1分钟

gpu_lnksta_width

GPU的 PCIe链路宽度。

  • 显示gpu卡所支持的最大 PCIe链路通道数。
  • 采集方式(linux):通过调用lspci -d 10de: -vv | grep -i lnksta来查询GPU卡PCIe链路带宽。
  • 采集方式(windows): 不支持查询。

≥ 0

count

不涉及

2.6.7

1分钟

gpu_nvlink_number

GPU的 nvlink的链路数量。

  • 显示gpu卡所支持的nvlink的链路数量,比如A100支持12个nvlink链路。
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的nvmlDeviceGetFieldValue接口获取gpu的 nvlink的链路数量。
  • 采集方式(windows): 不支持查询。

≥ 0

count

不涉及

2.6.7

1分钟

gpu_nvlink_bandwidth

GPU的 nvlink链路宽度。

  • 显示gpu卡所支持的nvlink链路宽度,表示GPU之前进行数据传输的总带宽。
  • 采集方式(linux):通过调用gpu卡驱动库libnvidia-ml.so.1的nvmlDeviceGetFieldValue接口获取gpu 的nvlink链路宽度。
  • 采集方式(windows): 不支持查询。

≥ 0

GB/s

不涉及

2.6.7

1分钟

相关文档