Agent支持的指标列表

Agent2.8.2支持的监控指标目前仅在部分区域上线,其他区域正在陆续上线,具体信息请以控制台页面显示为准。
操作系统指标:CPU
指标 | 指标名称 | 指标说明 | 取值范围 | 单位 | 进制 | 所需的Agent最低版本 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
cpu_usage | (Agent)CPU使用率 | 该指标用于统计测量对象当前CPU使用率。
| 0-100 | % | 不涉及 | 2.4.1 | 1分钟 |
cpu_usage_idle | (Agent)CPU空闲时间占比 | 该指标用于统计测量对象当前CPU空闲时间占比。 单位:百分比
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 |
cpu_usage_other | (Agent)其他CPU使用率 | 该指标用于统计测量对象其他CPU使用率。
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 |
cpu_usage_system | (Agent)内核空间CPU使用率 | 该指标用于统计测量对象当前内核空间占用CPU使用率。
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 |
cpu_usage_user | (Agent)用户空间CPU使用率 | 该指标用于统计测量对象当前用户空间占用CPU使用率。
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 |
cpu_usage_nice | (Agent)Nice进程CPU使用率 | 该指标用于统计测量对象当前Nice进程CPU使用率。
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 |
cpu_usage_iowait | (Agent)iowait状态占比 | 该指标用于统计测量对象当前iowait状态占用CPU的比率。
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 |
cpu_usage_irq | (Agent)CPU中断时间占比 | 该指标用于统计测量对象当前CPU处理中断用时占用CPU时间的比率。
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 |
cpu_usage_softirq | (Agent)CPU软中断时间占比 | 该指标用于统计测量对象当前CPU处理软中断时间占用CPU时间的比率。
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 |
操作系统监控指标:CPU负载
指标 | 指标名称 | 指标说明 | 取值范围 | 单位 | 进制 | 所需的Agent最低版本 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
load_total_average1 | (Agent) 1分钟平均负载 | 该指标用于统计测量对象过去1分钟的CPU平均负载。
| ≥0 | 无 | 不涉及 | 2.8.2 | 1分钟 |
load_total_average5 | (Agent) 5分钟平均负载 | 该指标用于统计测量对象过去5分钟的CPU平均负载。
| ≥0 | 无 | 不涉及 | 2.8.2 | 1分钟 |
load_total_average15 | (Agent) 15分钟平均负载 | 该指标用于统计测量对象过去15分钟的CPU平均负载。
| ≥0 | 无 | 不涉及 | 2.8.2 | 1分钟 |
load_average1 | (Agent) 1分钟单核平均负载 | 该指标用于统计测量对象过去1分钟的CPU单核的平均负载
| ≥0 | 无 | 不涉及 | 2.4.1 | 1分钟 |
load_average5 | (Agent) 5分钟单核平均负载 | 该指标用于统计测量对象过去5分钟的CPU单核的平均负载
| ≥0 | 无 | 不涉及 | 2.4.1 | 1分钟 |
load_average15 | (Agent)15分钟单核平均负载 | 该指标用于统计测量对象过去15分钟的CPU单核的平均负载
| ≥0 | 无 | 不涉及 | 2.4.1 | 1分钟 |
操作系统监控指标:内存
指标 | 指标名称 | 指标说明 | 取值范围 | 单位 | 进制 | 所需的Agent最低版本 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
mem_available | (Agent)可用内存 | 该指标用于统计测量对象的可用内存。 | ≥0 | GB | 不涉及 | 2.4.5 | 1分钟 |
mem_usedPercent | (Agent)内存使用率 | 该指标用于统计测量对象的内存使用率。 | 0-100 | % | 不涉及 | 2.4.1 | 1分钟 |
mem_free | (Agent)空闲内存量 | 该指标用于统计测量对象的空闲内存量。
| ≥0 | GB | 不涉及 | 2.4.5 | 1分钟 |
mem_buffers | (Agent)Buffers占用量 | 该指标用于统计测量对象的Buffers内存量。
| ≥0 | GB | 不涉及 | 2.4.5 | 1分钟 |
mem_cached | (Agent)Cache占用量 | 该指标用于统计测量对象Cache内存量。
| ≥0 | GB | 不涉及 | 2.4.5 | 1分钟 |
total_open_files | (Agent)文件句柄总数 | 该指标用于统计测量对象的所有进程使用的句柄总和。
| ≥0 | Count | 不涉及 | 2.4.5 | 1分钟 |
操作系统监控指标:磁盘

CES Agent目前仅支持物理磁盘指标的采集,不支持通过网络文件系统协议挂载的磁盘。
CES Agent会默认屏蔽docker相关的挂载点。挂载点前缀如下:
/var/lib/docker;/mnt/paas/kubernetes;/var/lib/mesos
指标 | 指标名称 | 指标说明 | 取值范围 | 单位 | 进制 | 所需的Agent最低版本 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
disk_free | (Agent)磁盘剩余存储量 | 该指标用于统计测量对象磁盘的剩余存储空间。
| ≥0 | GB | 不涉及 | 2.4.1 | 1分钟 |
disk_total | (Agent)磁盘存储总量 | 该指标用于统计测量对象磁盘存储总量。 | ≥0 | GB | 不涉及 | 2.4.5 | 1分钟 |
disk_used | (Agent)磁盘已用存储量 | 该指标用于统计测量对象磁盘的已用存储空间。
| ≥0 | GB | 不涉及 | 2.4.5 | 1分钟 |
disk_usedPercent | (Agent)磁盘使用率 | 该指标用于统计测量对象磁盘使用率,以百分比为单位。计算方式为: 磁盘已用存储量/磁盘存储总量。
| 0-100 | % | 不涉及 | 2.4.1 | 1分钟 |
disk_rwstate | (Agent)磁盘读写状态 | 该指标用于统计测量对象挂载磁盘的读写状态。状态分为:可读写(0)/只读(1)。
|
| 无 | 不涉及 | 2.5.6 | 1分钟 |
操作系统监控指标:磁盘IO
操作系统监控指标:文件系统
指标 | 指标名称 | 指标说明 | 取值范围 | 单位 | 进制 | 所需的Agent最低版本 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
disk_fs_rwstate | (Agent)文件系统读写状态 | 该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)。
|
| 无 | 不涉及 | 2.4.5 | 1分钟 |
disk_inodesTotal | (Agent)inode空间大小 | 该指标用于统计测量对象当前磁盘的inode空间量。
| ≥ 0 | 无 | 不涉及 | 2.4.5 | 1分钟 |
disk_inodesUsed | (Agent)inode已使用空间 | 该指标用于统计测量对象当前磁盘已使用的inode空间量。
| ≥ 0 | 无 | 不涉及 | 2.4.5 | 1分钟 |
disk_inodesUsedPercent | (Agent)inode已使用占比 | 该指标用于统计测量对象当前磁盘已使用的inode占比。
| 0-100 | % | 不涉及 | 2.4.1 | 1分钟 |
操作系统监控指标:NTP
指标 | 指标名称 | 指标说明 | 取值范围 | 单位 | 进制 | 所需的Agent最低版本 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
ntp_offset | (Agent) NTP偏移量 | 该指标用于统计测量对象当前NTP偏移量。
| ≥ 0 | ms | 不涉及 | 2.7.1 | 1分钟 |
操作系统监控指标:TCP连接数
TCP连接数默认采集 (Agent) TCP TOTAL和(Agent) TCP ESTABLISHED 两个基础指标。
指标 | 指标名称 | 指标说明 | 取值范围 | 单位 | 进制 | 所需的Agent最低版本 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
net_tcp_total | (Agent) TCP 连接数总和 | 该指标用于统计测量对象所有状态的TCP连接数总和。
| ≥ 0 | count | 不涉及 | 2.4.1 | 1分钟 |
net_tcp_established | (Agent) ESTABLISHED状态的连接数量 | 该指标用于统计测量对象处于ESTABLISHED状态的TCP连接数量。
| ≥ 0 | count | 不涉及 | 2.4.1 | 1分钟 |
net_tcp_sys_sent | (Agent) TCP SYS_SENT状态的连接数量。 | 该指标用于统计测量对象处于请求连接状态的TCP连接数量。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 |
net_tcp_sys_recv | (Agent) TCP SYS_RECV状态的连接数量。 | 该指标用于统计测量对象服务器端收到的请求连接的TCP数量。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 |
net_tcp_fin_wait1 | (Agent) TCP FIN_WAIT1状态的连接数量。 | 该指标用于统计测量对象客户端主动关闭且没有收到服务端ACK的TCP连接数量。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 |
net_tcp_fin_wait2 | (Agent) TCP FIN_WAIT2状态的连接数量。 | 该指标用于统计测量对象处于FIN_WAIT2状态的TCP连接数量。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 |
net_tcp_time_wait | (Agent) TCP TIME_WAIT连接数。 | 该指标用于统计测量对象处于TIME_WAIT状态的TCP连接数量。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 |
net_tcp_close | (Agent) TCP CLOSE状态的连接数量。 | 该指标用于统计测量对象关闭的或未打开的TCP连接数量。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 |
net_tcp_close_wait | (Agent) TCP CLOSE_WAIT连接数。 | 该指标用于统计测量对象处于CLOSE_WAIT状态的TCP连接数量。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 |
net_tcp_last_ack | (Agent) TCP LAST_ACK状态的连接数量。 | 该指标用于统计测量对象被动关闭等待ACK报文的TCP连接数量。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 |
net_tcp_listen | (Agent) TCP LISTEN状态的连接数量。 | 该指标用于统计测量对象处于LISTEN状态的TCP连接数量。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 |
net_tcp_closing | (Agent) TCP CLOSING状态的连接数量。 | 该指标用于统计测量对象处于服务端和客户端同时主动关闭状态的TCP连接数量。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 |
net_tcp_retrans | (Agent) TCP重传率 | 该指标用于统计测量对象重新发送的报文数与总发送的报文数之间的比值。
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 |
操作系统监控指标:网卡
指标 | 指标名称 | 指标说明 | 取值范围 | 单位 | 进制 | 所需的Agent最低版本 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
net_bitRecv | (Agent)出网带宽 | 该指标用于统计测量对象网卡每秒发送的比特数。
| ≥ 0 | bit/s | 1024(IEC) | 2.4.1 | 1分钟 |
net_bitSent | (Agent)入网带宽 | 该指标用于统计测量对象网卡每秒接收的比特数。
| ≥ 0 | bit/s | 1024(IEC) | 2.4.1 | 1分钟 |
net_packetRecv | (Agent)网卡包接收速率 | 该指标用于统计测量对象网卡每秒接收的数据包数。
| ≥ 0 | Count/s | 不涉及 | 2.4.1 | 1分钟 |
net_packetSent | (Agent)网卡包发送速率 | 该指标用于统计测量对象网卡每秒发送的数据包数。
| ≥ 0 | Count/s | 不涉及 | 2.4.1 | 1分钟 |
net_errin | (Agent)接收误包率 | 该指标用于统计测量对象网卡每秒接收的错误数据包数量占所接收的数据包的比率。
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 |
net_errout | (Agent)发送误包率 | 该指标用于统计测量对象网卡每秒发送的错误数据包数量占所发送的数据包的比率。
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 |
net_dropin | (Agent)接收丢包率 | 该指标用于统计测量对象网卡每秒接收并已丢弃的数据包数量占所接收的数据包的比率
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 |
net_dropout | (Agent)发送丢包率 | 该指标用于统计测量对象网卡每秒发送并已丢弃的数据包数量占所发送的数据包的比率。
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 |
net_connections_usage | (Agent) 网络连接数使用率 | 该指标表示TCP和UDP的总连接数的使用率
| 0-100 | % | 不涉及 | 2.8.2 | 1分钟 |
net_bitRecv_usage | (Agent) 虚拟机入方向带宽使用率 | 该指标表示虚拟机每秒接收的比特数占设定的最大带宽的比特数的比率
| 0-100 | % | 不涉及 | 2.8.2 | 1分钟 |
net_bitSent_usage | (Agent) 虚拟机出方向带宽使用率 | 该指标表示虚拟机每秒发送的比特数占设定的最大带宽的比特数的比率
| 0-100 | % | 不涉及 | 2.8.2 | 1分钟 |
进程监控指标
指标 | 指标名称 | 指标说明 | 取值范围 | 单位 | 进制 | 所需的Agent最低版本 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
proc_pHashId_cpu | (Agent)CPU使用率 | 进程消耗的CPU百分比,pHashId是(进程名+进程ID)的md5值。
| 0-1*CPU核心数 | % | 不涉及 | 2.4.1 | 1分钟 |
proc_pHashId_mem | (Agent)内存使用率 | 进程消耗的内存百分比,pHashId是(进程名+进程ID)的md5值。 | 0-100 | % | 不涉及 | 2.4.1 | 1分钟 |
proc_pHashId_file | (Agent)打开文件数 | 进程打开文件数,pHashId是(进程名+进程ID)的md5值。
| ≥0 | Count | 不涉及 | 2.4.1 | 1分钟 |
proc_running_count | (Agent)运行中的进程数 | 该指标用于统计测量对象处于运行状态的进程数。
| ≥0 | 无 | 不涉及 | 2.4.1 | 1分钟 |
proc_idle_count | (Agent)空闲进程数 | 该指标用于统计测量对象处于空闲状态的进程数。
| ≥0 | 无 | 不涉及 | 2.4.1 | 1分钟 |
proc_zombie_count | (Agent)僵死进程数 | 该指标用于统计测量对象处于僵死状态的进程数。
| ≥0 | 无 | 不涉及 | 2.4.1 | 1分钟 |
proc_blocked_count | (Agent)阻塞进程数 | 该指标用于统计测量对象被阻塞的进程数。
| ≥0 | 无 | 不涉及 | 2.4.1 | 1分钟 |
proc_sleeping_count | (Agent)睡眠进程数 | 该指标用于统计测量对象处于睡眠状态的进程数。
| ≥0 | 无 | 不涉及 | 2.4.1 | 1分钟 |
proc_total_count | (Agent)系统进程数 | 该指标用于统计测量对象的总进程数。
| ≥0 | 无 | 不涉及 | 2.4.1 | 1分钟 |
proc_specified_count | (Agent)指定进程数 | 该指标用于统计测量对象指定的进程数。
| ≥0 | 无 | 不涉及 | 2.4.1 | 1分钟 |
GPU指标

当GPU服务器存在8张GPU卡并且PM模式为关闭状态时,存在无法采集数据的风险。可以通过打开pm模式并重启监控进程进行解决。
指标分类 | 指标名称 | 指标说明 | 取值范围 | 单位 | 进制 | 所需的Agent最低版本 | 采集周期 |
|---|---|---|---|---|---|---|---|
GPU指标 | gpu_status | 虚拟机上GPU健康状态。该指标是一个综合指标。
|
| 无 | 不涉及 | 2.4.5 | 1分钟 |
gpu_performance_state | 该GPU的性能状态。
|
| 无 | 不涉及 | 2.4.1 | 1分钟 | |
gpu_power_draw | 该GPU的功率。
| ≥ 0 | W | 不涉及 | 2.4.5 | 1分钟 | |
gpu_temperature | 该GPU的温度。
| ≥ 0 | °C | 不涉及 | 2.4.5 | 1分钟 | |
gpu_usage_gpu | 该GPU的算力使用率。
| 0-100 | % | 不涉及 | 2.4.1 | 1分钟 | |
gpu_usage_mem | 该GPU的显存使用率。
| 0-100 | % | 不涉及 | 2.4.1 | 1分钟 | |
gpu_used_mem | 该GPU的显存使用量。
| ≥ 0 | MB | 不涉及 | 2.4.5 | 1分钟 | |
gpu_free_mem | 该GPU的显存剩余量。
| ≥ 0 | MB | 不涉及 | 2.4.5 | 1分钟 | |
gpu_usage_encoder | 该GPU的编码器使用率。
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 | |
gpu_usage_decoder | 该GPU的解码器使用率。
| 0-100 | % | 不涉及 | 2.4.5 | 1分钟 | |
gpu_graphics_clocks | 该GPU的显卡(着色器)时钟频率。
| ≥ 0 | MHz | 不涉及 | 2.4.5 | 1分钟 | |
gpu_sm_clocks | 该GPU的流式处理器时钟频率。
| ≥ 0 | MHz | 不涉及 | 2.4.5 | 1分钟 | |
gpu_mem_clocks | 该GPU的内存时钟频率。
| ≥ 0 | MHz | 不涉及 | 2.4.5 | 1分钟 | |
gpu_video_clocks | 该GPU的视频(包含编解码)时钟频率。
| ≥ 0 | MHz | 不涉及 | 2.4.5 | 1分钟 | |
gpu_tx_throughput_pci | 该GPU的出方向带宽。
| ≥ 0 | MByte/s | 不涉及 | 2.4.5 | 1分钟 | |
gpu_rx_throughput_pci | 该GPU的入方向带宽。
| ≥ 0 | MByte/s | 不涉及 | 2.4.5 | 1分钟 | |
gpu_volatile_correctable | 该GPU重置以来可纠正的ECC错误数量,每次重置后归0。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 | |
gpu_volatile_uncorrectable | 该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 | |
gpu_aggregate_correctable | 该GPU累计的可纠正ECC错误数量。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 | |
gpu_aggregate_uncorrectable | 该GPU累计的不可纠正ECC错误数量。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 | |
gpu_retired_page_single_bit | retired page single bit 错误数量,表示当前卡隔离的单比特页数。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 | |
gpu_retired_page_double_bit | retired page double bit错误数量,表示当前卡隔离的双比特页的数量。
| ≥ 0 | count | 不涉及 | 2.4.5 | 1分钟 | |
gpu_lnkcap_speed | GPU的 PCIe链路中支持的最高速度。
| ≥ 0 | GT/s | 不涉及 | 2.6.7 | 1分钟 | |
gpu_lnkcap_width | GPU的 PCIe链路能力中的链路宽度。
| ≥ 0 | count | 不涉及 | 2.6.7 | 1分钟 | |
gpu_lnksta_speed | GPU的 PCIe连接速度。
| ≥ 0 | GT/s | 不涉及 | 2.6.7 | 1分钟 | |
gpu_lnksta_width | GPU的 PCIe链路宽度。
| ≥ 0 | count | 不涉及 | 2.6.7 | 1分钟 | |
gpu_nvlink_number | GPU的 nvlink的链路数量。
| ≥ 0 | count | 不涉及 | 2.6.7 | 1分钟 | |
gpu_nvlink_bandwidth | GPU的 nvlink链路宽度。
| ≥ 0 | GB/s | 不涉及 | 2.6.7 | 1分钟 |

