Agent支持的指标列表
操作系统指标: CPU
指标 |
指标名称 |
指标说明 |
单位 |
支持版本 |
监控周期(原始指标) |
---|---|---|---|---|---|
cpu_usage |
(Agent)CPU使用率 |
该指标用于统计测量对象当前CPU使用率。
|
% |
2.4.1 |
1分钟 |
cpu_usage_idle |
(Agent)CPU空闲时间占比 |
该指标用于统计测量对象当前CPU空闲时间占比。 单位:百分比
|
% |
2.4.5 |
1分钟 |
cpu_usage_other |
(Agent)其他CPU使用率 |
该指标用于统计测量对象其他CPU使用率。
|
% |
2.4.5 |
1分钟 |
cpu_usage_system |
(Agent)内核空间CPU使用率 |
该指标用于统计测量对象当前内核空间占用CPU使用率。
|
% |
2.4.5 |
1分钟 |
cpu_usage_user |
(Agent)用户空间CPU使用率 |
该指标用于统计测量对象当前用户空间占用CPU使用率。
|
% |
2.4.5 |
1分钟 |
cpu_usage_nice |
(Agent)Nice进程CPU使用率 |
该指标用于统计测量对象当前Nice进程CPU使用率。
|
% |
2.4.5 |
1分钟 |
cpu_usage_iowait |
(Agent)iowait状态占比 |
该指标用于统计测量对象当前iowait状态占用CPU的比率。
|
% |
2.4.5 |
1分钟 |
cpu_usage_irq |
(Agent)CPU中断时间占比 |
该指标用于统计测量对象当前CPU处理中断用时占用CPU时间的比率。
|
% |
2.4.5 |
1分钟 |
cpu_usage_softirq |
(Agent)CPU软中断时间占比 |
该指标用于统计测量对象当前CPU处理软中断时间占用CPU时间的比率。
|
% |
2.4.5 |
1分钟 |
操作系统监控指标: CPU负载
指标 |
指标名称 |
指标说明 |
单位 |
支持版本 |
监控周期(原始指标) |
---|---|---|---|---|---|
load_average1 |
(Agent) 1分钟平均负载 |
该指标用于统计测量对象过去1分钟的CPU平均负载。
|
无 |
2.4.1 |
1分钟 |
load_average5 |
(Agent) 5分钟平均负载 |
该指标用于统计测量对象过去5分钟的CPU平均负载。
|
无 |
2.4.1 |
1分钟 |
load_average15 |
(Agent) 15分钟平均负载 |
该指标用于统计测量对象过去15分钟的CPU平均负载。
|
无 |
2.4.1 |
1分钟 |
操作系统监控指标: 内存
指标 |
指标名称 |
指标说明 |
单位 |
支持版本 |
监控周期(原始指标) |
---|---|---|---|---|---|
mem_available |
(Agent)可用内存 |
该指标用于统计测量对象的可用内存。 |
GB |
2.4.5 |
1分钟 |
mem_usedPercent |
(Agent)内存使用率 |
该指标用于统计测量对象的内存使用率。 |
% |
2.4.1 |
1分钟 |
mem_free |
(Agent)空闲内存量 |
该指标用于统计测量对象的空闲内存量。
|
GB |
2.4.5 |
1分钟 |
mem_buffers |
(Agent)Buffers占用量 |
该指标用于统计测量对象的Buffers内存量。
|
GB |
2.4.5 |
1分钟 |
mem_cached |
(Agent)Cache占用量 |
该指标用于统计测量对象Cache内存量。
|
GB |
2.4.5 |
1分钟 |
total_open_files |
(Agent)文件句柄总数 |
该指标用于统计测量对象的所有进程使用的句柄总和。
|
无 |
2.4.5 |
1分钟 |
操作系统监控指标: 磁盘
CES Agent目前仅支持物理磁盘指标的采集,不支持通过网络文件系统协议挂载的磁盘。
CES Agent会默认屏蔽docker相关的挂载点。挂载点前缀如下:
/var/lib/docker;/mnt/paas/kubernetes;/var/lib/mesos
指标 |
指标名称 |
指标说明 |
单位 |
支持版本 |
监控周期(原始指标) |
---|---|---|---|---|---|
disk_free |
(Agent)磁盘剩余存储量 |
该指标用于统计测量对象磁盘的剩余存储空间。
|
GB |
2.4.1 |
1分钟 |
disk_total |
(Agent)磁盘存储总量 |
该指标用于统计测量对象磁盘存储总量。 |
GB |
2.4.5 |
1分钟 |
disk_used |
(Agent)磁盘已用存量 |
该指标用于统计测量对象磁盘的已用存储空间。
|
GB |
2.4.5 |
1分钟 |
disk_usedPercent |
(Agent)磁盘使用率 |
该指标用于统计测量对象磁盘使用率,以百分比为单位。计算方式为: 磁盘已用存储量/磁盘存储总量。
|
% |
2.4.1 |
1分钟 |
操作系统监控指标: 磁盘IO
指标 |
指标名称 |
指标说明 |
单位 |
支持版本 |
监控周期(原始指标) |
---|---|---|---|---|---|
disk_agt_read_bytes_rate |
(Agent)磁盘读速率 |
该指标用于统计每秒从测量对象读出数据量。 |
Byte/s |
2.4.5 |
1分钟 |
disk_agt_read_requests_rate |
(Agent)磁盘读操作速率 |
该指标用于统计每秒从测量对象读取数据的请求次数。 |
Request/s |
2.4.5 |
1分钟 |
disk_agt_write_bytes_rate |
(Agent)磁盘写速率 |
该指标用于统计每秒写到测量对象的数据量。 |
Byte/s |
2.4.5 |
1分钟 |
disk_agt_write_requests_rate |
(Agent)磁盘写操作速率 |
该指标用于统计每秒向测量对象写数据的请求次数。 |
Request/s |
2.4.5 |
1分钟 |
disk_readTime |
(Agent)读操作平均耗时 |
该指标用于统计测量对象磁盘读操作平均耗时。 |
ms/Count |
2.4.5 |
1分钟 |
disk_writeTime |
(Agent)写操作平均耗时 |
该指标用于统计测量对象磁盘写操作平均耗时。 |
ms/Count |
2.4.5 |
1分钟 |
disk_ioUtils |
(Agent)磁盘I/O使用率 |
该指标用于统计测量对象磁盘I/O使用率。 |
% |
2.4.1 |
1分钟 |
disk_queue_length |
(Agent)平均队列长度 |
该指标用于统计指定时间段内,平均等待完成的读取或写入操作请求的数量 |
Count |
2.4.5 |
1分钟 |
disk_write_bytes_per_operation |
(Agent)平均写操作大小 |
该指标用于统计指定时间段内,平均每个写I/O操作传输的字节数。 |
Byte/op |
2.4.5 |
1分钟 |
disk_read_bytes_per_operation |
(Agent)平均读操作大小 |
该指标用于统计指定时间段内,平均每个读I/O操作传输的字节数。 |
Byte/op |
2.4.5 |
1分钟 |
disk_io_svctm |
(Agent)平均I/O服务时长 |
该指标用于统计指定时间段内,平均每个读或写I/O的操作时长。 |
ms/op |
2.4.5 |
1分钟 |
disk_device_used_percent |
块设备使用率 |
该指标用于统计测量对象物理磁盘使用率,以百分比为单位。计算方式为: 所有已挂载磁盘分区已用存储量/磁盘存储总量。
|
% |
2.5.6 |
1分钟 |
操作系统监控指标: 文件系统
指标 |
指标名称 |
指标说明 |
单位 |
支持版本 |
监控周期(原始指标) |
---|---|---|---|---|---|
disk_fs_rwstate |
(Agent)文件系统读写状态 |
该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)。
|
无 |
2.4.5 |
1分钟 |
disk_inodesTotal |
(Agent)inode空间大小 |
该指标用于统计测量对象当前磁盘的inode空间量。
|
无 |
2.4.5 |
1分钟 |
disk_inodesUsed |
(Agent)inode已使用空间 |
该指标用于统计测量对象当前磁盘已使用的inode空间量。
|
无 |
2.4.5 |
1分钟 |
disk_inodesUsedPercent |
(Agent)inode已使用占比 |
该指标用于统计测量对象当前磁盘已使用的inode占比。
|
% |
2.4.1 |
1分钟 |
操作系统监控指标: TCP
指标 |
指标名称 |
指标说明 |
单位 |
支持版本 |
监控周期(原始指标) |
---|---|---|---|---|---|
net_tcp_total |
(Agent) TCP 连接数总和 |
该指标用于统计测量对象所有状态的TCP连接数总和。
|
无 |
2.4.1 |
1分钟 |
net_tcp_established |
(Agent) ESTABLISHED状态的连接数量 |
该指标用于统计测量对象处于ESTABLISHED状态的TCP连接数量。
|
无 |
2.4.1 |
1分钟 |
net_tcp_sys_sent |
(Agent) TCP SYS_SENT状态的连接数量。 |
该指标用于统计测量对象处于请求连接状态的TCP连接数量。
|
无 |
2.4.5 |
1分钟 |
net_tcp_sys_recv |
(Agent) TCP SYS_RECV状态的连接数量。 |
该指标用于统计测量对象服务器端收到的请求连接的TCP数量。
|
无 |
2.4.5 |
1分钟 |
net_tcp_fin_wait1 |
(Agent) TCP FIN_WAIT1状态的连接数量。 |
该指标用于统计测量对象客户端主动关闭且没有收到服务端ACK的TCP连接数量。
|
无 |
2.4.5 |
1分钟 |
net_tcp_fin_wait2 |
(Agent) TCP FIN_WAIT2状态的连接数量。 |
该指标用于统计测量对象处于FIN_WAIT2状态的TCP连接数量。
|
无 |
2.4.5 |
1分钟 |
net_tcp_time_wait |
(Agent) TCP TIME_WAIT状态的连接数量。 |
该指标用于统计测量对象处于TIME_WAIT状态的TCP连接数量。
|
无 |
2.4.5 |
1分钟 |
net_tcp_close |
(Agent) TCP CLOSE状态的连接数量。 |
该指标用于统计测量对象关闭的或未打开的TCP连接数量。
|
无 |
2.4.5 |
1分钟 |
net_tcp_close_wait |
(Agent) TCP CLOSE_WAIT状态的连接数量。 |
该指标用于统计测量对象处于CLOSE_WAIT状态的TCP连接数量。
|
无 |
2.4.5 |
1分钟 |
net_tcp_last_ack |
(Agent) TCP LAST_ACK状态的连接数量。 |
该指标用于统计测量对象被动关闭等待ACK报文的TCP连接数量。
|
无 |
2.4.5 |
1分钟 |
net_tcp_listen |
(Agent) TCP LISTEN状态的连接数量。 |
该指标用于统计测量对象处于LISTEN状态的TCP连接数量。
|
无 |
2.4.5 |
1分钟 |
net_tcp_closing |
(Agent) TCP CLOSING状态的连接数量。 |
该指标用于统计测量对象处于服务端和客户端同时主动关闭状态的TCP连接数量。
|
无 |
2.4.5 |
1分钟 |
net_tcp_retrans |
(Agent) TCP重传率 |
该指标用于统计测量对象重新发送的报文数与总发送的报文数之间的比值。
|
% |
2.4.5 |
1分钟 |
操作系统监控指标: 网卡
指标 |
指标名称 |
指标说明 |
单位 |
支持版本 |
监控周期(原始指标) |
---|---|---|---|---|---|
net_bitRecv |
(Agent)出网带宽 |
该指标用于统计测量对象网卡每秒发送的比特数。
|
bit/s |
2.4.1 |
1分钟 |
net_bitSent |
(Agent)入网带宽 |
该指标用于统计测量对象网卡每秒接收的比特数。
|
bit/s |
2.4.1 |
1分钟 |
net_packetRecv |
(Agent)网卡包接收速率 |
该指标用于统计测量对象网卡每秒接收的数据包数。
|
Count/s |
2.4.1 |
1分钟 |
net_packetSent |
(Agent)网卡包发送速率 |
该指标用于统计测量对象网卡每秒发送的数据包数。
|
Count/s |
2.4.1 |
1分钟 |
net_errin |
(Agent)接收误包率 |
该指标用于统计测量对象网卡每秒接收的错误数据包数量占所接收的数据包的比率。
|
% |
2.4.5 |
1分钟 |
net_errout |
(Agent)发送误包率 |
该指标用于统计测量对象网卡每秒发送的错误数据包数量占所发送的数据包的比率。
|
% |
2.4.5 |
1分钟 |
net_dropin |
(Agent)接收丢包率 |
该指标用于统计测量对象网卡每秒接收并已丢弃的数据包数量占所接收的数据包的比率
|
% |
2.4.5 |
1分钟 |
net_dropout |
(Agent)发送丢包率 |
该指标用于统计测量对象网卡每秒发送并已丢弃的数据包数量占所发送的数据包的比率。
|
% |
2.4.5 |
1分钟 |
进程监控指标
指标 |
指标名称 |
指标说明 |
单位 |
支持版本 |
监控周期(原始指标) |
---|---|---|---|---|---|
proc_pHashId_cpu |
(Agent)CPU使用率 |
进程消耗的CPU百分比,pHashId是(进程名+进程ID)的md5值。
|
% |
2.4.1 |
1分钟 |
proc_pHashId_mem |
(Agent)内存使用率 |
进程消耗的内存百分比,pHashId是(进程名+进程ID)的md5值。 |
% |
2.4.1 |
1分钟 |
proc_pHashId_file |
(Agent)打开文件数 |
进程打开文件数,pHashId是(进程名+进程ID)的md5值。
|
Count |
2.4.1 |
1分钟 |
proc_running_count |
(Agent)运行中的进程数 |
该指标用于统计测量对象处于运行状态的进程数。
|
无 |
2.4.1 |
1分钟 |
proc_idle_count |
(Agent)空闲进程数 |
该指标用于统计测量对象处于空闲状态的进程数。
|
无 |
2.4.1 |
1分钟 |
proc_zombie_count |
(Agent)僵死进程数 |
该指标用于统计测量对象处于僵死状态的进程数。
|
无 |
2.4.1 |
1分钟 |
proc_blocked_count |
(Agent)阻塞进程数 |
该指标用于统计测量对象被阻塞的进程数。
|
无 |
2.4.1 |
1分钟 |
proc_sleeping_count |
(Agent)睡眠进程数 |
该指标用于统计测量对象处于睡眠状态的进程数。
|
无 |
2.4.1 |
1分钟 |
proc_total_count |
(Agent)系统进程数 |
该指标用于统计测量对象的总进程数。
|
无 |
2.4.1 |
1分钟 |
proc_specified_count |
(Agent)指定进程数 |
该指标用于统计测量对象指定的进程数。
|
Count |
2.4.1 |
1分钟 |
GPU指标
指标分类 |
指标名称 |
指标说明 |
单位 |
支持版本 |
采集方式 |
GPU指标 |
gpu_status |
虚拟机上GPU健康状态。该指标是一个综合指标,0代表健康,1代表亚健康,2代表故障。 |
- |
2.4.5 |
Linux: 通过调用GPU卡的libnvidia-ml.so.1库文件获取 Windows: 通过调用GPU卡的nvml.dll库文件获取 |
gpu_performance_state |
该GPU的性能状态。 P0-P15、P32, P0表示最大性能状态,P15表示最小性能状态,P32表示状态未知。 |
- |
2.4.1 |
||
gpu_power_draw |
该GPU的功率。 |
W |
2.4.5 |
||
gpu_temperature |
该GPU的温度。 |
°C |
2.4.5 |
||
gpu_usage_gpu |
该GPU的算力使用率。 |
% |
2.4.1 |
||
gpu_usage_mem |
该GPU的显存使用率。 |
% |
2.4.1 |
||
gpu_used_mem |
该GPU的显存使用量。 |
MB |
2.4.5 |
||
gpu_free_mem |
该GPU的显存剩余量。 |
MB |
2.4.5 |
||
gpu_usage_encoder |
该GPU的编码能力使用率。 |
% |
2.4.5 |
||
gpu_usage_decoder |
该GPU的解码能力使用率。 |
% |
2.4.5 |
||
gpu_graphics_clocks |
该GPU的显卡(着色器)时钟频率。 |
MHz |
2.4.5 |
||
gpu_sm_clocks |
该GPU的流式处理器时钟频率。 |
MHz |
2.4.5 |
||
gpu_mem_clock |
该GPU的内存时钟频率。 |
MHz |
2.4.5 |
||
gpu_video_clocks |
该GPU的视频(包含编解码)时钟频率。 |
MHz |
2.4.5 |
||
gpu_tx_throughput_pci |
该GPU的出方向带宽。 |
MByte/s |
2.4.5 |
||
gpu_rx_throughput_pci |
该GPU的入方向带宽。 |
MByte/s |
2.4.5 |
||
gpu_volatile_correctable |
该GPU重置以来可纠正的ECC错误数量,每次重置后归0。 |
个 |
2.4.5 |
||
gpu_volatile_uncorrectable |
该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。 |
个 |
2.4.5 |
||
gpu_aggregate_correctable |
该GPU累计的可纠正ECC错误数量。 |
个 |
2.4.5 |
||
gpu_aggregate_uncorrectable |
该GPU累计的不可纠正ECC错误数量。 |
个 |
2.4.5 |
||
gpu_retired_page_single_bit |
retired page single bit 错误数量,表示当前卡隔离的单比特页数。 |
个 |
2.4.5 |
||
gpu_retired_page_double_bit |
错误数量,表示当前卡隔离的双比特页的数量。 |
个 |
2.4.5 |