Workspace支持的CES操作系统监控指标(安装Agent)
功能说明
通过在云桌面中安装Agent插件,可以为用户提供服务器的系统级、主动式、细颗粒度监控服务。本节定义了云桌面上报云监控的操作系统监控指标。
操作系统监控目前支持的监控指标GPU相关监控项。
操作系统监控目前支持的监控指标有:CPU相关监控项、CPU负载类相关监控项、内存相关监控项、磁盘相关监控项、磁盘I/O相关监控项、文件系统类相关监控项、网卡类相关监控项、NTP类相关监控项、TCP连接数类相关监控、GPU相关监控项、NPU相关监控项。
安装Agent后,对于不同的操作系统、不同的弹性云服务器类型,您可以查看不同类型的操作系统监控指标。指标采集周期是1分钟。
- 操作系统监控指标:CPU
表1 CPU类监控指标说明 指标
指标名称
指标含义
取值范围
测量对象(维度)
监控周期(原始指标)
cpu_usage
(Agent) CPU使用率
该指标用于统计测量对象当前的CPU使用率。
单位:百分比
- 采集方式:(Linux):通过计算采集周期内/proc/stat中的变化得出cpu使用率。用户可以通过top命令查看 %Cpu(s)值。
- 采集方式:(Windows):通过WindowsAPI GetSystemTimes获取。
0-100%
云桌面
1分钟
- 操作系统监控指标:内存
表2 内存相关监控指标说明 指标
指标名称
指标含义
取值范围
测量对象(维度)
监控周期(原始指标)
mem_usedPercent
(Agent) 内存使用率
该指标用于统计测量对象的内存使用率。
单位:百分比
- 采集方式(Linux):通过/proc/meminfo文件获取,(MemTotal-MemAvailable)/MemTotal
- 若/proc/meminfo中显示MemAvailable,则MemUsedPercent=(MemTotal-MemAvailable)/MemTotal
- 若/proc/meminfo中不显示MemAvailable,则MemUsedPercent=(MemTotal-MemFree-Buffers-Cached)/MemTotal
- 采集方式(Windows):计算方法为( 已用内存量/内存总量*100%)。
0-100%
云桌面
1分钟
- 采集方式(Linux):通过/proc/meminfo文件获取,(MemTotal-MemAvailable)/MemTotal
- 操作系统监控指标:网卡
表3 网卡相关监控指标说明 指标
指标名称
指标含义
取值范围
测量对象(维度)
监控周期(原始指标)
net_bitRecv
(Agent) 出网带宽
该指标用于统计测量对象网卡每秒发送的比特数。
单位:bit/s
- 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
- 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。
≥ 0 bit/s
云桌面
1分钟
net_bitSent
(Agent) 入网带宽
该指标用于统计测量对象网卡每秒接收的比特数。
单位:bit/s
- 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
- 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。
≥ 0 bit/s
云桌面
1分钟
net_packetRecv
(Agent) 网卡包接收速率
该指标用于统计测量对象网卡每秒接收的数据包数。
单位:Counts/s
- 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
- 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。
≥ 0 Counts/s
云桌面
1分钟
net_packetSent
(Agent) 网卡包发送速率
该指标用于统计测量对象网卡每秒发送的数据包数。
单位:Counts/s
- 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
- 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。
≥ 0 Counts/s
云桌面
1分钟
- 操作系统监控指标:磁盘
表4 磁盘相关监控指标说明 指标
指标名称
指标含义
取值范围
测量对象(维度)
监控周期(原始指标)
disk_free
(Agent) 磁盘剩余存储量
该指标用于统计测量对象磁盘的剩余存储空间。
单位:GB
- 采集方式(Linux):执行df -h命令,查看Avail列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
- 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
≥0 GB
云桌面
1分钟
disk_usedPercent
(Agent) 磁盘使用率
该指标用于统计测量对象磁盘使用率,以百分比为单位。计算方式为: 磁盘已用存储量/磁盘存储总量。
单位:百分比
- 采集方式(Linux):通过计算Used/Size得出。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
- 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
0-100%
云桌面
1分钟
- 操作系统监控指标:文件系统
表5 文件系统类监控指标说明 指标
指标名称
指标含义
取值范围
测量对象(维度)
监控周期(原始指标)
disk_inodesUsedPercent
(Agent) inode已使用占比
该指标用于统计测量对象当前磁盘已使用的inode占比。
单位:百分比
采集方式(Linux):执行df -i命令,查看IUse%列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
0-100%
云桌面
1分钟
- 操作系统监控指标:磁盘I/O
- 操作系统监控指标:GPU
表7 GPU类监控指标说明 指标
指标名称
指标含义
取值范围
测量对象(维度)
监控周期(原始指标)
gpu_aggregate_correctable
累计可纠正ECC错误数量
该指标用于统计该GPU累计的可纠正ECC错误数量。
单位:个
- 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
- 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
≥ 0
云桌面
1分钟
gpu_aggregate_uncorrectable
累计不可纠正ECC错误数量
该指标用于统计该GPU累计的不可纠正ECC错误数量。
单位:个
- 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
- 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
≥ 0
云桌面
1分钟
gpu_performance_state
(Agent) 性能状态
该指标用于统计测量对象当前的GPU性能状态。
该指标无单位。
- 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
- 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
P0-P15、P32,
- P0:表示最大性能状态
- P15:表示最小性能状态
- P32:表示状态未知
云桌面
1分钟
gpu_retired_page_double_bit
retired page double bit错误数量
该指标用于统计该GPU当前卡隔离的双比特页的数量。
单位:个
- 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
- 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
≥ 0
云桌面
1分钟
gpu_retired_page_single_bit
retired page single bit错误数量
该指标用于统计该GPU当前卡隔离的单比特页的数量。
单位:个
- 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
- 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
≥ 0
云桌面
1分钟
gpu_status
gpu健康状态
该指标用于统计虚拟机上GPU健康状态,是一个综合指标。
该指标无单位。
- 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
- 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
- 0:代表健康
- 1:代表亚健康
- 2:代表故障
云桌面
1分钟
gpu_usage_decoder
解码使用率
该指标用于统计该GPU的解码能力使用率。
单位:百分比
- 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
- 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
0-100%
云桌面
1分钟
gpu_usage_encoder
编码使用率
该指标用于统计该GPU的编码能力使用率。
单位:百分比
- 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
- 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
0-100%
云桌面
1分钟
gpu_usage_gpu
(Agent) GPU使用率
该指标用于统计测量对象当前的GPU使用率。
单位:百分比
- 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
- 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
0-100%
云桌面
1分钟
gpu_usage_mem
(Agent) 显存使用率
该指标用于统计测量对象当前的显存使用率。
单位:百分比
- 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
- 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
0-100%
云桌面
1分钟
gpu_volatile_correctable
可纠正ECC错误数量
该指标用于统计该GPU重置以来可纠正的ECC错误数量,每次重置后归0。
单位:个。
- 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
- 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
≥ 0
云桌面
1分钟
gpu_volatile_uncorrectable
不可纠正ECC错误数量
该指标用于统计该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。
单位:个
- 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
- 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
≥ 0
云桌面
1分钟
- 操作系统监控指标:CPU负载
表8 CPU负载指标说明 指标
指标名称
指标含义
取值范围
测量对象(维度)
监控周期(原始指标)
load_average1
(Agent) 1分钟平均负载
该指标用于统计测量对象过去1分钟的CPU平均负载。
采集方式(Linux):通过/proc/loadavg中load1/逻辑CPU个数得到。用户可以通过top命令查看load1值。
≥0
云桌面
1分钟
load_average5
(Agent) 5分钟平均负载
该指标用于统计测量对象过去5分钟的CPU平均负载。
采集方式(Linux):通过/proc/loadavg中load5/逻辑CPU个数得到。用户可以通过top命令查看load5值。
≥0
云桌面
1分钟
load_average15
(Agent) 15分钟平均负载
该指标用于统计测量对象过去15分钟的CPU平均负载。
采集方式(Linux):通过/proc/loadavg中load15/逻辑CPU个数得到。用户可以通过top命令查看load15值。
≥0
云桌面
1分钟
- 操作系统监控指标:TCP
表9 TCP类监控指标说明 指标
指标名称
指标含义
取值范围
测量对象(维度)
监控周期(原始指标)
net_tcp_total
(Agent) TCP TOTAL
该指标用于统计测量对象所有状态的TCP连接数总和。
单位:Count
- 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
- 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。
≥ 0
云桌面
1分钟
net_tcp_established
(Agent) TCP ESTABLISHED
该指标用于统计测量对象处于ESTABLISHED状态的TCP连接数量。
单位:Count
- 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
- 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。
≥ 0
云桌面
1分钟