弹性云服务器支持的操作系统监控指标（安装Agent）_使用CES监控ECS_用户指南

功能说明

通过在弹性云服务器中安装Agent插件，为用户提供服务器的系统级、主动式、细颗粒度监控服务。本节定义了弹性云服务器上报云监控的操作系统监控指标。指标采集周期是1分钟。

操作系统监控目前支持的监控指标有：CPU相关监控项、CPU负载类相关监控项、内存相关监控项、磁盘相关监控项、磁盘I/O相关监控项、文件系统类相关监控项、网卡类相关监控项、NTP类相关监控项、TCP连接数类相关监控、GPU相关监控项。

安装Agent后，对于不同的操作系统、不同的弹性云服务器类型，您可以查看不同类型的操作系统监控指标。

云监控服务最大支持4个层级维度，维度编号从0开始，编号3为最深层级。例如监控指标中的维度信息为“instance_id,mount_point”时，表示对应的监控指标的维度存在层级关系，且“instance_id”为0层，“mount_point”为1层。

命名空间

AGT.ECS

操作系统监控指标：CPU

表1 CPU相关监控指标说明
指标	指标名称	指标含义	取值范围	单位	进制	维度	监控周期（原始指标）
cpu_usage	(Agent) CPU使用率	该指标用于统计测量对象当前CPU使用率。采集方式（Linux）：通过计算采集周期内/proc/stat中的变化得出cpu使用率。用户可以通过top命令查看 %Cpu(s)值。采集方式（Windows）：通过WindowsAPI GetSystemTimes获取。	0-100	%	不涉及	instance_id	1分钟
cpu_usage_idle	(Agent) CPU空闲时间占比	该指标用于统计测量对象当前CPU空闲时间占比。采集方式（Linux）：通过计算采集周期内/proc/stat中的变化得出CPU空闲时间占比。采集方式（Windows）：通过WindowsAPI GetSystemTimes获取。	0-100	%	不涉及	instance_id	1分钟
cpu_usage_user	(Agent) 用户空间CPU使用率	该指标用于统计测量对象当前用户空间占用CPU使用率。采集方式（Linux）：通过计算采集周期内/proc/stat中的变化得出cpu使用率。用户可以通过top命令查看 %Cpu(s) us值。采集方式（Windows）：通过WindowsAPI GetSystemTimes获取。	0-100	%	不涉及	instance_id	1分钟
cpu_usage_system	(Agent) 内核空间CPU使用率	该指标用于统计测量对象当前内核空间占用CPU使用率。采集方式（Linux）：通过计算采集周期内/proc/stat中的变化得出内核空间CPU使用率。用户可以通过top命令查看 %Cpu(s) sy值。采集方式（Windows）：通过WindowsAPI GetSystemTimes获取。	0-100	%	不涉及	instance_id	1分钟
cpu_usage_other	(Agent) 其他CPU使用率	该指标用于统计测量对象其他占用CPU使用率。采集方式（Linux）：其他CPU使用率=1- 空闲CPU使用率（%）- 内核空间CPU使用率- 用户空间CPU使用率。采集方式（Windows）：其他CPU使用率=1- 空闲CPU使用率（%）- 内核空间CPU使用率- 用户空间CPU使用率。	0-100	%	不涉及	instance_id	1分钟
cpu_usage_nice	(Agent) Nice进程CPU使用率	该指标用于统计测量对象当前Nice进程CPU使用率。采集方式（Linux）：通过计算采集周期内/proc/stat中的变化得出Nice进程CPU使用率。用户可以通过top命令查看 %Cpu(s) ni值。采集方式（Windows）：暂不支持。	0-100	%	不涉及	instance_id	1分钟
cpu_usage_iowait	(Agent) iowait状态占比	该指标用于统计测量对象当前iowait状态占用CPU的比率。采集方式（Linux）：通过计算采集周期内/proc/stat中的变化得出iowait状态占比。用户可以通过top命令查看 %Cpu(s) wa值。采集方式（Windows）：暂不支持。	0-100	%	不涉及	instance_id	1分钟
cpu_usage_irq	(Agent) CPU中断时间占比	该指标用于统计测量对象当前CPU处理中断用时占用CPU时间的比率。采集方式（Linux）：通过计算采集周期内/proc/stat中的变化得出CPU中断时间占比。用户可以通过top命令查看 %Cpu(s) hi值。采集方式（Windows）：暂不支持。	0-100	%	不涉及	instance_id	1分钟
cpu_usage_softirq	(Agent) CPU软中断时间占比	该指标用于统计测量对象当前CPU处理软中断时间占用CPU时间的比率。采集方式（Linux）：通过计算采集周期内/proc/stat中的变化得出CPU软中断时间占比。用户可以通过top命令查看 %Cpu(s) si值。采集方式（Windows）：暂不支持。	0-100	%	不涉及	instance_id	1分钟

操作系统监控指标：CPU负载

表2 CPU负载指标说明
指标	指标名称	指标含义	取值范围	单位	进制	维度	监控周期（原始指标）
load_average1	(Agent) 1分钟平均负载	该指标用于统计测量对象过去1分钟的CPU平均负载。采集方式（Linux）：通过/proc/loadavg中load1/逻辑CPU个数得到。用户可以通过top命令查看load1值。	≥0	不涉及	不涉及	instance_id	1分钟
load_average5	(Agent) 5分钟平均负载	该指标用于统计测量对象过去5分钟的CPU平均负载。采集方式（Linux）：通过/proc/loadavg中load5/逻辑CPU个数得到。用户可以通过top命令查看load5值。	≥0	不涉及	不涉及	instance_id	1分钟
load_average15	(Agent) 15分钟平均负载	该指标用于统计测量对象过去15分钟的CPU平均负载。采集方式（Linux）：通过/proc/loadavg中load15/逻辑CPU个数得到。用户可以通过top命令查看load15值。	≥0	不涉及	不涉及	instance_id	1分钟

Windows系统暂不支持CPU负载指标。

操作系统监控指标：内存

表3 内存相关监控指标说明
指标	指标名称	指标含义	取值范围	单位	进制	维度	监控周期（原始指标）
mem_available	(Agent) 可用内存	该指标用于统计测量对象的可用内存。采集方式（Linux）：通过/proc/meminfo文件获取，若/proc/meminfo中显示MemAvailable，则直接可得若/proc/meminfo中不显示MemAvailable，则MemAvailable=MemFree+Buffers+Cached 采集方式（Windows）：计算方法为（内存总量-已用内存量）。通过WindowsAPI GlobalMemoryStatusEx获取。	≥0	GB	不涉及	instance_id	1分钟
mem_usedPercent	(Agent) 内存使用率	该指标用于统计测量对象的内存使用率。采集方式（Linux）：通过/proc/meminfo文件获取，(MemTotal-MemAvailable)/MemTotal 若/proc/meminfo中显示MemAvailable，则MemUsedPercent=(MemTotal-MemAvailable)/MemTotal 若/proc/meminfo中不显示MemAvailable，则MemUsedPercent=(MemTotal-MemFree-Buffers-Cached)/MemTotal 采集方式（Windows）：计算方法为（已用内存量/内存总量*100%）。	0-100	%	不涉及	instance_id	1分钟
mem_free	(Agent) 空闲内存量	该指标用于统计测量对象的空闲内存量。采集方式（Linux）：通过/proc/meminfo获取。采集方式（Windows）：暂不支持。	≥0	GB	不涉及	instance_id	1分钟
mem_buffers	(Agent) Buffers占用量	该指标用于统计测量对象的Buffers内存量。采集方式（Linux）：通过/proc/meminfo获取。用户可以通过top命令查看 KiB Mem:buffers值。采集方式（Windows）：暂不支持。	≥0	GB	不涉及	instance_id	1分钟
mem_cached	(Agent) Cache占用量	该指标用于统计测量对象Cache内存量。采集方式（Linux）：通过/proc/meminfo获取。用户可以通过top命令查看 KiB Swap:cached Mem值。采集方式（Windows）：暂不支持。	≥0	GB	不涉及	instance_id	1分钟
total_open_files	(Agent) 文件句柄总数	该指标用于统计测量对象的所有进程使用的句柄总和。采集方式（Linux）：通过/proc/{pid}/fd文件汇总所有进程使用的句柄数。采集方式（Windows）：暂不支持。	≥0	Count	不涉及	instance_id	1分钟

操作系统监控指标：磁盘

目前仅支持物理磁盘指标的采集，不支持通过网络文件系统协议挂载的磁盘。
会默认屏蔽docker相关的挂载点。挂载点前缀如下：
```
/var/lib/docker;/mnt/paas/kubernetes;/var/lib/mesos
```

表4 磁盘相关监控指标说明
指标	指标名称	指标含义	取值范围	单位	进制	维度	监控周期（原始指标）
disk_free	(Agent) 磁盘剩余存储量	该指标用于统计测量对象磁盘的剩余存储空间。采集方式（Linux）：执行df -h命令，查看Avail列数据。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。	≥0	GB	不涉及	instance_id,mount_point	1分钟
disk_total	(Agent) 磁盘存储总量	该指标用于统计测量对象磁盘存储总量。采集方式（Linux）：执行df -h命令，查看Size列数据。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。	≥0	GB	不涉及	instance_id,mount_point	1分钟
disk_used	(Agent) 磁盘已用存量	该指标用于统计测量对象磁盘的已用存储空间。采集方式（Linux）：执行df -h命令，查看Used列数据。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。	≥0	GB	不涉及	instance_id,mount_point	1分钟
disk_usedPercent	(Agent) 磁盘使用率	该指标用于统计测量对象磁盘使用率，以百分比为单位。计算方式为: 磁盘已用存储量/磁盘存储总量。采集方式（Linux）：通过计算Used/Size得出。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。	0-100	%	不涉及	instance_id,mount_point	1分钟

操作系统监控指标：磁盘I/O

表5 磁盘I/O相关监控指标说明
指标	指标名称	指标含义	取值范围	单位	进制	维度	监控周期（原始指标）
disk_agt_read_bytes_rate	(Agent) 磁盘读速率	该指标用于统计每秒从测量对象读出数据量。采集方式（Linux）：通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化得出磁盘读速率。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据，每采集周期读取一次该对象，读取该对象返回的瞬时值代表该采集周期的指标值。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。高CPU情况下存在获取超时的现象，会导致无法获取监控数据。	≥ 0	byte/s	1024(IEC)	instance_id,disk instance_id,mount_point	1分钟
disk_agt_read_requests_rate	(Agent) 磁盘读操作速率	该指标用于统计每秒从测量对象读取数据的请求次数。采集方式（Linux）：通过计算采集周期内/proc/diskstats中对应设备第四列数据的变化得出磁盘读操作速率。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据，每采集周期读取一次该对象，读取该对象返回的瞬时值代表该采集周期的指标值。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。高CPU情况下存在获取超时的现象，会导致无法获取监控数据。	≥ 0	Request/s	不涉及	instance_id,disk instance_id,mount_point	1分钟
disk_agt_write_bytes_rate	(Agent) 磁盘写速率	该指标用于统计每秒写到测量对象的数据量。采集方式（Linux）：通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化得出磁盘写速率。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据，每采集周期读取一次该对象，读取该对象返回的瞬时值代表该采集周期的指标值。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。高CPU情况下存在获取超时的现象，会导致无法获取监控数据。	≥ 0	byte/s	1024(IEC)	instance_id,disk instance_id,mount_point	1分钟
disk_agt_write_requests_rate	(Agent) 磁盘写操作速率	该指标用于统计每秒向测量对象写数据的请求次数。采集方式（Linux）：通过计算采集周期内/proc/diskstats中对应设备第八列数据的变化得出磁盘写操作速率。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据，每采集周期读取一次该对象，读取该对象返回的瞬时值代表该采集周期的指标值。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。高CPU情况下存在获取超时的现象，会导致无法获取监控数据。	≥ 0	Request/s	不涉及	instance_id,disk instance_id,mount_point	1分钟
disk_readTime	(Agent) 读操作平均耗时	该指标用于统计测量对象磁盘读操作平均耗时。采集方式（Linux）：通过计算采集周期内/proc/diskstats中对应设备第七列数据的变化得出磁盘读操作平均耗时。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：暂不支持。	≥ 0	ms/Count	不涉及	instance_id,disk instance_id,mount_point	1分钟
disk_writeTime	(Agent) 写操作平均耗时	该指标用于统计测量对象磁盘写操作平均耗时。采集方式（Linux）：通过计算采集周期内/proc/diskstats中对应设备第十一列数据的变化得出磁盘写操作平均耗时。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：暂不支持。	≥ 0	ms/Count	不涉及	instance_id,disk instance_id,mount_point	1分钟
disk_ioUtils	(Agent) 磁盘I/O使用率	该指标用于统计测量对象磁盘I/O使用率。采集方式（Linux）：通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化得出磁盘I/O使用率。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：暂不支持。	0-100	%	不涉及	instance_id,disk instance_id,mount_point	1分钟
disk_queue_length	(Agent) 平均队列长度	该指标反映指定时间段内磁盘的繁忙程度，可用于评估磁盘I/O性能，指标值越大代表磁盘越繁忙，I/O性能越差。采集方式（Linux）：通过计算采集周期内/proc/diskstats中对应设备第十四列数据的变化与指标采集周期时间相除得出指标的值。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：暂不支持。	≥ 0	count	不涉及	instance_id,disk instance_id,mount_point	1分钟
disk_write_bytes_per_operation	(Agent) 平均写操作大小	该指标用于统计指定时间段内，平均每个写I/O操作传输的字节数。采集方式（Linux）：通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化与第八列数据的变化相除得出磁盘平均写操作大小。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：暂不支持。	≥ 0	Byte/op	不涉及	instance_id,disk instance_id,mount_point	1分钟
disk_read_bytes_per_operation	(Agent) 平均读操作大小	该指标用于统计指定时间段内，平均每个读I/O操作传输的字节数。采集方式（Linux）：通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化与第四列数据的变化相除得出磁盘平均读操作大小。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：暂不支持。	≥ 0	Byte/op	不涉及	instance_id,disk instance_id,mount_point	1分钟
disk_io_svctm	(Agent) 平均I/O服务时长	该指标用于统计指定时间段内，平均每个读或写I/O的操作时长。采集方式（Linux）：通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化与第四列数据和第八列数据和的变化相除得出磁盘平均I/O时长。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。采集方式（Windows）：暂不支持。	≥ 0	ms/op	不涉及	instance_id,disk instance_id,mount_point	1分钟
disk_device_used_percent	块设备使用率	该指标用于统计测量对象物理磁盘使用率，以百分比为单位。计算方式为: 所有已挂载磁盘分区已用存储量/磁盘存储总量。采集方式（Linux）：通过汇总每个挂载点的磁盘使用量，再通过磁盘扇区大小和扇区数量计算出磁盘总大小，计算出整体磁盘使用率采集方式（Windows）：暂不支持。	0-100	%	不涉及	instance_id,disk	1分钟

操作系统监控指标：文件系统

表6 文件系统类监控指标说明
指标	指标名称	指标含义	取值范围	单位	进制	维度	监控周期（原始指标）
disk_fs_rwstate	(Agent) 文件系统读写状态	该指标用于统计测量对象挂载文件系统的读写状态。状态分为：可读写（0）/只读（1）。采集方式（Linux）：通过读取/proc/mounts中第四列文件系统挂载参数获得。	0：可读写 1：只读	不涉及	不涉及	instance_id,mount_point	1分钟
disk_inodesTotal	(Agent) inode空间大小	该指标用于统计测量对象当前磁盘的inode空间量。采集方式（Linux）：执行df -i命令，查看Inodes列数据。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。	≥ 0	Count	不涉及	instance_id,mount_point	1分钟
disk_inodesUsed	(Agent) inode已使用空间	该指标用于统计测量对象当前磁盘已使用的inode空间量。采集方式（Linux）：执行df -i命令，查看IUsed列数据。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。	≥ 0	Count	不涉及	instance_id,mount_point	1分钟
disk_inodesUsedPercent	(Agent) inode已使用占比	该指标用于统计测量对象当前磁盘已使用的inode占比。采集方式（Linux）：执行df -i命令，查看IUse%列数据。挂载点前缀路径长度不能超过64个字符，必须以字母开头，只能包含0-9/a-z/A-Z/-/./~。	0-100	%	不涉及	instance_id,mount_point	1分钟

Windows系统暂不支持文件系统类监控指标。

操作系统监控指标：网卡

表7 网卡相关监控指标说明
指标	指标名称	指标含义	取值范围	单位	进制	维度	监控周期（原始指标）
net_bitRecv	(Agent) 出网带宽	该指标用于统计测量对象网卡每秒发送的比特数。采集方式（Linux）：通过计算采集周期内/proc/net/dev中的变化得出。采集方式（Windows）：使用WMI中MibIfRow对象获取网络指标数据。	≥ 0	bit/s	1024(IEC)	instance_id	1分钟
net_bitSent	(Agent) 入网带宽	该指标用于统计测量对象网卡每秒接收的比特数。采集方式（Linux）：通过计算采集周期内/proc/net/dev中的变化得出。采集方式（Windows）：使用WMI中MibIfRow对象获取网络指标数据。	≥ 0	bit/s	1024(IEC)	instance_id	1分钟
net_packetRecv	(Agent) 网卡包接收速率	该指标用于统计测量对象网卡每秒接收的数据包数。采集方式（Linux）：通过计算采集周期内/proc/net/dev中的变化得出。采集方式（Windows）：使用WMI中MibIfRow对象获取网络指标数据。	≥ 0	Counts/s	不涉及	instance_id	1分钟
net_packetSent	(Agent) 网卡包发送速率	该指标用于统计测量对象网卡每秒发送的数据包数。采集方式（Linux）：通过计算采集周期内/proc/net/dev中的变化得出。采集方式（Windows）：使用WMI中MibIfRow对象获取网络指标数据。	≥ 0	Counts/s	不涉及	instance_id	1分钟
net_errin	(Agent) 接收误包率	该指标用于统计测量对象网卡每秒接收的错误数据包数量占所接收的数据包的比率。采集方式（Linux）：通过计算采集周期内/proc/net/dev中的变化得出。采集方式（Windows）：暂不支持。	0-100	%	不涉及	instance_id	1分钟
net_errout	(Agent) 发送误包率	该指标用于统计测量对象网卡每秒发送的错误数据包数量占所发送的数据包的比率。采集方式（Linux）：通过计算采集周期内/proc/net/dev中的变化得出。采集方式（Windows）：暂不支持。	0-100	%	不涉及	instance_id	1分钟
net_dropin	(Agent) 接收丢包率	该指标用于统计测量对象网卡每秒接收并已丢弃的数据包数量占所接收的数据包的比率采集方式（Linux）：通过计算采集周期内/proc/net/dev中的变化得出。采集方式（Windows）：暂不支持。	0-100	%	不涉及	instance_id	1分钟
net_dropout	(Agent) 发送丢包率	该指标用于统计测量对象网卡每秒发送并已丢弃的数据包数量占所发送的数据包的比率。采集方式（Linux）：通过计算采集周期内/proc/net/dev中的变化得出。采集方式（Windows）：暂不支持。	0-100	%	不涉及	instance_id	1分钟

操作系统监控指标：NTP

表8 NTP类监控指标说明
指标	指标名称	指标含义	取值范围	单位	进制	维度	监控周期（原始指标）
ntp_offset	(Agent) NTP偏移量	该指标用于统计测量对象当前NTP偏移量。采集方式（Linux）：执行chronyc sources -v命令，获取偏移量。采集方式（Windows）：暂不支持。	≥ 0	ms	不涉及	instance_id	1分钟

操作系统监控指标：TCP

表9 TCP类监控指标说明
指标	指标名称	指标含义	取值范围	单位	进制	维度	监控周期（原始指标）
net_tcp_total	(Agent) TCP TOTAL	该指标用于统计测量对象所有状态的TCP连接数总和。采集方式（Linux）：通过/proc/net/tcp文件获取到所有状态的TCP连接，再统计每个状态的连接数量。采集方式（Windows）：通过WindowsAPI GetTcpTable2获取。	≥ 0	Count	不涉及	instance_id	1分钟
net_tcp_established	(Agent) TCP ESTABLISHED	该指标用于统计测量对象处于ESTABLISHED状态的TCP连接数量。采集方式（Linux）：通过/proc/net/tcp文件获取到所有状态的TCP连接，再统计每个状态的连接数量。采集方式（Windows）：通过WindowsAPI GetTcpTable2获取。	≥ 0	Count	不涉及	instance_id	1分钟
net_tcp_sys_sent	(Agent) TCP SYS_SENT	该指标用于统计测量对象处于请求连接状态的TCP连接数量。采集方式（Linux）：通过/proc/net/tcp文件获取到所有状态的TCP连接，再统计每个状态的连接数量。采集方式（Windows）：通过WindowsAPI GetTcpTable2获取。	≥ 0	Count	不涉及	instance_id	1分钟
net_tcp_sys_recv	(Agent) TCP SYS_RECV	该指标用于统计测量对象服务器端收到的请求连接的TCP数量。采集方式（Linux）：通过/proc/net/tcp文件获取到所有状态的TCP连接，再统计每个状态的连接数量。采集方式（Windows）：通过WindowsAPI GetTcpTable2获取。	≥ 0	Count	不涉及	instance_id	1分钟
net_tcp_fin_wait1	(Agent) TCP FIN_WAIT1	该指标用于统计测量对象客户端主动关闭且没有收到服务端ACK的TCP连接数量。采集方式（Linux）：通过/proc/net/tcp文件获取到所有状态的TCP连接，再统计每个状态的连接数量。采集方式（Windows）：通过WindowsAPI GetTcpTable2获取。	≥ 0	Count	不涉及	instance_id	1分钟
net_tcp_fin_wait2	(Agent) TCP FIN_WAIT2	该指标用于统计测量对象处于FIN_WAIT2状态的TCP连接数量。采集方式（Linux）：通过/proc/net/tcp文件获取到所有状态的TCP连接，再统计每个状态的连接数量。采集方式（Windows）：通过WindowsAPI GetTcpTable2获取。	≥ 0	Count	不涉及	instance_id	1分钟
net_tcp_time_wait	(Agent) TCP TIME_WAIT	该指标用于统计测量对象处于TIME_WAIT状态的TCP连接数量。采集方式（Linux）：通过/proc/net/tcp文件获取到所有状态的TCP连接，再统计每个状态的连接数量。采集方式（Windows）：通过WindowsAPI GetTcpTable2获取。	≥ 0	Count	不涉及	instance_id	1分钟
net_tcp_close	(Agent) TCP CLOSE	该指标用于统计测量对象关闭的或未打开的TCP连接数量。采集方式（Linux）：通过/proc/net/tcp文件获取到所有状态的TCP连接，再统计每个状态的连接数量。采集方式（Windows）：通过WindowsAPI GetTcpTable2获取。	≥ 0	Count	不涉及	instance_id	1分钟
net_tcp_close_wait	(Agent) TCP CLOSE_WAIT	该指标用于统计测量对象处于CLOSE_WAIT状态的TCP连接数量。采集方式（Linux）：通过/proc/net/tcp文件获取到所有状态的TCP连接，再统计每个状态的连接数量。采集方式（Windows）：通过WindowsAPI GetTcpTable2获取。	≥ 0	Count	不涉及	instance_id	1分钟
net_tcp_last_ack	(Agent) TCP LAST_ACK	该指标用于统计测量对象被动关闭等待ACK报文的TCP连接数量。采集方式（Linux）：通过/proc/net/tcp文件获取到所有状态的TCP连接，再统计每个状态的连接数量。采集方式（Windows）：通过WindowsAPI GetTcpTable2获取。	≥ 0	Count	不涉及	instance_id	1分钟
net_tcp_listen	(Agent) TCP LISTEN	该指标用于统计测量对象处于LISTEN状态的TCP连接数量。采集方式（Linux）：通过/proc/net/tcp文件获取到所有状态的TCP连接，再统计每个状态的连接数量。采集方式（Windows）：通过WindowsAPI GetTcpTable2获取。	≥ 0	Count	不涉及	instance_id	1分钟
net_tcp_closing	(Agent) TCP CLOSING	该指标用于统计测量对象处于服务端和客户端同时主动关闭状态的TCP连接数量。采集方式（Linux）：通过/proc/net/tcp文件获取到所有状态的TCP连接，再统计每个状态的连接数量。采集方式（Windows）：通过WindowsAPI GetTcpTable2获取。	≥ 0	Count	不涉及	instance_id	1分钟
net_tcp_retrans	(Agent) TCP重传率	该指标用于统计测量对象重新发送的报文数与总发送的报文数之间的比值。采集方式（Linux）：通过从/proc/net/snmp文件中获取对应的数据，计算采集周期内重传包数和发送包数的比值得出。采集方式（Windows）：重传率通过WindowsAPI GetTcpStatistics获取	0-100	%	不涉及	instance_id	1分钟

操作系统监控指标：GPU

**表10** GPU类监控指标说明
指标	指标名称	指标含义	取值范围	单位	进制	维度	监控周期（原始指标）
gpu_status	(Agent) gpu健康状态	该指标用于统计虚拟机上GPU健康状态，是一个综合指标。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	0：代表健康 1：代表亚健康 2：代表故障	不涉及	不涉及	instance_id instance_id,gpu	1分钟
gpu_usage_encoder	(Agent) 编码使用率	该指标用于统计该GPU的编码能力使用率。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	0-100	%	不涉及	instance_id instance_id,gpu	1分钟
gpu_usage_decoder	(Agent) 解码使用率	该指标用于统计该GPU的解码能力使用率。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	0-100	%	不涉及	instance_id instance_id,gpu	1分钟
gpu_volatile_correctable	(Agent) 可纠正ECC错误数量	该指标用于统计该GPU重置以来可纠正的ECC错误数量，每次重置后归0。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	count	不涉及	instance_id instance_id,gpu	1分钟
gpu_volatile_uncorrectable	(Agent) 不可纠正ECC错误数量	该指标用于统计该GPU重置以来不可纠正的ECC错误数量，每次重置后归0。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	count	不涉及	instance_id instance_id,gpu	1分钟
gpu_aggregate_correctable	(Agent) 累计可纠正ECC错误数量	该指标用于统计该GPU累计的可纠正ECC错误数量。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	count	不涉及	instance_id instance_id,gpu	1分钟
gpu_aggregate_uncorrectable	(Agent) 累计不可纠正ECC错误数量	该指标用于统计该GPU累计的不可纠正ECC错误数量。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	count	不涉及	instance_id instance_id,gpu	1分钟
gpu_retired_page_single_bit	(Agent) retired page single bit错误数量	该指标用于统计该GPU当前卡隔离的单比特页的数量。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	count	不涉及	instance_id instance_id,gpu	1分钟
gpu_retired_page_double_bit	(Agent) retired page double bit错误数量	该指标用于统计该GPU当前卡隔离的双比特页的数量。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	count	不涉及	instance_id instance_id,gpu	1分钟
gpu_performance_state	(Agent) 性能状态	该指标用于统计该GPU的性能状态。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	P0-P15、P32， P0：表示最大性能状态 P15：表示最小性能状态 P32：表示状态未知	不涉及	不涉及	instance_id instance_id,gpu	1分钟
gpu_usage_mem	(Agent) 显存使用率	该指标用于统计该GPU的显存使用率。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	0-100	%	不涉及	instance_id instance_id,gpu	1分钟
gpu_usage_gpu	(Agent) GPU使用率	该指标用于统计该GPU的算力使用率。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	0-100	%	不涉及	instance_id instance_id,gpu	1分钟
gpu_free_mem	(Agent) GPU显存剩余量	该指标用于统计该GPU的显存剩余量。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	MB	不涉及	instance_id instance_id,gpu	1分钟
gpu_graphics_clocks	(Agent) GPU显卡时钟频率	该指标用于统计该GPU的显卡（着色器）时钟频率。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	MHz	不涉及	instance_id instance_id,gpu	1分钟
gpu_mem_clocks	(Agent) GPU内存时钟频率	该指标用于统计该GPU的内存时钟频率。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	MHz	不涉及	instance_id instance_id,gpu	1分钟
gpu_power_draw	(Agent) GPU功率	该指标用于统计该GPU的功率。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	NA	W	不涉及	instance_id instance_id,gpu	1分钟
gpu_rx_throughput_pci	(Agent) GPU PCI入方向流量	该指标用于统计该GPU的PCI入方向流量。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	MB/s	不涉及	instance_id instance_id,gpu	1分钟
gpu_sm_clocks	(Agent) GPU流式处理器时钟频率	该指标用于统计该GPU的流式处理器时钟频率。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	MHz	不涉及	instance_id instance_id,gpu	1分钟
gpu_temperature	(Agent) GPU温度	该指标用于统计该GPU的温度。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	℃	不涉及	instance_id instance_id,gpu	1分钟
gpu_tx_throughput_pci	(Agent) GPU PCI出方向流量	该指标用于统计该GPU的PCI出方向带宽。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	MB/s	不涉及	instance_id instance_id,gpu	1分钟
gpu_used_mem	(Agent) GPU显存使用量	该指标用于统计该GPU的显存使用量。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	MB	不涉及	instance_id instance_id,gpu	1分钟
gpu_video_clocks	(Agent) GPU视频时钟频率	该指标用于统计该GPU的视频（包含编解码）时钟频率。采集方式（Linux）：通过调用GPU卡的libnvidia-ml.so.1库文件获取。采集方式（Windows）：通过调用GPU卡的nvml.dll库获取。	≥ 0	MHz	不涉及	instance_id instance_id,gpu	1分钟

操作系统监控指标：NPU

**表11** NPU类监控指标说明
指标	指标名称	指标含义	取值范围	单位	进制	维度	监控周期（原始指标）
npu_device_health	(Agent) NPU健康状况	该指标用于统计虚拟机上NPU卡的健康状态，是一个综合指标。采集方式（Linux）：通过调用NPU卡的libdcmi.so库文件获取。	0：代表健康 1：代表存在一般告警 2：代表存在重要告警 3：代表存在紧急告警	不涉及	不涉及	instance_id instance_id,npu	1分钟
npu_util_rate_mem	(Agent) NPU显存使用率	该指标用于统计该NPU的显存使用率。采集方式（Linux）：通过调用NPU卡的libdcmi.so库文件获取。	0-100	%	不涉及	instance_id instance_id,npu	1分钟
npu_util_rate_ai_core	(Agent) NPU卡AI核心使用率	该指标用于统计该NPU的AI核心使用率。采集方式（Linux）：通过调用NPU卡的libdcmi.so库文件获取。	0-100	%	不涉及	instance_id instance_id,npu	1分钟
npu_util_rate_ai_cpu	(Agent) NPU卡AI CPU使用率	该指标用于统计该NPU的AI CPU的使用率。采集方式（Linux）：通过调用NPU卡的libdcmi.so库文件获取。	0-100	%	不涉及	instance_id instance_id,npu	1分钟
npu_util_rate_ctrl_cpu	(Agent) NPU控制CPU使用率	该指标用于统计该NPU的控制CPU的使用率。采集方式（Linux）：通过调用NPU卡的libdcmi.so库文件获取。	0-100	%	不涉及	instance_id instance_id,npu	1分钟
npu_util_rate_mem_bandwidth	(Agent) NPU显存带宽使用率	该指标用于统计该NPU的显存的带宽使用率。采集方式（Linux）：通过调用NPU卡的libdcmi.so库文件获取。	0-100	%	不涉及	instance_id instance_id,npu	1分钟
npu_freq_mem	(Agent) NPU显存频率	该指标用于统计该NPU的显存的时钟频率。采集方式（Linux）：通过调用NPU卡的libdcmi.so库文件获取。	≥ 0	MHz	不涉及	instance_id instance_id,npu	1分钟
npu_freq_ai_core	(Agent) NPU卡AI核心频率	该指标用于统计该NPU AI核心的时钟频率。采集方式（Linux）：通过调用NPU卡的libdcmi.so库文件获取。	≥ 0	MHz	不涉及	instance_id instance_id,npu	1分钟
npu_usage_mem	(Agent) NPU显存使用量	该指标用于统计该NPU 显存的使用量。采集方式（Linux）：通过调用NPU卡的libdcmi.so库文件获取。	≥ 0	MB	不涉及	instance_id instance_id,npu	1分钟
npu_sbe	(Agent) NPU单bit错误数量	该指标用于统计该NPU卡当前的单比特页错误的数量。采集方式（Linux）：通过调用NPU卡的libdcmi.so库文件获取。	≥ 0	count	不涉及	instance_id instance_id,npu	1分钟
npu_dbe	(Agent) NPU双bit错误数量	该指标用于统计该NPU卡当前的多比特页错误的数量。采集方式（Linux）：通过调用NPU卡的libdcmi.so库文件获取。	≥ 0	count	不涉及	instance_id instance_id,npu	1分钟
npu_power	(Agent) NPU功率	该指标用于统计该NPU卡的功率。其中，310卡仅支持显示额定功率，其余卡显示实际功率采集方式（Linux）：通过调用NPU卡的libdcmi.so库文件获取。	≥ 0	W	不涉及	instance_id instance_id,npu	1分钟
npu_temperature	(Agent) NPU温度	该指标用于统计该NPU卡当前的温度采集方式（Linux）：通过调用NPU卡的libdcmi.so库文件获取。	≥ 0	℃	不涉及	instance_id instance_id,npu	1分钟

Windows系统暂不支持NPU类监控指标。

操作系统监控指标：DAVP

**表12** DAVP类监控指标说明
指标	指标名称	指标含义	取值范围	单位	进制	维度	监控周期（原始指标）
davp_device_health	(Agent) DAVP健康状态	该指标用于统计虚拟机上DAVP卡的健康状态，是一个综合指标。采集方式（Linux）：通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。	0：代表健康 1：代表异常	不涉及	不涉及	instance_id instance_id,davp	1分钟
davp_util_rate_mem	(Agent) DAVP显存使用率	该指标用于统计该DAVP卡的显存使用率。采集方式（Linux）：通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。	0-100	%	不涉及	instance_id instance_id,davp	1分钟
davp_usage_mem	(Agent) DAVP显存使用量	该指标用于统计该DAVP卡的显存使用量采集方式（Linux）：通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。	≥ 0	MB	不涉及	instance_id instance_id,davp	1分钟
davp_util_rate_ai_core	(Agent) DAVP卡AI核心使用率	该指标用于统计该DAVP卡的AI核心的使用率。采集方式（Linux）：通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。	0-100	%	不涉及	instance_id instance_id,davp	1分钟
davp_util_rate_vdsp_core	(Agent) DAVP卡vdsp核心使用率	该指标用于统计该DAVP卡的vdsp核心使用率。采集方式（Linux）：通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。	0-100	%	不涉及	instance_id instance_id,davp	1分钟
davp_util_rate_enc_core	(Agent) DAVP卡编码核心使用率	该指标用于统计该DAVP的编码核心使用率。采集方式（Linux）：通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。	0-100	%	不涉及	instance_id instance_id,davp	1分钟
davp_util_rate_dec_core	(Agent) DAVP卡解码核心使用率	该指标用于统计该DAVP卡的解码核心使用率。采集方式（Linux）：通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。	0-100	%	不涉及	instance_id instance_id,davp	1分钟
davp_sysc_temperature	(Agent) DAVP卡系统模块温度	该指标用于统计该DAVP卡的系统模块温度。采集方式（Linux）：通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。	≥ 0	℃	不涉及	instance_id instance_id,davp	1分钟

Windows系统暂不支持DAVP类监控指标。

维度

维度	Key	Value
云服务器	instance_id	云服务器ID。该取值可通过云监控服务的“查询主机监控维度指标信息”获取。
云服务器 - 磁盘	disk	云服务器磁盘。该取值可通过云监控服务的“查询主机监控维度指标信息”获取。
云服务器 - 挂载点	mount_point	云服务器磁盘的挂载点。该取值可通过云监控服务的“查询主机监控维度指标信息”获取。
云服务器 - GPU	gpu	GPU类型云服务器中显卡。该取值可通过云监控服务的“查询主机监控维度指标信息”获取。
云服务器 - NPU	npu	NPU类型云服务器中显卡。该取值可通过云监控服务的“查询主机监控维度指标信息”获取。
云服务器 - DAVP	davp	DAVP类型云服务器，其中搭载了DaoCloud DAVP1视频加速卡。该取值可通过云监控服务的“查询主机监控维度指标信息”获取。

使用接口查询多层级维度指标示例

对于有多层测量维度的测量对象，使用接口查询监控指标时，需要代入具体指标的维度层级关系。

例如，需要查询弹性云服务器中磁盘挂载点的剩余存储量（disk_free），该指标的维度信息为“instance_id,mount_point”，表示instance_id为0层，mount_point为1层。

通过API查询单个监控指标时，mount_point的维度信息代入样例如下：
```
dim.0=instance_id,3d65c1ac-9a9f-4c5f-a054-35184a087bb2&dim.1=mount_point,6666cd76f96956469e7be39d750cc7d9
```
其中，3d65c1ac-9a9f-4c5f-a054-35184a087bb2和6666cd76f96956469e7be39d750cc7d9分别为instance_id和mount_point的维度值，具体获取方法请参见“维度”表格中的获取指导。

通过API批量查询监控指标时，mount_point的维度信息代入样例如下：

"dimensions": [ 
                { 
                    "name": "instance_id", 
                    "value": "3d65c1ac-9a9f-4c5f-a054-35184a087bb2"    
                }, 
                { 
                    "name": "mount_point", 
                    "value": "6666cd76f96956469e7be39d750cc7d9" 
                } 
            ]

其中，3d65c1ac-9a9f-4c5f-a054-35184a087bb2和6666cd76f96956469e7be39d750cc7d9分别为nstance_id和mount_point的维度值，具体获取方法请参见“维度”表格中的获取指导。

弹性云服务器支持的操作系统监控指标（安装Agent）