文档首页/ 弹性云服务器 ECS/ 用户指南/ 使用CES监控ECS/ 弹性云服务器支持的操作系统监控指标(安装Agent)
更新时间:2024-10-31 GMT+08:00

弹性云服务器支持的操作系统监控指标(安装Agent)

功能说明

通过在弹性云服务器中安装Agent插件,可以为用户提供服务器的系统级、主动式、细颗粒度监控服务。本节定义了弹性云服务器上报云监控的操作系统监控指标。

操作系统监控目前支持的监控指标有:CPU相关监控项、CPU负载类相关监控项、内存相关监控项、磁盘相关监控项、磁盘I/O相关监控项、文件系统类相关监控项、网卡类相关监控项、NTP类相关监控项、TCP连接数类相关监控、GPU相关监控项。

安装Agent后,对于不同的操作系统、不同的弹性云服务器类型,您可以查看不同类型的操作系统监控指标。指标采集周期是1分钟。

命名空间

AGT.ECS

操作系统监控指标:CPU

表1 CPU相关监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

cpu_usage

(Agent) CPU使用率

该指标用于统计测量对象当前CPU使用率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出cpu使用率。用户可以通过top命令查看 %Cpu(s)值。
  • 采集方式(Windows):通过WindowsAPI GetSystemTimes获取。

0-100%

云服务器

1分钟

cpu_usage_idle

(Agent) CPU空闲时间占比

该指标用于统计测量对象当前CPU空闲时间占比。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出CPU空闲时间占比。
  • 采集方式(Windows):通过WindowsAPI GetSystemTimes获取。

0-100%

云服务器

1分钟

cpu_usage_user

(Agent) 用户空间CPU使用率

该指标用于统计测量对象当前用户空间占用CPU使用率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出cpu使用率。用户可以通过top命令查看 %Cpu(s) us值。
  • 采集方式(Windows):通过WindowsAPI GetSystemTimes获取。

0-100%

云服务器

1分钟

cpu_usage_system

(Agent) 内核空间CPU使用率

该指标用于统计测量对象当前内核空间占用CPU使用率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出内核空间CPU使用率。用户可以通过top命令查看 %Cpu(s) sy值。
  • 采集方式(Windows):通过WindowsAPI GetSystemTimes获取。

0-100%

云服务器

1分钟

cpu_usage_other

(Agent) 其他CPU使用率

该指标用于统计测量对象其他占用CPU使用率。

单位:百分比

  • 采集方式(Linux):其他CPU使用率=1- 空闲CPU使用率(%)- 内核空间CPU使用率- 用户空间CPU使用率。
  • 采集方式(Windows):其他CPU使用率=1- 空闲CPU使用率(%)- 内核空间CPU使用率- 用户空间CPU使用率。

0-100%

云服务器

1分钟

cpu_usage_nice

(Agent) Nice进程CPU使用率

该指标用于统计测量对象当前Nice进程CPU使用率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出Nice进程CPU使用率。用户可以通过top命令查看 %Cpu(s) ni值。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

cpu_usage_iowait

(Agent) iowait状态占比

该指标用于统计测量对象当前iowait状态占用CPU的比率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出iowait状态占比。用户可以通过top命令查看 %Cpu(s) wa值。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

cpu_usage_irq

(Agent) CPU中断时间占比

该指标用于统计测量对象当前CPU处理中断用时占用CPU时间的比率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出CPU中断时间占比。用户可以通过top命令查看 %Cpu(s) hi值。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

cpu_usage_softirq

(Agent) CPU软中断时间占比

该指标用于统计测量对象当前CPU处理软中断时间占用CPU时间的比率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出CPU软中断时间占比。用户可以通过top命令查看 %Cpu(s) si值。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

操作系统监控指标:CPU负载

表2 CPU负载指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

load_average1

(Agent) 1分钟平均负载

该指标用于统计测量对象过去1分钟的CPU平均负载。

采集方式(Linux):通过/proc/loadavg中load1/逻辑CPU个数得到。用户可以通过top命令查看load1值。

≥0

云服务器

1分钟

load_average5

(Agent) 5分钟平均负载

该指标用于统计测量对象过去5分钟的CPU平均负载。

采集方式(Linux):通过/proc/loadavg中load5/逻辑CPU个数得到。用户可以通过top命令查看load5值。

≥0

云服务器

1分钟

load_average15

(Agent) 15分钟平均负载

该指标用于统计测量对象过去15分钟的CPU平均负载。

采集方式(Linux):通过/proc/loadavg中load15/逻辑CPU个数得到。用户可以通过top命令查看load15值。

≥0

云服务器

1分钟

Windows系统暂不支持CPU负载指标。

操作系统监控指标:内存

表3 内存相关监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

mem_available

(Agent) 可用内存

该指标用于统计测量对象的可用内存。

单位:GB

  • 采集方式(Linux):通过/proc/meminfo文件获取,
    • 若/proc/meminfo中显示MemAvailable,则直接可得
    • 若/proc/meminfo中不显示MemAvailable,则MemAvailable=MemFree+Buffers+Cached
  • 采集方式(Windows):计算方法为(内存总量-已用内存量)。通过WindowsAPI GlobalMemoryStatusEx获取。

≥0 GB

云服务器

1分钟

mem_usedPercent

(Agent) 内存使用率

该指标用于统计测量对象的内存使用率。

单位:百分比

  • 采集方式(Linux):通过/proc/meminfo文件获取,(MemTotal-MemAvailable)/MemTotal
    • 若/proc/meminfo中显示MemAvailable,则MemUsedPercent=(MemTotal-MemAvailable)/MemTotal
    • 若/proc/meminfo中不显示MemAvailable,则MemUsedPercent=(MemTotal-MemFree-Buffers-Cached)/MemTotal
  • 采集方式(Windows):计算方法为( 已用内存量/内存总量*100%)。

0-100%

云服务器

1分钟

mem_free

(Agent) 空闲内存量

该指标用于统计测量对象的空闲内存量。

单位:GB

  • 采集方式(Linux):通过/proc/meminfo获取。
  • 采集方式(Windows):暂不支持。

≥0 GB

云服务器

1分钟

mem_buffers

(Agent) Buffers占用量

该指标用于统计测量对象的Buffers内存量。

单位:GB

  • 采集方式(Linux):通过/proc/meminfo获取。用户可以通过top命令查看 KiB Mem:buffers值。
  • 采集方式(Windows):暂不支持。

≥0 GB

云服务器

1分钟

mem_cached

(Agent) Cache占用量

该指标用于统计测量对象Cache内存量。

单位:GB

  • 采集方式(Linux):通过/proc/meminfo获取。用户可以通过top命令查看 KiB Swap:cached Mem值。
  • 采集方式(Windows):暂不支持。

≥0 GB

云服务器

1分钟

total_open_files

(Agent) 文件句柄总数

该指标用于统计测量对象的所有进程使用的句柄总和。

单位:个

  • 采集方式(Linux):通过/proc/{pid}/fd文件汇总所有进程使用的句柄数。
  • 采集方式(Windows):暂不支持。

≥0

云服务器

1分钟

操作系统监控指标:磁盘

  • 目前仅支持物理磁盘指标的采集,不支持通过网络文件系统协议挂载的磁盘。
  • 会默认屏蔽docker相关的挂载点。挂载点前缀如下:
    /var/lib/docker;/mnt/paas/kubernetes;/var/lib/mesos
表4 磁盘相关监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

disk_free

(Agent) 磁盘剩余存储量

该指标用于统计测量对象磁盘的剩余存储空间。

单位:GB

  • 采集方式(Linux):执行df -h命令,查看Avail列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
  • 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥0 GB

云服务器 - 挂载点

1分钟

disk_total

(Agent) 磁盘存储总量

该指标用于统计测量对象磁盘存储总量。

单位:GB

  • 采集方式(Linux):执行df -h命令,查看Size列数据。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥0 GB

云服务器 - 挂载点

1分钟

disk_used

(Agent) 磁盘已用存量

该指标用于统计测量对象磁盘的已用存储空间。

单位:GB

  • 采集方式(Linux):执行df -h命令,查看Used列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
  • 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥0 GB

云服务器 - 挂载点

1分钟

disk_usedPercent

(Agent) 磁盘使用率

该指标用于统计测量对象磁盘使用率,以百分比为单位。计算方式为: 磁盘已用存储量/磁盘存储总量。

单位:百分比

  • 采集方式(Linux):通过计算Used/Size得出。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
  • 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

0-100%

云服务器 - 挂载点

1分钟

操作系统监控指标:磁盘I/O

表5 磁盘I/O相关监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

disk_agt_read_bytes_rate

(Agent) 磁盘读速率

该指标用于统计每秒从测量对象读出数据量。

单位:Byte/s

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化得出磁盘读速率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):
    • 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。
    • 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
    • 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。

≥ 0 Byte/s

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_agt_read_requests_rate

(Agent) 磁盘读操作速率

该指标用于统计每秒从测量对象读取数据的请求次数。

单位:请求/秒

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第四列数据的变化得出磁盘读操作速率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):
    • 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。
    • 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
    • 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。

≥ 0 请求/秒

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_agt_write_bytes_rate

(Agent) 磁盘写速率

该指标用于统计每秒写到测量对象的数据量。

单位:Byte/s

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化得出磁盘写速率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):
    • 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。
    • 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
    • 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。

≥ 0 Byte/s

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_agt_write_requests_rate

(Agent) 磁盘写操作速率

该指标用于统计每秒向测量对象写数据的请求次数。

单位:请求/秒

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第八列数据的变化得出磁盘写操作速率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):
    • 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。
    • 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
    • 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。

≥ 0 请求/秒

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_readTime

(Agent) 读操作平均耗时

该指标用于统计测量对象磁盘读操作平均耗时。

单位:ms/Count

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第七列数据的变化得出磁盘读操作平均耗时。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0 ms/Count

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_writeTime

(Agent) 写操作平均耗时

该指标用于统计测量对象磁盘写操作平均耗时。

单位:ms/Count

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十一列数据的变化得出磁盘写操作平均耗时。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0 ms/Count

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_ioUtils

(Agent) 磁盘I/O使用率

该指标用于统计测量对象磁盘I/O使用率。

单位:百分比

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化得出磁盘I/O使用率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

0-100%

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_queue_length

(Agent) 平均队列长度

该指标用于统计指定时间段内,平均等待完成的读取或写入操作请求的数量

单位:个

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十四列数据的变化得出磁盘平均队列长度。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_write_bytes_per_operation

(Agent) 平均写操作大小

该指标用于统计指定时间段内,平均每个写I/O操作传输的字节数。

单位:Byte/op

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化与第八列数据的变化相除得出磁盘平均写操作大小。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0 Byte/op

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_read_bytes_per_operation

(Agent) 平均读操作大小

该指标用于统计指定时间段内,平均每个读I/O操作传输的字节数。

单位:Byte/op

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化与第四列数据的变化相除得出磁盘平均读操作大小。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0 Byte/op

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_io_svctm

(Agent) 平均I/O服务时长

该指标用于统计指定时间段内,平均每个读或写I/O的操作时长。

单位:ms/op

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化与第四列数据和第八列数据和的变化相除得出磁盘平均I/O时长。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0 ms/op

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_device_used_percent

块设备使用率

该指标用于统计测量对象物理磁盘使用率,以百分比为单位。计算方式为: 所有已挂载磁盘分区已用存储量/磁盘存储总量。

  • 采集方式(Linux):通过汇总每个挂载点的磁盘使用量,再通过磁盘扇区大小和扇区数量计算出磁盘总大小,计算出整体磁盘使用率
  • 采集方式(Windows):暂不支持。

0-100%

云服务器 - 磁盘

1分钟

操作系统监控指标:文件系统

表6 文件系统类监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

disk_fs_rwstate

(Agent) 文件系统读写状态

该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)。

采集方式(Linux):通过读取/proc/mounts中第四列文件系统挂载参数获得。

  • 0:可读写
  • 1:只读

云服务器 - 挂载点

1分钟

disk_inodesTotal

(Agent) inode空间大小

该指标用于统计测量对象当前磁盘的inode空间量。

采集方式(Linux):执行df -i命令,查看Inodes列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥ 0

云服务器 - 挂载点

1分钟

disk_inodesUsed

(Agent) inode已使用空间

该指标用于统计测量对象当前磁盘已使用的inode空间量。

采集方式(Linux):执行df -i命令,查看IUsed列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥ 0

云服务器 - 挂载点

1分钟

disk_inodesUsedPercent

(Agent) inode已使用占比

该指标用于统计测量对象当前磁盘已使用的inode占比。

单位:百分比

采集方式(Linux):执行df -i命令,查看IUse%列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

0-100%

云服务器 - 挂载点

1分钟

Windows系统暂不支持文件系统类监控指标。

操作系统监控指标:网卡

表7 网卡相关监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

net_bitRecv

(Agent) 出网带宽

该指标用于统计测量对象网卡每秒发送的比特数。

单位:bit/s

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。

≥ 0 bit/s

云服务器

1分钟

net_bitSent

(Agent) 入网带宽

该指标用于统计测量对象网卡每秒接收的比特数。

单位:bit/s

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。

≥ 0 bit/s

云服务器

1分钟

net_packetRecv

(Agent) 网卡包接收速率

该指标用于统计测量对象网卡每秒接收的数据包数。

单位:Counts/s

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。

≥ 0 Counts/s

云服务器

1分钟

net_packetSent

(Agent) 网卡包发送速率

该指标用于统计测量对象网卡每秒发送的数据包数。

单位:Counts/s

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。

≥ 0 Counts/s

云服务器

1分钟

net_errin

(Agent) 接收误包率

该指标用于统计测量对象网卡每秒接收的错误数据包数量占所接收的数据包的比率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

net_errout

(Agent) 发送误包率

该指标用于统计测量对象网卡每秒发送的错误数据包数量占所发送的数据包的比率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

net_dropin

(Agent) 接收丢包率

该指标用于统计测量对象网卡每秒接收并已丢弃的数据包数量占所接收的数据包的比率

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

net_dropout

(Agent) 发送丢包率

该指标用于统计测量对象网卡每秒发送并已丢弃的数据包数量占所发送的数据包的比率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

操作系统监控指标:NTP

表8 NTP类监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

ntp_offset

(Agent) NTP偏移量

该指标用于统计测量对象当前NTP偏移量。

单位:ms

采集方式(Linux):执行chronyc sources -v命令,获取偏移量。

≥ 0 ms

云服务器

1分钟

操作系统监控指标:TCP

表9 TCP类监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

net_tcp_total

(Agent) TCP TOTAL

该指标用于统计测量对象所有状态的TCP连接数总和。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_established

(Agent) TCP ESTABLISHED

该指标用于统计测量对象处于ESTABLISHED状态的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_sys_sent

(Agent) TCP SYS_SENT

该指标用于统计测量对象处于请求连接状态的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_sys_recv

(Agent) TCP SYS_RECV

该指标用于统计测量对象服务器端收到的请求连接的TCP数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_fin_wait1

(Agent) TCP FIN_WAIT1

该指标用于统计测量对象客户端主动关闭且没有收到服务端ACK的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_fin_wait2

(Agent) TCP FIN_WAIT2

该指标用于统计测量对象处于FIN_WAIT2状态的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_time_wait

(Agent) TCP TIME_WAIT

该指标用于统计测量对象处于TIME_WAIT状态的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_close

(Agent) TCP CLOSE

该指标用于统计测量对象关闭的或未打开的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_close_wait

(Agent) TCP CLOSE_WAIT

该指标用于统计测量对象处于CLOSE_WAIT状态的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_last_ack

(Agent) TCP LAST_ACK

该指标用于统计测量对象被动关闭等待ACK报文的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_listen

(Agent) TCP LISTEN

该指标用于统计测量对象处于LISTEN状态的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_closing

(Agent) TCP CLOSING

该指标用于统计测量对象处于服务端和客户端同时主动关闭状态的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_retrans

(Agent) TCP重传率

该指标用于统计测量对象重新发送的报文数与总发送的报文数之间的比值。

单位:百分比

  • 采集方式(Linux):通过从/proc/net/snmp文件中获取对应的数据,计算采集周期内发送包数和重传包数的比值得出。
  • 采集方式(Windows):重传率通过WindowsAPI GetTcpStatistics获取

0-100%

云服务器

1分钟

操作系统监控指标:GPU

表10 GPU类监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

gpu_status

gpu健康状态

该指标用于统计虚拟机上GPU健康状态,是一个综合指标。

该指标无单位。

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
  • 0:代表健康
  • 1:代表亚健康
  • 2:代表故障
  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_usage_encoder

编码使用率

该指标用于统计该GPU的编码能力使用率。

单位:百分比

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

0-100%

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_usage_decoder

解码使用率

该指标用于统计该GPU的解码能力使用率。

单位:百分比

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

0-100%

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_volatile_correctable

可纠正ECC错误数量

该指标用于统计该GPU重置以来可纠正的ECC错误数量,每次重置后归0。

单位:个。

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_volatile_uncorrectable

不可纠正ECC错误数量

该指标用于统计该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_aggregate_correctable

累计可纠正ECC错误数量

该指标用于统计该GPU累计的可纠正ECC错误数量。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_aggregate_uncorrectable

累计不可纠正ECC错误数量

该指标用于统计该GPU累计的不可纠正ECC错误数量。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_retired_page_single_bit

retired page single bit错误数量

该指标用于统计该GPU当前卡隔离的单比特页的数量。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_retired_page_double_bit

retired page double bit错误数量

该指标用于统计该GPU当前卡隔离的双比特页的数量。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_performance_state

(Agent) 性能状态

该指标用于统计测量对象当前的GPU性能状态。

该指标无单位。

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

P0-P15、P32,

  • P0:表示最大性能状态
  • P15:表示最小性能状态
  • P32:表示状态未知
  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_usage_mem

(Agent) 显存使用率

该指标用于统计测量对象当前的显存使用率。

单位:百分比

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

0-100%

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_usage_gpu

(Agent) GPU使用率

该指标用于统计测量对象当前的GPU使用率。

单位:百分比

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

0-100%

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_free_mem

GPU显存剩余量

该指标用于统计测量对象当前的GPU显存剩余量。

单位:MB

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MB

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_graphics_clocks

GPU显卡时钟频率

该指标用于统计测量对象当前的GPU显卡(着色器)时钟频率。

单位:MHz

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MHz

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_mem_clocks

GPU内存时钟频率

该指标用于统计测量对象当前的GPU内存时钟频率。

单位:MHz

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MHz

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_power_draw

GPU功率

该指标用于统计测量对象当前的GPU功率。

单位:W

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

NA

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_rx_throughput_pci

GPU PCI入方向带宽

该指标用于统计测量对象当前的GPU PCI入方向带宽。

单位:MByte/s

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MByte/s

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_sm_clocks

GPU流式处理器时钟频率

该指标用于统计测量对象当前的GPU流式处理器时钟频率。

单位:MHz

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MHz

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_temperature

GPU温度

该指标用于统计测量对象当前的GPU温度。

单位:℃

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 ℃

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_tx_throughput_pci

GPU PCI出方向带宽

该指标用于统计测量对象当前的GPU PCI出方向带宽。

单位:MByte/s

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MByte/s

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_used_mem

GPU显存使用量

该指标用于统计测量对象当前的GPU显存使用量。

单位:MB

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MB

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_video_clocks

GPU视频时钟频率

该指标用于统计测量对象当前的GPU视频(包含编解码)时钟频率。

单位:MHz

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MHz

  • 云服务器
  • 云服务器 - GPU

1分钟

操作系统监控指标:NPU

表11 NPU类监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

npu_device_health

NPU健康状况

该指标用于统计虚拟机上NPU卡的健康状态,是一个综合指标。

该指标无单位。

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

  • 0:代表健康
  • 1:代表存在一般告警
  • 2:代表存在重要告警
  • 3:代表存在紧急告警
  • 云服务器
  • 云服务器 - NPU

1分钟

npu_util_rate_mem

NPU显存使用率

该指标用于统计该NPU的编码能力使用率。

单位:百分比

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_util_rate_ai_core

NPU卡AI核心使用率

该指标用于统计该NPU的AI核心使用率。

单位:百分比

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_util_rate_ai_cpu

NPU卡AI CPU使用率

该指标用于统计该NPU的AI CPU的使用率。

单位:百分比。

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_util_rate_ctrl_cpu

NPU控制CPU使用率

该指标用于统计该NPU的控制CPU的使用率。

单位:百分比。

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_util_rate_mem_bandwidth

NPU显存带宽使用率

该指标用于统计该NPU的显存的带宽使用率。

单位:百分比。

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_freq_mem

NPU显存频率

该指标用于统计该NPU的显存的时钟频率。

单位:兆赫兹(MHz)。

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_freq_ai_core

NPU卡AI核心频率

该指标用于统计该NPU AI核心的时钟频率。

单位:兆赫兹(MHz)。

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_usage_mem

NPU显存使用量

该指标用于统计该NPU 显存的使用量。

单位:兆Byte(MB)。

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_sbe

NPU单bit错误数量

该指标用于统计该NPU卡当前的单比特页错误的数量。

单位:个

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_dbe

NPU双bit错误数量

该指标用于统计该NPU卡当前的多比特页错误的数量。

单位:个

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_power

NPU功率

该指标用于统计该NPU卡的功率。其中,310卡仅支持显示额定功率,其余卡显示实际功率

单位:瓦(W)

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_temperature

NPU温度

该指标用于统计该NPU卡当前的温度

单位:摄氏度(℃)

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - NPU

1分钟

Windows系统暂不支持NPU类监控指标。

操作系统监控指标:DAVP

表12 DAVP类监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

davp_device_health

DAVP健康状态

该指标用于统计虚拟机上DAVP卡的健康状态,是一个综合指标。

该指标无单位。

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

  • 0:代表健康
  • 1:代表异常
  • 云服务器
  • 云服务器 - DAVP

1分钟

davp_util_rate_mem

DAVP显存使用率

该指标用于统计该DAVP卡的显存使用率。

单位:百分比

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - DAVP

1分钟

davp_usage_mem

DAVP显存使用量

该指标用于统计该DAVP卡的显存使用量

单位:MB

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - DAVP

1分钟

davp_util_rate_ai_core

DAVP卡AI核心使用率

该指标用于统计该DAVP卡的AI核心的使用率。

单位:百分比。

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - DAVP

1分钟

davp_util_rate_vdsp_core

DAVP卡vdsp核心使用率

该指标用于统计该DAVP卡的vdsp核心使用率。

单位:百分比。

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - DAVP

1分钟

davp_util_rate_enc_core

DAVP卡编码核心使用率

该指标用于统计该DAVP的编码核心使用率。

单位:百分比。

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - DAVP

1分钟

davp_util_rate_dec_core

DAVP卡解码核心使用率

该指标用于统计该DAVP卡的解码核心使用率。

单位:百分比。

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - DAVP

1分钟

davp_sysc_temperature

DAVP卡系统模块温度

该指标用于统计该DAVP卡的系统模块温度。

单位:摄氏度(℃)。

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - DAVP

1分钟

Windows系统暂不支持DAVP类监控指标。

维度

维度

Key

Value

云服务器

instance_id

云服务器ID。

云服务器 - 磁盘

disk

云服务器磁盘。

云服务器 - 挂载点

mount_point

云服务器磁盘的挂载点。

云服务器 - GPU

gpu

GPU类型云服务器中显卡。

云服务器 - NPU

npu

NPU类型云服务器中显卡。

云服务器 - DAVP

davp

DAVP类型云服务器,其中搭载了DaoCloud DAVP1视频加速卡。