文档首页/ 裸金属服务器 BMS/ 最佳实践/ 监控/ 支持的监控指标(安装Agent)
更新时间:2022-04-11 GMT+08:00

支持的监控指标(安装Agent)

功能说明

本节定义了裸金属服务器上报云监控服务的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控服务控制台或API接口来检索裸金属服务器产生的监控指标和告警信息。

安装Agent后,您便可以查看裸金属服务器的操作系统监控指标。指标采集周期是1分钟。

命名空间

SERVICE.BMS

监控指标

裸金属服务器(操作系统监控)支持的监控指标有:CPU相关监控指标(表1)、CPU负载类相关监控指标(表2)、内存相关监控指标(表3)、磁盘相关监控指标(表4)、磁盘I/O类(表5)、文件系统类(表6)、网卡类(表7)、软RAID相关监控指标(表8)和进程相关监控指标(表9)。

如果要监控软RAID相关指标,Agent版本必须为1.0.5及以上。

Windows系统的裸金属服务器暂不支持监控。

表1 CPU相关监控指标说明

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

cpu_usage_idle

(Agent)CPU空闲时间占比

该指标用于统计测量对象当前CPU空闲时间占比。

通过计算采集周期内“/proc/stat”文件中的变化得出CPU空闲时间占比。

用户可以通过top命令查看“%Cpu(s) id”值。

单位:百分比

0-100%

裸金属服务器

1分钟

cpu_usage_other

(Agent)其他CPU使用率

该指标用于统计测量对象其他占用CPU使用率。

计算公式:

1 - 空闲CPU使用率(%) - 内核空间CPU使用率 - 用户空间CPU使用率。

单位:百分比

0-100%

裸金属服务器

1分钟

cpu_usage_system

(Agent)内核空间CPU使用率

该指标用于统计测量对象当前内核空间占用CPU使用率。

通过计算采集周期内“/proc/stat”文件中的变化得出内核空间CPU使用率。

用户可以通过top命令查看“%Cpu(s) sy”值。

单位:百分比

0-100%

裸金属服务器

1分钟

cpu_usage_user

(Agent)用户空间CPU使用率

该指标用于统计测量对象当前用户空间占用CPU使用率。

通过计算采集周期内“/proc/stat”中的变化得出用户空间CPU使用率。

用户可以通过top命令查看“%Cpu(s) us”值。

单位:百分比

0-100%

裸金属服务器

1分钟

cpu_usage

(Agent)CPU使用率

该指标用于统计测量对象当前CPU使用率。

通过计算采集周期内“/proc/stat”中的变化得出用户空间CPU使用率。

用户可以通过top命令查看“%Cpu(s)”值。

单位:百分比

0-100%

裸金属服务器

1分钟

cpu_usage_nice

(Agent)Nice进程CPU使用率

该指标用于统计测量对象当前Nice进程CPU使用率。

通过计算采集周期内/proc/stat中的变化得出Nice进程CPU使用率。用户可以通过top命令查看 %Cpu(s) ni值。

单位:百分比

0-100%

裸金属服务器

1分钟

cpu_usage_iowait

(Agent)iowait状态占比

该指标用于统计测量对象当前iowait状态占用CPU的比率。

通过计算采集周期内/proc/stat中的变化得出iowait状态占比。

用户可以通过top命令查看 %Cpu(s) wa值。

单位:百分比

0-100%

裸金属服务器

1分钟

cpu_usage_irq

(Agent)CPU中断时间占比

该指标用于统计测量对象当前CPU处理中断用时占用CPU时间的比率,以百分比为单位。

通过计算采集周期内/proc/stat中的变化得出CPU中断时间占比。

用户可以通过top命令查看 %Cpu(s) hi值。

单位:百分比

0-100%

裸金属服务器

1分钟

cpu_usage_softirq

(Agent)CPU软中断时间占比

该指标用于统计测量对象当前CPU处理软中断时间占用CPU时间的比率。

通过计算采集周期内/proc/stat中的变化得出CPU软中断时间占比。

用户可以通过top命令查看 %Cpu(s) si值。

单位:百分比

0-100%

裸金属服务器

1分钟

表2 CPU负载指标说明

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

load_average1

(Agent)1分钟平均负载

该指标用于统计测量对象在过去1分钟的CPU平均负载。

通过“/proc/loadavg”文件中load1/逻辑CPU个数得到。

用户可以通过top命令查看“load1”值。

≥ 0

裸金属服务器

1分钟

load_average5

(Agent)5分钟平均负载

该指标用于统计测量对象在过去5分钟的CPU平均负载。

通过“/proc/loadavg”文件中load5/逻辑CPU个数得到。

用户可以通过top命令查看“load5”值。

≥ 0

裸金属服务器

1分钟

load_average15

(Agent)15分钟平均负载

该指标用于统计测量对象在过去15分钟的CPU平均负载。

通过“/proc/loadavg”中load15/逻辑CPU个数得到。

用户可以通过top命令查看“load15”值。

≥ 0

裸金属服务器

1分钟

表3 内存相关监控指标说明

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

mem_available

(Agent)可用内存

该指标用于统计测量对象的可用内存。

通过“/proc/meminfo”文件得到MemAvailable。若“/proc/meminfo”中不显示MemAvailable,则MemAvailable=MemFree+Buffers+Cached。

单位:GB

≥ 0 GB

裸金属服务器

1分钟

mem_usedPercent

(Agent)内存使用率

该指标用于统计测量对象的内存使用率。

通过“/proc/meminfo”文件获取。计算公式:(MemTotal-MemAvailable)/MemTotal。

单位:百分比

0-100%

裸金属服务器

1分钟

mem_free

(Agent)空闲内存量

该指标用于统计测量对象的空闲内存量。

通过/proc/meminfo获取。

单位:GB

≥ 0 GB

裸金属服务器

1分钟

mem_buffers

(Agent)Buffers占用量

该指标用于统计测量对象的Buffers内存量。

通过/proc/meminfo获取。

用户可以通过top命令查看 KiB Mem:buffers值。

单位:GB

≥ 0 GB

裸金属服务器

1分钟

mem_cached

(Agent)Cache占用量

该指标用于统计测量对象Cache内存量。

通过/proc/meminfo获取。

用户可以通过top命令查看 KiB Swap:cached Mem值。

单位:GB

≥ 0 GB

裸金属服务器

1分钟

表4 磁盘相关监控指标说明

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

mountPointPrefix_disk_free

(Agent)磁盘剩余存储量

该指标用于统计测量对象磁盘的剩余存储空间。

执行df -h命令,查看Avail列数据。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:GB

≥ 0 GB

裸金属服务器

1分钟

mountPointPrefix_disk_total

(Agent)磁盘存储总量

该指标用于统计测量对象磁盘存储总量。

执行df -h命令,查看Size列数据。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:GB

≥ 0 GB

裸金属服务器

1分钟

mountPointPrefix_disk_used

(Agent)磁盘已用存储量

该指标用于统计测量对象磁盘的已用存储空间。

执行df -h命令,查看Used列数据。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:GB

≥ 0 GB

裸金属服务器

1分钟

mountPointPrefix_disk_usedPercent

(Agent)磁盘使用率

该指标用于统计测量对象磁盘使用率,以百分比为单位。计算方式为:磁盘已用存储量/磁盘存储总量。

通过计算Used/Size得出。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:百分比

0-100%

裸金属服务器

1分钟

表5 磁盘I/O相关监控指标说明

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

mountPointPrefix_disk_agt_read_bytes_rate

(Agent)磁盘读速率

该指标用于统计每秒从测量对象磁盘读出的数据量。

通过计算采集周期内“/proc/diskstats”文件中对应设备第六列数据的变化得出磁盘读速率。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:byte/s

≥ 0 byte/s

裸金属服务器

1分钟

mountPointPrefix_disk_agt_read_requests_rate

(Agent)磁盘读操作速率

该指标用于统计每秒从测量对象磁盘读取数据的请求次数。

通过计算采集周期内“/proc/diskstats”文件中对应设备第四列数据的变化得出磁盘读操作速率。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:请求/秒

≥ 0 请求/秒

裸金属服务器

1分钟

mountPointPrefix_disk_agt_write_bytes_rate

(Agent)磁盘写速率

该指标用于统计每秒写到测量对象磁盘的数据量。

通过计算采集周期内“/proc/diskstats”文件中对应设备第十列数据的变化得出磁盘写速率。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:byte/s

≥ 0 byte/s

裸金属服务器

1分钟

mountPointPrefix_disk_agt_write_requests_rate

(Agent)磁盘写操作速率

该指标用于统计每秒向测量对象磁盘写数据的请求次数。

通过计算采集周期内“/proc/diskstats”文件中对应设备第八列数据的变化得出磁盘写操作速率。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:请求/秒

≥ 0 请求/秒

裸金属服务器

1分钟

disk_readTime

(Agent)读操作平均耗时

该指标用于统计测量对象磁盘读操作平均耗时。

通过计算采集周期内/proc/diskstats中对应设备第七列数据的变化得出磁盘读操作平均耗时。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:ms/Count

≥ 0 ms/Count

裸金属服务器

1分钟

disk_writeTime

(Agent)写操作平均耗时

该指标用于统计测量对象磁盘写操作平均耗时。

通过计算采集周期内/proc/diskstats中对应设备第十一列数据的变化得出磁盘写操作平均耗时。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:ms/Count

≥ 0 ms/Count

裸金属服务器

1分钟

disk_ioUtils

(Agent)磁盘I/O使用率

该指标用于统计测量对象磁盘I/O使用率。

通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化得出磁盘I/O使用率。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:百分比

0-100%

裸金属服务器

1分钟

disk_queue_length

(Agent)平均队列长度

该指标用于统计指定时间段内,平均等待完成的读取或写入操作请求的数量。

通过计算采集周期内/proc/diskstats中对应设备第十四列数据的变化得出磁盘平均队列长度。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:个

≥ 0 个

裸金属服务器

1分钟

disk_write_bytes_per_operation

(Agent)平均写操作大小

该指标用于统计指定时间段内,平均每个写I/O操作传输的字节数。

通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化与第八列数据的变化相除得出磁盘平均写操作大小。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:KB/op

≥ 0 KB/op

裸金属服务器

1分钟

disk_read_bytes_per_operation

(Agent)平均读操作大小

该指标用于统计指定时间段内,平均每个读I/O操作传输的字节数。

通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化与第四列数据的变化相除得出磁盘平均读操作大小。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:KB/op

≥ 0 KB/op

裸金属服务器

1分钟

disk_io_svctm

(Agent)平均I/O服务时长

该指标用于统计指定时间段内,平均每个读或写I/O的操作时长。

通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化与第四列数据与第八列数据和的变化相除得出磁盘平均I/O时长。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:ms/op

≥ 0 ms/op

裸金属服务器

1分钟

表6 文件系统类监控指标说明

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

disk_fs_rwstate

(Agent)文件系统读写状态

该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)。

通过读取/proc/mounts中第四列文件系统挂载参数获得。

0,1

裸金属服务器

1分钟

disk_inodesTotal

(Agent)inode空间大小

该指标用于统计测量对象当前磁盘的inode空间量。执行df -i命令,查看Inodes列数据。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥ 0

裸金属服务器

1分钟

disk_inodesUsed

(Agent)inode已使用空间

该指标用于统计测量对象当前磁盘已使用的inode空间量。

执行df -i命令,查看IUsed列数据。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥ 0

裸金属服务器

1分钟

disk_inodesUsedPercent

(Agent)inode已使用占比

该指标用于统计测量对象当前磁盘已使用的inode占比。

执行df -i命令,查看IUse%列数据。

挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

单位:百分比

0-100%

裸金属服务器

1分钟

表7 网卡相关监控指标说明

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

net_bitRecv

(Agent)入网带宽

该指标用于统计测量对象网卡每秒接收的比特数。

通过计算采集周期内“/proc/net/dev”文件中的变化得出。

单位:bit/s

≥ 0 bit/s

裸金属服务器

1分钟

net_bitSent

(Agent)出网带宽

该指标用于统计测量对象网卡每秒发送的比特数。

通过计算采集周期内“/proc/net/dev”文件中的变化得出。

单位:bit/s

≥ 0 bit/s

裸金属服务器

1分钟

net_packetRecv

(Agent)网卡包接收速率

该指标用于统计测量对象网卡每秒接收的数据包数。

通过计算采集周期内“/proc/net/dev”文件中的变化得出。

单位:Counts/s

≥ 0 Counts/s

裸金属服务器

1分钟

net_packetSent

(Agent)网卡包发送速率

该指标用于统计测量对象网卡每秒发送的数据包数。

通过计算采集周期内“/proc/net/dev”文件中的变化得出。

单位:Counts/s

≥ 0 Counts/s

裸金属服务器

1分钟

net_errin

(Agent)接收误包率

该指标用于统计测量对象网卡每秒接收的错误数据包数量占所接收的数据包的比率。

单位:百分比

0-100%

裸金属服务器

1分钟

net_errout

(Agent)发送误包率

该指标用于统计测量对象网卡每秒发送的错误数据包数量占所发送的数据包的比率。

通过计算采集周期内“/proc/net/dev”文件中的变化得出。

单位:百分比

0-100%

裸金属服务器

1分钟

net_dropin

(Agent)接收丢包率

该指标用于统计测量对象网卡每秒接收并已丢弃的数据包数量占所接收的数据包的比率。

通过计算采集周期内“/proc/net/dev”文件中的变化得出。

单位:百分比

0-100%

裸金属服务器

1分钟

net_dropout

(Agent)发送丢包率

该指标用于统计测量对象网卡每秒发送并已丢弃的数据包数量占所发送的数据包的比率。

通过计算采集周期内“/proc/net/dev”文件中的变化得出。

单位:百分比

0-100%

裸金属服务器

1分钟

表8 软RAID相关监控指标说明

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

md1_status_device:1

(Agent)软RAID状态

该指标用于统计测量对象软RAID设备的状态,RAID异常情况下值为0。

通过采集周期内执行插件脚本“/usr/local/telescope/plugins/raid-monitor.sh”,脚本中计算“/proc/mdstat”文件中的变化并执行mdadm -D /dev/md0(RAID名称)得出。

0,1

裸金属服务器

1分钟

md1_active_device:2

(Agent)软RAID活跃设备数

该指标用于统计测量对象软RAID设备的活跃盘数,RAID异常情况下值为-1。

通过采集周期内执行插件脚本“/usr/local/telescope/plugins/raid-monitor.sh”,脚本中计算“/proc/mdstat”文件中的变化并执行mdadm -D /dev/md0(RAID名称)得出。

≥0,-1

裸金属服务器

1分钟

md1_working_device:2

(Agent)软RAID工作设备数

该指标用于统计测量对象软RAID设备的工作设备数,RAID异常情况下值为-1。

通过采集周期内执行插件脚本“/usr/local/telescope/plugins/raid-monitor.sh”,脚本中计算“/proc/mdstat”文件中的变化并执行mdadm -D /dev/md0(RAID名称)得出。

≥0,-1

裸金属服务器

1分钟

md1_failed_device:0

(Agent)软RAID失败设备数

该指标用于统计测量对象软RAID设备的失败设备数,RAID异常情况下值为-1。

通过采集周期内执行插件脚本“/usr/local/telescope/plugins/raid-monitor.sh”,脚本中计算“/proc/mdstat”文件中的变化并执行mdadm -D /dev/md0(RAID名称)得出。

≥0,-1

裸金属服务器

1分钟

md1_spare_device:0

(Agent)软RAID备用设备数

该指标用于统计测量对象软RAID设备的备用设备数,RAID异常情况下值为-1。

通过采集周期内执行插件脚本“/usr/local/telescope/plugins/raid-monitor.sh”,脚本中计算“/proc/mdstat”文件中的变化并执行mdadm -D /dev/md0(RAID名称)得出。

≥0,-1

裸金属服务器

1分钟

表9 进程相关监控指标说明

指标ID

指标名称

指标含义

取值范围

测量对象

监控周期(原始指标)

proc_pHashId_cpu

进程CPU使用率

进程消耗的CPU百分比,pHashId是(进程名+进程ID)的md5值。

通过计算/proc/pid/stat的变化得出。

单位:百分比

0-100%

裸金属服务器

1分钟

proc_pHashId_mem

进程内存使用率

进程消耗的内存百分比,pHashId是(进程名+进程ID)的md5值。

计算方式:RSS*PAGESIZE/MemTotal

  • RSS:通过获取/proc/pid/statm第二列得到
  • PAGESIZE:通过命令getconf PAGESIZE获取
  • MemTotal:通过/proc/meminfo获取

单位:百分比

0-100%

裸金属服务器

1分钟

proc_pHashId_file

进程打开文件数

进程打开文件数,pHashId是(进程名+进程ID)的md5值。

通过执行ls -l /proc/pid/fd可以查看数量。

≥0

裸金属服务器

1分钟

proc_running_count

(Agent)运行中进程数

该指标用于统计测量对象处于运行状态的进程数。

通过统计/proc/pid/status中Status值获取每个进程的状态,进而统计各个状态进程总数。

≥0

裸金属服务器

1分钟

proc_idle_count

(Agent)空闲进程数

该指标用于统计测量对象处于空闲状态的进程数。

通过统计/proc/pid/status中Status值获取每个进程的状态,进而统计各个状态进程总数。

≥0

裸金属服务器

1分钟

proc_zombie_count

(Agent)僵死进程数

该指标用于统计测量对象处于僵死状态的进程数。

通过统计/proc/pid/status中Status值获取每个进程的状态,进而统计各个状态进程总数。

≥0

裸金属服务器

1分钟

proc_blocked_count

(Agent)阻塞进程数

该指标用于统计测量对象被阻塞的进程数。

通过统计/proc/pid/status中Status值获取每个进程的状态,进而统计各个状态进程总数。

≥0

裸金属服务器

1分钟

proc_sleeping_count

(Agent)睡眠进程数

该指标用于统计测量对象处于睡眠状态的进程数。

通过统计/proc/pid/status中Status值获取每个进程的状态,进而统计各个状态进程总数。

≥0

裸金属服务器

1分钟

proc_total_count

(Agent)系统进程数

该指标用于统计测量对象的总进程数。

通过统计/proc/pid/status中Status值获取每个进程的状态,进而统计各个状态进程总数。

≥0

裸金属服务器

1分钟