弹性云服务器支持的操作系统监控指标(安装Agent)
功能说明
通过在弹性云服务器中安装Agent插件,为用户提供服务器的系统级、主动式、细颗粒度监控服务。本节定义了弹性云服务器上报云监控的操作系统监控指标。指标采集周期是1分钟。
操作系统监控目前支持的监控指标有:CPU相关监控项、CPU负载类相关监控项、内存相关监控项、磁盘相关监控项、磁盘I/O相关监控项、文件系统类相关监控项、网卡类相关监控项、NTP类相关监控项、TCP连接数类相关监控、GPU相关监控项、NPU相关监控项、DAVP相关监控项。
安装Agent后,对于不同的操作系统、不同的弹性云服务器类型,您可以查看不同类型的操作系统监控指标。
您可以通过管理控制台直观地查看监控指标,也可以为监控指标设置告警规则,并开启消息通知服务。当某个监控指标达到告警条件时,系统会通过短信、邮件、HTTP、HTTPS等多种方式给您发送告警通知,便于您及时掌握弹性云服务器的运行状态。
 
    云监控服务最大支持4个层级维度,维度编号从0开始,编号3为最深层级。例如监控指标中的维度信息为“instance_id,mount_point”时,表示对应的监控指标的维度存在层级关系,且“instance_id”为0层,“mount_point”为1层。
前提条件
已完成Agent插件的安装。具体操作,请参见Agent安装。
命名空间
AGT.ECS
操作系统监控指标:CPU
| 
         指标  | 
       
         指标名称  | 
       
         指标含义  | 
       
         取值范围  | 
       
         单位  | 
       
         进制  | 
       
         维度  | 
       
         监控周期(原始指标)  | 
      
|---|---|---|---|---|---|---|---|
| 
         cpu_usage  | 
       
         (Agent) CPU使用率  | 
       
         该指标用于统计测量对象当前CPU使用率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         cpu_usage_idle  | 
       
         (Agent) CPU空闲时间占比  | 
       
         该指标用于统计测量对象当前CPU空闲时间占比。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         cpu_usage_user  | 
       
         (Agent) 用户空间CPU使用率  | 
       
         该指标用于统计测量对象当前用户空间占用CPU使用率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         cpu_usage_system  | 
       
         (Agent) 内核空间CPU使用率  | 
       
         该指标用于统计测量对象当前内核空间占用CPU使用率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         cpu_usage_other  | 
       
         (Agent) 其他CPU使用率  | 
       
         该指标用于统计测量对象其他占用CPU使用率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         cpu_usage_nice  | 
       
         (Agent) Nice进程CPU使用率  | 
       
         该指标用于统计测量对象当前Nice进程CPU使用率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         cpu_usage_iowait  | 
       
         (Agent) iowait状态占比  | 
       
         该指标用于统计测量对象当前iowait状态占用CPU的比率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         cpu_usage_irq  | 
       
         (Agent) CPU中断时间占比  | 
       
         该指标用于统计测量对象当前CPU处理中断用时占用CPU时间的比率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         cpu_usage_softirq  | 
       
         (Agent) CPU软中断时间占比  | 
       
         该指标用于统计测量对象当前CPU处理软中断时间占用CPU时间的比率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
操作系统监控指标:CPU负载
| 
         指标  | 
       
         指标名称  | 
       
         指标含义  | 
       
         取值范围  | 
       
         单位  | 
       
         进制  | 
       
         维度  | 
       
         监控周期(原始指标)  | 
      
|---|---|---|---|---|---|---|---|
| 
         load_average1  | 
       
         (Agent) 1分钟平均负载  | 
       
         该指标用于统计测量对象过去1分钟的CPU平均负载。 采集方式(Linux):通过/proc/loadavg中load1/逻辑CPU个数得到。用户可以通过top命令查看load1值。  | 
       
         ≥0  | 
       
         不涉及  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         load_average5  | 
       
         (Agent) 5分钟平均负载  | 
       
         该指标用于统计测量对象过去5分钟的CPU平均负载。 采集方式(Linux):通过/proc/loadavg中load5/逻辑CPU个数得到。用户可以通过top命令查看load5值。  | 
       
         ≥0  | 
       
         不涉及  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         load_average15  | 
       
         (Agent) 15分钟平均负载  | 
       
         该指标用于统计测量对象过去15分钟的CPU平均负载。 采集方式(Linux):通过/proc/loadavg中load15/逻辑CPU个数得到。用户可以通过top命令查看load15值。  | 
       
         ≥0  | 
       
         不涉及  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
 
    Windows系统暂不支持CPU负载指标。
操作系统监控指标:内存
| 
         指标  | 
       
         指标名称  | 
       
         指标含义  | 
       
         取值范围  | 
       
         单位  | 
       
         进制  | 
       
         维度  | 
       
         监控周期(原始指标)  | 
      
|---|---|---|---|---|---|---|---|
| 
         mem_available  | 
       
         (Agent) 可用内存  | 
       
         该指标用于统计测量对象的可用内存。 
  | 
       
         ≥0  | 
       
         GB  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         mem_usedPercent  | 
       
         (Agent) 内存使用率  | 
       
         该指标用于统计测量对象的内存使用率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         mem_free  | 
       
         (Agent) 空闲内存量  | 
       
         该指标用于统计测量对象的空闲内存量。 
  | 
       
         ≥0  | 
       
         GB  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         mem_buffers  | 
       
         (Agent) Buffers占用量  | 
       
         该指标用于统计测量对象的Buffers内存量。 
  | 
       
         ≥0  | 
       
         GB  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         mem_cached  | 
       
         (Agent) Cache占用量  | 
       
         该指标用于统计测量对象Cache内存量。 
  | 
       
         ≥0  | 
       
         GB  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         total_open_files  | 
       
         (Agent) 文件句柄总数  | 
       
         该指标用于统计测量对象的所有进程使用的句柄总和。 
  | 
       
         ≥0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
操作系统监控指标:磁盘
 
    - 目前仅支持物理磁盘指标的采集,不支持通过网络文件系统协议挂载的磁盘。
 - 会默认屏蔽docker相关的挂载点。挂载点前缀如下: 
       
/var/lib/docker;/mnt/paas/kubernetes;/var/lib/mesos
 
| 
         指标  | 
       
         指标名称  | 
       
         指标含义  | 
       
         取值范围  | 
       
         单位  | 
       
         进制  | 
       
         维度  | 
       
         监控周期(原始指标)  | 
      
|---|---|---|---|---|---|---|---|
| 
         disk_free  | 
       
         (Agent) 磁盘剩余存储量  | 
       
         该指标用于统计测量对象磁盘的剩余存储空间。 
  | 
       
         ≥0  | 
       
         GB  | 
       
         不涉及  | 
       
         instance_id,mount_point  | 
       
         1分钟  | 
      
| 
         disk_total  | 
       
         (Agent) 磁盘存储总量  | 
       
         该指标用于统计测量对象磁盘存储总量。  | 
       
         ≥0  | 
       
         GB  | 
       
         不涉及  | 
       
         instance_id,mount_point  | 
       
         1分钟  | 
      
| 
         disk_used  | 
       
         (Agent) 磁盘已用存量  | 
       
         该指标用于统计测量对象磁盘的已用存储空间。 
  | 
       
         ≥0  | 
       
         GB  | 
       
         不涉及  | 
       
         instance_id,mount_point  | 
       
         1分钟  | 
      
| 
         disk_usedPercent  | 
       
         (Agent) 磁盘使用率  | 
       
         该指标用于统计测量对象磁盘使用率,以百分比为单位。计算方式为: 磁盘已用存储量/磁盘存储总量。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id,mount_point  | 
       
         1分钟  | 
      
操作系统监控指标:磁盘I/O
操作系统监控指标:文件系统
| 
         指标  | 
       
         指标名称  | 
       
         指标含义  | 
       
         取值范围  | 
       
         单位  | 
       
         进制  | 
       
         维度  | 
       
         监控周期(原始指标)  | 
      
|---|---|---|---|---|---|---|---|
| 
         disk_fs_rwstate  | 
       
         (Agent) 文件系统读写状态  | 
       
         该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)。 采集方式(Linux):通过读取/proc/mounts中第四列文件系统挂载参数获得。  | 
       
        
  | 
       
         不涉及  | 
       
         不涉及  | 
       
         instance_id,mount_point  | 
       
         1分钟  | 
      
| 
         disk_inodesTotal  | 
       
         (Agent) inode空间大小  | 
       
         该指标用于统计测量对象当前磁盘的inode空间量。 采集方式(Linux):执行df -i命令,查看Inodes列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。  | 
       
         ≥ 0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id,mount_point  | 
       
         1分钟  | 
      
| 
         disk_inodesUsed  | 
       
         (Agent) inode已使用空间  | 
       
         该指标用于统计测量对象当前磁盘已使用的inode空间量。 采集方式(Linux):执行df -i命令,查看IUsed列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。  | 
       
         ≥ 0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id,mount_point  | 
       
         1分钟  | 
      
| 
         disk_inodesUsedPercent  | 
       
         (Agent) inode已使用占比  | 
       
         该指标用于统计测量对象当前磁盘已使用的inode占比。 采集方式(Linux):执行df -i命令,查看IUse%列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id,mount_point  | 
       
         1分钟  | 
      
 
    Windows系统暂不支持文件系统类监控指标。
操作系统监控指标:网卡
| 
         指标  | 
       
         指标名称  | 
       
         指标含义  | 
       
         取值范围  | 
       
         单位  | 
       
         进制  | 
       
         维度  | 
       
         监控周期(原始指标)  | 
      
|---|---|---|---|---|---|---|---|
| 
         net_bitRecv  | 
       
         (Agent) 出网带宽  | 
       
         该指标用于统计测量对象网卡每秒发送的比特数。 
  | 
       
         ≥ 0  | 
       
         bit/s  | 
       
         1024(IEC)  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_bitSent  | 
       
         (Agent) 入网带宽  | 
       
         该指标用于统计测量对象网卡每秒接收的比特数。 
  | 
       
         ≥ 0  | 
       
         bit/s  | 
       
         1024(IEC)  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_packetRecv  | 
       
         (Agent) 网卡包接收速率  | 
       
         该指标用于统计测量对象网卡每秒接收的数据包数。 
  | 
       
         ≥ 0  | 
       
         Counts/s  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_packetSent  | 
       
         (Agent) 网卡包发送速率  | 
       
         该指标用于统计测量对象网卡每秒发送的数据包数。 
  | 
       
         ≥ 0  | 
       
         Counts/s  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_errin  | 
       
         (Agent) 接收误包率  | 
       
         该指标用于统计测量对象网卡每秒接收的错误数据包数量占所接收的数据包的比率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_errout  | 
       
         (Agent) 发送误包率  | 
       
         该指标用于统计测量对象网卡每秒发送的错误数据包数量占所发送的数据包的比率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_dropin  | 
       
         (Agent) 接收丢包率  | 
       
         该指标用于统计测量对象网卡每秒接收并已丢弃的数据包数量占所接收的数据包的比率 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_dropout  | 
       
         (Agent) 发送丢包率  | 
       
         该指标用于统计测量对象网卡每秒发送并已丢弃的数据包数量占所发送的数据包的比率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
操作系统监控指标:NTP
| 
         指标  | 
       
         指标名称  | 
       
         指标含义  | 
       
         取值范围  | 
       
         单位  | 
       
         进制  | 
       
         维度  | 
       
         监控周期(原始指标)  | 
      
|---|---|---|---|---|---|---|---|
| 
         ntp_offset  | 
       
         (Agent) NTP偏移量  | 
       
         该指标用于统计测量对象当前NTP偏移量。 
  | 
       
         ≥ 0  | 
       
         ms  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
操作系统监控指标:TCP
| 
         指标  | 
       
         指标名称  | 
       
         指标含义  | 
       
         取值范围  | 
       
         单位  | 
       
         进制  | 
       
         维度  | 
       
         监控周期(原始指标)  | 
      
|---|---|---|---|---|---|---|---|
| 
         net_tcp_total  | 
       
         (Agent) TCP TOTAL  | 
       
         该指标用于统计测量对象所有状态的TCP连接数总和。 
  | 
       
         ≥ 0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_tcp_established  | 
       
         (Agent) TCP ESTABLISHED  | 
       
         该指标用于统计测量对象处于ESTABLISHED状态的TCP连接数量。 
  | 
       
         ≥ 0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_tcp_sys_sent  | 
       
         (Agent) TCP SYS_SENT  | 
       
         该指标用于统计测量对象处于请求连接状态的TCP连接数量。 
  | 
       
         ≥ 0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_tcp_sys_recv  | 
       
         (Agent) TCP SYS_RECV  | 
       
         该指标用于统计测量对象服务器端收到的请求连接的TCP数量。 
  | 
       
         ≥ 0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_tcp_fin_wait1  | 
       
         (Agent) TCP FIN_WAIT1  | 
       
         该指标用于统计测量对象客户端主动关闭且没有收到服务端ACK的TCP连接数量。 
  | 
       
         ≥ 0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_tcp_fin_wait2  | 
       
         (Agent) TCP FIN_WAIT2  | 
       
         该指标用于统计测量对象处于FIN_WAIT2状态的TCP连接数量。 
  | 
       
         ≥ 0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_tcp_time_wait  | 
       
         (Agent) TCP TIME_WAIT  | 
       
         该指标用于统计测量对象处于TIME_WAIT状态的TCP连接数量。 
  | 
       
         ≥ 0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_tcp_close  | 
       
         (Agent) TCP CLOSE  | 
       
         该指标用于统计测量对象关闭的或未打开的TCP连接数量。 
  | 
       
         ≥ 0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_tcp_close_wait  | 
       
         (Agent) TCP CLOSE_WAIT  | 
       
         该指标用于统计测量对象处于CLOSE_WAIT状态的TCP连接数量。 
  | 
       
         ≥ 0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_tcp_last_ack  | 
       
         (Agent) TCP LAST_ACK  | 
       
         该指标用于统计测量对象被动关闭等待ACK报文的TCP连接数量。 
  | 
       
         ≥ 0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_tcp_listen  | 
       
         (Agent) TCP LISTEN  | 
       
         该指标用于统计测量对象处于LISTEN状态的TCP连接数量。 
  | 
       
         ≥ 0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_tcp_closing  | 
       
         (Agent) TCP CLOSING  | 
       
         该指标用于统计测量对象处于服务端和客户端同时主动关闭状态的TCP连接数量。 
  | 
       
         ≥ 0  | 
       
         Count  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
| 
         net_tcp_retrans  | 
       
         (Agent) TCP重传率  | 
       
         该指标用于统计测量对象重新发送的报文数与总发送的报文数之间的比值。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
         instance_id  | 
       
         1分钟  | 
      
操作系统监控指标:GPU
| 
         指标  | 
       
         指标名称  | 
       
         指标含义  | 
       
         取值范围  | 
       
         单位  | 
       
         进制  | 
       
         维度  | 
       
         监控周期(原始指标)  | 
      
|---|---|---|---|---|---|---|---|
| 
         gpu_status  | 
       
         (Agent) gpu健康状态  | 
       
         该指标用于统计虚拟机上GPU健康状态,是一个综合指标。 
  | 
       
        
  | 
       
         不涉及  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_usage_encoder  | 
       
         (Agent) 编码使用率  | 
       
         该指标用于统计该GPU的编码能力使用率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_usage_decoder  | 
       
         (Agent) 解码使用率  | 
       
         该指标用于统计该GPU的解码能力使用率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_volatile_correctable  | 
       
         (Agent) 可纠正ECC错误数量  | 
       
         该指标用于统计该GPU重置以来可纠正的ECC错误数量,每次重置后归0。 
  | 
       
         ≥ 0  | 
       
         count  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_volatile_uncorrectable  | 
       
         (Agent) 不可纠正ECC错误数量  | 
       
         该指标用于统计该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。 
  | 
       
         ≥ 0  | 
       
         count  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_aggregate_correctable  | 
       
         (Agent) 累计可纠正ECC错误数量  | 
       
         该指标用于统计该GPU累计的可纠正ECC错误数量。 
  | 
       
         ≥ 0  | 
       
         count  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_aggregate_uncorrectable  | 
       
         (Agent) 累计不可纠正ECC错误数量  | 
       
         该指标用于统计该GPU累计的不可纠正ECC错误数量。 
  | 
       
         ≥ 0  | 
       
         count  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_retired_page_single_bit  | 
       
         (Agent) retired page single bit错误数量  | 
       
         该指标用于统计该GPU当前卡隔离的单比特页的数量。 
  | 
       
         ≥ 0  | 
       
         count  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_retired_page_double_bit  | 
       
         (Agent) retired page double bit错误数量  | 
       
         该指标用于统计该GPU当前卡隔离的双比特页的数量。 
  | 
       
         ≥ 0  | 
       
         count  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_performance_state  | 
       
         (Agent) 性能状态  | 
       
         该指标用于统计该GPU的性能状态。 
  | 
       
         P0-P15、P32, 
  | 
       
         不涉及  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_usage_mem  | 
       
         (Agent) 显存使用率  | 
       
         该指标用于统计该GPU的显存使用率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_usage_gpu  | 
       
         (Agent) GPU使用率  | 
       
         该指标用于统计该GPU的算力使用率。 
  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_free_mem  | 
       
         (Agent) GPU显存剩余量  | 
       
         该指标用于统计该GPU的显存剩余量。 
  | 
       
         ≥ 0  | 
       
         MB  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_graphics_clocks  | 
       
         (Agent) GPU显卡时钟频率  | 
       
         该指标用于统计该GPU的显卡(着色器)时钟频率。 
  | 
       
         ≥ 0  | 
       
         MHz  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_mem_clocks  | 
       
         (Agent) GPU内存时钟频率  | 
       
         该指标用于统计该GPU的内存时钟频率。 
  | 
       
         ≥ 0  | 
       
         MHz  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_power_draw  | 
       
         (Agent) GPU功率  | 
       
         该指标用于统计该GPU的功率。 
  | 
       
         NA  | 
       
         W  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_rx_throughput_pci  | 
       
         (Agent) GPU PCI入方向流量  | 
       
         该指标用于统计该GPU的PCI入方向流量。 
  | 
       
         ≥ 0  | 
       
         MB/s  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_sm_clocks  | 
       
         (Agent) GPU流式处理器时钟频率  | 
       
         该指标用于统计该GPU的流式处理器时钟频率。 
  | 
       
         ≥ 0  | 
       
         MHz  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_temperature  | 
       
         (Agent) GPU温度  | 
       
         该指标用于统计该GPU的温度。 
  | 
       
         ≥ 0  | 
       
         ℃  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_tx_throughput_pci  | 
       
         (Agent) GPU PCI出方向流量  | 
       
         该指标用于统计该GPU的PCI出方向带宽。 
  | 
       
         ≥ 0  | 
       
         MB/s  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_used_mem  | 
       
         (Agent) GPU显存使用量  | 
       
         该指标用于统计该GPU的显存使用量。 
  | 
       
         ≥ 0  | 
       
         MB  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         gpu_video_clocks  | 
       
         (Agent) GPU视频时钟频率  | 
       
         该指标用于统计该GPU的视频(包含编解码)时钟频率。 
  | 
       
         ≥ 0  | 
       
         MHz  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
操作系统监控指标:NPU
| 
         指标  | 
       
         指标名称  | 
       
         指标含义  | 
       
         取值范围  | 
       
         单位  | 
       
         进制  | 
       
         维度  | 
       
         监控周期(原始指标)  | 
      
|---|---|---|---|---|---|---|---|
| 
         npu_device_health  | 
       
         (Agent) NPU健康状况  | 
       
         该指标用于统计虚拟机上NPU卡的健康状态,是一个综合指标。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。  | 
       
        
  | 
       
         不涉及  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         npu_util_rate_mem  | 
       
         (Agent) NPU显存使用率  | 
       
         该指标用于统计该NPU的显存使用率。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         npu_util_rate_ai_core  | 
       
         (Agent) NPU卡AI核心使用率  | 
       
         该指标用于统计该NPU的AI核心使用率。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         npu_util_rate_ai_cpu  | 
       
         (Agent) NPU卡AI CPU使用率  | 
       
         该指标用于统计该NPU的AI CPU的使用率。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         npu_util_rate_ctrl_cpu  | 
       
         (Agent) NPU控制CPU使用率  | 
       
         该指标用于统计该NPU的控制CPU的使用率。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         npu_util_rate_mem_bandwidth  | 
       
         (Agent) NPU显存带宽使用率  | 
       
         该指标用于统计该NPU的显存的带宽使用率。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         npu_freq_mem  | 
       
         (Agent) NPU显存频率  | 
       
         该指标用于统计该NPU的显存的时钟频率。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。  | 
       
         ≥ 0  | 
       
         MHz  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         npu_freq_ai_core  | 
       
         (Agent) NPU卡AI核心频率  | 
       
         该指标用于统计该NPU AI核心的时钟频率。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。  | 
       
         ≥ 0  | 
       
         MHz  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         npu_usage_mem  | 
       
         (Agent) NPU显存使用量  | 
       
         该指标用于统计该NPU 显存的使用量。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。  | 
       
         ≥ 0  | 
       
         MB  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         npu_sbe  | 
       
         (Agent) NPU单bit错误数量  | 
       
         该指标用于统计该NPU卡当前的单比特页错误的数量。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。  | 
       
         ≥ 0  | 
       
         count  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         npu_dbe  | 
       
         (Agent) NPU双bit错误数量  | 
       
         该指标用于统计该NPU卡当前的多比特页错误的数量。 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。  | 
       
         ≥ 0  | 
       
         count  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         npu_power  | 
       
         (Agent) NPU功率  | 
       
         该指标用于统计该NPU卡的功率。其中,310卡仅支持显示额定功率,其余卡显示实际功率 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。  | 
       
         ≥ 0  | 
       
         W  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         npu_temperature  | 
       
         (Agent) NPU温度  | 
       
         该指标用于统计该NPU卡当前的温度 采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。  | 
       
         ≥ 0  | 
       
         ℃  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
 
    Windows系统暂不支持NPU类监控指标。
操作系统监控指标:DAVP
| 
         指标  | 
       
         指标名称  | 
       
         指标含义  | 
       
         取值范围  | 
       
         单位  | 
       
         进制  | 
       
         维度  | 
       
         监控周期(原始指标)  | 
      
|---|---|---|---|---|---|---|---|
| 
         davp_device_health  | 
       
         (Agent) DAVP健康状态  | 
       
         该指标用于统计虚拟机上DAVP卡的健康状态,是一个综合指标。 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。  | 
       
        
  | 
       
         不涉及  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         davp_util_rate_mem  | 
       
         (Agent) DAVP显存使用率  | 
       
         该指标用于统计该DAVP卡的显存使用率。 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         davp_usage_mem  | 
       
         (Agent) DAVP显存使用量  | 
       
         该指标用于统计该DAVP卡的显存使用量 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。  | 
       
         ≥ 0  | 
       
         MB  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         davp_util_rate_ai_core  | 
       
         (Agent) DAVP卡AI核心使用率  | 
       
         该指标用于统计该DAVP卡的AI核心的使用率。 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         davp_util_rate_vdsp_core  | 
       
         (Agent) DAVP卡vdsp核心使用率  | 
       
         该指标用于统计该DAVP卡的vdsp核心使用率。 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         davp_util_rate_enc_core  | 
       
         (Agent) DAVP卡编码核心使用率  | 
       
         该指标用于统计该DAVP的编码核心使用率。 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         davp_util_rate_dec_core  | 
       
         (Agent) DAVP卡解码核心使用率  | 
       
         该指标用于统计该DAVP卡的解码核心使用率。 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。  | 
       
         0-100  | 
       
         %  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
| 
         davp_sysc_temperature  | 
       
         (Agent) DAVP卡系统模块温度  | 
       
         该指标用于统计该DAVP卡的系统模块温度。 采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。  | 
       
         ≥ 0  | 
       
         ℃  | 
       
         不涉及  | 
       
        
  | 
       
         1分钟  | 
      
 
    Windows系统暂不支持DAVP类监控指标。
维度
| 
         维度  | 
       
         Key  | 
       
         Value  | 
      
|---|---|---|
| 
         云服务器  | 
       
         instance_id  | 
       
         云服务器ID。 该取值可通过云监控服务的“查询主机监控维度指标信息”获取。  | 
      
| 
         云服务器 - 磁盘  | 
       
         disk  | 
       
         云服务器磁盘。 该取值可通过云监控服务的“查询主机监控维度指标信息”获取。  | 
      
| 
         云服务器 - 挂载点  | 
       
         mount_point  | 
       
         云服务器磁盘的挂载点。 该取值可通过云监控服务的“查询主机监控维度指标信息”获取。  | 
      
| 
         云服务器 - GPU  | 
       
         gpu  | 
       
         GPU类型云服务器中显卡。 该取值可通过云监控服务的“查询主机监控维度指标信息”获取。  | 
      
| 
         云服务器 - NPU  | 
       
         npu  | 
       
         NPU类型云服务器中显卡。 该取值可通过云监控服务的“查询主机监控维度指标信息”获取。  | 
      
| 
         云服务器 - DAVP  | 
       
         davp  | 
       
         DAVP类型云服务器,其中搭载了DaoCloud DAVP1视频加速卡。 该取值可通过云监控服务的“查询主机监控维度指标信息”获取。  | 
      
使用接口查询多层级维度指标示例
对于有多层测量维度的测量对象,使用接口查询监控指标时,需要代入具体指标的维度层级关系。
例如,需要查询弹性云服务器中磁盘挂载点的剩余存储量(disk_free),该指标的维度信息为“instance_id,mount_point”,表示instance_id为0层,mount_point为1层。
- 通过API查询单个监控指标时,mount_point的维度信息代入样例如下: 
     
dim.0=instance_id,3d65c1ac-9a9f-4c5f-a054-35184a087bb2&dim.1=mount_point,6666cd76f96956469e7be39d750cc7d9
其中,3d65c1ac-9a9f-4c5f-a054-35184a087bb2和6666cd76f96956469e7be39d750cc7d9分别为instance_id和mount_point的维度值,具体获取方法请参见“维度”表格中的获取指导。
 - 通过API批量查询监控指标时,mount_point的维度信息代入样例如下: 
     
"dimensions": [ { "name": "instance_id", "value": "3d65c1ac-9a9f-4c5f-a054-35184a087bb2" }, { "name": "mount_point", "value": "6666cd76f96956469e7be39d750cc7d9" } ]其中,3d65c1ac-9a9f-4c5f-a054-35184a087bb2和6666cd76f96956469e7be39d750cc7d9分别为nstance_id和mount_point的维度值,具体获取方法请参见“维度”表格中的获取指导。