网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络服务ANC
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
态势感知 SA
认证测试中心 CTC
边缘安全 EdgeSec
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts 盘古助手
华为云Astro大屏应用
计算
弹性云服务器 ECS
Flexus云服务
裸金属服务器 BMS
云手机服务器 CPH
专属主机 DeH
弹性伸缩 AS
镜像服务 IMS
函数工作流 FunctionGraph
云耀云服务器(旧版)
VR云渲游平台 CVR
Huawei Cloud EulerOS
网络
虚拟私有云 VPC
弹性公网IP EIP
弹性负载均衡 ELB
NAT网关 NAT
云专线 DC
虚拟专用网络 VPN
云连接 CC
VPC终端节点 VPCEP
企业路由器 ER
企业交换机 ESW
全球加速 GA
企业连接 EC
云原生应用网络服务ANC
CDN与智能边缘
内容分发网络 CDN
智能边缘云 IEC
智能边缘平台 IEF
CloudPond云服务
安全与合规
安全技术与应用
Web应用防火墙 WAF
企业主机安全 HSS
云防火墙 CFW
安全云脑 SecMaster
DDoS防护 AAD
数据加密服务 DEW
数据库安全服务 DBSS
云堡垒机 CBH
数据安全中心 DSC
云证书管理服务 CCM
威胁检测服务 MTD
态势感知 SA
认证测试中心 CTC
边缘安全 EdgeSec
大数据
MapReduce服务 MRS
数据湖探索 DLI
表格存储服务 CloudTable
可信智能计算服务 TICS
推荐系统 RES
云搜索服务 CSS
数据可视化 DLV
数据接入服务 DIS
数据仓库服务 GaussDB(DWS)
数据治理中心 DataArts Studio
湖仓构建 LakeFormation
智能数据洞察 DataArts Insight
应用中间件
微服务引擎 CSE
分布式消息服务Kafka版
分布式消息服务RabbitMQ版
分布式消息服务RocketMQ版
API网关 APIG
分布式缓存服务 DCS
多活高可用服务 MAS
事件网格 EG
开天aPaaS
应用平台 AppStage
开天企业工作台 MSSE
开天集成工作台 MSSI
API中心 API Hub
云消息服务 KooMessage
交换数据空间 EDS
云地图服务 KooMap
云手机服务 KooPhone
组织成员账号 OrgID
云空间服务 KooDrive
管理与监管
统一身份认证服务 IAM
消息通知服务 SMN
云监控服务 CES
应用运维管理 AOM
应用性能管理 APM
云日志服务 LTS
云审计服务 CTS
标签管理服务 TMS
配置审计 Config
应用身份管理服务 OneAccess
资源访问管理 RAM
组织 Organizations
资源编排服务 RFS
优化顾问 OA
IAM 身份中心
云运维中心 COC
资源治理中心 RGC
区块链
区块链服务 BCS
数字资产链 DAC
华为云区块链引擎服务 HBS
解决方案
高性能计算 HPC
SAP
混合云灾备
开天工业工作台 MIW
Haydn解决方案工厂
数字化诊断治理专家服务
价格
成本优化最佳实践
专属云商业逻辑
云生态
云商店
合作伙伴中心
华为云开发者学堂
华为云慧通差旅
其他
管理控制台
消息中心
产品价格详情
系统权限
客户关联华为云合作伙伴须知
公共问题
宽限期保留期
奖励推广计划
活动
云服务信任体系能力说明
开发与运维
软件开发生产线 CodeArts
需求管理 CodeArts Req
流水线 CodeArts Pipeline
代码检查 CodeArts Check
编译构建 CodeArts Build
部署 CodeArts Deploy
测试计划 CodeArts TestPlan
制品仓库 CodeArts Artifact
移动应用测试 MobileAPPTest
CodeArts IDE Online
开源镜像站 Mirrors
性能测试 CodeArts PerfTest
应用管理与运维平台 ServiceStage
云应用引擎 CAE
开源治理服务 CodeArts Governance
华为云Astro轻应用
CodeArts IDE
Astro工作流 AstroFlow
代码托管 CodeArts Repo
漏洞管理服务 CodeArts Inspector
联接 CodeArtsLink
软件建模 CodeArts Modeling
Astro企业应用 AstroPro
CodeArts 盘古助手
华为云Astro大屏应用
存储
对象存储服务 OBS
云硬盘 EVS
云备份 CBR
高性能弹性文件服务 SFS Turbo
弹性文件服务 SFS
存储容灾服务 SDRS
云硬盘备份 VBS
云服务器备份 CSBS
数据快递服务 DES
云存储网关 CSG
专属分布式存储服务 DSS
数据工坊 DWR
地图数据 MapDS
键值存储服务 KVS
容器
云容器引擎 CCE
云容器实例 CCI
容器镜像服务 SWR
云原生服务中心 OSC
应用服务网格 ASM
华为云UCS
数据库
云数据库 RDS
数据复制服务 DRS
文档数据库服务 DDS
分布式数据库中间件 DDM
云数据库 GaussDB
云数据库 GeminiDB
数据管理服务 DAS
数据库和应用迁移 UGO
云数据库 TaurusDB
人工智能
AI开发平台ModelArts
华为HiLens
图引擎服务 GES
图像识别 Image
文字识别 OCR
自然语言处理 NLP
内容审核 Moderation
图像搜索 ImageSearch
医疗智能体 EIHealth
企业级AI应用开发专业套件 ModelArts Pro
人脸识别服务 FRS
对话机器人服务 CBS
语音交互服务 SIS
人证核身服务 IVS
视频智能分析服务 VIAS
城市智能体
自动驾驶云服务 Octopus
盘古大模型 PanguLargeModels
IoT物联网
设备接入 IoTDA
全球SIM联接 GSL
IoT数据分析 IoTA
路网数字化服务 DRIS
IoT边缘 IoTEdge
设备发放 IoTDP
企业应用
域名注册服务 Domains
云解析服务 DNS
企业门户 EWP
ICP备案
商标注册
华为云WeLink
华为云会议 Meeting
隐私保护通话 PrivateNumber
语音通话 VoiceCall
消息&短信 MSGSMS
云管理网络
SD-WAN 云服务
边缘数据中心管理 EDCM
云桌面 Workspace
应用与数据集成平台 ROMA Connect
ROMA资产中心 ROMA Exchange
API全生命周期管理 ROMA API
政企自服务管理 ESM
视频
实时音视频 SparkRTC
视频直播 Live
视频点播 VOD
媒体处理 MPC
视频接入服务 VIS
数字内容生产线 MetaStudio
迁移
主机迁移服务 SMS
对象存储迁移服务 OMS
云数据迁移 CDM
迁移中心 MGC
专属云
专属计算集群 DCC
开发者工具
SDK开发指南
API签名指南
DevStar
华为云命令行工具服务 KooCLI
Huawei Cloud Toolkit
CodeArts API
云化转型
云架构中心
云采用框架
用户服务
账号中心
费用中心
成本中心
资源中心
企业管理
工单管理
客户运营能力
国际站常见问题
支持计划
专业服务
合作伙伴支持计划
我的凭证
华为云公共事业服务云平台
工业软件
工业数字模型驱动引擎
硬件开发工具链平台云服务
工业数据转换引擎云服务
文档首页/ 弹性云服务器 ECS/ 用户指南/ 使用CES监控ECS/ 弹性云服务器支持的操作系统监控指标(安装Agent)
更新时间:2024-12-27 GMT+08:00
分享

弹性云服务器支持的操作系统监控指标(安装Agent)

功能说明

通过在弹性云服务器中安装Agent插件,可以为用户提供服务器的系统级、主动式、细颗粒度监控服务。本节定义了弹性云服务器上报云监控的操作系统监控指标。

操作系统监控目前支持的监控指标有:CPU相关监控项、CPU负载类相关监控项、内存相关监控项、磁盘相关监控项、磁盘I/O相关监控项、文件系统类相关监控项、网卡类相关监控项、NTP类相关监控项、TCP连接数类相关监控、GPU相关监控项、NPU相关监控项。

安装Agent后,对于不同的操作系统、不同的弹性云服务器类型,您可以查看不同类型的操作系统监控指标。指标采集周期是1分钟。

命名空间

AGT.ECS

操作系统监控指标:CPU

表1 CPU相关监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

cpu_usage

(Agent) CPU使用率

该指标用于统计测量对象当前CPU使用率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出cpu使用率。用户可以通过top命令查看 %Cpu(s)值。
  • 采集方式(Windows):通过WindowsAPI GetSystemTimes获取。

0-100%

云服务器

1分钟

cpu_usage_idle

(Agent) CPU空闲时间占比

该指标用于统计测量对象当前CPU空闲时间占比。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出CPU空闲时间占比。
  • 采集方式(Windows):通过WindowsAPI GetSystemTimes获取。

0-100%

云服务器

1分钟

cpu_usage_user

(Agent) 用户空间CPU使用率

该指标用于统计测量对象当前用户空间占用CPU使用率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出cpu使用率。用户可以通过top命令查看 %Cpu(s) us值。
  • 采集方式(Windows):通过WindowsAPI GetSystemTimes获取。

0-100%

云服务器

1分钟

cpu_usage_system

(Agent) 内核空间CPU使用率

该指标用于统计测量对象当前内核空间占用CPU使用率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出内核空间CPU使用率。用户可以通过top命令查看 %Cpu(s) sy值。
  • 采集方式(Windows):通过WindowsAPI GetSystemTimes获取。

0-100%

云服务器

1分钟

cpu_usage_other

(Agent) 其他CPU使用率

该指标用于统计测量对象其他占用CPU使用率。

单位:百分比

  • 采集方式(Linux):其他CPU使用率=1- 空闲CPU使用率(%)- 内核空间CPU使用率- 用户空间CPU使用率。
  • 采集方式(Windows):其他CPU使用率=1- 空闲CPU使用率(%)- 内核空间CPU使用率- 用户空间CPU使用率。

0-100%

云服务器

1分钟

cpu_usage_nice

(Agent) Nice进程CPU使用率

该指标用于统计测量对象当前Nice进程CPU使用率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出Nice进程CPU使用率。用户可以通过top命令查看 %Cpu(s) ni值。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

cpu_usage_iowait

(Agent) iowait状态占比

该指标用于统计测量对象当前iowait状态占用CPU的比率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出iowait状态占比。用户可以通过top命令查看 %Cpu(s) wa值。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

cpu_usage_irq

(Agent) CPU中断时间占比

该指标用于统计测量对象当前CPU处理中断用时占用CPU时间的比率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出CPU中断时间占比。用户可以通过top命令查看 %Cpu(s) hi值。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

cpu_usage_softirq

(Agent) CPU软中断时间占比

该指标用于统计测量对象当前CPU处理软中断时间占用CPU时间的比率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/stat中的变化得出CPU软中断时间占比。用户可以通过top命令查看 %Cpu(s) si值。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

操作系统监控指标:CPU负载

表2 CPU负载指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

load_average1

(Agent) 1分钟平均负载

该指标用于统计测量对象过去1分钟的CPU平均负载。

采集方式(Linux):通过/proc/loadavg中load1/逻辑CPU个数得到。用户可以通过top命令查看load1值。

≥0

云服务器

1分钟

load_average5

(Agent) 5分钟平均负载

该指标用于统计测量对象过去5分钟的CPU平均负载。

采集方式(Linux):通过/proc/loadavg中load5/逻辑CPU个数得到。用户可以通过top命令查看load5值。

≥0

云服务器

1分钟

load_average15

(Agent) 15分钟平均负载

该指标用于统计测量对象过去15分钟的CPU平均负载。

采集方式(Linux):通过/proc/loadavg中load15/逻辑CPU个数得到。用户可以通过top命令查看load15值。

≥0

云服务器

1分钟

Windows系统暂不支持CPU负载指标。

操作系统监控指标:内存

表3 内存相关监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

mem_available

(Agent) 可用内存

该指标用于统计测量对象的可用内存。

单位:GB

  • 采集方式(Linux):通过/proc/meminfo文件获取,
    • 若/proc/meminfo中显示MemAvailable,则直接可得
    • 若/proc/meminfo中不显示MemAvailable,则MemAvailable=MemFree+Buffers+Cached
  • 采集方式(Windows):计算方法为(内存总量-已用内存量)。通过WindowsAPI GlobalMemoryStatusEx获取。

≥0 GB

云服务器

1分钟

mem_usedPercent

(Agent) 内存使用率

该指标用于统计测量对象的内存使用率。

单位:百分比

  • 采集方式(Linux):通过/proc/meminfo文件获取,(MemTotal-MemAvailable)/MemTotal
    • 若/proc/meminfo中显示MemAvailable,则MemUsedPercent=(MemTotal-MemAvailable)/MemTotal
    • 若/proc/meminfo中不显示MemAvailable,则MemUsedPercent=(MemTotal-MemFree-Buffers-Cached)/MemTotal
  • 采集方式(Windows):计算方法为( 已用内存量/内存总量*100%)。

0-100%

云服务器

1分钟

mem_free

(Agent) 空闲内存量

该指标用于统计测量对象的空闲内存量。

单位:GB

  • 采集方式(Linux):通过/proc/meminfo获取。
  • 采集方式(Windows):暂不支持。

≥0 GB

云服务器

1分钟

mem_buffers

(Agent) Buffers占用量

该指标用于统计测量对象的Buffers内存量。

单位:GB

  • 采集方式(Linux):通过/proc/meminfo获取。用户可以通过top命令查看 KiB Mem:buffers值。
  • 采集方式(Windows):暂不支持。

≥0 GB

云服务器

1分钟

mem_cached

(Agent) Cache占用量

该指标用于统计测量对象Cache内存量。

单位:GB

  • 采集方式(Linux):通过/proc/meminfo获取。用户可以通过top命令查看 KiB Swap:cached Mem值。
  • 采集方式(Windows):暂不支持。

≥0 GB

云服务器

1分钟

total_open_files

(Agent) 文件句柄总数

该指标用于统计测量对象的所有进程使用的句柄总和。

单位:个

  • 采集方式(Linux):通过/proc/{pid}/fd文件汇总所有进程使用的句柄数。
  • 采集方式(Windows):暂不支持。

≥0

云服务器

1分钟

操作系统监控指标:磁盘

  • 目前仅支持物理磁盘指标的采集,不支持通过网络文件系统协议挂载的磁盘。
  • 会默认屏蔽docker相关的挂载点。挂载点前缀如下:
    /var/lib/docker;/mnt/paas/kubernetes;/var/lib/mesos
表4 磁盘相关监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

disk_free

(Agent) 磁盘剩余存储量

该指标用于统计测量对象磁盘的剩余存储空间。

单位:GB

  • 采集方式(Linux):执行df -h命令,查看Avail列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
  • 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥0 GB

云服务器 - 挂载点

1分钟

disk_total

(Agent) 磁盘存储总量

该指标用于统计测量对象磁盘存储总量。

单位:GB

  • 采集方式(Linux):执行df -h命令,查看Size列数据。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥0 GB

云服务器 - 挂载点

1分钟

disk_used

(Agent) 磁盘已用存量

该指标用于统计测量对象磁盘的已用存储空间。

单位:GB

  • 采集方式(Linux):执行df -h命令,查看Used列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
  • 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥0 GB

云服务器 - 挂载点

1分钟

disk_usedPercent

(Agent) 磁盘使用率

该指标用于统计测量对象磁盘使用率,以百分比为单位。计算方式为: 磁盘已用存储量/磁盘存储总量。

单位:百分比

  • 采集方式(Linux):通过计算Used/Size得出。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
  • 采集方式(Windows):使用WMI接口GetDiskFreeSpaceExW获取磁盘空间数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

0-100%

云服务器 - 挂载点

1分钟

操作系统监控指标:磁盘I/O

表5 磁盘I/O相关监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

disk_agt_read_bytes_rate

(Agent) 磁盘读速率

该指标用于统计每秒从测量对象读出数据量。

单位:Byte/s

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化得出磁盘读速率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):
    • 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。
    • 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
    • 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。

≥ 0 Byte/s

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_agt_read_requests_rate

(Agent) 磁盘读操作速率

该指标用于统计每秒从测量对象读取数据的请求次数。

单位:请求/秒

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第四列数据的变化得出磁盘读操作速率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):
    • 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。
    • 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
    • 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。

≥ 0 请求/秒

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_agt_write_bytes_rate

(Agent) 磁盘写速率

该指标用于统计每秒写到测量对象的数据量。

单位:Byte/s

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化得出磁盘写速率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):
    • 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。
    • 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
    • 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。

≥ 0 Byte/s

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_agt_write_requests_rate

(Agent) 磁盘写操作速率

该指标用于统计每秒向测量对象写数据的请求次数。

单位:请求/秒

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第八列数据的变化得出磁盘写操作速率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):
    • 使用WMI中Win32_PerfFormattedData_PerfDisk_LogicalDisk对象获取磁盘I/O数据。
    • 挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。
    • 高CPU情况下存在获取超时的现象,会导致无法获取监控数据。

≥ 0 请求/秒

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_readTime

(Agent) 读操作平均耗时

该指标用于统计测量对象磁盘读操作平均耗时。

单位:ms/Count

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第七列数据的变化得出磁盘读操作平均耗时。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0 ms/Count

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_writeTime

(Agent) 写操作平均耗时

该指标用于统计测量对象磁盘写操作平均耗时。

单位:ms/Count

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十一列数据的变化得出磁盘写操作平均耗时。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0 ms/Count

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_ioUtils

(Agent) 磁盘I/O使用率

该指标用于统计测量对象磁盘I/O使用率。

单位:百分比

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化得出磁盘I/O使用率。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

0-100%

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_queue_length

(Agent) 平均队列长度

该指标反映指定时间段内磁盘的繁忙程度,可用于评估磁盘I/O性能,指标值越大代表磁盘越繁忙,I/O性能越差。

单位:个

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十四列数据的变化与指标采集周期时间相除得出指标的值。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_write_bytes_per_operation

(Agent) 平均写操作大小

该指标用于统计指定时间段内,平均每个写I/O操作传输的字节数。

单位:Byte/op

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十列数据的变化与第八列数据的变化相除得出磁盘平均写操作大小。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0 Byte/op

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_read_bytes_per_operation

(Agent) 平均读操作大小

该指标用于统计指定时间段内,平均每个读I/O操作传输的字节数。

单位:Byte/op

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第六列数据的变化与第四列数据的变化相除得出磁盘平均读操作大小。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0 Byte/op

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_io_svctm

(Agent) 平均I/O服务时长

该指标用于统计指定时间段内,平均每个读或写I/O的操作时长。

单位:ms/op

  • 采集方式(Linux):

    通过计算采集周期内/proc/diskstats中对应设备第十三列数据的变化与第四列数据和第八列数据和的变化相除得出磁盘平均I/O时长。

    挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

  • 采集方式(Windows):暂不支持。

≥ 0 ms/op

  • 云服务器 - 磁盘
  • 云服务器 - 挂载点

1分钟

disk_device_used_percent

块设备使用率

该指标用于统计测量对象物理磁盘使用率,以百分比为单位。计算方式为: 所有已挂载磁盘分区已用存储量/磁盘存储总量。

  • 采集方式(Linux):通过汇总每个挂载点的磁盘使用量,再通过磁盘扇区大小和扇区数量计算出磁盘总大小,计算出整体磁盘使用率
  • 采集方式(Windows):暂不支持。

0-100%

云服务器 - 磁盘

1分钟

操作系统监控指标:文件系统

表6 文件系统类监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

disk_fs_rwstate

(Agent) 文件系统读写状态

该指标用于统计测量对象挂载文件系统的读写状态。状态分为:可读写(0)/只读(1)。

采集方式(Linux):通过读取/proc/mounts中第四列文件系统挂载参数获得。

  • 0:可读写
  • 1:只读

云服务器 - 挂载点

1分钟

disk_inodesTotal

(Agent) inode空间大小

该指标用于统计测量对象当前磁盘的inode空间量。

采集方式(Linux):执行df -i命令,查看Inodes列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥ 0

云服务器 - 挂载点

1分钟

disk_inodesUsed

(Agent) inode已使用空间

该指标用于统计测量对象当前磁盘已使用的inode空间量。

采集方式(Linux):执行df -i命令,查看IUsed列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

≥ 0

云服务器 - 挂载点

1分钟

disk_inodesUsedPercent

(Agent) inode已使用占比

该指标用于统计测量对象当前磁盘已使用的inode占比。

单位:百分比

采集方式(Linux):执行df -i命令,查看IUse%列数据。挂载点前缀路径长度不能超过64个字符,必须以字母开头,只能包含0-9/a-z/A-Z/-/./~。

0-100%

云服务器 - 挂载点

1分钟

Windows系统暂不支持文件系统类监控指标。

操作系统监控指标:网卡

表7 网卡相关监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

net_bitRecv

(Agent) 出网带宽

该指标用于统计测量对象网卡每秒发送的比特数。

单位:bit/s

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。

≥ 0 bit/s

云服务器

1分钟

net_bitSent

(Agent) 入网带宽

该指标用于统计测量对象网卡每秒接收的比特数。

单位:bit/s

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。

≥ 0 bit/s

云服务器

1分钟

net_packetRecv

(Agent) 网卡包接收速率

该指标用于统计测量对象网卡每秒接收的数据包数。

单位:Counts/s

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。

≥ 0 Counts/s

云服务器

1分钟

net_packetSent

(Agent) 网卡包发送速率

该指标用于统计测量对象网卡每秒发送的数据包数。

单位:Counts/s

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):使用WMI中MibIfRow对象获取网络指标数据。

≥ 0 Counts/s

云服务器

1分钟

net_errin

(Agent) 接收误包率

该指标用于统计测量对象网卡每秒接收的错误数据包数量占所接收的数据包的比率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

net_errout

(Agent) 发送误包率

该指标用于统计测量对象网卡每秒发送的错误数据包数量占所发送的数据包的比率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

net_dropin

(Agent) 接收丢包率

该指标用于统计测量对象网卡每秒接收并已丢弃的数据包数量占所接收的数据包的比率

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

net_dropout

(Agent) 发送丢包率

该指标用于统计测量对象网卡每秒发送并已丢弃的数据包数量占所发送的数据包的比率。

单位:百分比

  • 采集方式(Linux):通过计算采集周期内/proc/net/dev中的变化得出。
  • 采集方式(Windows):暂不支持。

0-100%

云服务器

1分钟

操作系统监控指标:NTP

表8 NTP类监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

ntp_offset

(Agent) NTP偏移量

该指标用于统计测量对象当前NTP偏移量。

单位:ms

采集方式(Linux):执行chronyc sources -v命令,获取偏移量。

≥ 0 ms

云服务器

1分钟

操作系统监控指标:TCP

表9 TCP类监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

net_tcp_total

(Agent) TCP TOTAL

该指标用于统计测量对象所有状态的TCP连接数总和。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_established

(Agent) TCP ESTABLISHED

该指标用于统计测量对象处于ESTABLISHED状态的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_sys_sent

(Agent) TCP SYS_SENT

该指标用于统计测量对象处于请求连接状态的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_sys_recv

(Agent) TCP SYS_RECV

该指标用于统计测量对象服务器端收到的请求连接的TCP数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_fin_wait1

(Agent) TCP FIN_WAIT1

该指标用于统计测量对象客户端主动关闭且没有收到服务端ACK的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_fin_wait2

(Agent) TCP FIN_WAIT2

该指标用于统计测量对象处于FIN_WAIT2状态的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_time_wait

(Agent) TCP TIME_WAIT

该指标用于统计测量对象处于TIME_WAIT状态的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_close

(Agent) TCP CLOSE

该指标用于统计测量对象关闭的或未打开的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_close_wait

(Agent) TCP CLOSE_WAIT

该指标用于统计测量对象处于CLOSE_WAIT状态的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_last_ack

(Agent) TCP LAST_ACK

该指标用于统计测量对象被动关闭等待ACK报文的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_listen

(Agent) TCP LISTEN

该指标用于统计测量对象处于LISTEN状态的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_closing

(Agent) TCP CLOSING

该指标用于统计测量对象处于服务端和客户端同时主动关闭状态的TCP连接数量。

单位:Count

  • 采集方式(Linux):通过/proc/net/tcp文件获取到所有状态的TCP连接,再统计每个状态的连接数量。
  • 采集方式(Windows):通过WindowsAPI GetTcpTable2获取。

≥ 0

云服务器

1分钟

net_tcp_retrans

(Agent) TCP重传率

该指标用于统计测量对象重新发送的报文数与总发送的报文数之间的比值。

单位:百分比

  • 采集方式(Linux):通过从/proc/net/snmp文件中获取对应的数据,计算采集周期内发送包数和重传包数的比值得出。
  • 采集方式(Windows):重传率通过WindowsAPI GetTcpStatistics获取

0-100%

云服务器

1分钟

操作系统监控指标:GPU

表10 GPU类监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

gpu_status

gpu健康状态

该指标用于统计虚拟机上GPU健康状态,是一个综合指标。

该指标无单位。

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。
  • 0:代表健康
  • 1:代表亚健康
  • 2:代表故障
  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_usage_encoder

编码使用率

该指标用于统计该GPU的编码能力使用率。

单位:百分比

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

0-100%

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_usage_decoder

解码使用率

该指标用于统计该GPU的解码能力使用率。

单位:百分比

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

0-100%

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_volatile_correctable

可纠正ECC错误数量

该指标用于统计该GPU重置以来可纠正的ECC错误数量,每次重置后归0。

单位:个。

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_volatile_uncorrectable

不可纠正ECC错误数量

该指标用于统计该GPU重置以来不可纠正的ECC错误数量,每次重置后归0。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_aggregate_correctable

累计可纠正ECC错误数量

该指标用于统计该GPU累计的可纠正ECC错误数量。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_aggregate_uncorrectable

累计不可纠正ECC错误数量

该指标用于统计该GPU累计的不可纠正ECC错误数量。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_retired_page_single_bit

retired page single bit错误数量

该指标用于统计该GPU当前卡隔离的单比特页的数量。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_retired_page_double_bit

retired page double bit错误数量

该指标用于统计该GPU当前卡隔离的双比特页的数量。

单位:个

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_performance_state

(Agent) 性能状态

该指标用于统计测量对象当前的GPU性能状态。

该指标无单位。

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

P0-P15、P32,

  • P0:表示最大性能状态
  • P15:表示最小性能状态
  • P32:表示状态未知
  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_usage_mem

(Agent) 显存使用率

该指标用于统计测量对象当前的显存使用率。

单位:百分比

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

0-100%

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_usage_gpu

(Agent) GPU使用率

该指标用于统计测量对象当前的GPU使用率。

单位:百分比

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

0-100%

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_free_mem

GPU显存剩余量

该指标用于统计测量对象当前的GPU显存剩余量。

单位:MB

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MB

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_graphics_clocks

GPU显卡时钟频率

该指标用于统计测量对象当前的GPU显卡(着色器)时钟频率。

单位:MHz

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MHz

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_mem_clocks

GPU内存时钟频率

该指标用于统计测量对象当前的GPU内存时钟频率。

单位:MHz

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MHz

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_power_draw

GPU功率

该指标用于统计测量对象当前的GPU功率。

单位:W

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

NA

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_rx_throughput_pci

GPU PCI入方向带宽

该指标用于统计测量对象当前的GPU PCI入方向带宽。

单位:MByte/s

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MByte/s

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_sm_clocks

GPU流式处理器时钟频率

该指标用于统计测量对象当前的GPU流式处理器时钟频率。

单位:MHz

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MHz

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_temperature

GPU温度

该指标用于统计测量对象当前的GPU温度。

单位:℃

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 ℃

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_tx_throughput_pci

GPU PCI出方向带宽

该指标用于统计测量对象当前的GPU PCI出方向带宽。

单位:MByte/s

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MByte/s

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_used_mem

GPU显存使用量

该指标用于统计测量对象当前的GPU显存使用量。

单位:MB

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MB

  • 云服务器
  • 云服务器 - GPU

1分钟

gpu_video_clocks

GPU视频时钟频率

该指标用于统计测量对象当前的GPU视频(包含编解码)时钟频率。

单位:MHz

  • 采集方式(Linux):通过调用GPU卡的libnvidia-ml.so.1库文件获取。
  • 采集方式(Windows):通过调用GPU卡的nvml.dll库获取。

≥ 0 MHz

  • 云服务器
  • 云服务器 - GPU

1分钟

操作系统监控指标:NPU

表11 NPU类监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

npu_device_health

NPU健康状况

该指标用于统计虚拟机上NPU卡的健康状态,是一个综合指标。

该指标无单位。

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

  • 0:代表健康
  • 1:代表存在一般告警
  • 2:代表存在重要告警
  • 3:代表存在紧急告警
  • 云服务器
  • 云服务器 - NPU

1分钟

npu_util_rate_mem

NPU显存使用率

该指标用于统计该NPU的编码能力使用率。

单位:百分比

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_util_rate_ai_core

NPU卡AI核心使用率

该指标用于统计该NPU的AI核心使用率。

单位:百分比

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_util_rate_ai_cpu

NPU卡AI CPU使用率

该指标用于统计该NPU的AI CPU的使用率。

单位:百分比。

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_util_rate_ctrl_cpu

NPU控制CPU使用率

该指标用于统计该NPU的控制CPU的使用率。

单位:百分比。

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_util_rate_mem_bandwidth

NPU显存带宽使用率

该指标用于统计该NPU的显存的带宽使用率。

单位:百分比。

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_freq_mem

NPU显存频率

该指标用于统计该NPU的显存的时钟频率。

单位:兆赫兹(MHz)。

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_freq_ai_core

NPU卡AI核心频率

该指标用于统计该NPU AI核心的时钟频率。

单位:兆赫兹(MHz)。

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_usage_mem

NPU显存使用量

该指标用于统计该NPU 显存的使用量。

单位:兆Byte(MB)。

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_sbe

NPU单bit错误数量

该指标用于统计该NPU卡当前的单比特页错误的数量。

单位:个

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_dbe

NPU双bit错误数量

该指标用于统计该NPU卡当前的多比特页错误的数量。

单位:个

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_power

NPU功率

该指标用于统计该NPU卡的功率。其中,310卡仅支持显示额定功率,其余卡显示实际功率

单位:瓦(W)

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - NPU

1分钟

npu_temperature

NPU温度

该指标用于统计该NPU卡当前的温度

单位:摄氏度(℃)

采集方式(Linux):通过调用NPU卡的libdcmi.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - NPU

1分钟

Windows系统暂不支持NPU类监控指标。

操作系统监控指标:DAVP

表12 DAVP类监控指标说明

指标

指标名称

指标含义

取值范围

测量对象(维度)

监控周期(原始指标)

davp_device_health

DAVP健康状态

该指标用于统计虚拟机上DAVP卡的健康状态,是一个综合指标。

该指标无单位。

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

  • 0:代表健康
  • 1:代表异常
  • 云服务器
  • 云服务器 - DAVP

1分钟

davp_util_rate_mem

DAVP显存使用率

该指标用于统计该DAVP卡的显存使用率。

单位:百分比

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - DAVP

1分钟

davp_usage_mem

DAVP显存使用量

该指标用于统计该DAVP卡的显存使用量

单位:MB

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - DAVP

1分钟

davp_util_rate_ai_core

DAVP卡AI核心使用率

该指标用于统计该DAVP卡的AI核心的使用率。

单位:百分比。

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - DAVP

1分钟

davp_util_rate_vdsp_core

DAVP卡vdsp核心使用率

该指标用于统计该DAVP卡的vdsp核心使用率。

单位:百分比。

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - DAVP

1分钟

davp_util_rate_enc_core

DAVP卡编码核心使用率

该指标用于统计该DAVP的编码核心使用率。

单位:百分比。

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - DAVP

1分钟

davp_util_rate_dec_core

DAVP卡解码核心使用率

该指标用于统计该DAVP卡的解码核心使用率。

单位:百分比。

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

0-100%

  • 云服务器
  • 云服务器 - DAVP

1分钟

davp_sysc_temperature

DAVP卡系统模块温度

该指标用于统计该DAVP卡的系统模块温度。

单位:摄氏度(℃)。

采集方式(Linux):通过调用DAVP卡的vatools工具下的libvaml.so库文件获取。

≥ 0

  • 云服务器
  • 云服务器 - DAVP

1分钟

Windows系统暂不支持DAVP类监控指标。

维度

维度

Key

Value

云服务器

instance_id

云服务器ID。

云服务器 - 磁盘

disk

云服务器磁盘。

该取值可通过云监控服务的“查询主机监控维度指标信息”获取。

云服务器 - 挂载点

mount_point

云服务器磁盘的挂载点。

该取值可通过云监控服务的“查询主机监控维度指标信息”获取。

云服务器 - GPU

gpu

GPU类型云服务器中显卡。

该取值可通过云监控服务的“查询主机监控维度指标信息”获取。

云服务器 - NPU

npu

NPU类型云服务器中显卡。

该取值可通过云监控服务的“查询主机监控维度指标信息”获取。

云服务器 - DAVP

davp

DAVP类型云服务器,其中搭载了DaoCloud DAVP1视频加速卡。

该取值可通过云监控服务的“查询主机监控维度指标信息”获取。

相关文档