更新时间:2025-11-11 GMT+08:00

iMetal服务器支持的监控指标

功能说明

本节定义了CloudDC服务上报云监控服务的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控服务提供管理控制台或API接口来检索CloudDC服务产生的监控指标和告警信息。

本章节主要介绍iMetal服务器的带外监控相关指标。

命名空间

SYS.iMetal

监控指标

表1 iMetal服务器硬件监控指标

指标ID

指标名称

指标说明

取值范围

单位

进制

维度

监控周期(原始指标)

power_input_watts

电源输入功率

该指标用于显示电源输入功率。

≥ 0

W

不涉及

device,host

3分钟

power_output_watts

电源输出功率

该指标用于显示电源输出功率。

≥ 0

W

不涉及

device,host

3分钟

device_temperature

组件温度

该指标用于显示组件的温度。

≥ 0

不涉及

device,host

3分钟

host_health

主机健康状态

该指标用于显示主机是否健康。

0:OK(正常)

1:Warning(警告)

2:Critical(紧急)

-1:未知

不涉及

不涉及

host

3分钟

cpu_health

处理器健康状态

该指标用于显示处理器是否健康。

0:OK(正常)

1:Warning(警告)

2:Critical(紧急)

-1:未知

不涉及

不涉及

device,host

3分钟

memory_health

内存健康状态

该指标用于显示内存是否健康。

0:OK(正常)

1:Warning(警告)

2:Critical(紧急)

-1:未知

不涉及

不涉及

device,host

3分钟

disk_health

磁盘健康状态

该指标用于显示磁盘是否健康。

0:OK(正常)

1:Warning(警告)

2:Critical(紧急)

-1:未知

不涉及

不涉及

device,host

3分钟

power_health

电源健康状态

该指标用于显示电源是否健康。

0:OK(正常)

1:Warning(警告)

2:Critical(紧急)

-1:未知

不涉及

不涉及

device,host

3分钟

nic_health

网卡健康状态

该指标用于显示网卡是否健康。

0:OK(正常)

1:Warning(警告)

2:Critical(紧急)

-1:未知

不涉及

不涉及

device,host

3分钟

fan_health

风扇健康状态

该指标用于显示风扇是否健康。

0:OK(正常)

1:Warning(警告)

2:Critical(紧急)

-1:未知

不涉及

不涉及

device,host

3分钟

alarms_num

告警数量

该指标用于显示30天内监控对象上报的告警数量。

≥ 0

PCS

不涉及

label

3分钟

rack_power

机柜功率

该指标用于显示机柜的功率。

≥ 0

W

不涉及

rack

3分钟

rack_temp

机柜温度

该指标用于显示机柜的温度。

≥ 0

不涉及

rack

3分钟

维度

表2 维度取值说明

Key

Value

device,host

选择该维度,支持指定服务器部件(处理器、内存、电源、网卡、风扇、存储等)作为监控对象。

host

选择该维度,支持指定服务器作为监控对象。

label

选择该维度,支持按label指定具体类型的资源作为监控对象。

rack

选择该维度,支持指定机柜作为监控对象。

iMetal服务器告警趋势指标

表3 iMetal服务器告警趋势指标

指标

指标说明

host

该指标用于统计某一时刻整机告警数量,来源于告警中指标为host_health的告警数。

type_cpu

该指标用于统计某一时刻处理器告警数量,来源于告警中指标为cpu_health的告警数。

type_memory

该指标用于统计某一时刻内存告警数量,来源于告警中指标为memory_health的告警数。

type_disk

该指标用于统计某一时刻磁盘告警数量,来源于告警中指标为disk_health的告警数。

type_power

该指标用于统计某一时刻电源告警数量,来源于告警中指标为power_health的告警数。

type_fan

该指标用于统计某一时刻风扇告警数量,来源于告警中指标为fan_health的告警数。

type_nic

该指标用于统计某一时刻网卡告警数量,来源于告警中指标为nic_health的告警数。

level_critical

该指标用于统计某一时刻紧急告警数量,来源于告警中紧急告警级别的告警数。

level_major

该指标用于统计某一时刻重要告警数量,来源于告警中重要告警级别的告警数。