iMetal服务器支持的监控指标
功能说明
本节定义了CloudDC服务上报云监控服务的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控服务提供管理控制台或API接口来检索CloudDC服务产生的监控指标和告警信息。
本章节主要介绍iMetal服务器的带外监控相关指标。
命名空间
SYS.iMetal
监控指标
|
指标ID |
指标名称 |
指标说明 |
取值范围 |
单位 |
进制 |
维度 |
监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
|
power_input_watts |
电源输入功率 |
该指标用于显示电源输入功率。 |
≥ 0 |
W |
不涉及 |
device,host |
3分钟 |
|
power_output_watts |
电源输出功率 |
该指标用于显示电源输出功率。 |
≥ 0 |
W |
不涉及 |
device,host |
3分钟 |
|
device_temperature |
组件温度 |
该指标用于显示组件的温度。 |
≥ 0 |
℃ |
不涉及 |
device,host |
3分钟 |
|
host_health |
主机健康状态 |
该指标用于显示主机是否健康。 |
0:OK(正常) 1:Warning(警告) 2:Critical(紧急) -1:未知 |
不涉及 |
不涉及 |
host |
3分钟 |
|
cpu_health |
处理器健康状态 |
该指标用于显示处理器是否健康。 |
0:OK(正常) 1:Warning(警告) 2:Critical(紧急) -1:未知 |
不涉及 |
不涉及 |
device,host |
3分钟 |
|
memory_health |
内存健康状态 |
该指标用于显示内存是否健康。 |
0:OK(正常) 1:Warning(警告) 2:Critical(紧急) -1:未知 |
不涉及 |
不涉及 |
device,host |
3分钟 |
|
disk_health |
磁盘健康状态 |
该指标用于显示磁盘是否健康。 |
0:OK(正常) 1:Warning(警告) 2:Critical(紧急) -1:未知 |
不涉及 |
不涉及 |
device,host |
3分钟 |
|
power_health |
电源健康状态 |
该指标用于显示电源是否健康。 |
0:OK(正常) 1:Warning(警告) 2:Critical(紧急) -1:未知 |
不涉及 |
不涉及 |
device,host |
3分钟 |
|
nic_health |
网卡健康状态 |
该指标用于显示网卡是否健康。 |
0:OK(正常) 1:Warning(警告) 2:Critical(紧急) -1:未知 |
不涉及 |
不涉及 |
device,host |
3分钟 |
|
fan_health |
风扇健康状态 |
该指标用于显示风扇是否健康。 |
0:OK(正常) 1:Warning(警告) 2:Critical(紧急) -1:未知 |
不涉及 |
不涉及 |
device,host |
3分钟 |
|
alarms_num |
告警数量 |
该指标用于显示30天内监控对象上报的告警数量。 |
≥ 0 |
PCS |
不涉及 |
label |
3分钟 |
|
rack_power |
机柜功率 |
该指标用于显示机柜的功率。 |
≥ 0 |
W |
不涉及 |
rack |
3分钟 |
|
rack_temp |
机柜温度 |
该指标用于显示机柜的温度。 |
≥ 0 |
℃ |
不涉及 |
rack |
3分钟 |
维度
|
Key |
Value |
|---|---|
|
device,host |
选择该维度,支持指定服务器部件(处理器、内存、电源、网卡、风扇、存储等)作为监控对象。 |
|
host |
选择该维度,支持指定服务器作为监控对象。 |
|
label |
选择该维度,支持按label指定具体类型的资源作为监控对象。 |
|
rack |
选择该维度,支持指定机柜作为监控对象。 |
iMetal服务器告警趋势指标
|
指标 |
指标说明 |
|---|---|
|
host |
该指标用于统计某一时刻整机告警数量,来源于告警中指标为host_health的告警数。 |
|
type_cpu |
该指标用于统计某一时刻处理器告警数量,来源于告警中指标为cpu_health的告警数。 |
|
type_memory |
该指标用于统计某一时刻内存告警数量,来源于告警中指标为memory_health的告警数。 |
|
type_disk |
该指标用于统计某一时刻磁盘告警数量,来源于告警中指标为disk_health的告警数。 |
|
type_power |
该指标用于统计某一时刻电源告警数量,来源于告警中指标为power_health的告警数。 |
|
type_fan |
该指标用于统计某一时刻风扇告警数量,来源于告警中指标为fan_health的告警数。 |
|
type_nic |
该指标用于统计某一时刻网卡告警数量,来源于告警中指标为nic_health的告警数。 |
|
level_critical |
该指标用于统计某一时刻紧急告警数量,来源于告警中紧急告警级别的告警数。 |
|
level_major |
该指标用于统计某一时刻重要告警数量,来源于告警中重要告警级别的告警数。 |