iMetal服务器支持的监控指标(自定义监控)
功能说明
本节定义了CloudDC服务上报云监控服务的监控指标的命名空间,监控指标列表和维度定义,用户可以通过云监控服务提供管理控制台或API接口来检索CloudDC服务产生的监控指标和告警信息。
本章节主要介绍iMetal服务器的带外监控相关指标。
命名空间
CloudDC.iMetal
监控指标
| 指标ID | 指标名称 | 指标说明 | 取值范围 | 单位 | 进制 | 维度 | 监控周期(原始指标) |
|---|---|---|---|---|---|---|---|
| power_input_watts | 电源输入功率 | 该指标用于显示电源输入功率。 | ≥ 0 | W | 不涉及 | device,host | 3分钟 |
| power_output_watts | 电源输出功率 | 该指标用于显示电源输出功率。 | ≥ 0 | W | 不涉及 | device,host | 3分钟 |
| device_temperature | 组件温度 | 该指标用于显示组件的温度。 | ≥ 0 | ℃ | 不涉及 | device,host | 3分钟 |
| host_health | 主机健康状态 | 该指标用于显示主机是否健康。 | 0:OK(正常) 1:Warning(警告) 2:Critical(紧急) -1:未知 | 不涉及 | 不涉及 | host | 3分钟 |
| cpu_health | 处理器健康状态 | 该指标用于显示处理器是否健康。 | 0:OK(正常) 1:Warning(警告) 2:Critical(紧急) -1:未知 | 不涉及 | 不涉及 | device,host | 3分钟 |
| memory_health | 内存健康状态 | 该指标用于显示内存是否健康。 | 0:OK(正常) 1:Warning(警告) 2:Critical(紧急) -1:未知 | 不涉及 | 不涉及 | device,host | 3分钟 |
| disk_health | 磁盘健康状态 | 该指标用于显示磁盘是否健康。 | 0:OK(正常) 1:Warning(警告) 2:Critical(紧急) -1:未知 | 不涉及 | 不涉及 | device,host | 3分钟 |
| power_health | 电源健康状态 | 该指标用于显示电源是否健康。 | 0:OK(正常) 1:Warning(警告) 2:Critical(紧急) -1:未知 | 不涉及 | 不涉及 | device,host | 3分钟 |
| nic_health | 网卡健康状态 | 该指标用于显示网卡是否健康。 | 0:OK(正常) 1:Warning(警告) 2:Critical(紧急) -1:未知 | 不涉及 | 不涉及 | device,host | 3分钟 |
| fan_health | 风扇健康状态 | 该指标用于显示风扇是否健康。 | 0:OK(正常) 1:Warning(警告) 2:Critical(紧急) -1:未知 | 不涉及 | 不涉及 | device,host | 3分钟 |
| alarms_num | 告警数量 | 该指标用于显示30天内监控对象上报的告警数量。 | ≥ 0 | PCS | 不涉及 | label | 3分钟 |
| rack_power | 机柜功率 | 该指标用于显示机柜的功率。 | ≥ 0 | W | 不涉及 | rack | 3分钟 |
| rack_temp | 机柜温度 | 该指标用于显示机柜的温度。 | ≥ 0 | ℃ | 不涉及 | rack | 3分钟 |
维度
| Key | Value |
|---|---|
| device,host | 选择该维度,支持指定服务器部件(处理器、内存、电源、网卡、风扇、存储等)作为监控对象。 |
| host | 选择该维度,支持指定服务器作为监控对象。 |
| label | 选择该维度,支持按label指定具体类型的资源作为监控对象。 |
| rack | 选择该维度,支持指定机柜作为监控对象。 |
iMetal服务器告警趋势指标
| 指标名称 | 指标 | 指标说明 |
|---|---|---|
| 告警统计数 | host | 该指标用于统计某一时刻整机告警数量,来源于告警中指标为host_health的告警数。 |
| 处理器告警统计数 | type_cpu | 该指标用于统计某一时刻处理器告警数量,来源于告警中指标为cpu_health的告警数。 |
| 内存告警统计数 | type_memory | 该指标用于统计某一时刻内存告警数量,来源于告警中指标为memory_health的告警数。 |
| 磁盘告警统计数 | type_disk | 该指标用于统计某一时刻磁盘告警数量,来源于告警中指标为disk_health的告警数。 |
| 电源告警统计数 | type_power | 该指标用于统计某一时刻电源告警数量,来源于告警中指标为power_health的告警数。 |
| 风扇告警统计数 | type_fan | 该指标用于统计某一时刻风扇告警数量,来源于告警中指标为fan_health的告警数。 |
| 网卡告警统计数 | type_nic | 该指标用于统计某一时刻网卡告警数量,来源于告警中指标为nic_health的告警数。 |
| 紧急状态告警统计数 | level_critical | 该指标用于统计某一时刻紧急告警数量,来源于告警中紧急告警级别的告警数。 |
| 重要状态告警统计数 | level_major | 该指标用于统计某一时刻重要告警数量,来源于告警中重要告警级别的告警数。 |