BMS硬件监控指标采集说明
以下是BMS硬件监控插件对应的监控指标采集说明。
| 指标分类 | 指标说明 | 采集方式 |
|---|---|---|
| 服务器整机信息 | 服务器整机SN、产品名称、厂家等。 | 使用dmidecode命令采集。 |
| SSD/HDD 基本信息和SMART信息 | 包含盘的基本信息。(SN、型号、容量、协议类型、固件版本等),以及盘的SMART log中的各项指标(健康状态、温度、坏块计数、各类错误和失败计数等)。 | 使用smartctl -a <盘符>命令采集。 |
| NVMe SSD 基本信息 | 包含NVMe盘的基本信息。(SN、型号、容量、固件版本等) | 使用nvme list命令采集。 |
| NVMe SSD 标准SMART信息 | 包含NVMe盘的SMART log中的各项指标。(健康状态、温度、寿命、各类错误和失败计数等)。 | 使用nvme smart-log <nvme设备名>命令采集。 |
| Huawei NVMe SSD附加SMART信息 | Huawei NVMe盘的扩展SMART信息,包含更详细的一些指标和计数。(功耗、电容状态、坏块数量、更详细的错误计数) | 使用hioadm info -d <nvme设备名> -a和 hioadm info -d <nvme设备名> -e命令采集。 |
| Intel NVMe SSD附加SMART信息 | Intel NVMe盘的扩展SMART信息,包含更详细的一些错误计数。 | 使用nvme intel smart-log-add <nvme设备名>命令采集。 |
| 网口状态信息 | 包含网口的MAC地址、链路状态、接收/发送端的丢包&错包计数。 | 使用ifconfig <网口名>命令采集。 |
| 网口设备信息 | 包含网口的端口类型、Link状态、速率。 | 使用ethtool <网口名>命令采集。 |
| 网口驱动信息 | 包含固件版本、驱动版本、总线号。 | 使用ethtool -i <网口名>命令采集。 |
| 光模块信息 | 包括光模块的基本设备信息(SN、厂商、生产日期、连接类型、编码方式、带宽等),设备状态信息。(偏置电流、收发光功率、电压、温度等) | 使用ethtool -m <网口名>命令采集。 |
| HiNIC网口错误计数 | hilink误码统计、base编码模式错误计数、rs编码模式错误计数。 | 使用hinicadm hilink_port -i <dev_id> -p <port_id> -s和hinicadm hilink_count -i <dev_id> -p <port_id>命令采集。 |
| HiNIC网卡工作模式 | HiNIC当前工作模式和配置的工作模式。 | 使用hinicadm mode -i <dev_id>命令采集。 |
| HiNIC网卡核温 | HiNIC网卡核温。 | 使用hinicadm temperature -i <dev_id>命令采集。 |
| HiNIC网卡事件记录 | HiNIC网卡心跳丢失计数、PCIE异常计数、芯片错误计数、芯片健康状态等。 | 使用hinicadm event -i <dev_id>命令采集。 |
| HiNIC网卡PCIE误码统计 | HiNIC网卡PCIE误码各项统计。 | 使用hinicadm counter -i <dev_id> -t 4命令采集。 |
| 内存的设备信息 | 内存条的SN、厂商、PN、位宽、容量、频率等。 | 使用dmidecode -t 17命令采集。 |
| CPU的设备信息 | CPU的ID、名称、频率、架构、型号等。 | 使用dmidecode -t 4和lscpu命令采集。 |
| 内存的错误记录 | 内存的CE/UCE错误记录,包括错误类型、故障编码、错误位置信息(Chip, Rank, Bank, Column, Row)、MCI ADDR寄存器、MCI MISC寄存器、MCG CAP寄存器、MCG STATUS寄存器、Retry寄存器等错误寄存器信息。 | 通过读取/dev/mem、 /dev/cpu/<core_id>/msr、 /sys/firmware/acpi/tables/HEST等文件,采集内存错误记录和芯片寄存器信息。 |