BMS硬件监控指标采集说明
以下是BMS硬件监控插件对应的监控指标采集说明。
指标分类 |
指标说明 |
采集方式 |
---|---|---|
服务器整机信息 |
服务器整机SN、产品名称、厂家等。 |
使用dmidecode命令采集。 |
SSD/HDD 基本信息和SMART信息 |
包含盘的基本信息。(SN、型号、容量、协议类型、固件版本等),以及盘的SMART log中的各项指标(健康状态、温度、坏块计数、各类错误和失败计数等)。 |
使用smartctl -a <盘符>命令采集。 |
NVMe SSD 基本信息 |
包含NVMe盘的基本信息。(SN、型号、容量、固件版本等) |
使用nvme list命令采集。 |
NVMe SSD 标准SMART信息 |
包含NVMe盘的SMART log中的各项指标。(健康状态、温度、寿命、各类错误和失败计数等)。 |
使用nvme smart-log <nvme设备名>命令采集。 |
Huawei NVMe SSD附加SMART信息 |
Huawei NVMe盘的扩展SMART信息,包含更详细的一些指标和计数。(功耗、电容状态、坏块数量、更详细的错误计数) |
使用hioadm info -d <nvme设备名> -a和 hioadm info -d <nvme设备名> -e命令采集。 |
Intel NVMe SSD附加SMART信息 |
Intel NVMe盘的扩展SMART信息,包含更详细的一些错误计数。 |
使用nvme intel smart-log-add <nvme设备名>命令采集。 |
网口状态信息 |
包含网口的MAC地址、链路状态、接收/发送端的丢包&错包计数。 |
使用ifconfig <网口名>命令采集。 |
网口设备信息 |
包含网口的端口类型、Link状态、速率。 |
使用ethtool <网口名>命令采集。 |
网口驱动信息 |
包含固件版本、驱动版本、总线号。 |
使用ethtool -i <网口名>命令采集。 |
光模块信息 |
包括光模块的基本设备信息(SN、厂商、生产日期、连接类型、编码方式、带宽等),设备状态信息。(偏置电流、收发光功率、电压、温度等) |
使用ethtool -m <网口名>命令采集。 |
HiNIC网口错误计数 |
hilink误码统计、base编码模式错误计数、rs编码模式错误计数。 |
使用hinicadm hilink_port -i <dev_id> -p <port_id> -s和hinicadm hilink_count -i <dev_id> -p <port_id>命令采集。 |
HiNIC网卡工作模式 |
HiNIC当前工作模式和配置的工作模式。 |
使用hinicadm mode -i <dev_id>命令采集。 |
HiNIC网卡核温 |
HiNIC网卡核温。 |
使用hinicadm temperature -i <dev_id>命令采集。 |
HiNIC网卡事件记录 |
HiNIC网卡心跳丢失计数、PCIE异常计数、芯片错误计数、芯片健康状态等。 |
使用hinicadm event -i <dev_id>命令采集。 |
HiNIC网卡PCIE误码统计 |
HiNIC网卡PCIE误码各项统计。 |
使用hinicadm counter -i <dev_id> -t 4命令采集。 |
内存的设备信息 |
内存条的SN、厂商、PN、位宽、容量、频率等。 |
使用dmidecode -t 17命令采集。 |
CPU的设备信息 |
CPU的ID、名称、频率、架构、型号等。 |
使用dmidecode -t 4和lscpu命令采集。 |
内存的错误记录 |
内存的CE/UCE错误记录,包括错误类型、故障编码、错误位置信息(Chip, Rank, Bank, Column, Row)、MCI ADDR寄存器、MCI MISC寄存器、MCG CAP寄存器、MCG STATUS寄存器、Retry寄存器等错误寄存器信息。 |
通过读取/dev/mem、 /dev/cpu/<core_id>/msr、 /sys/firmware/acpi/tables/HEST等文件,采集内存错误记录和芯片寄存器信息。 |