BMS硬件监控指标采集说明
以下是BMS硬件监控插件对应的监控指标采集说明。
| 
       指标分类  | 
     
       指标说明  | 
     
       采集方式  | 
    
|---|---|---|
| 
       服务器整机信息  | 
     
       服务器整机SN、产品名称、厂家等。  | 
     
       使用dmidecode命令采集。  | 
    
| 
       SSD/HDD 基本信息和SMART信息  | 
     
       包含盘的基本信息。(SN、型号、容量、协议类型、固件版本等),以及盘的SMART log中的各项指标(健康状态、温度、坏块计数、各类错误和失败计数等)。  | 
     
       使用smartctl -a <盘符>命令采集。  | 
    
| 
       NVMe SSD 基本信息  | 
     
       包含NVMe盘的基本信息。(SN、型号、容量、固件版本等)  | 
     
       使用nvme list命令采集。  | 
    
| 
       NVMe SSD 标准SMART信息  | 
     
       包含NVMe盘的SMART log中的各项指标。(健康状态、温度、寿命、各类错误和失败计数等)。  | 
     
       使用nvme smart-log <nvme设备名>命令采集。  | 
    
| 
       Huawei NVMe SSD附加SMART信息  | 
     
       Huawei NVMe盘的扩展SMART信息,包含更详细的一些指标和计数。(功耗、电容状态、坏块数量、更详细的错误计数)  | 
     
       使用hioadm info -d <nvme设备名> -a和 hioadm info -d <nvme设备名> -e命令采集。  | 
    
| 
       Intel NVMe SSD附加SMART信息  | 
     
       Intel NVMe盘的扩展SMART信息,包含更详细的一些错误计数。  | 
     
       使用nvme intel smart-log-add <nvme设备名>命令采集。  | 
    
| 
       网口状态信息  | 
     
       包含网口的MAC地址、链路状态、接收/发送端的丢包&错包计数。  | 
     
       使用ifconfig <网口名>命令采集。  | 
    
| 
       网口设备信息  | 
     
       包含网口的端口类型、Link状态、速率。  | 
     
       使用ethtool <网口名>命令采集。  | 
    
| 
       网口驱动信息  | 
     
       包含固件版本、驱动版本、总线号。  | 
     
       使用ethtool -i <网口名>命令采集。  | 
    
| 
       光模块信息  | 
     
       包括光模块的基本设备信息(SN、厂商、生产日期、连接类型、编码方式、带宽等),设备状态信息。(偏置电流、收发光功率、电压、温度等)  | 
     
       使用ethtool -m <网口名>命令采集。  | 
    
| 
       HiNIC网口错误计数  | 
     
       hilink误码统计、base编码模式错误计数、rs编码模式错误计数。  | 
     
       使用hinicadm hilink_port -i <dev_id> -p <port_id> -s和hinicadm hilink_count -i <dev_id> -p <port_id>命令采集。  | 
    
| 
       HiNIC网卡工作模式  | 
     
       HiNIC当前工作模式和配置的工作模式。  | 
     
       使用hinicadm mode -i <dev_id>命令采集。  | 
    
| 
       HiNIC网卡核温  | 
     
       HiNIC网卡核温。  | 
     
       使用hinicadm temperature -i <dev_id>命令采集。  | 
    
| 
       HiNIC网卡事件记录  | 
     
       HiNIC网卡心跳丢失计数、PCIE异常计数、芯片错误计数、芯片健康状态等。  | 
     
       使用hinicadm event -i <dev_id>命令采集。  | 
    
| 
       HiNIC网卡PCIE误码统计  | 
     
       HiNIC网卡PCIE误码各项统计。  | 
     
       使用hinicadm counter -i <dev_id> -t 4命令采集。  | 
    
| 
       内存的设备信息  | 
     
       内存条的SN、厂商、PN、位宽、容量、频率等。  | 
     
       使用dmidecode -t 17命令采集。  | 
    
| 
       CPU的设备信息  | 
     
       CPU的ID、名称、频率、架构、型号等。  | 
     
       使用dmidecode -t 4和lscpu命令采集。  | 
    
| 
       内存的错误记录  | 
     
       内存的CE/UCE错误记录,包括错误类型、故障编码、错误位置信息(Chip, Rank, Bank, Column, Row)、MCI ADDR寄存器、MCI MISC寄存器、MCG CAP寄存器、MCG STATUS寄存器、Retry寄存器等错误寄存器信息。  | 
     
       通过读取/dev/mem、 /dev/cpu/<core_id>/msr、 /sys/firmware/acpi/tables/HEST等文件,采集内存错误记录和芯片寄存器信息。  |