文档首页/ 云监控服务 CES/ 常见问题/ 产品使用/ 主机监控/ BMS硬件监控指标采集说明
更新时间:2024-08-27 GMT+08:00
分享

BMS硬件监控指标采集说明

以下是BMS硬件监控插件对应的监控指标采集说明。

指标分类

指标说明

采集方式

服务器整机信息

服务器整机SN、产品名称、厂家等。

使用dmidecode命令采集。

SSD/HDD 基本信息和SMART信息

包含盘的基本信息。(SN、型号、容量、协议类型、固件版本等),以及盘的SMART log中的各项指标(健康状态、温度、坏块计数、各类错误和失败计数等)。

使用smartctl -a <盘符>命令采集。

NVMe SSD 基本信息

包含NVMe盘的基本信息。(SN、型号、容量、固件版本等)

使用nvme list命令采集。

NVMe SSD 标准SMART信息

包含NVMe盘的SMART log中的各项指标。(健康状态、温度、寿命、各类错误和失败计数等)。

使用nvme smart-log <nvme设备名>命令采集。

Huawei NVMe SSD附加SMART信息

Huawei NVMe盘的扩展SMART信息,包含更详细的一些指标和计数。(功耗、电容状态、坏块数量、更详细的错误计数)

使用hioadm info -d <nvme设备名> -ahioadm info -d <nvme设备名> -e命令采集。

Intel NVMe SSD附加SMART信息

Intel NVMe盘的扩展SMART信息,包含更详细的一些错误计数。

使用nvme intel smart-log-add <nvme设备名>命令采集。

网口状态信息

包含网口的MAC地址、链路状态、接收/发送端的丢包&错包计数。

使用ifconfig <网口名>命令采集。

网口设备信息

包含网口的端口类型、Link状态、速率。

使用ethtool <网口名>命令采集。

网口驱动信息

包含固件版本、驱动版本、总线号。

使用ethtool -i <网口名>命令采集。

光模块信息

包括光模块的基本设备信息(SN、厂商、生产日期、连接类型、编码方式、带宽等),设备状态信息。(偏置电流、收发光功率、电压、温度等)

使用ethtool -m <网口名>命令采集。

HiNIC网口错误计数

hilink误码统计、base编码模式错误计数、rs编码模式错误计数。

使用hinicadm hilink_port -i <dev_id> -p <port_id> -shinicadm hilink_count -i <dev_id> -p <port_id>命令采集。

HiNIC网卡工作模式

HiNIC当前工作模式和配置的工作模式。

使用hinicadm mode -i <dev_id>命令采集。

HiNIC网卡核温

HiNIC网卡核温。

使用hinicadm temperature -i <dev_id>命令采集。

HiNIC网卡事件记录

HiNIC网卡心跳丢失计数、PCIE异常计数、芯片错误计数、芯片健康状态等。

使用hinicadm event -i <dev_id>命令采集。

HiNIC网卡PCIE误码统计

HiNIC网卡PCIE误码各项统计。

使用hinicadm counter -i <dev_id> -t 4命令采集。

内存的设备信息

内存条的SN、厂商、PN、位宽、容量、频率等。

使用dmidecode -t 17命令采集。

CPU的设备信息

CPU的ID、名称、频率、架构、型号等。

使用dmidecode -t 4lscpu命令采集。

内存的错误记录

内存的CE/UCE错误记录,包括错误类型、故障编码、错误位置信息(Chip, Rank, Bank, Column, Row)、MCI ADDR寄存器、MCI MISC寄存器、MCG CAP寄存器、MCG STATUS寄存器、Retry寄存器等错误寄存器信息。

通过读取/dev/mem /dev/cpu/<core_id>/msr /sys/firmware/acpi/tables/HEST等文件,采集内存错误记录和芯片寄存器信息。

相关文档