- 最新动态
- 功能总览
- 产品介绍
- 快速入门
- 用户指南
- 最佳实践
- API参考
- SDK参考
- 常见问题
- 视频帮助
-
更多文档
-
用户指南(阿布扎比区域)
- 产品介绍
- 快速入门
- 监控看板
- 资源分组
- 使用告警功能
- 主机监控
- 自定义监控
- 事件监控
- 任务中心
- 数据转储
- 云服务监控
- 审计云监控服务操作记录
- 权限管理
- 配额调整
- 支持监控的服务列表
-
常见问题
- 产品咨询
-
主机监控
- 什么是插件修复配置?
- 怎样让新购ECS实例中带有操作系统监控功能?
- 裸金属服务器安装Agent后,裸金属实例为何出现在“主机监控 > 弹性云服务器”列表中?
- Agent支持的系统有哪些?
- Agent不同插件状态说明及处理方式
- Agent状态切换或监控面板有断点该如何处理?
- 业务端口被Agent占用该如何处理?
- 如何创建委托?
- 不能创建委托该如何处理?
- 委托被占用该如何处理?
- 委托已失效该如何处理?
- 主机监控Agent对主机的性能会有影响吗?
- Agent插件状态显示“故障”该如何处理?
- Agent插件状态显示“已停止”该如何处理?
- Agent插件状态显示“运行中”但没有数据该如何处理?
- 如何排查Agent一键修复失败问题?
- Agent一键修复后无监控数据问题排查
- 告警通知或误告警
- 监控数据异常
- 监控指标含义
- 用户权限
- API参考(阿布扎比区域)
- 用户指南(巴黎区域)
- API参考 (巴黎区域)
- 用户指南(吉隆坡区域)
- API参考(吉隆坡区域)
- 用户指南(安卡拉区域)
- API参考(安卡拉区域)
-
用户指南(阿布扎比区域)
- 通用参考
展开导读
链接复制成功!
BMS硬件监控指标采集说明
以下是BMS硬件监控插件对应的监控指标采集说明。
指标分类 |
指标说明 |
采集方式 |
---|---|---|
服务器整机信息 |
服务器整机SN、产品名称、厂家等。 |
使用dmidecode命令采集。 |
SSD/HDD 基本信息和SMART信息 |
包含盘的基本信息。(SN、型号、容量、协议类型、固件版本等),以及盘的SMART log中的各项指标(健康状态、温度、坏块计数、各类错误和失败计数等)。 |
使用smartctl -a <盘符>命令采集。 |
NVMe SSD 基本信息 |
包含NVMe盘的基本信息。(SN、型号、容量、固件版本等) |
使用nvme list命令采集。 |
NVMe SSD 标准SMART信息 |
包含NVMe盘的SMART log中的各项指标。(健康状态、温度、寿命、各类错误和失败计数等)。 |
使用nvme smart-log <nvme设备名>命令采集。 |
Huawei NVMe SSD附加SMART信息 |
Huawei NVMe盘的扩展SMART信息,包含更详细的一些指标和计数。(功耗、电容状态、坏块数量、更详细的错误计数) |
使用hioadm info -d <nvme设备名> -a和 hioadm info -d <nvme设备名> -e命令采集。 |
Intel NVMe SSD附加SMART信息 |
Intel NVMe盘的扩展SMART信息,包含更详细的一些错误计数。 |
使用nvme intel smart-log-add <nvme设备名>命令采集。 |
网口状态信息 |
包含网口的MAC地址、链路状态、接收/发送端的丢包&错包计数。 |
使用ifconfig <网口名>命令采集。 |
网口设备信息 |
包含网口的端口类型、Link状态、速率。 |
使用ethtool <网口名>命令采集。 |
网口驱动信息 |
包含固件版本、驱动版本、总线号。 |
使用ethtool -i <网口名>命令采集。 |
光模块信息 |
包括光模块的基本设备信息(SN、厂商、生产日期、连接类型、编码方式、带宽等),设备状态信息。(偏置电流、收发光功率、电压、温度等) |
使用ethtool -m <网口名>命令采集。 |
HiNIC网口错误计数 |
hilink误码统计、base编码模式错误计数、rs编码模式错误计数。 |
使用hinicadm hilink_port -i <dev_id> -p <port_id> -s和hinicadm hilink_count -i <dev_id> -p <port_id>命令采集。 |
HiNIC网卡工作模式 |
HiNIC当前工作模式和配置的工作模式。 |
使用hinicadm mode -i <dev_id>命令采集。 |
HiNIC网卡核温 |
HiNIC网卡核温。 |
使用hinicadm temperature -i <dev_id>命令采集。 |
HiNIC网卡事件记录 |
HiNIC网卡心跳丢失计数、PCIE异常计数、芯片错误计数、芯片健康状态等。 |
使用hinicadm event -i <dev_id>命令采集。 |
HiNIC网卡PCIE误码统计 |
HiNIC网卡PCIE误码各项统计。 |
使用hinicadm counter -i <dev_id> -t 4命令采集。 |
内存的设备信息 |
内存条的SN、厂商、PN、位宽、容量、频率等。 |
使用dmidecode -t 17命令采集。 |
CPU的设备信息 |
CPU的ID、名称、频率、架构、型号等。 |
使用dmidecode -t 4和lscpu命令采集。 |
内存的错误记录 |
内存的CE/UCE错误记录,包括错误类型、故障编码、错误位置信息(Chip, Rank, Bank, Column, Row)、MCI ADDR寄存器、MCI MISC寄存器、MCG CAP寄存器、MCG STATUS寄存器、Retry寄存器等错误寄存器信息。 |
通过读取/dev/mem、 /dev/cpu/<core_id>/msr、 /sys/firmware/acpi/tables/HEST等文件,采集内存错误记录和芯片寄存器信息。 |