更新时间:2024-11-29 GMT+08:00

ALM-12040 操作系统熵值不足

告警解释

系统每五分钟执行一次告警检查,首先检查是否启用并正确配置了rng-tools或者haveged工具,如果没有配置,则发送故障告警。否则继续检查熵值,如果连续五次检测结果均小于100,则上报故障告警。

当检测到节点已经安装并启用了rng-tools或者haveged工具,且五次熵值检查中,至少有一次熵值大于等于100,则告警恢复。

告警属性

告警ID

告警级别

告警类型

业务类型

是否可自动清除

12040

紧急

环境告警

FusionInsight Manager

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

附加信息

详细信息

产生告警的详细信息。

对系统的影响

节点的操作系统熵值不足,可能导致该节点上加解密等命令执行慢,进而引起各实例业务处理性能下降,甚至业务进程无法正常执行。

可能原因

  • haveged或者rng-tools工具未安装或未启动。
  • 系统熵值连续多次检测低于100。

处理步骤

检查haveged或rng-tools工具是否安装或启动。

  1. 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”。
  2. 查看该“定位信息”中对应的“主机名”字段值,获取该告警产生的主机名。
  3. root用户登录告警所在节点
  4. 执行/bin/rpm -qa | grep -w "haveged"命令查看haveged安装情况,观察命令返回结果是否为空。

    • 是,执行6
    • 否,执行5

  5. 执行/sbin/service haveged status |grep "running",查看返回结果。

    • 如果执行成功,表示haveged服务安装并正常配置运行,执行8
    • 如果执行不成功,表示haveged服务没有正常运行,执行以下命令手动重启haveged工具,执行9

      systemctl restart haveged.service

  6. 执行/bin/rpm -qa | grep -w "rng-tools"命令,查看rng-tools安装情况,观察命令返回结果是否为空。

    • 是,请联系操作系统供应商安装并启动haveged或rng-tools工具。执行9
    • 否,执行7

  7. 执行ps -ef | grep -v "grep" | grep rngd | tr -d " " | grep "\-r/dev/urandom",查看返回结果。

    • 如果执行成功,表示rngd服务安装并正常配置运行,执行8
    • 如果执行不成功,表示rngd服务并没有正常运行,执行以下命令手动重启rngd工具,执行9

      systemctl restart rngd.service

检查系统熵值

  1. 手动检查操作系统熵值。

    root用户登录节点,执行cat /proc/sys/kernel/random/entropy_avail命令,检查操作系统熵值是否满足集群的安装要求(不低于100)。

    • 是,操作系统熵值不低于100,执行9
    • 否,操作系统熵值低于100,可使用以下两种方式之一进行配置,然后执行9
      • 方式一:使用“haveged”工具(真随机数方式):请联系操作系统供应商安装并启动该工具。
      • 方式二:使用“rng-tools”工具(伪随机数方式):请联系操作系统供应商安装并启动该工具,并根据操作系统类型进行配置。

  2. 等待第二天零点,系统下一次熵值检查,查看告警是否自动清除。

    • 是,操作结束。
    • 否,执行10

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维>日志>下载”。
  2. 在“服务”中勾选“NodeAgent”,单击“确定”。
  3. 单击右上角的编辑按钮设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。