更新时间:2024-11-22 GMT+08:00
分享

ALM-12040 系统熵值不足

告警解释

MRS 3.2.0及之后版本:

系统每五分钟执行一次告警检查,首先检查是否启用并正确配置了rng-tools或者haveged工具,如果没有配置,则发送故障告警。否则继续检查熵值,如果连续五次检测结果均小于100,则上报故障告警。

当检测到节点已经安装并启用了rng-tools或者haveged工具,且五次熵值检查中,至少有一次熵值大于等于100,则告警恢复。

MRS 3.1.2及之前版本:

每天零点系统检查熵值,每次检查都连续检查五次,首先检查是否启用并正确配置了rng-tools工具或者haveged工具,如果没有配置,则继续检查当前熵值,如果五次均小于100,则上报故障告警。

当检查到真随机数方式已经配置或者伪随机数方式中配置了随机数参数,或者两者均没有配置但是五次检查中,至少有一次熵值大于等于100,则告警恢复。

MRS 3.3.1及之后版本,告警名称从“系统熵值不足”变成“操作系统熵值不足”。

告警属性

告警ID

告警级别

是否自动清除

12040

重要

告警参数

参数名称

参数含义

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

对系统的影响

节点的操作系统熵值不足,可能导致该节点上加解密等命令执行慢,进而引起各实例业务处理性能下降,甚至业务进程无法正常执行。

可能原因

  • haveged或者rng-tools工具未安装或未启动。
  • 系统熵值连续多次检测低于100。

处理步骤

检查haveged或rng-tools工具是否安装或启动。

  1. 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”。
  2. 查看该“定位信息”中对应的“主机名”字段值,获取该告警产生的主机名。
  3. root用户登录告警所在节点,用户密码为安装前用户自定义,请咨询系统管理员
  4. 执行/bin/rpm -qa | grep -w "haveged"命令查看haveged安装情况,观察命令返回结果是否为空。

    • 是,执行6
    • 否,执行5

  5. 执行/sbin/service haveged status |grep "running",查看返回结果。

    • 如果执行成功,表示haveged服务安装并正常配置运行,执行8
    • 如果执行不成功,表示haveged服务没有正常运行,执行以下命令手动重启haveged工具,执行9

      systemctl restart haveged.service

  6. 执行/bin/rpm -qa | grep -w "rng-tools"命令,查看rng-tools安装情况,观察命令返回结果是否为空。

    • 是,请联系操作系统供应商安装并启动haveged或rng-tools工具。执行9
    • 否,执行7

  7. 执行ps -ef | grep -v "grep" | grep rngd | tr -d " " | grep "\-r/dev/urandom",查看返回结果。

    • 如果执行成功,表示rngd服务安装并正常配置运行,执行8
    • 如果执行不成功,表示rngd服务并没有正常运行,执行以下命令手动重启rngd工具,执行9

      systemctl restart rngd.service

检查系统熵值

  1. 手动检查操作系统熵值。

    root用户登录节点,执行cat /proc/sys/kernel/random/entropy_avail命令,检查操作系统熵值是否满足集群的安装要求(不低于100)。

    • 是,操作系统熵值不低于100,执行9
    • 否,操作系统熵值低于100,可使用以下两种方式之一进行配置,然后执行9
      • 方式一:使用“haveged”工具(真随机数方式):请联系操作系统供应商安装并启动该工具。
      • 方式二:使用“rng-tools”工具(伪随机数方式):请联系操作系统供应商安装并启动该工具,并根据操作系统类型进行配置。

  2. 等待第二天零点,系统下一次熵值检查,查看告警是否自动清除。

    • 是,操作结束。
    • 否,执行10

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“NodeAgent”,单击“确定”。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

相关文档