更新时间:2024-11-12 GMT+08:00

ALM-14036 NameNode进入安全模式

告警解释

NameNode每30秒周期性检查进程状态,NameNode进入安全模式时触发该告警。

进程状态正常后告警清除。

该告警仅适用于MRS 3.3.1及之后版本。

告警属性

告警ID

告警级别

是否可自动清除

14036

重要

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

附加信息

触发条件

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

NameNode进入安全模式后,该NameNode不可写入。

可能原因

用户手动进入安全模式或重启NameNode时存在丢块。

处理步骤

检查NameNode节点是否进入安全模式。

  1. 登录FusionInsight Manager页面,选择“运维 > 告警 > 告警”,查看该告警的详细信息,在定位信息中查看发生该告警的主机名称。
  2. 选择“集群 > 服务 > HDFS”,单击“NameNode Web UI”后的“NameNode(1记录的主机名,x)”,打开NameNode WebUI页面。

    admin用户默认不具备其他组件的管理权限,如果访问组件原生界面时出现因权限不足而打不开页面或内容显示不全时,可手动创建具备对应组件管理权限的用户进行登录。

  3. 在HDFS“概览”的基本信息区域(或HDFS“概览”中“NameService概述”区域)查看“安全模式”参数值是否为“ON”。

    “ON”表示安全模式已打开。

    • 是,执行4
    • 否,执行7

  4. 执行以下操作登录HDFS客户端。

    1. 登录HDFS客户端安装节点。
      • 集群已启用Kerberos认证(安全模式):使用root用户登录。
      • 集群未启用Kerberos认证(普通模式):使用omm用户登录,并确保omm用户具有客户端执行权限。

      (此处为集群的安全/普通模式,并非HDFS安全/普通模式。)

    2. 执行以下命令进入客户端安装目录,并配置环境变量。

      cd HDFS客户端安装目录

      source bigdata_env

    3. 如果集群已启用Kerberos认证(安全模式),执行以下命令进行用户认证。集群未启用Kerberos认证(普通模式)请跳过该步骤。

      kinit hdfs

      按提示输入密码,用户密码可以向MRS集群管理员获取,首次认证需要修改密码。

    4. 执行以下命令退出HDFS安全模式。

      hdfs dfsadmin -safemode leave

  5. 等待5分钟,检查该告警是否恢复。

    • 是,执行6
    • 否,执行7

  6. 在HDFS“概览”的基本信息区域(或HDFS“概览”中“NameService概述”区域)查看“丢失块数”参数值是否为0。

    • 是,处理完毕。
    • 否,查看是否上报“ALM-14003 丢失的HDFS块数量超过阈值”告警,并根据告警帮助进行处理。

收集故障信息。

  1. 在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“HDFS”。
  3. 单击右上角的编辑按钮设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。