更新时间:2024-10-24 GMT+08:00

ALM-12042 关键文件配置异常

告警解释

系统每隔5分钟检查一次系统中关键的配置是否正确,如果不正常,则上报故障告警。

当检查到配置正确时,则告警恢复。

告警属性

告警ID

告警级别

是否自动清除

12042

重要

告警参数

参数名称

参数含义

来源

产生告警的集群或系统名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

路径名

异常的文件路径或者名称。

对系统的影响

导致文件所属服务功能不正常。

  • okerberos、oldap关键文件配置异常,会导致认证失败,可能会导致作业运行失败。
  • controller、pms关键文件配置异常,会导致进程故障,可能会影响弹性扩缩容性能。
  • tomcat关键文件配置异常,会影响Manager页面登录、查看功能。

可能原因

用户手动修改了文件配置或者系统异常下电等原因。

处理步骤

检查异常文件配置。

  1. 在FusionInsight Manager界面,选择“运维 > 告警 > 告警”。
  2. 查看该告警“定位信息”中对应的“主机名”字段值,获取该告警产生的主机名,查看定位信息中对应的“路径名”字段值,获取异常的文件路径或者名称。
  3. root用户登录告警所在节点
  4. 查看日志文件“$BIGDATA_LOG_HOME/nodeagent/scriptlog/checkfileconfig.log”,根据错误日志分析原因。在参考信息中查找该文件的检查标准,并对照检查标准对文件进行进一步的手动检查和修改。

    执行vi 文件名命令进入编辑模式,按“Insert”键开始编辑。

    修改完成后按“Esc”键退出编辑模式,并输入:wq保存退出。

    例如:

    vi /etc/ssh/sshd_config

  5. 等待一个小时,进入下一次检查,查看告警是否恢复。

    • 是,操作结束。
    • 否,执行6

收集故障信息。

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“NodeAgent”,单击“确定”。
  3. 单击右上角的编辑按钮设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

  • /etc/fstab检查文件的检查标准

    检查“/etc/fstab”文件中配置的分区,是否在“/proc/mounts”中能找到。

    检查在“fstab”中配置的swap分区,是否和“/proc/swaps”一一对应。

  • /etc/hosts检查文件的检查标准

    通过命令cat /etc/hosts查看是否存在以下几种情况,如果是,则说明该配置文件配置异常。

    1. “/etc/hosts”文件不存在。
    2. 该主机的主机名不在文件中配置。
    3. 该主机名对应的IP不唯一。
    4. 该主机名对应的IP在ifconfig命令下的回显列表中不存在。
    5. 该文件中存在一个IP对应多个主机名的情况。
    6. 该文件中不存在hadoop本端域名映射关系,例如: xxx hadoop.example.com。(仅适用于MRS 3.2.0-LTS.1.10版本)
  • /etc/ssh/sshd_config检查文件的检查标准

    通过命令vi /etc/ssh/sshd_config查看下面几个配置项是否正确。

    1. “UseDNS”项必须配置为“no”。
    2. “MaxStartups”必须配置为大于等于1000。
    3. “PasswordAuthentication”和“ChallengeResponseAuthentication”两个配置项中必须至少有一项没有配置或者至少有一项配置为“yes”。