更新时间:2026-06-10 GMT+08:00
分享

ALM-12043 DNS解析时长超过阈值

告警解释

系统每30秒周期性检测DNS解析时长,并把DNS解析时长和阈值(系统默认阈值1000ms)进行比较,当检测到DNS解析时长连续多次(默认值为6)超过阈值时产生该告警。

平滑次数为1,DNS解析时长小于或等于阈值时,告警恢复;平滑次数大于1,DNS解析时长小于等于阈值的90%时,告警恢复。

本章节仅适用于MRS 3.6.0-LTS.1及之后版本。

告警属性

告警ID

告警级别

是否可自动清除

12043

重要

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

附加信息

触发条件

告警触发的条件。

对系统的影响

  • 使用Kerberos进行的二次认证较慢。
  • ZooKeeper服务异常。
  • 导致节点故障。

可能原因

  • DNS服务器出现问题或DNS配置错误。
  • 网络拥堵或带宽不足。

处理步骤

检查是否DNS服务器出现问题或配置错误。

  1. 在告警节点确认配置的DNS服务器IP地址是否可以Ping通。

    • 是,如果可以ping通,请尝试刷新DNS缓存。
    • 否,如果无法Ping通,说明网络无法到达该DNS服务器,请修改为可用的地址。

  2. 等待两分钟查看当前告警是否恢复。

    • 是,处理完毕。
    • 否,执行步骤 3

检查是否网络拥堵或带宽不足。

  1. root用户登录告警所在节点,执行以下命令,查看“%ifutil”列是否接近1.00即100%。

    sar -n DEV 1 1

  2. 联系运维人员,确认是否存在异常流量,并进行处理。
  3. 等待两分钟查看当前告警是否恢复。

    • 是,处理完毕。
    • 否,执行步骤 6

收集故障信息。

  1. 在MRS Manager页面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选“OmmServer”和“NodeAgent”。主机选择告警定位信息中的主机名称。
  3. 单击右上角的编辑按钮,设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

相关文档