更新时间:2024-11-22 GMT+08:00
分享

ALM-25501 KerberosServer请求数高

告警解释

系统每30秒周期性检查KerberosServer节点的处理请求数,并把实际处理的请求数和阈值相比较,当请求数连续多次(默认值为5)超过设定阈值时,系统将产生此告警。

平滑次数可配置,当平滑次数为1,进程连接数小于或等于阈值时,该告警恢复。当平滑次数大于1,请求数小于或等于阈值的90%时,该告警恢复。

该告警仅适用于MRS 3.3.1及之后版本。

告警属性

告警ID

告警级别

是否可自动清除

25501

紧急(默认阈值为15000)

重要(默认阈值为10000)

告警参数

类别

参数名称

参数含义

定位信息

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名。

附加信息

详细信息

产生告警的详细信息。

对系统的影响

KerberosServer实例请求数过高,可能导致KerberosServer响应缓慢,引起Kerberos认证超时,进而导致组件业务故障。

可能原因

  • KerberosServer实例请求数过高。
  • 告警阈值配置或者平滑次数配置不合理。

处理步骤

检查KerberosServer所有请求数是否过多

  1. 登录FusionInsight Manager,选择“集群 > 服务 > KrbServer”进入KrbServer概览页面。
  2. 观察“KerberosServer所有请求数”图表,并根据实际业务场景评估,适当降低KerberosServer认证请求。

    如果无对应图表,可单击右侧下拉三角,选择“定制”并勾选对应项,单击“确定”。
    图1 KerberosServer所有请求数图表

  3. 等待约2分钟查看告警是否自动恢复。

    • 是,处理完毕。
    • 否,执行4

检查告警阈值配置或者平滑次数配置是否合理。

  1. 在FusionInsight Manager界面,选择“运维 > 告警 > 阈值设置 > 待操作集群的名称 > KrbServer > 其他 > KerberosServer所有请求数”,查看告警的平滑次数和告警阈值是否设置合理。

    • 是,执行7
    • 否,执行5

  2. 根据实际请求数情况修改平滑次数和告警阈值,并应用修改后的规则。
  3. 等待2分钟,查看告警是否自动恢复。

    • 是,处理完毕。
    • 否,执行7

收集故障信息

  1. 在FusionInsight Manager界面,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“KrbServer”。
  3. 单击右上角的编辑按钮设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

不涉及。

相关文档