文档首页/ MapReduce服务 MRS/ 用户指南/ MRS集群运维/ MRS集群告警处理参考/ ALM-14025 租户文件对象使用率超过阈值
更新时间:2024-09-04 GMT+08:00

ALM-14025 租户文件对象使用率超过阈值

告警解释

系统每小时周期性检测租户所关联的每个目录的文件对象使用率(每个目录已使用的文件对象个数/每个目录分配的文件对象个数),并把每个目录实际的文件对象使用率和该目录设置的阈值相比较。当检测到租户所关联的目录文件对象使用率高于该目录的阈值时,产生该告警。

当上报告警的目录的文件对象使用率小于或等于该目录设置的阈值时,告警恢复。

告警属性

告警ID

告警级别

是否自动清除

14025

次要

告警参数

参数名称

参数含义

来源

产生告警的集群名称。

服务名

产生告警的服务名称。

角色名

产生告警的角色名称。

主机名

产生告警的主机名称。

租户名

产生告警的租户名称。

目录名

产生告警的目录名称。

Trigger condition

系统当前指标取值满足自定义的告警设置条件。

对系统的影响

当监控的租户目录下的文件对象使用率超过用户自定义设置的阈值时触发该告警,但不影响对该目录继续写入文件。一旦超过该目录分配的最大文件对象个数,则HDFS写入数据会失败。

可能原因

  • 告警阈值配置不合理。
  • 租户分配的文件目录数上限不合理

处理步骤

查看阈值设置是否合理

  1. 查看告警定位信息,获取上报告警的租户名称,租户目录。
  2. 在FusiongInsight Manager首页,单击“租户资源”页面选择上报告警的租户名称,单击“资源”,查看上报告警的租户目录所对应的文件数阈值配置设置是否合理(默认90%为合理值,用户可以根据自己的实际需求调节)。

    • 是,执行5
    • 否,执行3

  3. 根据该租户该目录文件数的实际使用情况,在“资源”页面单击“修改”修改或取消上报告警的租户目录所对应的文件数阈值配置。
  4. 等待1分钟,检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行5

查看租户分配的文件对象数是否合理

  1. 在FusionInsight Manager首页,在“租户资源”页面选择上报告警的租户名称,单击“资源”,查看上报告警的租户目录所对应的文件目录数上限设置是否合理(根据该租户该目录实际业务情况而定)。

    • 是,执行8
    • 否,执行6

  2. 根据租户该目录的实际业务情况,在“资源”页面单击“修改”修改或取消上报告警的租户目录所对应的文件目录数上限。
  3. 等待1分钟,检查该告警是否恢复。

    • 是,处理完毕。
    • 否,执行8

收集故障信息

  1. 在FusionInsight Manager首页,选择“运维 > 日志 > 下载”。
  2. 在“服务”中勾选待操作集群的“HDFS”和Manager下的NodeAgent。
  3. 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后20分钟,单击“下载”。
  4. 请联系运维人员,并发送已收集的故障日志信息。

告警清除

此告警修复后,系统会自动清除此告警,无需手工清除。

参考信息

无。